Skip to main content

XMLCPP Library 0.9

며칠간 뚝딱거려서 만든 XMLCPP Library의 최초 버전을 release하였습니다.

라이브러리의 홈페이지에서 간단한 사용법을 보실 수 있습니다.

라이브러리가 지원하는 표준은 다음과 같습니다.


  1. XmlPull v1 API

  2. XML InfoSet의 모든 문법

  3. XML Namespaces

  4. XML Recommendation에 정의된 CharClasses



현재 DTD를 사용한 validation은 구현되어 있지 않습니다. 간단히 말하면 non-validating XML pull parser입니다. 물론 DTD에 대한 문법 검사는 수행합니다. ((이 기능은 Roadmap에 따라 차후 구현될 예정입니다.))

Entity ref를 위한 name/value pair는 XmlPull v1 API에 정의되어 있는 define_entity_replacement_text(name, text)를 사용하여 수동으로 입력하여 사용할 수 있습니다.

Requirements



이 XMLCPP Library를 사용하기 위해서는 다음의 두 라이브러리가 필요합니다. ((둘 다 Windows 환경에서도 사용 가능합니다만 아직 Windows로의 포팅 작업은 이루어지지 않았습니다. Roadmap 부분을 참고하세요.))


  1. Boost C++ Library

  2. libiconv



Usage



구현된 PullParser의 간단한 사용예는 다음과 같습니다.


using namespace xmlcpp;

try {
fstream fs(filename);
fs.exceptions (ios_base::badbit);

PullParser pp;
pp.set_input(fs, encoding);

while (pp.next() != PullParser::END_DOCUMENT) {
wcout << PullParser::event_type_c_str(pp.get_event_type()) << L": " << endl;
switch (pp.get_event_type()) {
case PullParser::START_TAG:
wcout << L"tname="" << pp.get_name() << L""" << endl;
for (int i = 0; i < pp.get_attr_size(); ++i) {
wcout << L"tt" << pp.get_attr_name(i)
<< L"="" << pp.get_attr_value(i) << L""" << endl;
}
break;
case PullParser::END_TAG:
wcout << L"tname="" << pp.get_name() << L""" << endl;
break;
case PullParser::TEXT:
wcout << L"ttext="" << pp.get_text() << L""" << endl;
break;
default:
wcout << L"ttext="" << pp.get_raw_text() << L""" << endl;
break;
}
}

wcout << L"END_DOCUMENT: " << endl;
}
catch (exception& ex) {
wcout << ex.what() << endl;
}


위의 코드는 PullParser의 next()함수를 사용한 것으로 next()함수는 다음 4개의 event_type만 리턴합니다.


  1. START_TAG

  2. TEXT

  3. END_TAG

  4. END_DOCUMENT



next()함수에서는 "<ABC>"라는 문자열은 하나의 TEXT event로 리턴되며 get_text()의 값은 ""가 됩니다.

next() 함수보다 좀 더 자세한 내용이 필요하다면 next_token()함수를 사용할 수 있습니다. 이 함수는 next()가 리턴하는 event_type에 더해 다음을 추가로 리턴합니다.


  1. START_DOCUMENT

  2. IGNORABLE_WHITESPACE

  3. CDSECT

  4. PROCESSING_INSTRUCTION

  5. COMMENT

  6. ENTITY_REF

  7. DOCDECL



위에서 예를 든 "<ABC>"라는 문자열은 next_token()함수를 사용하면 ENTITY_REF, TEXT, ENTITY_REF 이렇게 3개의 event_type으로 나누어져서 리턴됩니다. 각 ENTITY_REF event의 경우에는 get_raw_text()에서는 "<"를, get_text()에서는 "<"을 리턴합니다. ENTITY_REF이 유일하게 get_raw_text()와 get_text()가 다른 값을 리턴하는 event_type입니다.


using namespace xmlcpp;

try {
fstream fs(filename);
fs.exceptions (ios_base::badbit);

PullParser pp;
pp.set_input(fs, encoding);

while (pp.next_token() != PullParser::END_DOCUMENT) {
wcout << PullParser::event_type_c_str(pp.get_event_type()) << L": " << endl;
switch (pp.get_event_type()) {
case PullParser::START_DOCUMENT:
wcout << L"tversion="" << pp.get_version() << L""" << endl;
wcout << L"tencoding="" << pp.get_encoding() << L""" << endl;
wcout << L"tstandalone"" << pp.get_standalone() << L""" << endl;
break;
case PullParser::START_TAG:
wcout << L"tname="" << pp.get_name() << L""" << endl;
for (int i = 0; i < pp.get_attr_size(); ++i) {
wcout << L"tt" << pp.get_attr_name(i)
<< L"="" << pp.get_attr_value(i) << L""" << endl;
}
break;
case PullParser::END_TAG:
wcout << L"tname="" << pp.get_name() << L""" << endl;
break;
case PullParser::TEXT:
wcout << L"ttext="" << pp.get_raw_text() << L""" << endl;
break;
case PullParser::IGNORABLE_WHITESPACE:
break;
case PullParser::CDSECT:
wcout << L"ttext="" << pp.get_raw_text() << L""" << endl;
break;
case PullParser::PROCESSING_INSTRUCTION:
wcout << L"ttext="" << pp.get_raw_text() << L""" << endl;
break;
case PullParser::COMMENT:
wcout << L"ttext="" << pp.get_raw_text() << L""" << endl;
break;
case PullParser::ENTITY_REF:
wcout << L"ttext="" << pp.get_raw_text() << L""" << endl;
break;
case PullParser::DOCDECL:
wcout << L"ttext="" << pp.get_raw_text() << L""" << endl;
break;
default:
wcout << L"ttext="" << pp.get_raw_text() << L""" << endl;
break;
}
}

wcout << L"END_DOCUMENT: " << endl;
}
catch (exception& ex) {
wcout << ex.what() << endl;
}


Roadmap



현재 Linux 환경에서만 test되었으며 다음과 같은 roadmap을 가지고 작업할 예정입니다.


  1. XmlPull v1 API의 Serializer 구현 (writing XML)

  2. MS VC++에서 사용 가능하도록 포팅

  3. DTD를 이용한 validation 구현

  4. PullParser를 이용한 SAX parser 구현

  5. SAX parser를 이용한 DOM 구현

  6. DOM을 이용한 XPath 및 기타 기능 구현



Downloads



다운로드는 여기서 할 수 있습니다.

Help Wanted



XMLCPP Library 개발에 관심 있으신 분들은 참여해 주세요. 특히 현재 위의 2번 항목 VC++로의 포팅에 도움이 필요할 듯 합니다. 한번 해봤는데 오랫만에 VC++를 사용하려니 잘 안되더군요. :-| 참고로 libiconv 라이브러리는 Windows용도 있습니다.

Comments

Popular posts from this blog

1의 개수 세기 - 해답

벌써 어제 말한 내일이 되었는데 답을 주신 분이 아무도 없어서 좀 뻘쭘하네요. :-P 그리고 어제 문제에 O(1)이라고 적었는데 엄밀히 얘기하자면 O(log 10 n)이라고 적었어야 했네요. 죄송합니다. ... 문제를 잠시 생각해보면 1~n까지의 수들 중 1의 개수를 얻기 위해서는 해당 숫자 n의 각 자리의 1의 개수가 모두 몇개나 될지를 구해서 더하면 된다는 사실을 알 수 있습니다. 예를 들어 13이라는 수를 생각해 보면 1~13까지의 수에서 1의 자리에는 1이 모두 몇개나 되는지와 10의 자리에는 모두 몇개나 되는지를 구해 이 값을 더하면 됩니다. 먼저 1의 자리를 생각해 보면 1, 11의 두 개가 있으며 10의 자리의 경우, 10, 11, 12, 13의 네 개가 있습니다. 따라서 2+4=6이라는 값을 구할 수 있습니다. 이번엔 234라는 수에서 10의 자리를 예로 들어 살펴 보겠습니다. 1~234라는 수들 중 10의 자리에 1이 들어가는 수는 10, 11, ..., 19, 110, 111, ... 119, 210, 211, ..., 219들로 모두 30개가 있음을 알 수 있습니다. 이 규칙들을 보면 해당 자리수의 1의 개수를 구하는 공식을 만들 수 있습니다. 234의 10의 자리에 해당하는 1의 개수는 ((234/100)+1)*10이 됩니다. 여기서 +1은 해당 자리수의 수가 0이 아닌 경우에만 더해집니다. 예를 들어 204라면 ((204/100)+0)*10으로 30개가 아닌 20개가 됩니다. 이런 방식으로 234의 각 자리수의 1의 개수를 구하면 1의 자리에 해당하는 1의 개수는 ((234/10)+1)*1=24개가 되고 100의 자리에 해당하는 개수는 ((234/1000)+1)*100=100이 됩니다. 이들 세 수를 모두 합하면 24+30+100=154개가 됩니다. 한가지 추가로 생각해야 할 점은 제일 큰 자리의 수가 1인 경우 위의 공식이 아닌 다른 공식이 필요하다는 점입니다. 예를 들어 123에서 100의 자리에 해당하는 1의 개수는 ((123/1...

CodeHighlighter plugin test page.

This post is for testing CodeHighlighter plugin which uses GeSHi as a fontifier engine. ((Those code blocks are acquired from Google Code Search .)) ((For more supported languages, go CodeHighlighter plugin or GeSHi homepage.)) C++ (<pre lang="cpp" lineno="1">) class nsScannerBufferList { public: /** * Buffer objects are directly followed by a data segment. The start * of the data segment is determined by increment the |this| pointer * by 1 unit. */ class Buffer : public PRCList { public: Buffer() { ++index_; } PHP (<pre lang="php" lineno="4">) for ($i = 0; $i $value = ord( $utf8_string[ $i ] ); if ( $value < 128 ) { // ASCII $unicode .= chr($value); } else { if ( count( $values ) == 0 ) { $num_octets = ( $value } $values[] = $value; Lisp (<pre lang="lisp">) ;;; Assignment (define-caller-pattern setq ((:star var fo...

std::map에 insert하기

얼마전 회사 동료가 refactoring한 코드를 열심히 revert하고 있어서 물어보니 다음과 같은 문제였습니다. 원래 코드와 refactoring한 코드는 다음과 같더군요. nvp[name] = value; // original code nvp.insert(make_pair(name, value)); // refactored 아시겠지만 위의 두 라인은 전혀 다른 기능을 하죠. C++03에 보면 각각 다음과 같이 설명되어 있습니다. 23.1.2/7 Associative containers a_uniq.insert(t): pair<iterator, bool> inserts t if and only if there is no element in the container with key equivalent to the key of t. The bool component of the returned pair indicates whether the insertion takes place and the iterator component of the pair points to the element with key equivalent to the key of t. 23.3.1.2/1 map element access [lib.map.access] T& operator[](const key_type& x); Returns: (*((insert(make_pair(x, T()))).first)).second. 원래 코드는 매번 새 값으로 이전 값을 overwrite했지만 새 코드는 이전에 키가 존재하면 새값으로 overwrite하지 않습니다. 따라서 원래 기능이 제대로 동작하지 않게 된것이죠. 그래서 물어봤죠. "왜 이렇게 했어?" "insert가 성능이 더 좋다 그래서 했지." :-? 사실 Fowler 아저씨는 Refactoring 책에서 refactoring은 성능을 optimizing하기 위한 것이 아니다라...