Skip to main content

XML C++ Library 프로젝트 소개

요새 개인적으로 C++용 XML parser interface를 만들어 보고 있습니다. 가능한한 C++ 답게 만들어 보려고 합니다. 자체적으로 XML parsing을 하는건 아니고 기존에 존재하는 parser들의 wrapper라고 보시면 됩니다. ((나중에 자체 parser를 제작할까도 생각중입니다만 당분간은 다른 parser들의 wrapper를 제공하는 것이 목적입니다.))

일단 찾을 수 있었던 것들 중 제일 간단한 TinyXML을 가지고 wrapping해보고 있는 중입니다. 이게 끝나면 제일 복잡해 보이는 Xerces을 가지고 해보려고 합니다. 제일 간단한 것과 제일 복잡한 것의 common interface가 가능하면 그 중간에 있는 것들은 모두 가능하지 않을까라는 생각입니다.

간단히 소개를 하면 다음과 같습니다.

먼저 하나의 XML 문서는 node들로 구성됩니다. node의 종류에는 document, declaration, element, text, comment, unknown node들이 있습니다. 실제 XML 문서의 node는 아니지만 null node type이 몇몇 method의 null object design pattern 구현을 위해 존재합니다. 이들 node 클래스외에 exception 클래스와 attribute 클래스가 존재합니다.

예를 들어 보면 다음과 같습니다.
<!-- document node -->
<?xml version="1.0"?>                      <!-- declaration node -->
<collection>                               <!-- element node -->
  <!-- collection of recipes -->             <!-- comment node -->
  ...
  <recipe>                                 <!-- element node -->
    ...
    <comment>                              <!-- element node -->
      Make the meat ahead of time, and     <!-- text node -->
    </comment>
    <nutrition calories="1167" fat="23" /> <!-- element node with attributes -->
  </recipe>
</collection>
document node는 전체 XML 문서를 나타냅니다. element node는 각 element를 나타내며 child node를 가질 수 있습니다. 또한 element node는 attribute을 가질 수 있습니다. declaration node는 version이나 encoding, standalone 정보를 가질 수 있습니다. 나머지 comment, text, unknown node들은 자신만의 value외에 특별한 정보를 가지고 있지 않습니다.

먼저 XML 문서를 열기 위해 다음과 같은 방법을 사용합니다.
using namespace xmlcpp;

node_document doc("recipes.xml");
// or
node_document doc;
doc.load_file("recipes.xml");
위에서 얻은 node_document 객체를 가지고 child node들을 다음과 같이 iterator를 사용하여 얻을 수 있습니다. ((node_document는 어차피 하나만의 element node를 가질 수 있으며 이는 node_document 클래스의 get_root_element() 함수를 통해서도 얻을 수 있습니다.))
for (node_base::iterator i = doc.begin(); i != doc.end(); ++i) {
  node_base& node = *i;
}
node_base는 모든 node 클래스들의 parent class입니다. node_base는 child node들의 iteration을 위해 다음과 같은 타입의 iterator들을 제공합니다.

# iterator
# const_iterator
# reverse_iterator
# const_reverse_iterator

이외에 element node들만을 iterate 하고자 할 때 사용할 수 있는 elem_iterator 들도 제공합니다.

# elem_iterator
# elem_const_iterator
# elem_reverse_iterator
# elem_const_reverse_iterator

만약 "collection"라는 value를 가진 child node를 찾고자 한다면 다음과 같이 stl의 알고리즘을 사용할 수 있습니다. ((여기서 value_equal_to는 본 라이브러리에서 제공하는 helper functor입니다. 이외에 attribute 검색을 위한 name_equal_to도 제공합니다.))
node_base::iterator i = find_if(doc.begin(), doc.end(), value_equal_to("collection"));
if (i != doc.end()) ...
하지만 이런 식으로 child node를 계속 따라가며 검색하는 것은 조금 번거롭습니다. 따라서 다음과 같이 cascading을 지원하는 get_node() 함수를 제공합니다.
node_base& node = doc.get_node("collection").get_node("recipe").get_node("comment");
if (node.get_node_type() == node_base::null_type) ...
이때 중간에 값이 없더라도 cascading이 이루어지도록 하기 위해 null object design pattern이 사용됩니다. 따라서 이 경우엔 결과로 받은 node의 type이 null type인지를 검사해야 합니다.

위의 코드를 좀 더 간단하게 작성할 수 있도록 get_node() 함수의 wrapper인 operator()를 제공합니다. 위의 코드는 아래처럼 간단하게 작성될 수 있습니다.
node_base& node = doc("collection")("recipe")("comment");
if (node.get_node_type() == node_base::null_type) ...
node들 중 element_node는 특별히 attr_iterator를 추가로 제공합니다. ((이 attr_iterator 또한 const, reverse들의 타입을 제공합니다.)) 사용법의 예를 들면 다음과 같습니다.
node_base& node = doc("collection")("recipe")("nutrition");
if (node.get_node_type() == node_base::element_type) {
  node_element& elem = dynamic_cast(node);
  for (node_element::attr_iterator i = elem.attr_begin(); i != elem.attr_end(); ++i) {
    attribute& attr = *i;
  }
}
또한 element_node는 특정 name을 가진 attribute를 찾을 때 사용할 수 있는 find() 함수도 제공합니다. 각 attribute 클래스는 get_name()과 get_value()함수를 제공하며 각 리턴 타입은 char const*입니다. 만약 value를 int 타입으로 읽고 싶다면 다음과 같이 template method를 사용할 수 있습니다. ((이 함수는 내부적으로 boost::lexical_cast를 사용합니다. 따라서 형변환이 안되는 타입을 변환하려고 하면 boost::bad_lexical_cast 예외가 발생합니다.))
string s = attr.get_value();
int n = attr.get_value<int>();
이번 글에서 설명한 iterator, elem_iterator, attr_iterator family들은 모두 bidirectional iterator category입니다.

위에서 설명한 내용외에 Visitor design pattern을 node class들에서 제공하여 node에 대한 추가 operation이 필요한 경우 사용자들이 직접 구현할 수 있도록 했습니다. ostream에 XML 문서를 들여쓰기하여 출력할 수 있는 기능이 node_printer라는 node_visitor 클래스의 구현을 통해 제공됩니다.

이상이 현재까지 구현된 내용의 소개입니다. 아직 주로 XML DOM 트리를 읽는 방법들입니다. 앞으로 DOM 트리를 생성할 수 있는 interface를 만들 예정입니다.

관심 있으신 분들은 개선 사항이나 추가 구현이 필요한 내용을 알려 주시면 반영해 보도록 하겠습니다.

sf.net에 프로젝트를 신청해 놓았는데 아직 processing중이네요. 소스 코드는 신청이 접수되면 바로 CVS에 등록할 예정입니다.

Comments

  1. [...] XML과 관련해서 관심을 갖고 있는 방식 중 한가지는 DOM, SAX와 비견될만한 XPP(xml pull parser)라는 방식이다. 실은 이 방식을 C++에 접목해보기 위해 xpp라는 테스트용 프로젝트를 만들었었는데, 이원구님의 XML C++ Library 프로젝트 소개 를 읽다가 문득 생각이 났다. [...]

    ReplyDelete

Post a Comment

Popular posts from this blog

1의 개수 세기 - 해답

벌써 어제 말한 내일이 되었는데 답을 주신 분이 아무도 없어서 좀 뻘쭘하네요. :-P 그리고 어제 문제에 O(1)이라고 적었는데 엄밀히 얘기하자면 O(log 10 n)이라고 적었어야 했네요. 죄송합니다. ... 문제를 잠시 생각해보면 1~n까지의 수들 중 1의 개수를 얻기 위해서는 해당 숫자 n의 각 자리의 1의 개수가 모두 몇개나 될지를 구해서 더하면 된다는 사실을 알 수 있습니다. 예를 들어 13이라는 수를 생각해 보면 1~13까지의 수에서 1의 자리에는 1이 모두 몇개나 되는지와 10의 자리에는 모두 몇개나 되는지를 구해 이 값을 더하면 됩니다. 먼저 1의 자리를 생각해 보면 1, 11의 두 개가 있으며 10의 자리의 경우, 10, 11, 12, 13의 네 개가 있습니다. 따라서 2+4=6이라는 값을 구할 수 있습니다. 이번엔 234라는 수에서 10의 자리를 예로 들어 살펴 보겠습니다. 1~234라는 수들 중 10의 자리에 1이 들어가는 수는 10, 11, ..., 19, 110, 111, ... 119, 210, 211, ..., 219들로 모두 30개가 있음을 알 수 있습니다. 이 규칙들을 보면 해당 자리수의 1의 개수를 구하는 공식을 만들 수 있습니다. 234의 10의 자리에 해당하는 1의 개수는 ((234/100)+1)*10이 됩니다. 여기서 +1은 해당 자리수의 수가 0이 아닌 경우에만 더해집니다. 예를 들어 204라면 ((204/100)+0)*10으로 30개가 아닌 20개가 됩니다. 이런 방식으로 234의 각 자리수의 1의 개수를 구하면 1의 자리에 해당하는 1의 개수는 ((234/10)+1)*1=24개가 되고 100의 자리에 해당하는 개수는 ((234/1000)+1)*100=100이 됩니다. 이들 세 수를 모두 합하면 24+30+100=154개가 됩니다. 한가지 추가로 생각해야 할 점은 제일 큰 자리의 수가 1인 경우 위의 공식이 아닌 다른 공식이 필요하다는 점입니다. 예를 들어 123에서 100의 자리에 해당하는 1의 개수는 ((123/1...

CodeHighlighter plugin test page.

This post is for testing CodeHighlighter plugin which uses GeSHi as a fontifier engine. ((Those code blocks are acquired from Google Code Search .)) ((For more supported languages, go CodeHighlighter plugin or GeSHi homepage.)) C++ (<pre lang="cpp" lineno="1">) class nsScannerBufferList { public: /** * Buffer objects are directly followed by a data segment. The start * of the data segment is determined by increment the |this| pointer * by 1 unit. */ class Buffer : public PRCList { public: Buffer() { ++index_; } PHP (<pre lang="php" lineno="4">) for ($i = 0; $i $value = ord( $utf8_string[ $i ] ); if ( $value < 128 ) { // ASCII $unicode .= chr($value); } else { if ( count( $values ) == 0 ) { $num_octets = ( $value } $values[] = $value; Lisp (<pre lang="lisp">) ;;; Assignment (define-caller-pattern setq ((:star var fo...

C++ of the Day #43 - SQLite3 C++ wrapper #1

The Definitive Guide to SQLite 를 읽다가 공부 겸 해서 C++ wrapper를 만들어 보았습니다. 최대한 C++ 냄새(?)가 나도록 만들어 보았습니다. :-) ((SQLite는 복잡한 관리가 필요없이 사용가능한, 파일이나 메모리 기반의, 라이브러리로 제공되는, 약 250kb 용량의, 대부분의 SQL92문을 지원하는, open source RDB입니다.)) 이 wrapper를 사용하기 위해서는 (당연하게도!) sqlite3 와 (당연하게도?) boost 라이브러리가 필요합니다. 사용 예들을 살펴보는 것으로 설명을 대신합니다. 이번 글에서는 다음과 같은 contacts 테이블이 test.db에 존재한다고 가정합니다. CREATE TABLE contacts ( id INTEGER PRIMARY KEY, name TEXT NOT NULL, phone TEXT NOT NULL, UNIQUE(name, phone) ); Command 먼저 test.db 파일을 사용하기 위해 다음과 같이 파일 이름을 주어 connection 객체를 생성합니다. 생성과 동시에 test.db와 연결이 이루어집니다. ((생성자외에 open() 함수를 사용할 수도 있습니다.)) sqlite3pp::connection conn("test.db"); 다음은 contacts 테이블에 정보를 추가하는 가장 간단한 방법입니다. connection 클래스에서 제공하는 execute 함수를 사용합니다. ((executef 함수를 사용하면 printf와 같은 문법을 사용하여 query문을 작성할 수 있습니다.)) conn.execute("INSERT INTO contacts (name, phone) VALUES ('user', '1234')"); 위와 동일한 작업을 parameterized query를 사용하여 할 수도 있습니다. ((step()함수가 실제 query문을 수행하는 함수입니다. ...