Skip to main content

char 타입과 EOF

요새 한참 XML parser를 만들기 위해 이것 저것 공부도 하고 코딩도 하고 있는 중입니다. 그런데 역시 아는 것과 하는 것 사이에는 많은 차이가 있군요. Devils in the details랄까요? ;-)

이번 글에서는 char 타입과 EOF에 관한 내용에 대해 생각해 볼까 합니다. 다들 아시다시피 기존의 8bits char 타입을 사용하는 C 함수들의 경우 char를 리턴하기 위해 int 타입을 사용하였습니다.


ex) int fgetc(FILE *stream);


이유는 하나, 실제 사용되는 char 값들과 EOF값을 구분하기 위해서였죠. 8bits char 타입의 값들은 char가 unsigned라고 가정하면 ((char나 wchar_t의 signed, unsigned 여부는 구현에 따라 다를 수 있습니다.)) 0~255까지의 범위안의 값들만 가질 수 있기 때문에 256부터의 값은 어떤 것이든 EOF를 나타내기 위해 사용될 수 있습니다. 일반적으로 -1, 즉 0xFFFFFFFF이 사용되죠.

그런데 이번에 XML parser를 구현하면서 평소에 잘 사용하지 않던 wchar_t 타입을 사용하다 보니 궁금한 점이 생겼습니다. Linux의 g++에서 wchar_t의 sizeof는 32bits입니다. 그렇다면 WEOF의 타입은 무엇이어야 할까요? 또 값은요. 만약 wchar_t의 값이 0~0xFFFFFFFF을 모두 사용할 수 있다고 생각한다면 ((wchar_t가 unsigned라고 가정했을 경우)) WEOF의 타입은 uint64_t 정도가 되어야 할 것입니다. 하지만 64bits int 타입을 아직 모든 컴파일러가 지원하는 것은 아니므로 문제가 될 수 있습니다.

그래서 아래와 같이 간단한 코드를 사용하여 시험해 보았습니다.


cout << sizeof(char) << ", " << sizeof(EOF) << ", " << EOF << endl;
cout << sizeof(wchar_t) << ", " << sizeof(WEOF) << ", " << WEOF << endl;

// result
// 1, 4, -1
// 4, 4, 4294967295(-1)


예상대로 WEOF의 타입은 uint32_t쯤 되는 것 같습니다. ((실제 Linux에서 헤더 파일들을 찾아 들어가보니 stream 클래스에서 사용하는 eof()의 타입은 int로 정의되어 있네요.)) 그렇다면 어떻게 32bits 타입의 EOF를 32bits char 타입에 사용할 수 있을까요? 이유는 과거에 사용되었던 문자들, 현재 사용되는 모든 문자들을 다 더해도 이렇게 많지 않다고 가정할 수 있기 때문입니다. Unicode만 해도 최대 가질 수 있는 값은 0x10FFFF까지니까 안전하게 (uint32_t) -1 값을 WEOF로 사용해도 문제가 없습니다.

아마 우주의 다른 곳에서 외계인들이 발견되고 그 외계인들에게 우리가 만든 프로그램을 팔아야 되기 전까지는 안전하게 32bits짜리 WEOF를 사용할 수 있을 것 같습니다. :-)

Comments

  1. char이 담을 수 있는 값 + EOF를 담을 수 있는 형이 int라면, wchar_t가 담을 수 있는 값 + WEOF를 담을 수 있는 형은 cwchar에 정의된 wint_t입니다. 이 자료형은 ISO C의 7.24.1절에 설명되어 있고, ISO C++에서 이를 그대로 받아들여 쓰고 있지요. :)

    ReplyDelete
  2. 아.. 그렇군요. 시험만 해볼께 아니라 문서를 찾아봤어야 했는데... :-) C99 문서의 7.24.1를 읽어보니 추측했던 내용들이 대충 맞군요.

    WEOF - which expands to a constant expression of type wint_t whose value does not correspond to any member of the extended character set.

    그리고 footnote 269, 270번을 보니 위의 시험 결과가 C99 표준을 준수하고 있다는 것을 알 수 있겠네요.

    269) wchar_t and wint_t can be the same integer type.
    270) The value of the macro WEOF may differ from that of EOF and need not be negative.

    ReplyDelete

Post a Comment

Popular posts from this blog

1의 개수 세기

저도 간단한 알고리즘 문제 하나... :-)

어떤 수 n이 주어졌을때 1~n까지의 수를 쭈욱 썼을때 나오는 1의 개수를 구하는 문제입니다.

예를 들어 13이라는 수가 주어지면 1~13까지의 수 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13에서 1은 1, 10, 11, 12, 13에 나오며 그 개수는 6이 됩니다. 즉, f(13)=6.

원래 문제는 f(n)=n이 되는 1이 아닌 가장 작은 수를 구하는 문제인데 이 문제의 경우에는 처음부터 쭈욱 세어나가면 되기 때문에 간단히 다음과 같이 구현을 하면 됩니다. ((한가지 주의할 점은 이전에 찾았던 n-1값을 사용하지 않고 다시 처음부터 n까지 값을 계산하면 시간이 너무 많이 걸린다는 점입니다. 위의 코드에서는 static 변수를 사용하여 이전 값에 계속 더해나가는 방법을 사용했습니다.))


#include

int count1(int n)
{
static int cnt = 1; // not 0 because n starts from 2. see main.

while (n > 0) {
if ((n % 10) == 1) ++cnt;
n /= 10;
}

return cnt;
}

int main()
{
using namespace std;

int n = 2;

while (count1(n) != n) ++n;
cout << n << endl;
}


좀 재미가 없죠? 그래서 이번 문제는 어떤 수 n에 대해서 f(n)을 O(1)시간에 구하는 알고리즘을 만드는 것입니다. 관심있으신 분들은 한번 풀어보세요. 제가 만든 코드는 내일 올려보겠습니다.

C++ of the Day #9 - Boost.Python 사용하기 #1

Python은 가장 인기있는 interpret 언어중의 하나입니다. Python의 장점 중 하나는 C/C++ 모듈과 쉽게 연동할 수 있다는 점입니다. 물론 손으로 일일히 wrapper를 만드는 것은 손이 많이 가고 에러를 만들수 있는 작업이나 SWIG등과 같은 도구를 사용하면 쉽게 python 모듈을 만들 수 있습니다.

Boost.Python은 이런 SWIG와 같이 python 모듈을 쉽게 만들 수 있도록 도와주는 라이브러리로 순수 C++만을 사용한다는 점이 SWIG와 다른 점입니다. 그리고 개인적으로는 Boost 라이브러리에 포함되어 있는 것들이 왠지 좀 더 믿음직스러워서... :-)

이번 글에서는 Boost.Python 문서에 나와 있는 예제를 가지고 간단하게 python 모듈을 만드는 방법에 대해서 알아보겠습니다.

Requirements리눅스
이 글에서는 리눅스 환경에서의 사용 방법을 설명한다.Boost.Python 라이브러리 (1.33.1)
Boost 라이브러리를 다운로드받아 아래와 유사한 명령으로 라이브러리를 빌드한다.
bjam -sTOOLS=gcc -with-python install

bjam의 --prefix 옵션으로 라이브러리가 설치될 위치를 변경할 수 있다.Python 라이브러리 (2.4.3)
Python을 다운로드 받아 빌드하여 설치한다.
위의 경우와 유사하게 configure의 --prefix 옵션으로 설치될 위치를 변경할 수 있다.

Write C++ Code다음과 같이 코드를 작성한다.

// greet.cpp #include <stdexcept> char const* greet(unsigned x) { static char const* const msgs[] = { "hello", "Boost.Python", "world!" }; if (x > 2) throw std::range_error("greet: index out of range"…

Hello Wordpress, again.

한 두주일 정도 Textpattern을 사용해봤는데 다시 Wordpress로 돌아오기로 결정했습니다. 무엇보다 스킨 변경이 너무 복잡하고 사용자층이 Wordpress에 비해 너무 앏네요. 원하는 plugin도 찾기 어렵고... :-|

그동안 Textpattern에 썼던 글들은 모두 Wordpress로 옮겼습니다. 2개 있던 댓글도 옮겼는데 그중의 하난 제가 쓴... ;-)

애초에 wp-dokuwiki plugin이 무거워서 옮겼던 것이라 이 plugin은 설치를 안할 예정인데 몇가지 아쉬운 점이 있네요.

첫째는 code highlighting 기능인데 이 기능은 예전에 만들어 놨던 것을 조금 수정해서 쓰려고 준비중입니다. 두번째는 Footnote 기능인데 찾아보니 Footnotes 0.9 Plugin for WordPress 2.0.x라는게 있네요.

이정도면 비록 wiki syntax에 비할바는 아니지만 쓸만할 것 같습니다. :-)