유니코드는 전세계의 모든 문자를 한꺼번에 표현할 수 있는 인코딩입니다. 한글도 완벽히 표현할 수 있습니다. 유니코드에도 여러가지 종류가 있는데, 인터넷에 올릴 HTML 파일을 유니코드로 작성할 때는 반드시 UTF-8 이어야만 합니다. (윈도우에서 기본적으로 사용하는 유니코드는 UTF-8이 아닙니다.)

한국어(euc-kr) 는 '한글'과 '한국에서 통용되는 한자' 그리고 '영문'을 표현할 수 있습니다. 일본식 한자 / 중국어의 간체자 등은 표현할 수 없습니다. 또한 프랑스어의 악상이나 독일어의 움라우트 등도 표현할 수 없습니다. 다만 HTML문서의 경우 euc-kr로도, 외국 문자를 정확히 표현하는 방법이 있습니다. (▶▶ 한국어(euc-kr) 페이지에서 중국식 한자 구현 참조)


요즘의 외국 사이트들은 대체로 UTF-8을 사용합니다. 따라서 미래 지향적인 사이트를 만들려면 UTF-8이 좋습니다. 다만 UTF-8로 HTML문서를 만들면 파일의 용량이 다소 늘어나는 문제가 있습니다. euc-kr에서는 한글 1자가 2바이트지만, UTF-8에서는 한글 1글자가 3바이트입니다. 다만 영문이나 숫자나 공백이나 특수 기호 등은 1바이트입니다.


========================


(1) 보통의 한국어 텍스트 문서: 이것은 아스키 문서이며 유니코드가 아닙니다. 영문/숫자/기호는 1바이트. 한글과 한자는 2바이트로 표현됩니다. euc-kr 또는 ksc_c_5601-1987 로 불리는 인코딩이며 웹페이지 작성에 사용할 수 있습니다. 특수한 외국어 문자나 일본식/중국식 한자는 표현할 수 없습니다.

다음의 2개가 유니코드입니다:

(2) 일반 유니코드(Unicode): 모든 글자를 2바이트로 표현합니다. 전세계 모든 글자들을 한꺼번에 표현할 수 있습니다. 인터넷에 HTML 파일로 올릴 수 없습니다. 즉 웹페이지 작성에 쓸 수 없습니다.

(3) UTF-8 유니코드: 영문/숫자/기호는 1바이트로, 한글과 한자 등은 3바이트로 표현합니다. 전세계 모든 글자들을 한꺼번에 표현할 수 있습니다. 웹페이지 작성에 쓸 수 있습니다. (저의 mwultong.blogspot.com 이 블로그도 UTF-8 로 되어 있습니다)



MS윈도우2000/XP 이상에서는, 외부적으로는 '일반 아스키 인코딩(1번)'을 사용하고, 내부적으로는 '일반 유니코드(2번)'를 사용합니다.

유닉스/리눅스/오픈소스 진영에서는 'UTF-8 유니코드(3번)'를 기본으로 사용합니다.

그렇지만 윈도 메모장에서도 UTF-8 유니코드 문서를 읽고 저장할 수는 있습니다.

====================================


UTF-8 이란, 각종 텍스트 파일의 유니코드(다국어) 인코딩입니다. .txt 파일이나 .html 파일을 UTF-8 로 인코딩하면, 한 페이지에 전세계의 문자를 모두 표현할 수 있는 장점이 있습니다.

일반 유니코드에는 Null 문자가 들어가기 때문에, 인터넷 문서 즉 HTML 작성에 적합하지 않습니다.

인터넷에 올릴 .html 파일 등을 유니코드로 작성할 때에는 UTF-8 인코딩이어야 합니다.


그런데 한국어로 작성된 문서를 UTF-8로 인코딩하면 파일의 용량이 약간 늘어나는 단점이 있습니다. 서버 트래픽이 제한된 경우에는 UTF-8 인코딩이 좀 부담스러울 수도 있습니다. 그리고 국내에는 아직 UTF-8 인코딩이 많이 쓰이지 않고 대부분 euc-kr 인코딩입니다. 그래서 좀 문제가 생기는 경우가 있었습니다.


한국어와, 일본어/중국어가 섞인 문서를 작성할 때 UTF-8 로 인코딩하면 편리했습니다.



HTML 문서를 UTF-8로 인코딩하기 위해서는 우선 그 HTML 파일 자체를 UTF-8로 변환해 준 후, 다음과 같이 메타(meta) 태그에 인코딩을 정의해 주어야 합니다. (물론 euc-kr의 경우도 마찬가지이긴 합니다.)


<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<title>페이지 제목</title>
</head>

... 이하 생략 ...

+ Recent posts