정리

유니코드 내 한글

gilchris 2019. 3. 17. 02:06

 

유니코드에서 한글은 세 군데에 나뉘어서 위치한다.
 
조합된 모든 한글(가~힣) U+AC00 ~ U+D7A3
  • 자음+모음 또는 자음+모음+받침으로된 모든 한글 문자가 이 영역에 있다.
  • NFC(Normalization Form Canonical Composition) 방식에서 사용한다.
  • 아래 표를 보고 공식에 각 번호를 대입해서 문자의 위치를 알아낼 수 있다.
  • [(초성 번호) * 588 + (중성 번호) * 28 + (종성 번호)] + 44032
    • 예를 들어 ‘글’자를 찾는 다면 (ㄱ(0) * 588 + ㅡ(18) * 28 + ㄹ(8)) + 44032 = 44544 가 되고 이를 16진수로 바꾸면 0xAE00 이고 U+AE00 이 ‘글’자이다.
번호
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
초성
 
 
 
 
 
 
 
 
 
중성
 
 
 
 
 
 
 
종성
 
 
 
 
 
 
 
 
 
 
 
 
 
한글 자모 U+1100 ~ U+11FF
  • 초성(ㄱ~ᄒ): U+1100 ~ U+1112
  • 중성(ㅏ~ㅣ): U+1161 ~ U+1175
  • 종성(ᆨ~ᇂ): U+11A8 ~ U+11C3
  • U+11C4 부터 U+11FF 까지는 옛한글 코드와 훗날을 위해 비워둔 부분이다.
  • NFD(Normalization Form Canonical Decomposition) 방식에서 사용된다.
 
한글 호환 자모 U+3130 ~ U+318F
  • 자음(ㄱ~ㅎ): U+3131 ~ U+314E
  • 모음(ㅏ~ㅣ): U+314F ~ U+3163
  • 옛한글 자음: U+3165 ~ U+3186
  • 옛한글 모음: U+3187 ~ U+318E
  • U+3130, U+3164, U+318F 는 사용하지 않는다.
  • 조합없이 모음이나 자음만을 썼을 때 여기있는 코드가 사용된다.
 
참고