유니코드 내 한글

정리

유니코드 내 한글

gilchris 2019. 3. 17. 02:06

유니코드에서 한글은 세 군데에 나뉘어서 위치한다.

조합된 모든 한글(가~힣) U+AC00 ~ U+D7A3

자음+모음 또는 자음+모음+받침으로된 모든 한글 문자가 이 영역에 있다.
NFC(Normalization Form Canonical Composition) 방식에서 사용한다.
아래 표를 보고 공식에 각 번호를 대입해서 문자의 위치를 알아낼 수 있다.
[(초성 번호) * 588 + (중성 번호) * 28 + (종성 번호)] + 44032
- 예를 들어 ‘글’자를 찾는 다면 (ㄱ(0) * 588 + ㅡ(18) * 28 + ㄹ(8)) + 44032 = 44544 가 되고 이를 16진수로 바꾸면 0xAE00 이고 U+AE00 이 ‘글’자이다.

번호

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

초성

ㄱ

ㄲ

ㄴ

ㄷ

ㄸ

ㄹ

ㅁ

ㅂ

ㅃ

ㅅ

ㅆ

ㅇ

ㅈ

ㅉ

ㅊ

ㅋ

ㅌ

ㅍ

ㅎ

중성

ㅏ

ㅐ

ㅑ

ㅒ

ㅓ

ㅔ

ㅕ

ㅖ

ㅗ

ㅘ

ㅙ

ㅚ

ㅛ

ㅜ

ㅝ

ㅞ

ㅟ

ㅠ

ㅡ

ㅢ

ㅣ

종성

ㄱ

ㄲ

ㄳ

ㄴ

ㄷ

ㄹ

ㅁ

ㅂ

ㅅ

ㅆ

ㅇ

ㅈ

ㅊ

ㅋ

ㅌ

ㅍ

ㅎ

한글 자모 U+1100 ~ U+11FF

초성(ㄱ~ᄒ): U+1100 ~ U+1112
중성(ㅏ~ㅣ): U+1161 ~ U+1175
종성(ᆨ~ᇂ): U+11A8 ~ U+11C3
U+11C4 부터 U+11FF 까지는 옛한글 코드와 훗날을 위해 비워둔 부분이다.
NFD(Normalization Form Canonical Decomposition) 방식에서 사용된다.

한글 호환 자모 U+3130 ~ U+318F

자음(ㄱ~ㅎ): U+3131 ~ U+314E
모음(ㅏ~ㅣ): U+314F ~ U+3163
옛한글 자음: U+3165 ~ U+3186
옛한글 모음: U+3187 ~ U+318E
U+3130, U+3164, U+318F 는 사용하지 않는다.
조합없이 모음이나 자음만을 썼을 때 여기있는 코드가 사용된다.

참고

현재글유니코드 내 한글

티스토리툴바