본 내용은 얄팍한 코딩사전님의 문자 인코딩, 유니코드, UTF-8이 뭔가요? 강의를 토대로 작성하였습니다.
1. Encoding
- 어떤 것을 다른 형식으로 바꾸는 것
- 반대는 Decoding
- 컴퓨터는 정보들을 저장할 때 기본적으로 Binary로 저장
- 각 문자는 Binary로 대응되어 있음
- 여러개의 문자열 세트가 존재(표)
- ex) ASCII
- 문자 입력 -> 컴퓨터에서 Binary로 저장 -> 사람에게 다시 문자로 출력
- Character Encoding: 사람의 문자를 컴퓨터가 알아볼 수 있도록 Binary 신호로 바꾸는 것
- 문자열 세트가 통일되어 있지 않고 여러가지가 난립하는 문제가 발생
- 문나열 세트와 인코딩이 맞추어지지 않으면 글자가 깨지는 문제 발생
- 다른 나라간에 문자를 주고 받을 때도 양쪽이 쓰는 인코딩이 달라 문제 발생
2. Unicode
- 모든 문자들을 하나에 표에 포함한 문자열 세트
- 이모티콘도 나타낼 수 있음
3. UTF-8
- Unicode를 인코딩하는 방식
- 어떤 방식으로 컴퓨터에다가 입력을 할 지
- 문자마다 적절한 바이트 수를 차지하도록 해서 다른 방식보다 일반적으로 적은 용량을 사용
- 호환 문제도 가장 덜 발생
- 가장 널리 사용
4. URL Encoding
- URL에는 아스키 코드의 문자 집합만 사용 가능
- 스페이스와 한글 등을 포함한 문자열을 약속된 방식으로 아스키로 치환하여 서버 전송