본문 바로가기

programming study/web

문자 인코딩, 유니코드, UTF-8

본 내용은 얄팍한 코딩사전님의 문자 인코딩, 유니코드, UTF-8이 뭔가요? 강의를 토대로 작성하였습니다.

 

1. Encoding

  • 어떤 것을 다른 형식으로 바꾸는 것
    • 반대는 Decoding
  • 컴퓨터는 정보들을 저장할 때 기본적으로 Binary로 저장
  • 각 문자는 Binary로 대응되어 있음
    • 여러개의 문자열 세트가 존재(표)
    • ex) ASCII
  • 문자 입력 -> 컴퓨터에서 Binary로 저장 -> 사람에게 다시 문자로 출력
  • Character Encoding: 사람의 문자를 컴퓨터가 알아볼 수 있도록 Binary 신호로 바꾸는 것
  • 문자열 세트가 통일되어 있지 않고 여러가지가 난립하는 문제가 발생
  • 문나열 세트와 인코딩이 맞추어지지 않으면 글자가 깨지는 문제 발생
  • 다른 나라간에 문자를 주고 받을 때도 양쪽이 쓰는 인코딩이 달라 문제 발생

 

2. Unicode

  • 모든 문자들을 하나에 표에 포함한 문자열 세트
  • 이모티콘도 나타낼 수 있음

 

3. UTF-8

  • Unicode를 인코딩하는 방식
    • 어떤 방식으로 컴퓨터에다가 입력을 할 지
  • 문자마다 적절한 바이트 수를 차지하도록 해서 다른 방식보다 일반적으로 적은 용량을 사용
  • 호환 문제도 가장 덜 발생
  • 가장 널리 사용

 

4. URL Encoding

  • URL에는 아스키 코드의 문자 집합만 사용 가능
  • 스페이스와 한글 등을 포함한 문자열을 약속된 방식으로 아스키로 치환하여 서버 전송

 

Reference

[얄팍한 코딩사전] 문자 인코딩, 유니코드, UTF-8이 뭔가요?

'programming study > web' 카테고리의 다른 글

IP주소(2)  (0) 2021.12.01
IP주소(1)  (0) 2021.11.30
RESTful  (0) 2021.11.07
TCP/IP  (0) 2021.11.06
SSL  (0) 2021.10.25