텍스트 형식 뒤의 의미
같아 보이는 텍스트도 형식 뒤에는 다른 의미가 숨어 있다. 줄바꿈·공백·인코딩 차이가 결과를 다르게 만든다.
줄바꿈의 종류
- LF (\n) → 맥·리눅스
- CRLF (\r\n) → 윈도우
- CR (\r) → 옛 맥
같은 줄바꿈이라도 OS마다 표기 다르다. 자료를 옮길 때 호환 점검 필요.
공백의 종류
- 일반 공백 (U+0020)
- 전각 공백 (U+3000) - 한자 문화권
- 탭 (U+0009)
- 줄 바꿈 안 되는 공백 (U+00A0)
같은 빈 자리도 종류가 다르면 다르게 처리.
인코딩의 종류
- UTF-8 → 현재 표준, 한글 3바이트
- UTF-16 → 한글 2바이트, 일부 시스템
- EUC-KR → 옛 한글 표준
- CP949 → 윈도우 한국어
- ASCII → 영문만 1바이트
텍스트 변환기는 UTF-8 표준 처리.
특수 문자의 종류
- 일반 따옴표 ("·')
- 스마트 따옴표 (" ' ' ')
- 일반 하이픈 (-)
- 긴 대시 (—·–)
워드·웹 자동 변환으로 다른 문자가 섞이는 경우. 도구로 통일.
같은 글자 다른 코드
- '안' (조합형 vs 완성형)
- 'A' (라틴 A vs 그리스 알파)
유니코드는 같은 글자라도 여러 코드로 표현되는 경우. 정규화 필요.
점검 흐름
- 줄바꿈 OS 호환 확인
- 공백 종류 점검
- 인코딩 UTF-8 통일
- 특수 문자 정상화
- 유니코드 정규화
다섯 단계를 거치면 텍스트 형식이 단단해진다. 글자 변환기로 형식 표준화.
마무리
텍스트 형식 뒤에는 다양한 의미가 숨어 있다. 한 번 짚어 두면 자료 처리가 더 자연스러워진다.