본문으로 건너뛰기

텍스트 변환기, 텍스트 형식 뒤에 숨은 의미 짚기

텍스트 형식 뒤의 의미

같아 보이는 텍스트도 형식 뒤에는 다른 의미가 숨어 있다. 줄바꿈·공백·인코딩 차이가 결과를 다르게 만든다.

줄바꿈의 종류

  • LF (\n) → 맥·리눅스
  • CRLF (\r\n) → 윈도우
  • CR (\r) → 옛 맥

같은 줄바꿈이라도 OS마다 표기 다르다. 자료를 옮길 때 호환 점검 필요.

공백의 종류

  • 일반 공백 (U+0020)
  • 전각 공백 (U+3000) - 한자 문화권
  • 탭 (U+0009)
  • 줄 바꿈 안 되는 공백 (U+00A0)

같은 빈 자리도 종류가 다르면 다르게 처리.

인코딩의 종류

  • UTF-8 → 현재 표준, 한글 3바이트
  • UTF-16 → 한글 2바이트, 일부 시스템
  • EUC-KR → 옛 한글 표준
  • CP949 → 윈도우 한국어
  • ASCII → 영문만 1바이트

텍스트 변환기는 UTF-8 표준 처리.

특수 문자의 종류

  • 일반 따옴표 ("·')
  • 스마트 따옴표 (" ' ' ')
  • 일반 하이픈 (-)
  • 긴 대시 (—·–)

워드·웹 자동 변환으로 다른 문자가 섞이는 경우. 도구로 통일.

같은 글자 다른 코드

  • '안' (조합형 vs 완성형)
  • 'A' (라틴 A vs 그리스 알파)

유니코드는 같은 글자라도 여러 코드로 표현되는 경우. 정규화 필요.

점검 흐름

  • 줄바꿈 OS 호환 확인
  • 공백 종류 점검
  • 인코딩 UTF-8 통일
  • 특수 문자 정상화
  • 유니코드 정규화

다섯 단계를 거치면 텍스트 형식이 단단해진다. 글자 변환기로 형식 표준화.

마무리

텍스트 형식 뒤에는 다양한 의미가 숨어 있다. 한 번 짚어 두면 자료 처리가 더 자연스러워진다.

🚀
IP 위치 조회 바로 사용하기
지금 바로 무료로 이용해보세요!
도구 사용하기 →