엔트로피에서 크로스엔트로피까지 - (3) 섀넌 엔트로피: 정보이론으로의 확장
들어가며
1940년대, 제2차 세계대전을 거치며 효율적이고 안전한 통신의 필요성이 그 어느 때보다 커졌습니다. 당시 과학자들은 몇 가지 근본적인 문제에 직면해 있었습니다.
"어떻게 하면 제한된 통신 채널로 더 많은 정보를 보낼 수 있을까?"
"노이즈가 있는 환경에서 어떻게 정확한 통신을 할 수 있을까?"
"정보의 양은 어떻게 측정할 수 있을까?"
이러한 질문들에 답하기 위해서는 먼저 '정보'라는 추상적인 개념을 수학적으로 정의하고 측정할 수 있어야 했습니다. 1948년, 클로드 섀넌의 "통신의 수학적 이론"은 이 문제에 대한 혁신적인 해답을 제시했습니다.
정보의 기본 단위, 비트(Bit)의 탄생
벨 연구소의 젊은 연구원이었던 클로드 섀넌이 주목한 것은 인간이 주고받는 모든 메시지가 '예/아니오'의 단순한 선택들로 이루어져 있다는 점이었습니다. 1930년대 말, 그는 이 통찰을 전기 회로에 적용해보았습니다. 전기 회로의 스위치가 켜짐/꺼짐이라는 두 가지 상태만을 가지듯, 어쩌면 모든 정보도 이런 이진법적 관점으로 바라볼 수 있지 않을까요?
섀넌의 이런 생각은 당시 통신 기술이 직면한 문제와 맞닿아 있었습니다. 전화와 라디오 같은 아날로그 통신은 노이즈에 취약했고, 날씨나 주변 환경에 따라 신호가 왜곡되기 쉬웠습니다. 하지만 모스 부호는 달랐죠. 점(.)과 선(-)이라는 단순한 두 신호의 조합만으로도 어떤 문장이든 전달할 수 있었습니다. 이것이 바로 섀넌에게 영감을 준 지점이었습니다.
섀넌은 정보를 "불확실성을 제거하는 것" 또는 '놀람의 정도(degree of surprise)'로 정의했습니다. 예를 들어, "내일 비가 올까요?"라는 질문에 대한 답은 우리의 불확실성을 없애줍니다. 이때 '예' 또는 '아니오'라는 답이 제거하는 불확실성의 양을 1비트로 정의한 것이죠. "내일 해가 뜬다"는 정보는 놀랍지 않기 때문에 정보량이 적지만, "내일 지진이 난다"는 정보는 놀랍기 때문에 정보량이 많습니다.
'bit'라는 단어는 'binary digit'의 줄임말로, 0 또는 1이라는 두 가지 상태만을 가질 수 있는 가장 기본적인 정보의 단위를 의미합니다. 이 단순한 개념이 가진 힘은 놀라웠습니다. 2비트는 네 가지 상태를(00, 01, 10, 11), 3비트는 여덟 가지 상태를 표현할 수 있었습니다. 일반적으로 n비트는 2의 n승 개의 서로 다른 상태를 구분할 수 있다는 것이 밝혀졌죠. 이는 곧 충분한 비트만 있다면 어떤 복잡한 정보라도 표현할 수 있다는 것을 의미했습니다.
이러한 비트의 개념은 곧 물리적으로 구현되기 시작했습니다. 초기 컴퓨터에서는 진공관의 켜짐/꺼짐으로, 현대의 컴퓨터에서는 트랜지스터의 전압 레벨로 비트를 표현합니다. CD나 DVD는 표면의 미세한 홈(pit)과 평면(land)으로 비트를 기록하죠. 이처럼 비트는 추상적인 개념을 넘어 실제 정보를 저장하고 전송하는 물리적 수단이 되었습니다.
비트가 가져온 혁신은 세 가지 측면에서 특히 주목할 만합니다. 첫째, 문자든 소리든 이미지든 모든 종류의 정보를 같은 형식으로 표현할 수 있게 되었습니다. 둘째, 이진 신호는 노이즈에 강했고 오류가 생겨도 이를 검출하고 수정하는 것이 가능했습니다. 마지막으로, 정보를 효율적으로 압축하고 전송할 수 있게 되었죠.
오늘날 우리가 스마트폰으로 사진을 찍고, 음악을 스트리밍하고, 메시지를 주고받을 수 있는 것은 모두 이 작은 '비트'라는 개념이 있었기 때문입니다. 섀넌의 통찰은 단순한 이론적 발견을 넘어 디지털 시대의 토대를 마련했다고 할 수 있습니다.
섀넌의 엔트로피: 정보량을 측정하다
통신 기술이 발전하면서 과학자들은 흥미로운 질문에 직면했습니다. "정보의 양을 어떻게 측정할 수 있을까?" 1948년, 이 질문에 대한 답을 찾은 사람이 바로 클로드 섀넌이었습니다.
섀넌은 "통신의 근본적인 문제는 한 지점에서 선택된 메시지를 다른 지점에서 정확히 또는 근사적으로 재현하는 것"이라고 말했습니다. 이 간단해 보이는 문제를 해결하기 위해서는 두 가지 중요한 과제를 해결해야 했습니다.
첫째는 '메시지를 어떻게 표현할 것인가'였습니다. 섀넌은 이를 위해 비트라는 개념을 도입했죠. 모든 정보를 0과 1의 조합으로 표현하는 것입니다. 이는 마치 모스 부호가 점(.)과 선(-)만으로 모든 문장을 표현할 수 있었던 것과 같은 원리였습니다.
하지만 더 중요한 두 번째 과제가 있었습니다. 바로 '정보의 양을 어떻게 측정할 것인가'였죠. 이것이 바로 섀넌이 엔트로피라는 개념을 정보이론에 도입하게 된 결정적인 계기였습니다.
예를 들어 일기 예보를 생각해봅시다. "내일 비가 올 확률이 50%입니다"라는 예보와 "내일 비가 올 확률이 99%입니다"라는 예보가 있다고 해볼까요? 두 예보 모두 비에 대한 정보를 전달하지만, 직관적으로도 두 번째 예보가 더 많은 '정보'를 제공한다는 것을 알 수 있습니다. 섀넌은 이런 직관을 수학적으로 정립하고자 했습니다.
그 결과가 바로 섀넌의 엔트로피 공식입니다:
$$
H = -\sum_{i=1}^{n} p_i \log_2 p_i
$$
여기서 특별히 $\log_2$를 사용한 것은 정보량을 비트 단위로 측정하기 위해서였습니다. 이 공식은 "어떤 정보를 전달하는 데 필요한 최소 비트 수"를 알려줍니다. 예를 들어, 동전 던지기 결과를 전달하는 데는 1비트가 필요하고, 주사위 결과를 전달하는 데는 최소 3비트가 필요하다는 것을 이 공식으로 알 수 있죠.
섀넌의 엔트로피는 단순한 수학적 개념을 넘어 실용적인 의미를 가집니다. 이는 현대의 데이터 압축 기술의 이론적 기초가 되었기 때문입니다. 예를 들어, 어떤 텍스트 파일의 엔트로피가 4.5비트라면, 이는 해당 텍스트의 각 문자를 평균적으로 4.5비트보다 적게 압축할 수 없다는 것을 의미합니다. 이것이 바로 ZIP 같은 압축 프로그램의 이론적 한계를 결정짓는 원리입니다.
더 나아가 섀넌의 엔트로피는 인공지능과 기계학습 분야에서도 중요한 역할을 합니다. 예를 들어 딥러닝에서 사용되는 '교차 엔트로피 손실 함수'는 섀넌의 엔트로피 개념에서 직접적으로 유래했습니다.
이처럼 섀넌이 정보의 양을 측정하기 위해 도입한 엔트로피 개념은, 현대 디지털 시대의 다양한 기술적 혁신을 이끌어내는 이론적 토대가 되었습니다. 우리가 매일 사용하는 데이터 압축, 디지털 통신, 그리고 최신 인공지능 기술의 근간에는 모두 섀넌의 엔트로피가 자리 잡고 있는 것입니다.
이제 우리는 매일 수많은 정보를 주고받으며 살아갑니다. 스마트폰으로 고화질 동영상을 보내고, 음성 메시지를 주고받고, 수많은 사진을 클라우드에 저장합니다. 이 모든 것이 가능한 이유는, 70년도 더 전에 한 젊은 과학자가 "과연 정보의 양을 측정할 수 있을까?"라는 질문을 던졌기 때문입니다.
섀넌 엔트로피의 수학적 도출과 열역학과의 만남
섀넌이 정보량을 측정하기 위한 수식을 찾는 과정은 매우 흥미롭습니다. 그는 어떤 사건이 가진 정보량을 측정하는 함수 $I(p)$가 갖춰야 할 세 가지 직관적인 조건을 제시했습니다.
첫째, 확률이 낮은 사건일수록 더 많은 정보를 담고 있어야 합니다. 예를 들어 "오늘 해가 떴다"는 정보보다 "오늘 유성우가 관측됐다"는 정보가 더 큰 정보량을 가져야 합니다. 수학적으로는 확률 $p$가 작을수록 $I(p)$가 커야 한다는 뜻입니다.
둘째, 독립적인 사건들의 정보량은 더해져야 합니다. 주사위를 두 번 던졌을 때의 정보량은 각각의 정보량을 더한 것과 같아야 하죠. 수식으로는 $I(p_1 \cdot p_2) = I(p_1) + I(p_2)$입니다.
셋째, 정보량은 확률의 연속함수여야 합니다. 확률이 조금 변할 때 정보량도 조금씩 변해야 한다는 의미입니다.
이 세 가지 조건을 만족하는 함수를 찾는 과정은 흥미롭습니다.
특히 두 번째 조건인 $I(p_1 \cdot p_2) = I(p_1) + I(p_2)$를 만족하는 연속함수는 로그함수밖에 없다는 것이 수학적으로 증명되어 있었습니다. 따라서 정보량 함수는 다음과 같은 형태여야 했습니다:
$$
I(p) = -k \log(p)
$$
여기서 음의 부호는 첫 번째 조건을 만족시키기 위한 것입니다. 확률이 작을수록 정보량이 커져야 하니까요. 상수 $k$는 정보량의 단위를 결정하는데, 정보를 비트 단위로 측정하기 위해 $k=1$, 밑을 2로 선택했습니다.
이렇게 해서 하나의 사건이 가진 정보량을 측정하는 함수가 완성되었습니다:
$$
I(p) = -\log_2(p)
$$
그런데 실제 통신에서는 여러 가지 가능한 메시지들이 있고, 각각의 발생 확률도 다릅니다. 이때 시스템 전체의 평균 정보량이 바로 엔트로피가 됩니다:
$$
H = -\sum_{i=1}^{n} p_i \log_2 p_i
$$
열역학의 볼츠만 엔트로피와의 만남
여기서 흥미로운 점은 섀넌이 도출한 이 수식이 물리학의 볼츠만 엔트로피 공식과 놀랍도록 유사하다는 것입니다. 볼츠만의 엔트로피 공식은 다음과 같습니다:
$$
S = -k_B \sum_{i} p_i \ln p_i
$$
여기서 $k_B$는 볼츠만 상수이고, $p_i$는 각 미시상태의 확률입니다. 두 공식의 형태가 거의 동일하죠!
이것은 단순한 우연의 일치가 아닙니다. 열역학에서 엔트로피는 시스템의 무질서도 또는 불확실성을 측정합니다. 마찬가지로 정보이론에서 엔트로피는 메시지의 불확실성을 측정합니다. 두 분야에서 '엔트로피'는 본질적으로 같은 개념을 다루고 있는 것입니다.
섀넌은 자신의 1948년 논문에서 이 유사성에 대해 언급했습니다. 그는 당시 존 폰 노이만과의 대화에서 이 측정값을 뭐라고 부를지 고민했다고 합니다. 이때 폰 노이만이 "그것을 엔트로피라고 불러요. 첫째로, 당신의 불확실성 함수는 이미 통계역학에서 사용되고 있는 엔트로피와 같은 형태를 가지고 있고, 둘째로, 어차피 대부분의 사람들이 엔트로피가 무엇인지 모르니, 논쟁에서 당신이 항상 우위를 점할 수 있을 거예요."라고 조언했다고 합니다.
질문으로 정보 이해하기
비트로 표현된 정보는 실제 물리량이라 할 수 있을까?
섀넌의 정보 엔트로피와 볼츠만의 열역학적 엔트로피가 수학적으로 동일한 형태를 가진다는 것은, 정보가 단순한 추상적 개념이 아니라 물리적 실재와 관련이 있을 수 있다는 것을 시사합니다. 이와 관련해 몇 가지 중요한 관점을 살펴보겠습니다:
- 란다우어의 원리
- 1961년 물리학자 롤프 란다우어는 "정보는 물리적이다(Information is Physical)"라는 유명한 말을 남겼습니다.
- 그는 정보의 삭제가 필연적으로 열의 발생을 수반한다는 것을 증명했습니다.
- 1비트의 정보를 삭제할 때 최소한 $kT\ln(2)$의 에너지가 열로 방출됩니다(여기서 k는 볼츠만 상수, T는 절대온도).
- 양자정보이론의 관점
- 현대 물리학에서는 정보를 물리 세계의 기본적인 구성 요소로 보는 관점이 점점 힘을 얻고 있습니다.
- 양자컴퓨터에서 큐비트는 정보의 양자역학적 표현이며, 이는 물리적 실체를 가집니다.
- 블랙홀의 정보 역설 같은 문제는 정보가 물리적 보존량이라는 것을 전제로 합니다.
- 물리적 한계
- 정보를 저장하고 처리하는 것에는 항상 물리적 한계가 따릅니다.
- 예를 들어, 베크슈타인 한계는 주어진 부피 안에 저장할 수 있는 정보의 양에 물리적 상한이 있음을 보여줍니다.
- 이는 정보가 실제로 물리적 자원이라는 것을 시사합니다.
하지만 동시에 주의해야 할 점도 있습니다:
- 추상성과 물리성의 이중성
- 정보는 추상적 패턴으로도, 물리적 구현으로도 존재할 수 있습니다.
- 같은 정보가 다양한 물리적 매체(전자, 광자, 자기장 등)로 표현될 수 있습니다.
- 의미의 문제
- 정보의 물리적 측면이 반드시 그 의미나 가치를 결정하지는 않습니다.
- 같은 비트 수의 정보라도 그 의미와 중요성은 매우 다를 수 있습니다.
결론적으로, 비트로 표현된 정보는 '순수한' 물리량은 아니지만, 물리적 실재와 불가분의 관계에 있다고 볼 수 있습니다. 정보는 물리적 구현을 필요로 하며, 그 처리와 저장에는 실제 물리적 비용이 따릅니다. 이는 현대 컴퓨팅의 한계와 가능성을 이해하는 데 매우 중요한 통찰을 제공합니다.
이러한 정보의 물리적 성질에 대한 이해는 현대의 정보 기술 발전에도 중요한 영향을 미치고 있습니다. 예를 들어, 양자컴퓨터의 개발이나 초저전력 컴퓨팅 연구 등이 이러한 이론적 기반 위에서 진행되고 있습니다.
“동쪽에서 해가뜬다”라는 문장도 발생확률이 높아도 정보 그 자체이고 문장이 얼마나 유용한지 (즉, 발생확률이 낮아서 누구나 알 수 없는)를 나타내는게 정보량이라고 할 수 있을까?
"동쪽에서 해가 뜬다"라는 문장은 분명히 하나의 정보입니다. 이 문장은 세상의 상태를 기술하는 명제이고, 이를 통해 어떤 사실을 전달하고 있기 때문입니다. 하지만 섀넌이 정의한 '정보량'의 관점에서 보면, 이 문장이 전달하는 정보량은 매우 적습니다. (물론 정보량과 정보의 가치는 다를 수 있습니다. 정보량이 적더라도 그 정보가 특정 상황에서 매우 중요할 수 있습니다. 예를 들어, "내일 시험 범위는 5장까지다"라는 정보는 정보량은 적지만, 학생들에게는 매우 중요한 정보입니다.)
이를 더 명확히 이해하기 위해, 다음과 같은 두 문장을 비교해봅시다:
- "해가 동쪽에서 떴다" (발생 확률 ≈ 1)
- "오늘 해가 서쪽에서 떴다" (발생 확률 ≈ 0)
두 번째 문장이 훨씬 더 큰 정보량을 가지는 이유는, 이 메시지를 받는 순간 수신자의 불확실성이 극적으로 감소하기 때문입니다. 즉, 이 메시지는 수신자의 세계관을 크게 update하게 만듭니다. 반면 첫 번째 문장은 수신자가 이미 알고 있는 내용을 확인해주는 것에 불과하므로, 불확실성의 감소가 거의 없습니다.
섀넌의 관점에서 정보량은 '놀람의 정도'나 '예측 불가능성의 정도'를 측정하는 것이라고도 볼 수 있습니다. 이는 마치 뉴스의 가치와 비슷합니다. "오늘도 해가 떴다"는 뉴스가치가 없지만, "오늘 해가 뜨지 않았다"는 엄청난 뉴스가치를 가질 것입니다.
그래서 섀넌은 정보량을 다음과 같이 정의했습니다:
$$
I(x) = -\log_2(p(x))
$$
이 식에서 p(x)가 1에 가까워질수록(매우 예측 가능한 사건), 정보량 I(x)는 0에 가까워집니다. 반대로 p(x)가 0에 가까워질수록(매우 예측 불가능한 사건), 정보량은 무한대로 증가합니다.
이러한 개념이 실제로 어떻게 응용되는지 생각해보면, 데이터 압축이 좋은 예시가 될 수 있습니다. 텍스트를 압축할 때, "the"나 "a"같이 자주 등장하는 단어(높은 확률, 낮은 정보량)는 적은 비트로 인코딩하고, 드물게 등장하는 단어(낮은 확률, 높은 정보량)는 더 많은 비트로 인코딩합니다. 이는 각 단어가 가진 실제 정보량을 반영하는 것입니다.
이미지나 음성 또는 음악이 가지는 정보로서의 의미와 정보량은 어떻게 되는가?
먼저, 이러한 신호들이 어떻게 정보로 표현되는지 생각해봅시다. 이미지, 음성, 음악은 모두 연속적인 물리적 신호입니다. 이미지는 빛의 강도와 색상의 연속적인 변화로, 음성과 음악은 공기압력의 연속적인 변화로 표현됩니다. 디지털 시스템에서는 이러한 연속적인 신호를 이산적인 숫자들의 나열로 변환합니다.
예를 들어, 디지털 이미지의 경우를 살펴보겠습니다. 하나의 픽셀이 가질 수 있는 값들의 집합이 있습니다. 일반적인 8비트 그레이스케일 이미지에서 각 픽셀은 0부터 255까지의 밝기 값을 가질 수 있습니다. 이때 각 픽셀값의 발생 확률 분포에 따라 정보량이 결정됩니다. 만약 이미지의 모든 픽셀이 같은 값을 가진다면(예: 완전히 검은 이미지), 그 이미지의 정보량은 매우 적을 것입니다. 반면, 복잡한 패턴이나 세부사항이 많은 이미지는 높은 정보량을 가집니다.
음성과 음악도 비슷한 원리로 이해할 수 있습니다. 예를 들어, 단순한 정현파 소리(순수한 한 음)는 적은 정보량을 가집니다. 반면, 오케스트라의 연주와 같이 여러 악기의 복잡한 조합은 매우 높은 정보량을 가집니다. 이는 각 순간의 소리가 더 예측하기 어렵고, 더 많은 불확실성을 가지기 때문입니다.
이러한 개념이 실제로 어떻게 응용되는지 보겠습니다. 음악 압축 포맷인 MP3를 예로 들어보겠습니다. MP3는 인간의 청각 특성을 고려하여, 우리가 잘 듣지 못하는 주파수 대역의 정보는 과감히 줄이고, 중요한 주파수 대역의 정보는 보존합니다. 이는 '지각적 정보량'이라는 개념과 관련이 있습니다. 모든 정보가 동등한 가치를 갖는 것이 아니라, 인간의 지각 시스템에서 더 중요하게 여기는 정보가 있다는 것입니다.
이미지 압축의 JPEG 포맷도 비슷한 원리를 사용합니다. 인간의 시각이 미세한 색상 변화보다 밝기 변화에 더 민감하다는 특성을 이용하여, 색상 정보는 더 많이 압축하고 밝기 정보는 상대적으로 덜 압축합니다.
이처럼 실제 미디어 신호의 정보량은 단순히 수학적인 불확실성뿐만 아니라, 그 정보가 인간에게 얼마나 의미 있는지도 고려해야 합니다. 예를 들어, 백색 잡음은 수학적으로는 매우 높은 정보량을 가지지만(매우 예측하기 어려움), 인간에게는 거의 의미 있는 정보를 전달하지 못합니다.
이러한 관점에서 보면, "동쪽에서 해가 뜬다"라는 문장과 마찬가지로, 모든 픽셀이 같은 값을 가지는 이미지나 단순한 정현파 소리는 낮은 정보량을 가집니다. 반면, 풍부한 세부사항을 담은 사진이나 복잡한 음악은 높은 정보량을 가집니다.
만약 똑같은 형태의 파형이 있고 하나는 오케스트라로 연주되었고 하나는 밴드로 연주되었다고 가정한다면, 두 파형의 정보량을 비교했을 때 차이가 나는가?
먼저, 순수하게 물리적인 파형만 놓고 보면, 두 파형이 정확히 같다고 가정했을 때 섀넌의 정보 이론 관점에서는 정보량이 동일합니다. 왜냐하면 섀넌의 정보량은 신호의 불확실성, 즉 예측 불가능성을 측정하기 때문입니다. 같은 파형이라면 그 불확실성도 동일하기 때문입니다.
하지만 여기서 한 가지 중요한 점을 생각해볼 필요가 있습니다. 실제로는 완벽하게 동일한 파형이 나올 수 없다는 것입니다. 오케스트라와 밴드가 같은 곡을 연주하더라도:
- 악기 구성의 차이:
- 오케스트라는 현악기, 목관악기, 금관악기 등 다양한 악기들이 미세하게 다른 배음(overtone)을 만들어냅니다.
- 밴드는 전자악기가 많이 사용되어 상대적으로 단순한 배음 구조를 가질 수 있습니다.
- 공간적 차이:
- 오케스트라는 많은 연주자가 넓은 공간에 분포되어 있어, 각 악기에서 나오는 소리가 도달하는 시간과 반사음이 미세하게 다릅니다.
- 밴드는 상대적으로 좁은 공간에서 연주하므로 이러한 시간차가 적습니다.
- 연주자 수의 차이:
- 오케스트라에서는 여러 명이 같은 파트를 연주하므로, 각 연주자의 미세한 차이가 합쳐져 더 복잡한 파형을 만듭니다.
- 밴드는 보통 한 파트당 한 명이 연주하므로 상대적으로 단순합니다.
이러한 차이들로 인해, 실제로는 오케스트라 버전이 더 높은 정보량을 가질 가능성이 높습니다. 더 많은 악기와 연주자가 만들어내는 미세한 변화들이 더 높은 불확실성, 즉 더 높은 정보량으로 이어지기 때문입니다.
이를 데이터 압축의 관점에서 생각해보면 더 명확해집니다. 같은 곡이라도 오케스트라 버전을 손실 없이 저장하려면 더 많은 데이터가 필요할 것입니다. 왜냐하면 더 복잡한 음향적 세부사항을 모두 담아야 하기 때문입니다.
이런 관점에서 보면, 음악에서의 정보량은 단순히 파형의 모양뿐만 아니라, 그 안에 담긴 음향적 복잡성과 세부사항의 정도도 반영한다고 볼 수 있습니다.
정리하며
이번 글에서는 정보이론의 탄생과 섀넌의 엔트로피를 역사적인 관점에서 살펴보았습니다.
다음 글에서는 섀넌의 엔트로피의 수식에 대해 더욱 깊게 살펴보고 어떻게 머신러닝으로 확장되는지 살펴보겠습니다.