고등학생을 위한 즐거운 확률과 통계
목적[편집 | 원본 편집]
원래대로라면 이산수학에 포함되어 있어야 할 과목이지만, 그렇게 하면 이산수학 교과서가 터져 버리기에 불가피하게 분리하였다.
보험설계사, 통계학자, 카지노 딜러 등 확률이나 통계 같은 이재학(罹災學)이 필요한 직업을 진로로 정한 학생들을 위한 과목이다. 그러나 보험설계사나 통계학자 같은 직업이라면 《고등학생을 위한 즐거운 미적분》이나 《고등학생을 위한 즐거운 기하와 벡터》도 빠짐없이 들어야 할지니라.
사실, 다른 것보다도 주관주의 확률론과 통계의 함정에 대해 말하고 싶었다.
객관주의 확률론[편집 | 원본 편집]
미국의 잡지인 《퍼레이드》의 한 칼럼, 『사반트에게 물어보세요』를 기고하는 메릴린 보스 사반트는 한 독자에게서 아래 질문을 받았다.
제가 몬티 홀 쇼에서 3개의 문 중에 하나를 고를 수 있는 상황이라고 가정해 보아요. 한 문 뒤에는 자동차가, 다른 두 문 뒤에는 염소가 있지요. 제가 1번 문을 고르자, 문 뒤에 무엇이 있는지 아는 몬티 홀은 3번 문을 열어서 염소를 보여줬어요. 그리고는 2번 문으로 바꾸겠냐고 물었지요. 이 상황에서, 제가 선택을 바꾸는 게 유리할까요?사반트는 바꿨을 때 당첨 확률이 3분의 2가 된다며, 바꿔야 한다고 말했다. 얼핏 직관에 어긋나 보이는 답변을 기고한 뒤로, 그는 여러 독자의 항의를 받게 되었고 그 가운데는 수학자나 공학자 등도 포함되어 있었다. 사반트는 이런 항의가 올 때마다 답신에는 정답은 다수결이나 투표로 정해지지 않는다고 덧붙였다. 헝가리의 유명한 수학자인 에르되시 팔(Erdős Pál)도 처음에는 이 답변에 부정적이었으나 컴퓨터로 실험해 본 뒤로는 사반트의 주장이 옳았다는 것을 알게 되었다.
― 《몬티 홀 문제》의 유래
수학적 확률[편집 | 원본 편집]
통계적 확률과 큰 수의 법칙[편집 | 원본 편집]
기하학적 확률[편집 | 원본 편집]
조건부 확률[편집 | 원본 편집]
조건부 확률이란 어느 한 사건이 일어났을 때, 다른 한 사건이 일어날 확률을 가리킨다. 예컨대, 두 사건 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle A} , 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle B} 가 있다고 하자. 사건 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle A} 가 일어났을 때, 사건 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle B} 가 일어날 조건부 확률은 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle P(B|A)} 라고 표현한다. 미국에서는 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle P(B/A)} 나 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle P(B\ \mathrm{in}\ A)} 로 쓰기도 한다는데 이 편이 좀 더 직관적으로 맞닿지 않을까 싶다.
사건 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle A} 가 일어났을 때 사건 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle B} 가 일어날 조건부 확률을 구하려면, 분모는 사건 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle A} 가 발생할 확률로 두고 분자에는 사건 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle A} 와 사건 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle B} 의 곱사건이 일어날 확률을 넣는다. 모든 사건을 사건 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle A} 가 일어난 경우로만 한정한 상태에서 사건 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle A} 와 사건 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle B} 가 모두 일어날 확률을 구해야 하기 때문이다. 즉, 수식으로는 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle P(B|A)={P(A \cap B) \over P(A)}} 로 된다. 이에 따라, 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle P(B)=P(A)P(B|A)+P(A^C)P(B|A^C)} 과 다음 단원에 있는 베이즈 정리가 항등식으로서 성립한다.
한편, 사건의 관계를 해석하는 과정에서 오해가 생겨 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle P(A|B)=P(B|A)} 로 헷갈리는 경우가 있는데, 이는 마지막 단원의 마지막 소단원인 《통계의 함정》에서 서술한다. 일반적으로 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle P(A|B)=P(B|A)} 가 성립하는 경우는 적으며, 이러한 경우에는 두 사건 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle A} , 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle B} 는 서로 독립이라고 한다. 두 사건이 독립사건이려면 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle P(A \cap B)=P(A)P(B)} 이 성립해야 한다.
도박과 확률[편집 | 원본 편집]
알 만한 사람들이야 잘 알고 있겠지만, 확률의 연구는 도박에서의 판돈 분배 문제에서부터 시작되었다. 게다가 도박은 거의 운에 의존하다시피 하는 것이기에 확률과는 불가분 관계이다. 쉬운 예로, 로또 6/45를 천 원 주고 샀다고 하자. 내가 산 복권의 번호는 이미 정해져 있으니, 토요일 밤 8시 하고도 좀 더 지난 무렵에 MBC에서 하는 방송을 보면서 번호가 일치하기만을 고대하면 된다. 번호 조합의 전체 경우의 수는 《고등학생을 위한 즐거운 이산수학》에서 언급했듯이 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle 45 \mathrm{C} 6=8145060} 이므로, 1등 당첨 확률은 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle {1 \over 8145060}} , 2등은 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle {6 \over 8145060}={1 \over 1357510}} , 3등은 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle {1 \over 35724}} 이다. 각 등수마다 발표되는 당첨금에서 세금을 뺀 값과 그 확률을 찾아다가 기댓값을 계산해다가 복권 구입 금액을 빼면 그 값은 슬프게도 음수가 나온다. 즉, 복권은 수학을 못하는 사람들에게서 걷어가는 일종의 간접세다.
이번엔 포커를 언급하고자 한다. 포커도 로또 6/45와 유사하게 52장의 카드 가운데 제 앞의 7장의 카드를 두고서 족보를 따진다. 단순히 당첨 확률 가지고 하는 얘기는 로또 6/45에서 했으니, 조건부 확률을 파고들려 한다. 투 페어는 같은 문자 카드가 각각 2장씩, 트리플은 같은 문자 카드가 3장, 풀하우스는 같은 문자 카드가 각각 3장과 2장, 포 어브 어 카인드는 같은 문자 카드가 4장으로 된 조합이다. 지금이 마지막 7번째 카드를 열기 전이고, 네가 지금 투 페어나 트리플을 갖고 있다고 치자. 그럼, 마지막 카드를 통해 풀하우스가 될 확률은 얼마나 될까? 혹은 트리플을 갖고 있는 상태에서 포 어브 어 카인드가 될 확률은? 기대해 볼 만하기는 하지만, 단순 계산만으로도 확률은 아주 낮다. 네가 원하는 카드가 이미 상대방에게 있을 수도 있다. 아니면, 카드 더미의 한참 아래에 깔려 있다거나.
더 어두운 영역으로 가서, 슬롯머신을 언급하고자 한다. 요새는 레버를 당겨서 플레이 하는 기계식보다는 버튼을 누르면 영상으로 보여주는 식이 일반적이다. 좀 특기할 만한 점은, 베팅 금액 대비 기댓값의 비율(환수율)이 90% 언저리라는 것이다. 한편, 슬롯머신은 법적으로도 공식 도박 기계이기 때문에 국가의 심의를 받으며 시간 대비 소모되는 크레딧(휘발성)이 어느 정도인지를 의무적으로 표시해야 한다. 물론, 이런 슬롯머신들은 다들 휘발성이 높다. 한편으로는, 환수율이 높고 휘발성도 높다는 것은 평소에는 아주아주 적은 당첨금만 주다가 어쩌다 한 번 터뜨릴 때에는 아주아주 크게 터뜨린다는 말도 된다. 그렇지 않아도 이런 비디오 게임 형식의 슬롯머신은 보너스에 당첨이라도 되면 무료 스핀을 몇 번 주고, 이 상황에서는 와일드(혹은 멀티플라이어)가 스티키(움직이지 않고 슬롯의 한 칸에 고정됨)된다거나 레이닝(뜻은 비처럼 쏟아내린단 의미지만, 체감상 그렇진 않다.)으로 된다거나 하니, 이 또한 플레이어에게는 엄청난 흥분거리일 수밖에 없다. 이것보다도 더 무서운 것은, 사람은 같은 금액일지라도 이익보다 손해를 2배 정도 더 아까워 하기에 과거의 손해를 메꾼답시고 일을 더 벌려놓다가 쪽박을 찬다는 것이다. 이는 '몬티 홀 문제'와 함께, 사람의 직관과 본능은 이성과 관련이 없음을 나타내는 사례로 경제학적으로도 중요한 의미를 가진다.
주관주의 확률론[편집 | 원본 편집]
프로이센-프랑스 전쟁에서 프랑스가 패배한 뒤, 프랑스인들은 패배의 배후에 유대인이 있다고 생각하였다. 그러던 중, D라는 이니셜을 사용하는 누군가가 프로이센에 군사 기밀을 넘겨줬다는 사실이 알려졌다. 프랑스 국방부는 D라는 이니셜만 보고 알프레드 드레퓌스(Alfred Dreyfus)를 고발했다. 법원은 드레퓌스에게 유죄를 선고하였고, 프랑스령 기아나의 악마섬에 유배되었다. 그러나 마리조르주 피카르(Marie-Georges Picquart) 중령이 과거 문서를 찾던 중, 드레퓌스에게 혐의점이 없다는 것과 진범은 페르디낭 에스테라지(Ferdinand Esterhazy)임을 알렸으나 군사기밀 누설이라는 이유로 좌천되고 기소되었다. 이에 에밀 졸라(Emile Zola), 마크 트웨인(Mark Twain), 조르주 클레망소(Georges Clemenceau), 쥘 르나르(Jules Renard)를 포함한 프랑스 내외의 좌파는 드레퓌스와 피카르의 무죄를 주장하였다. 특히, 프랑스의 수학자인 앙리 푸앵카레(Henri Poincaré)는 1906년 법원에 드레퓌스가 진범일 가능성이 낮음을 베이즈 정리를 이용해 증명해 보였다. 그리고 푸앵카레는 일기에 이렇게 남겼다.
몹시 화가 난다. 알프레드 드레퓌스는 첩자가 아니다. …… 나는 법원의 판결이 틀렸음을 수학적으로 증명하는 편지를 썼다.― 앙리 푸앵카레
그 해 치러진 재심에서 드레퓌스와 피카르는 무죄를 선고받고 복직되었다. 드레퓌스는 제1차 세계 대전에서 베르됭 전투 등에 참전하여 공을 세웠고, 피카르는 국방부장관이 되었다고 전해진다.
주관주의 확률론이란 주로 베이즈 정리를 이용하여, 사건이 발생할 때마다 확률을 수정해 나아가는 확률론을 뜻한다. 사실, 베이즈 정리는 통계학의 피타고라스 정리라 불릴 정도로 객관주의와 주관주의를 막론하고 쓰이지만, 주관주의의 토대이기 때문에 베이즈 정리는 여기서 언급한다. 주관주의 확률론에서 확률이란, '믿음의 정도'를 의미한다.
베이즈 정리[편집 | 원본 편집]
잉글랜드의 목사, 토머스 베이즈가 만들어낸 정리로, 두 사건 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle A} , 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle B} 에 대해 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle P(B|A)={P(B)P(A|B) \over P(A)}} 가 성립한다는 것이다. 즉, 이에 따르면 사건 A가 일어났을 때 B가 일어날 확률과 각 사건이 일어날 확률을 모두 알고 있다면 사건 B가 일어났을 때, 사건 A가 일어날 확률(역확률)을 계산해낼 수 있다. 이는 나중에 피에르시몽 라플라스에게 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle P(A_i |B)={P(A_i )P(B|A_i ) \over \displaystyle \sum_{k=1}^{n} P(A_k )P(B|A_k )}} 라는 일반화된 수식으로 정리되었다. (구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle n} 은 원인의 개수, 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle i} 는 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle n} 이하의 자연수, 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle A_k} 는 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle B} 에 대한 원인의 종류, 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle B} 는 결과) 이 식은 결과를 보고 원인을 추측하는 데 요긴하게 쓰인다. 대표적인 예로, 상대위험도(Relative risk)와 승산비(오즈비, Odds ratio)가 있다.
사전 확률과 사후 확률[편집 | 원본 편집]
사전 확률은 갖고 있는 정보를 활용하여 정한 확률, 사후 확률은 사건 발생 후에 베이즈 정리를 이용하여 수정한 확률을 가리킨다. 사실상 수열 문제와 다름없다. 앞서 《고등학생을 위한 즐거운 이산수학》을 배우기 잘하지 않았는가? 이때, 사전 확률은 0이나 1로 정해서는 아니 되고, 그 값은 0 초과 1 미만이어야 한다. 그렇지 않으면 사후 확률도 0 또는 1로 고정되어 버리기 때문이다. (크롬웰 법칙, Cromwell's rule)
사전 확률 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle P(B|A), P(B|A^C), P(A)=p_1} 이 선험적으로 주어져 있고, 이후에 사건 B가 발생했다면, 사후 확률 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle P(A|B)} 는 베이즈 정리에 따라 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle P(A|B)=p_2={P(A)P(B|A) \over P(B)}={P(A)P(B|A) \over P(A)P(B|A)+P(A^C)P(B|A^C)}={p_1 P(B|A) \over p_1 P(B|A)+(1-p_1 )P(B|A^C)}} 로 된다. 계속해서 그 다음에도 사건 A가 발생했을 때 사건 B가 일어나게 된다면 확률은 수열의 점화식 형태인 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle p_{n+1} ={p_n P(B|A) \over p_n P(B|A)+(1-p_n )P(B|A^C)}} 로 된다.
베이즈 정리와 주관주의 확률론의 활용[편집 | 원본 편집]
앞선 객관주의 확률론에서 확률이란, 반복 가능성, 무작위성, 독립시행을 모두 만족해야 한다. 그렇기에 객관주의의 입장에서, 주관성 따위를 다루는 베이즈 정리나 이 단원은 굉장히 위험한(?) 사상(思想)을 선동하는 것이다. 실제로 19세기 초 공리주의자, 존 스튜어트 밀(John Stuart Mill)이 베이즈 정리를 비과학적이라고 비판한 사실이 있다. 그러나 베이즈 정리는 실용주의의 영역에서는 일찍이 활용되고 있었다.
- 보험사에서는 사고가 날 확률을 베이즈 정리와 주관주의로 계산하여 보험료를 책정한다. 물론 새로 가입한 어느 사람이 사고 확률이 높다고 판단될 경우, 계약을 거절하거나 보험료를 인상하기도 한다. 경제학적으로 이상적인 모형은 보험 가입자 수와 보험금의 곱이 보험사 보유 금액과 사고 발생 확률의 곱과 일치하거나 적은 편이지만, 보험사는 영리 활동을 하므로 현실적으로는 (보험 가입자 수)×(보험금)>(보험사 보유 금액)×(사고 발생 확률)으로 된다.
- 인과 관계가 불명확하거나 직관적으로 인정되지 않는 경우에서도 확률 계산에 쓰인다. 예컨대, '까마귀가 날 때 배가 떨어질 확률' 같은 거 말이다.
- 결과로부터 원인과 원인의 원인까지 파헤쳐, 범죄 사건 해결이나 병의 원인 등을 찾아낸다.
- 인간과 가장 유사한 결정 방식을 갖는 인공지능을 개발하는 데에 쓰인다. 이는 인간의 뇌가 베이즈 통계에 근거하여 작동한다는 가설에 따른 것이다. (베이즈 뇌 가설)
- 앨런 튜링은 에니그마 해독을 하면서 3글자 단어가 관사일 가능성이 높음을 알아내었고, 독일군의 암호를 해독하는 데에 기여하였다.
이 외에도 경보 시설이 노후화되거나 다른 이유가 있어서 사이렌이 오작동하거나 사건이 발생하지 않는 경우, 처음에는 당황해 하지만 이런 일이 반복될수록 경보에 둔감해지는 경향이 있다. 게다가 어쩌다 한 번 경보가 들어맞는다고 하여도 이에 대한 신뢰도는 쉽게 회복되지 않는다. 이는 앞서 언급한 사전 확률/사후 확률을 이용하면 설명이 가능하다. 미국의 수학자 겸 네오콘 정치학자인 앨버트 월스테터(Albert Wohlstetter)는 이를 '늑대와 양치기 소년 증후군'(Crying wolf syndrome)이라고 명명하였다.
통계[편집 | 원본 편집]
평균과 편차, 분산과 표준편차[편집 | 원본 편집]
표본조사[편집 | 원본 편집]
여론조사를 할 때, 전국민을 모두 조사하면 아주 정확하겠지만 비용이 많이 든다. 그래서 전국민을 대표할 수 있는 표본을 무작위로 추출하여 이들을 상대로 조사를 하여 비용을 절감한다. 물론 신뢰도는 다소 떨어진다. 표본의 수가 적을수록 더욱 그렇다. 그렇기에 표본조사에서 중요한 것은, '표본이 고르게 추출되었는지'와 '표본의 수가 적지 않은지'이다.
- 표본평균
전체에서 표본을 추출하고, 그 표본 내의 총합을 표본의 데이터 개수로 나눈 값이다. 확률변수의 일종이기에 표기는 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle \bar{X}} 와 같이 한다. 이에 상대하여 전체의 평균은 모평균이라 한다. 표기는 앞서 말했듯이 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle m} 또는 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle \mu} 로 한다.
- 표본평균의 평균
표본평균은 일반적인 확률변수처럼 평균, 분산, 표준편차를 내기도 한다. 여기서 표본평균의 평균은 모평균이다. (구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle E(\bar{X})=m} )
- 표본평균의 분산, 표본평균의 표준편차
단, 표본평균의 분산과 표준편차를 계산할 때에는 분모로 '표본의 데이터 개수에서 하나 뺀 값'(구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle n-1} )을 쓴다. 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle n-1} 이 아니라 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle n} 을 쓰면 표본평균의 분산이 모분산보다 작게 된다고 한다. 이유는 나도 고등학교에서 배운 것 같은데 까먹었다. 표본평균의 표준편차는 나중에 모평균을 추정할 때 쓰이게 될 것이다. (이유는 좀 비논리적이지만) 표기할 때에는 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle s^2} (표본평균의 분산), 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle s} (표본평균의 표준편차)를 쓴다.
그나저나, '표본평균의 평균'이나 '표본평균의 표준편차' 같은 것들은 참 혀 꼬이지 않나?
정규분포곡선과 신뢰도[편집 | 원본 편집]
모평균의 추정[편집 | 원본 편집]
통계의 함정[편집 | 원본 편집]
- 조건부 확률에 대한 오해
- 조건부 확률 소단원에서 언급했듯이 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle P(B|A)=P(A|B)}
로 오해한다면 좀 많이 곤란하다. 또한 표본공간을 잘못 가리키는 것도 곧잘 하는 오해다. 이 오해의 대표적인 실례로, 「O.J. 심슨 사건」이나 《욥기》에 나오는 '욥의 친구들의 주장'이 있다.
- 「O.J. 심슨 사건」의 경우, 당시 변호인단은 남편에게 폭행을 당하는 아내 중에서 남편에 의해 살해당한 경우는 0.1%도 안 된다며 O.J. 심슨의 무죄를 주장했다. 즉, '아내가 남편에게 폭행당하는 사건'이 일어났을 때 '남편이 아내를 살해한 사건'이 일어날 확률을 언급한 것이다. 그러나, 이 경우에는 실제로 살인 사건이 발생하였고 O.J. 심슨은 용의자로 기소되었기에, 이를 언급하려고 했다면 '남편에게 폭행당하던 아내가 살해당하는 사건'이 일어났을 때 '아내를 살해한 범인이 남편인 사건'이 일어날 확률을 말했어야 했다. 그리고 미국 내 통계에 따르면 이 확률은 80%가 넘는다. 그러나 배심원단은 변호인단의 말에 설득되었고, O.J. 심슨은 형사 재판에서 무죄 판결을 받았다. (민사 재판에서는 패소했다.) 한편, 이 사건의 진범은 O.J. 심슨이 아닌 그 아들이라는 주장도 있다.
- 구약성서의 《욥기》에는 '욥'이라는 부자가 시험을 당하는 이야기가 적혀 있다. 여기서 '완전하고 진실하며 신을 두려워하고 악한 일은 거들떠보지도 않는 욥'은, 신의 허락을 받은 사탄에게 모든 재산을 잃어 버리고 극심한 피부병까지 앓게 된다. '욥'의 친구들은 그러한 '욥'의 상태만을 보고 "네 죄 때문이거나 네 자식들의 죄 때문일 것이니까, 속죄나 해라. 그러면 네 시작은 미약하였으나 네 나중은 심히 창대하리라."라고 힐난한다. 이렇듯, 《욥기》의 주요 교훈 중 하나는, 인과응보적이고 흑백사고에 매몰된 논리에서 탈피하라는 것이다.
- 조건부 확률 소단원에서 언급했듯이 구문 분석 실패 (SVG를 사용하되 미지원 시 PNG 사용 (브라우저 플러그인을 통해 MathML 활성화 가능): "https://wikimedia.org/api/rest_v1/" 서버에서 잘못된 응답 ('Math extension cannot connect to Restbase.'):): {\displaystyle P(B|A)=P(A|B)}
로 오해한다면 좀 많이 곤란하다. 또한 표본공간을 잘못 가리키는 것도 곧잘 하는 오해다. 이 오해의 대표적인 실례로, 「O.J. 심슨 사건」이나 《욥기》에 나오는 '욥의 친구들의 주장'이 있다.
- 표본의 수에 따른 오해
- 표본의 수가 적으면 의미있는 결과를 얻기가 어렵다. 여론조사를 하는데 아무나 열댓 명 쯤 잡는대도 ― 이 자들이 무작위로 뽑힌 자라고 할지라도 ― 이 결론을 신뢰할 수 없는 것이다. 또한 표본의 수가 적으면 원하는 대상의 수도 적게 나온다. 한때, 일본의 COVID-19 환자가 한국에서보다 적게 나왔던 게 화젯거리였다. 그러나 검사를 받으러 오는 사람 수가 일본이 한국에 비해 너무 적어서 설레발로 드러났다. 적게 검사하면 적게 나오는 것이 당연하고, 많이 검사하면 많이 나오는 게 당연하다.
- 표본의 수가 많은데도 소수의 사례를 과대포장하는 것 또한 함정이다. 예컨대, 로또 6/45는 매주 많은 사람들이 구매한다. 그리고 가끔은 아주 소수의 사람만이 1등에 당첨된다. 그렇다고 해서 그 다음 회차 로또의 1등 당첨자가 너일 것이라는 보장은 없다.
- 잘못 표집한 표본
- 1936년 미국 대선에서, 전문 여론 조사 기업 겸 잡지사인 리터러리 다이제스트는 자신들은 유선 전화를 통해 여론 조사를 하기에 더욱 빠르고 효율적으로 정확한 여론 조사를 할 수 있다고 하였다. 그리고, 리터러리 다이제스트는 당시 민주당 출신 대통령인 프랭클린 D. 루스벨트를 공화당의 앨프 랜던이 압승한다고 발표하였다. 같은 해, 통계학자인 조지 갤럽은 자체 조사를 통해 루스벨트가 이긴다고 예측하였다. 그리고 실제 결과는, 루스벨트가 랜던을 20%p 차로 이기게 된다. 리터러리 다이제스트의 예측이 틀렸던 이유는 다름 아닌, 조사 방식이었던 유선 전화였다. 당시의 전화는 값비싼 물건이었기에 전화를 갖고 있는 사람은 대체로 고소득자였다. 미국 민주당은 미국 공화당에 비해 진보적인 정당이었기에 민주당은 고소득층의 지지도가 낮고 보통 중산층이나 저소득층의 지지도가 높았다. 또한, 고소득층의 비율은 중산층과 저소득층의 비율에 비해 한참 적었기에 리터러리 다이제스트의 표본은 본의 아니게도 편향적일 수밖에 없어 결과가 크게 틀려 버린 것이다.