신규 릴게임 ↔ 24.rak136.top ↔ 보물섬릴게임
페이지 정보
작성자 영규용남 작성일25-06-20 18:29 조회7회 댓글0건관련링크
-
http://96.rnf665.top 2회 연결
-
http://77.rea731.top 3회 연결
본문
【53.rak136.top】
“예외적 주장에는 강력한 증거가 필요하다.”
칼 세이건(1934-1996)
약 70여년 전 인터페론이 발견되었을 때, 다음과 같은 기사 제목이 신문을 장식했다. “바이러스는 정복되었다.” 암 억제 인자 p53가 발견된 1989년부터 다음과 같은 제목이 매년 약방의 감초처럼 언론에 등장한다. “암 정복 멀지 않아.”
하지만 바이러스 팬데믹은 여전히 발생하고, 암은 압도적 사망 원인의 자리에서 내려올 기미가 없다. 대중의 눈에 과학이 양치기 소년처럼 보이는 것은 가능성 해석의 관점 차이에 기인한다. 논문은 서론, 방법, 결과, 내생애최초주택자금대출 서류 그리고 고찰로 구성된다. 이 가운데 연구 결과의 해석을 제시하는 고찰은 가능성에 대한 상상이 발휘되는 영역이다. 물론 허무맹랑한 것이 아니라 과학적 논리를 바탕으로 한 상상이다. 해당 분야의 기반 지식을 가진 과학자들은 고찰의 한계를 파악하는 것이 어렵지 않다. 하지만 이것이 어려운 대중 미디어는 한계를 넘어 성과를 과대 포장하는 경향이 있다. 대중은 과학 수원빌라대출 에서 희망을 보기를 원하기 때문일 것이다. 실패한 연구에 관심을 주는 대중은 없다. 하지만 대중의 흥미를 자극하는 논문일수록 재현이 어렵다는 것은 잘 알려져 있지 않다.
영국에서 1665년 창간된 ‘철학 통신’은 최초의 과학 학술지다. 철학이 이름에 들어 있는 이유는, 과학과 철 현대자동차저금리 학이 분리되기 전이었기 때문이다. 곧이어 뉴턴의 프린키피아가 등장하고 과학 논문의 발표는 9년마다 두배씩 증가해 왔다. 논문의 폭발적 확장은 뉴턴이라는 특이점 이후 진행된 과학 혁명의 결과다. 하지만 논문 출판의 과열 경쟁은 많은 부작용도 양산하고 있다. 특히 ‘출판 아니면 죽음’(publish or perish)이라는 성과주의 확산은 논문의 재현성 위기를 주부저금리대출 일으키고 있다. 결과가 다수의 연구자에 의해 반복 확인되는 것이 재현성이다. 출판 논문의 낮은 재현성은 연구 설계와 방법의 오류, 결과의 편향적 선택, 결과 검정 부실, 재료의 편차, 결과 해석의 논리적 오류, 악의적인 결과 조작, 그리고 통계 검정 기법의 오남용 등에 의해 발생된다. 특히 통계 기법의 오남용은 의학 연구분야에서 구조적으로 발생하는 문제다 당일대출가능한곳 . 네이처지의 보고에 따르면 통계 기법이 적용된 연구의 경우 70%가 재현되지 않는다.
다양한 변수가 포함된 논문의 가치를 수치만으로 결정하는 관행은 많은 부작용을 가져온다. 그림은 생성형 인공지능 퍼플렉시티에 “P자 보석이 박힌 왕관을 쓴 여신이 줄자를 꺼내 사슴 발자국과 화살의 위치를 재는 장면을 그려달라”는 지시어를 입력해 얻은 이미지.
통계적 실마리를 과잉 해석하는 오류
옛날 옛적 활을 더 잘 쏜다고 서로 주장하는 두 사냥꾼이 있었다. 어느 날 사슴을 쫒던 둘은 숲의 입구에서 마주친다. 음산한 숲은 사람이 자주 실종되는 곳으로 악명 높았다. 둘은 사슴을 잡아 공평하게 나누기로 약속하고 숲으로 함께 들어간다. 하지만 폭설이 내리치면서 방향을 완전히 잃어버린다. 숲을 헤매다 허기와 추위로 쓰러질 무렵, 그들의 눈앞에 사슴이 나타난다. 둘은 남은 화살을 모두 자기가 쏘겠다고 다툰다. 그러다 반씩 쏜 화살은 모두 빗나가고 사슴은 도망간다. 희망은 좌절을 거쳐 분노로 바뀐다. 둘은 모든 화살을 자기가 쏘아야 했다며 큰 소리로 싸운다. 시끄러운 소란이 울려퍼지자 펑하는 연기와 함께 여신이 나타난다. 여신은 커다란 p자 보석이 박힌 왕관을 쓰고 있었다. 둘의 주장을 들은 여신은 흩어진 사슴 발자국으로 걸어간다. 그리고 줄자를 꺼내 화살이 떨어진 위치를 꼼꼼히 잰다. 한참 계산기를 두들긴 여신은 사냥꾼들에게 엄숙하게 선언하였다. “둘의 실력에는 차이가 없다는 가설은 유의수준 0.05로 기각한다.” 다음날 사람들이 쓰러져 있는 두 사람을 발견한다. 그런데 활짝 웃는 표정의 사냥꾼 이마에는 별(*)이 빛나고 있었다.
기계에서 튀어나온 신, 데우스 엑스 마키나(deus ex machina)는 그리스 희곡에 자주 등장한다. 그녀는 복잡한 갈등 상황에서 튀어나와 뜬금없이 결론을 내린다. 그런데 논리 비약의 대명사인 이 여신이 현대 과학 논문에 점점 자주 출현하고 있다. 특히 의생명과학 분야에서 p값은 사슴을 놓친 사냥꾼 앞에 등장했던 여신과 같다. 기약 없던 연구도 p가 0.05보다 작으면 별표를 달고 희망찬 해석과 함께 논문으로 출판된다. 반대로 아무리 많은 노력이 투입된 연구라도 p가 0.05를 넘어가면 쓰레기통으로 들어간다.
다양한 변수가 포함된 논문의 가치를 수치만으로 결정하는 관행은 많은 부작용을 가져온다. 사람은 수치에 의해 신뢰도가 올라가는 심리적 편향을 가지고 있다. ‘십중팔구’보다 ‘0.85’의 표현에 의해 무의식적 신뢰도가 높아진다. 이와 같은 선입견 오류를 ‘닻 효과’(anchoring effect)라고 한다. 화물의 내용에 상관없이 닻을 내리면 배 전체가 항구에 정박하는 것의 비유다. 이런 효과 때문에 p값으로 논문 전체의 신뢰도를 결정하는 잘못된 인식이 급속도로 퍼지고 있다. “통계적으로 유의하다”는 논문에 가장 많이 등장하는 관용구가 되었다. p가 0.05 이하면 별 하나, 0.01 이하면 별 둘, 0.001 이하면 별 셋을 붙여준다.
“여성은 마늘을 먹는 남자에게 더 매력을 느낀다”, “얼굴이 큰 사람이 CEO가 된다”, “근육질 남성은 보수적이다”, “임신 가능성이 높은 여성은 빨간색 옷을 입는다”, “여성의 월경주기가 정치 성향에 영향을 준다“ 등등 대중의 흥미를 끄는 자극적 제목이 논문 데이터베이스에 흘러 넘친다.
이런 논문들의 공통점은 통계적 실마리를 과잉 해석하는 것이다. 기존의 지식을 부정하는 주장을 할 때는 더 강력한 근거가 필요한 것이 상식이다. 하지만 통계를 이용한 주장은 이런 기본적 상식을 따르지 않는다. 통계적 가설 검정은 의학 통계 교과서의 첫 페이지에 나올 정도로 의학 연구의 중요한 기반이다. 그럼에도 오남용이 빈번해지는 이유를 이해하기 위해서는 통계 기법이 발전해온 역사적 배경을 살펴봐야 한다.
그림1. 연역법과 귀납법의 혼합인 통계적 가설 검정
p값 0.05는 어떻게 탄생했나
자연 현상의 인과관계를 규명하려는 목적으로 과학이 수행된다. 고대 그리스에는 과학이 철학을 품고 있었다. 플라톤은 모든 자연 현상에는 불변의 원리가 존재한다고 생각하였다. 그의 결정론적 철학은 르네상스 과학혁명에 의해 꽃피게 된다. 데카르트는 가설에서 출발해 자연 현상을 설명하는 연역법이라는 과학적 접근법을 확립하였다. 이를 기반으로 뉴턴은 물체를 움직이는 힘을 수학적으로 설명하게 된다(그림 1, 연역법). 플라톤의 결정론, 데카르트의 연역법, 뉴턴의 수학적 기술은 신플라톤주의라고 불리며, 이후 과학 연구의 표준 방법론이 된다. 하지만 많은 자연 현상은 복잡계의 특성을 가지고 있다. 하위 요소의 상호 작용으로 예측할 수 없는 새로운 현상이 창발되는 복잡계는 연역적 접근이 어렵다. 예를 들어 생명 활동은 물리 법칙의 지배를 받지만 물리 법칙만으로 생명 현상을 예측할 수 없다.
관찰에서 출발해 목적론적 가설을 도출하는 귀납법은 복잡계 연구에 적합하다(그림 1, 귀납법). 귀납법은 아리스토텔레스의 자연철학에 뿌리를 두고 베이컨에 의해 피어났다. 복잡계를 다루는 대표적 학문인 생물학은 다윈이 출판한 ‘종의 기원’을 계기로 발전하기 시작한다. 다윈의 사촌인 골턴은 사람의 유전을 연구하며 통계의 기초를 세웠고, 그의 후계자 칼 피어슨은 기술 통계학을 확립한다. 과학을 주도했던 신플라톤주의에서는 측정값의 변동성을 오차로 취급하였다. 라플라스의 도깨비라고 불리던 오차들은 측정 기술의 부족으로 발생한다고 여겼다. 하지만 칼 피어슨은 변동성 자체를 자연에 내재된 특성으로 파악하였다. 그리고 측정 값은 확률적 분포로 발현된다고 생각하였다. 이후 확률은 통계의 핵심 원리로 자리잡는다.
기술 통계가 모집단을 대표 값으로 특정하는 방법이라면, 추론 통계는 복수 집단의 연관성을 추정하는 방법을 다룬다. 추론 통계는 피어슨과 피셔의 치열한 논쟁을 통해 발전하였다. 당시 홍차의 맛만 보고 우유와 차를 따른 순서를 구분할 수 있다고 주장하는 귀부인이 있었다. 귀부인의 능력을 믿지 않았던 피셔는 맛을 구분 못한다는 귀무가설을 설정하고 이를 증명하는 실험을 준비한다. 우유와 차를 다른 순서로 따른 홍차를 4개씩 준비하여, 무작위의 순서로 만든 8개의 홍차를 맛보게 한 뒤 답을 맞추게 한다. 기대와 달리 귀부인은 차를 따른 순서를 모두 맞추었다. 피셔는 '차 마시는 여인' 문제를 통해 귀무가설과 무작위배치를 이용한 증명법을 제시한다. 피어슨은 한걸음 더 나아가 집단 측정치에 차이가 없다는 가상의 귀무가설을 설정하고, 이의 기각을 시도하는 검정법을 완성한다(그림 1, 가설검정).
새로운 혈압 약을 개발하는 현실적 예를 들어보자. 신약은 후보 물질 발굴, 전임상 연구, 임상 연구, 규제 승인의 개발 단계를 거친다. 전임상까지는 동물 실험을 통해 진행되지만 임상 연구 단계부터는 사람이 대상이 된다. 사람을 대상으로 변수를 바꿔가며 직접 실험을 할 수는 없다. 따라서 통계적 검정을 설계해서 연구를 수행한다. 먼저 무작위 샘플링으로 표본 집단을 구성한다. 그리고 신약과 가짜를 무작위로 나눠 주고 측정한다. 그런데 혈압은 사람마다 차이가 있고, 동일인이라도 측정 시기에 의해 차이가 나고, 심지어 혈압계에 의해서도 차이가 발생한다. 이처럼 영향을 미치는 변수가 가득한 측정값을 직접 비교해 차이를 증명하는 것은 쉽지 않다. 대신 ‘신약과 가짜 약을 투여한 집단의 혈압에는 차이가 없다’라는 가설을 먼저 설정한다. 그리고 측정치의 동질성을 검정하면 복잡한 변동성 문제를 우회할 수 있다.
가상의 가설을 귀무가설(null hyphothesis)이라 하며 이것을 지지하는 확률을 p값(probability value)이라 한다. 그리고 귀무가설이 옳다고 판정하는 최소의 p값을 유의수준(significant level)이라 한다. 일반적으로 p값이 0.05보다 작으면 귀무가설은 틀렸다고 기각하며, 이 경우는 신약에 효과가 있다는 결론을 내리게 된다. 이처럼 결과의 관찰을 통해 두 집단의 차이를 확인하는 문제를 동질성을 확인하는 문제로 변환시키면 분석이 명확해진다. 앞서 p의 여신 이야기에서 두 사냥꾼의 활 실력에 차이가 없다는 것이 귀무가설이고, 사슴 발자국과 떨어진 화살의 거리들을 측정하여 기각되었다. 웃으며 쓰러진 사냥꾼의 실력이 더 뛰어나다는 대립가설이 검정된 것이다.
그림 2. 귀무가설과 대립가설은 비동치 관계
귀무가설과 대립가설 사이의 논쟁
여기에는 조심해야 할 논리학적 틈이 있다. 앞의 혈압 약의 검정문제에서 “두 집단의 차이가 없으면 효과가 없다”가 귀무가설이었다. 하지만 귀무가설의 기각으로 채택한 대립가설은 “두 집단의 차이가 있으면 효과가 있다”인데, 이는 귀무가설의 이(inverse)로서 귀무가설의 동치인 대우명제(contrapositive)가 아니다. 실제 데이터의 분석을 통해 얻어지는 두 가설의 확률 분포는 상당부분이 겹치게 된다(그림 2). 따라서 통계적 측정량으로 귀무가설을 기각하면 오류 발생은 불가피하다. 이것이 1종 오류와 2종 오류의 발생 원인이다. 측정 데이터의 확률 분포에서 두 종류의 오류를 동시에 줄이는 것은 불가능하다.
오류에 대한 논쟁은 오랜 기간 이어진다. 피셔는 통계적 가설검정에는 불확실성의 한계가 있어 0.05로 귀무가설을 기각하는 것으로 충분하다고 하였다. 통계적 수단을 벗어나 추가 실험이나 다른 분석을 하는 것이 더 확실하다 생각했기 때문이다. 이에 반해 칼 피어슨의 아들인 이건 피어슨은 검정력을 최대화하는 유의 수준을 매번 새롭게 설정해야 한다고 주장하였다. 피어슨은 피셔의 검정법을 최악이라 평가하였으며, 피셔는 피어슨의 검정법을 유치할 뿐 아니라 악몽이라 평가하였다. 이들은 대를 이어가며 싸웠다.
신플라톤주의가 팽배했던 시기에 연역적 접근이 불가능한 의학과 생물학은 변방으로 밀려나 있었다. 이 상황에서 귀무가설을 이용한 추정 통계는 가뭄의 단비와도 같은 존재였다. 하지만 피셔는 가설 검정의 한계를 인정하고. 이를 통해서는 최소한의 가능성만 확인해야 한다는 관점이었다. 반면 피어슨은 통계만으로 결론을 추정해야 하는 불가피한 상황이 존재하며, 불가피하게 발생되는 오류를 적극적으로 줄여야 한다고 주장하였다. 이렇게 근원적 관점이 달랐기 때문에 논쟁은 끝날 기미를 보이지 않았다. 그리고 결론이 나지 않은 상태에서 피어슨의 귀무가설과 대립가설 설정과, 피셔의 p<0.05로 기각하는 논리가 결합되어 퍼져 나간다.
현재 사용되고 있는 가설검정법은 피셔의 것도 피어슨의 것도 아니다. 피셔는 통계적으로 의미가 있다는 말을 결론을 위해 사용하지 않았으며, 주목할 가치가 있다는 최소한의 의미로 사용하였다. 따라서 피셔의 귀무가설 기각은 유의미한 가설을 확인해 새로운 논리를 전개하는 단초의 의미가 강하다. 피어슨의 대립가설의 채택을 정당화하는 근거가 될 수 없는 것이다. 그리고 피어슨은 귀무가설의 동치가 아닌 대립가설의 채택에서 발생하는 오류를 최소화하는 통계적 방법을 제시하였다. 하지만 이런 전후의 논리는 다 무시되고 ‘귀무가설이 0.05로 기각되면 대립가설을 채택’한다는 기계적인 방법이 급속히 확산됐다. 그 결과 최소의 연관성이 인과의 결론으로 부풀려진 결과들이 쏟아져 나오기 시작하였다.
연구비를 위해 출판이 중요해진 성과우선주의에 휩쓸리면서, 연구가 담고 있는 내용보다 0.05라는 수치가 더 중요해지는 주객전도 상황이 발생한다. 위키미디어 코먼스
통계만으로 결론 내린 논문은 위험
설상가상으로 연구비를 위해 출판이 중요해진 성과우선주의에 휩쓸리면서, 연구가 담고 있는 내용보다 0.05라는 수치가 더 중요해지는 주객전도 상황이 발생한다. 암암리에 행해지는 P해킹(P hacking)은 p값이 0.05 이하로 나올 때까지 분석을 시도하는 것을 말한다. 무작위의 결과라도 여러번 시도하면 확률적으로 한 번 정도는 p값이 0.05 이하로 나오게 된다. 그럼 그 내용에 맞추어 결론을 내리고 논문을 작성하는 것이다. 이런 P해킹이 빈번하다는 것은 발표된 논문들의 p값이 0.05 근처에 몰려 있다는 것에서 간접 확인된다.
과학이 세분화될수록 p값을 이용해 논문의 가치를 정량하는 것이 편리해진다. 연구자, 편집자, 공무원에 이르기까지 의생명과학의 전반에 p값에 대한 잘못된 이해가 구조적으로 고착화되었다. 귀납적 접근만 가능한 연구에서 귀무가설을 설정하고 데이터로 검정하는 가상의 연역적 접근법은 과학적인 결론을 편리하게 만들어 준다. 그리고 연구의 결과를 투자대비 효용성으로 측정하려는 압력이 오랜 기간 지속되면서 p값은 연구를 평가하는 편리한 수치로 점점 오용되게 된다. 그 결과 p값이 전체 연구의 가치를 결정하는 주객전도 상황이 전방위로 확산되면서 재현성의 위기가 발생하였다.
독립적으로 완결되는 논문들이 지식 정보로서 가치가 있으려면 결론이 유기적으로 연결될 수가 있어야 한다. 수치만으로 이루어지는 가설 검정은 배경 지식을 고려하지 않기 때문에 잘못 수집된 데이터의 오류를 걸러낼 수도 없고, 인과관계를 찾아낼 수도 없다. 즉 가설 검정을 기계적으로 사용하면 잘못된 가설에도 의미를 부여할 위험이 있다. 이를 방지하기 위해서는 통계적으로 유의미하다는 말 뒤에 데이터를 감추는 관행이 없어져야 하며, 확신구간과 평균도 항상 같이 고려해야 한다. 그리고 통계를 이용한 가설 검정의 결론에서 그치지 않고 대립가설을 지지하는 증거들을 확인해야 한다. 반대로 의미가 있는 결과가 유의수준이라는 칼질에 잘려나가는 경우도 생긴다. 가치가 있는 결과가 단지 0.05를 맞추지 못해 버려지는 경우가 생기는 것이다. 이렇게 결론만 남고 데이터가 버려지는 문제는 빅데이터 시대의 큰 손실이 되고 있다.
일반인의 관점에서 이와 같은 복잡한 내용을 모두 기억할 필요는 없다. 대신 아무리 흥미로워도, 통계만으로 결론을 내린 논문은 잘못된 해석의 위험이 있다는 것만 기억하면 된다. 가설 검정의 재현 확률은 기존 지식과의 일치 확률로 결정된다. 동일한 p값으로 가설을 검정할 때, 재현 확률은 0에서 1사이 값을 가진다. 만약 기존 지식이 가설을 지지하는 확률이 0.05밖에 되지 않는다면 가설 검정의 재현 확률은 0.11에 불과하다. 기존 지식과 일치 확률이 0.9 이상되는 경우에만 재현 확률이 0.95에 도달한다. 그런데 기존 지식과 거의 일치하는 가설은 흥미롭지 않다. 이런 이유로 좋은 학술지에 실린 연구일수록 재현성이 낮아지는 딜레마가 발생하는 것이다.
정리하면 과학 상식에 배치되는 새로운 연구 결과를 접하면 재현 가능성이 0.1 정도라고 어림 짐작하면 된다. 만약 진실에 근접한 연구 결과라면 시간이 흐르면서 반복적으로 재현이 될 것이다. 그럼 이는 패러다임, 즉 우리의 과학 상식을 변화시키게 된다. 과학에서 예외적 주장에는 강력한 증거 아니면 시간이 요구된다.
주철현
신규 릴게임 ↔ 43.rak136.top ↔ 보물섬릴게임
신규 릴게임 ↔ 91.rak136.top ↔ 보물섬릴게임
신규 릴게임 ↔ 89.rak136.top ↔ 보물섬릴게임
신규 릴게임 ↔ 88.rak136.top ↔ 보물섬릴게임
바로가기 go !! 바로가기 go !!
모바일오션파라다이스7 황금성용가리 릴게임먹튀검증 방법 바다이야기 무료게임 다운로드 황금성 슬롯 릴게임 오션파라다이스 온라인예시게임 바다이야기 먹튀 돈 받기 황금성9 오션파라 다이스게임다운로드 릴게임황금포카성 릴 야마토 온라인 릴게임 뽀빠이놀이터 파칭코게임다운로드 황금성다운 강원랜드 슬롯머신 하는법 인터넷야마토게임 바다이야기사이트 릴게임 황금성 릴게임사이다 무료릴게임 신오션파라다이스 야마토빠칭코 오션파라다이스 릴게임 릴게임 다운로드 온라인바다이야기게임 골드몽 먹튀 우주전함야마토2199 바다슬롯 먹튀 바다이야기apk 릴게임 황금성 바다이야기규칙 오션파라다이스예시 성인놀이터 최신바다게임 슬롯 추천 디시 슬롯머신 판매 중고 10원야마토게임 릴게임사이다 해적게임 슬롯머신 기계 구입 최신바다이야기게임 온라인 슬롯 공략 사이다쿨 카카오바다이야기 일본경륜 백경게임공략방법 모바일릴게임 종류 야마토3 인터넷오션파라다이스 바다이야기 게임 방법 알라딘설명 바다 이야기 다운 황금성다운 손오공릴게임다운로드 릴게임이란 바다이야기먹튀사이트 황금성3게임다운로드 카카오 야마토 먹튀 골드몽먹튀 온라인야마토주소 온라인황금성 오션파라다이스7하는곳 백경릴게임 오징어릴게임 알라딘릴 우주전함야마토2202 오리지널황금성 릴게임 확률 오락실게임 신천지게임 하는방법 알라딘 게임 다운 온라인릴게임예시 바다이야기 시즌7 오리 지날야마토 야마토 슬롯 확률 바다이야기 파일 백경게임 바다이야기 슬롯 슬롯머신 종류 야마토2게임하기 야마토게임다운 무료 릴게임 릴게임한국 프라그마틱 무료스핀 알라딘 릴게임 온라인 슬롯 배팅법 양귀비 바다이야기게임 바다이야기 게임장 백경다운로드 알라딘게임잭팟 무료 바다이야기 릴게임손오공하는법 릴게임매장 온라인릴게임 바다이야기예시 오션파라 다이스게임 하는법 바다이야기꽁머니환전 모바일 바다 이야기 다운 야마토 게임방법 오션파라 다이스다운 야마토게임 하기 사설바둑이 일본빠징고 보물섬릴게임 스핀모바게임랜드 야마토2 릴게임 바다이야기사이트먹튀 오락실게임 강원랜드 슬롯머신 확률 공개 야마토빠칭코 바다이야기 모바일 야마토 게임 오락실 양귀비 알라딘 게임 다운 바다이야기온라인 야마토게임공략 법 파라 다이스 오션 오션파라다이스 게임 릴게임 종류 최신인터넷게임 릴황금성 통계만으로 결론을 내린 과학 논문은 잘못된 해석의 위험이 있다. 픽사베이“예외적 주장에는 강력한 증거가 필요하다.”
칼 세이건(1934-1996)
약 70여년 전 인터페론이 발견되었을 때, 다음과 같은 기사 제목이 신문을 장식했다. “바이러스는 정복되었다.” 암 억제 인자 p53가 발견된 1989년부터 다음과 같은 제목이 매년 약방의 감초처럼 언론에 등장한다. “암 정복 멀지 않아.”
하지만 바이러스 팬데믹은 여전히 발생하고, 암은 압도적 사망 원인의 자리에서 내려올 기미가 없다. 대중의 눈에 과학이 양치기 소년처럼 보이는 것은 가능성 해석의 관점 차이에 기인한다. 논문은 서론, 방법, 결과, 내생애최초주택자금대출 서류 그리고 고찰로 구성된다. 이 가운데 연구 결과의 해석을 제시하는 고찰은 가능성에 대한 상상이 발휘되는 영역이다. 물론 허무맹랑한 것이 아니라 과학적 논리를 바탕으로 한 상상이다. 해당 분야의 기반 지식을 가진 과학자들은 고찰의 한계를 파악하는 것이 어렵지 않다. 하지만 이것이 어려운 대중 미디어는 한계를 넘어 성과를 과대 포장하는 경향이 있다. 대중은 과학 수원빌라대출 에서 희망을 보기를 원하기 때문일 것이다. 실패한 연구에 관심을 주는 대중은 없다. 하지만 대중의 흥미를 자극하는 논문일수록 재현이 어렵다는 것은 잘 알려져 있지 않다.
영국에서 1665년 창간된 ‘철학 통신’은 최초의 과학 학술지다. 철학이 이름에 들어 있는 이유는, 과학과 철 현대자동차저금리 학이 분리되기 전이었기 때문이다. 곧이어 뉴턴의 프린키피아가 등장하고 과학 논문의 발표는 9년마다 두배씩 증가해 왔다. 논문의 폭발적 확장은 뉴턴이라는 특이점 이후 진행된 과학 혁명의 결과다. 하지만 논문 출판의 과열 경쟁은 많은 부작용도 양산하고 있다. 특히 ‘출판 아니면 죽음’(publish or perish)이라는 성과주의 확산은 논문의 재현성 위기를 주부저금리대출 일으키고 있다. 결과가 다수의 연구자에 의해 반복 확인되는 것이 재현성이다. 출판 논문의 낮은 재현성은 연구 설계와 방법의 오류, 결과의 편향적 선택, 결과 검정 부실, 재료의 편차, 결과 해석의 논리적 오류, 악의적인 결과 조작, 그리고 통계 검정 기법의 오남용 등에 의해 발생된다. 특히 통계 기법의 오남용은 의학 연구분야에서 구조적으로 발생하는 문제다 당일대출가능한곳 . 네이처지의 보고에 따르면 통계 기법이 적용된 연구의 경우 70%가 재현되지 않는다.
다양한 변수가 포함된 논문의 가치를 수치만으로 결정하는 관행은 많은 부작용을 가져온다. 그림은 생성형 인공지능 퍼플렉시티에 “P자 보석이 박힌 왕관을 쓴 여신이 줄자를 꺼내 사슴 발자국과 화살의 위치를 재는 장면을 그려달라”는 지시어를 입력해 얻은 이미지.
통계적 실마리를 과잉 해석하는 오류
옛날 옛적 활을 더 잘 쏜다고 서로 주장하는 두 사냥꾼이 있었다. 어느 날 사슴을 쫒던 둘은 숲의 입구에서 마주친다. 음산한 숲은 사람이 자주 실종되는 곳으로 악명 높았다. 둘은 사슴을 잡아 공평하게 나누기로 약속하고 숲으로 함께 들어간다. 하지만 폭설이 내리치면서 방향을 완전히 잃어버린다. 숲을 헤매다 허기와 추위로 쓰러질 무렵, 그들의 눈앞에 사슴이 나타난다. 둘은 남은 화살을 모두 자기가 쏘겠다고 다툰다. 그러다 반씩 쏜 화살은 모두 빗나가고 사슴은 도망간다. 희망은 좌절을 거쳐 분노로 바뀐다. 둘은 모든 화살을 자기가 쏘아야 했다며 큰 소리로 싸운다. 시끄러운 소란이 울려퍼지자 펑하는 연기와 함께 여신이 나타난다. 여신은 커다란 p자 보석이 박힌 왕관을 쓰고 있었다. 둘의 주장을 들은 여신은 흩어진 사슴 발자국으로 걸어간다. 그리고 줄자를 꺼내 화살이 떨어진 위치를 꼼꼼히 잰다. 한참 계산기를 두들긴 여신은 사냥꾼들에게 엄숙하게 선언하였다. “둘의 실력에는 차이가 없다는 가설은 유의수준 0.05로 기각한다.” 다음날 사람들이 쓰러져 있는 두 사람을 발견한다. 그런데 활짝 웃는 표정의 사냥꾼 이마에는 별(*)이 빛나고 있었다.
기계에서 튀어나온 신, 데우스 엑스 마키나(deus ex machina)는 그리스 희곡에 자주 등장한다. 그녀는 복잡한 갈등 상황에서 튀어나와 뜬금없이 결론을 내린다. 그런데 논리 비약의 대명사인 이 여신이 현대 과학 논문에 점점 자주 출현하고 있다. 특히 의생명과학 분야에서 p값은 사슴을 놓친 사냥꾼 앞에 등장했던 여신과 같다. 기약 없던 연구도 p가 0.05보다 작으면 별표를 달고 희망찬 해석과 함께 논문으로 출판된다. 반대로 아무리 많은 노력이 투입된 연구라도 p가 0.05를 넘어가면 쓰레기통으로 들어간다.
다양한 변수가 포함된 논문의 가치를 수치만으로 결정하는 관행은 많은 부작용을 가져온다. 사람은 수치에 의해 신뢰도가 올라가는 심리적 편향을 가지고 있다. ‘십중팔구’보다 ‘0.85’의 표현에 의해 무의식적 신뢰도가 높아진다. 이와 같은 선입견 오류를 ‘닻 효과’(anchoring effect)라고 한다. 화물의 내용에 상관없이 닻을 내리면 배 전체가 항구에 정박하는 것의 비유다. 이런 효과 때문에 p값으로 논문 전체의 신뢰도를 결정하는 잘못된 인식이 급속도로 퍼지고 있다. “통계적으로 유의하다”는 논문에 가장 많이 등장하는 관용구가 되었다. p가 0.05 이하면 별 하나, 0.01 이하면 별 둘, 0.001 이하면 별 셋을 붙여준다.
“여성은 마늘을 먹는 남자에게 더 매력을 느낀다”, “얼굴이 큰 사람이 CEO가 된다”, “근육질 남성은 보수적이다”, “임신 가능성이 높은 여성은 빨간색 옷을 입는다”, “여성의 월경주기가 정치 성향에 영향을 준다“ 등등 대중의 흥미를 끄는 자극적 제목이 논문 데이터베이스에 흘러 넘친다.
이런 논문들의 공통점은 통계적 실마리를 과잉 해석하는 것이다. 기존의 지식을 부정하는 주장을 할 때는 더 강력한 근거가 필요한 것이 상식이다. 하지만 통계를 이용한 주장은 이런 기본적 상식을 따르지 않는다. 통계적 가설 검정은 의학 통계 교과서의 첫 페이지에 나올 정도로 의학 연구의 중요한 기반이다. 그럼에도 오남용이 빈번해지는 이유를 이해하기 위해서는 통계 기법이 발전해온 역사적 배경을 살펴봐야 한다.
그림1. 연역법과 귀납법의 혼합인 통계적 가설 검정
p값 0.05는 어떻게 탄생했나
자연 현상의 인과관계를 규명하려는 목적으로 과학이 수행된다. 고대 그리스에는 과학이 철학을 품고 있었다. 플라톤은 모든 자연 현상에는 불변의 원리가 존재한다고 생각하였다. 그의 결정론적 철학은 르네상스 과학혁명에 의해 꽃피게 된다. 데카르트는 가설에서 출발해 자연 현상을 설명하는 연역법이라는 과학적 접근법을 확립하였다. 이를 기반으로 뉴턴은 물체를 움직이는 힘을 수학적으로 설명하게 된다(그림 1, 연역법). 플라톤의 결정론, 데카르트의 연역법, 뉴턴의 수학적 기술은 신플라톤주의라고 불리며, 이후 과학 연구의 표준 방법론이 된다. 하지만 많은 자연 현상은 복잡계의 특성을 가지고 있다. 하위 요소의 상호 작용으로 예측할 수 없는 새로운 현상이 창발되는 복잡계는 연역적 접근이 어렵다. 예를 들어 생명 활동은 물리 법칙의 지배를 받지만 물리 법칙만으로 생명 현상을 예측할 수 없다.
관찰에서 출발해 목적론적 가설을 도출하는 귀납법은 복잡계 연구에 적합하다(그림 1, 귀납법). 귀납법은 아리스토텔레스의 자연철학에 뿌리를 두고 베이컨에 의해 피어났다. 복잡계를 다루는 대표적 학문인 생물학은 다윈이 출판한 ‘종의 기원’을 계기로 발전하기 시작한다. 다윈의 사촌인 골턴은 사람의 유전을 연구하며 통계의 기초를 세웠고, 그의 후계자 칼 피어슨은 기술 통계학을 확립한다. 과학을 주도했던 신플라톤주의에서는 측정값의 변동성을 오차로 취급하였다. 라플라스의 도깨비라고 불리던 오차들은 측정 기술의 부족으로 발생한다고 여겼다. 하지만 칼 피어슨은 변동성 자체를 자연에 내재된 특성으로 파악하였다. 그리고 측정 값은 확률적 분포로 발현된다고 생각하였다. 이후 확률은 통계의 핵심 원리로 자리잡는다.
기술 통계가 모집단을 대표 값으로 특정하는 방법이라면, 추론 통계는 복수 집단의 연관성을 추정하는 방법을 다룬다. 추론 통계는 피어슨과 피셔의 치열한 논쟁을 통해 발전하였다. 당시 홍차의 맛만 보고 우유와 차를 따른 순서를 구분할 수 있다고 주장하는 귀부인이 있었다. 귀부인의 능력을 믿지 않았던 피셔는 맛을 구분 못한다는 귀무가설을 설정하고 이를 증명하는 실험을 준비한다. 우유와 차를 다른 순서로 따른 홍차를 4개씩 준비하여, 무작위의 순서로 만든 8개의 홍차를 맛보게 한 뒤 답을 맞추게 한다. 기대와 달리 귀부인은 차를 따른 순서를 모두 맞추었다. 피셔는 '차 마시는 여인' 문제를 통해 귀무가설과 무작위배치를 이용한 증명법을 제시한다. 피어슨은 한걸음 더 나아가 집단 측정치에 차이가 없다는 가상의 귀무가설을 설정하고, 이의 기각을 시도하는 검정법을 완성한다(그림 1, 가설검정).
새로운 혈압 약을 개발하는 현실적 예를 들어보자. 신약은 후보 물질 발굴, 전임상 연구, 임상 연구, 규제 승인의 개발 단계를 거친다. 전임상까지는 동물 실험을 통해 진행되지만 임상 연구 단계부터는 사람이 대상이 된다. 사람을 대상으로 변수를 바꿔가며 직접 실험을 할 수는 없다. 따라서 통계적 검정을 설계해서 연구를 수행한다. 먼저 무작위 샘플링으로 표본 집단을 구성한다. 그리고 신약과 가짜를 무작위로 나눠 주고 측정한다. 그런데 혈압은 사람마다 차이가 있고, 동일인이라도 측정 시기에 의해 차이가 나고, 심지어 혈압계에 의해서도 차이가 발생한다. 이처럼 영향을 미치는 변수가 가득한 측정값을 직접 비교해 차이를 증명하는 것은 쉽지 않다. 대신 ‘신약과 가짜 약을 투여한 집단의 혈압에는 차이가 없다’라는 가설을 먼저 설정한다. 그리고 측정치의 동질성을 검정하면 복잡한 변동성 문제를 우회할 수 있다.
가상의 가설을 귀무가설(null hyphothesis)이라 하며 이것을 지지하는 확률을 p값(probability value)이라 한다. 그리고 귀무가설이 옳다고 판정하는 최소의 p값을 유의수준(significant level)이라 한다. 일반적으로 p값이 0.05보다 작으면 귀무가설은 틀렸다고 기각하며, 이 경우는 신약에 효과가 있다는 결론을 내리게 된다. 이처럼 결과의 관찰을 통해 두 집단의 차이를 확인하는 문제를 동질성을 확인하는 문제로 변환시키면 분석이 명확해진다. 앞서 p의 여신 이야기에서 두 사냥꾼의 활 실력에 차이가 없다는 것이 귀무가설이고, 사슴 발자국과 떨어진 화살의 거리들을 측정하여 기각되었다. 웃으며 쓰러진 사냥꾼의 실력이 더 뛰어나다는 대립가설이 검정된 것이다.
그림 2. 귀무가설과 대립가설은 비동치 관계
귀무가설과 대립가설 사이의 논쟁
여기에는 조심해야 할 논리학적 틈이 있다. 앞의 혈압 약의 검정문제에서 “두 집단의 차이가 없으면 효과가 없다”가 귀무가설이었다. 하지만 귀무가설의 기각으로 채택한 대립가설은 “두 집단의 차이가 있으면 효과가 있다”인데, 이는 귀무가설의 이(inverse)로서 귀무가설의 동치인 대우명제(contrapositive)가 아니다. 실제 데이터의 분석을 통해 얻어지는 두 가설의 확률 분포는 상당부분이 겹치게 된다(그림 2). 따라서 통계적 측정량으로 귀무가설을 기각하면 오류 발생은 불가피하다. 이것이 1종 오류와 2종 오류의 발생 원인이다. 측정 데이터의 확률 분포에서 두 종류의 오류를 동시에 줄이는 것은 불가능하다.
오류에 대한 논쟁은 오랜 기간 이어진다. 피셔는 통계적 가설검정에는 불확실성의 한계가 있어 0.05로 귀무가설을 기각하는 것으로 충분하다고 하였다. 통계적 수단을 벗어나 추가 실험이나 다른 분석을 하는 것이 더 확실하다 생각했기 때문이다. 이에 반해 칼 피어슨의 아들인 이건 피어슨은 검정력을 최대화하는 유의 수준을 매번 새롭게 설정해야 한다고 주장하였다. 피어슨은 피셔의 검정법을 최악이라 평가하였으며, 피셔는 피어슨의 검정법을 유치할 뿐 아니라 악몽이라 평가하였다. 이들은 대를 이어가며 싸웠다.
신플라톤주의가 팽배했던 시기에 연역적 접근이 불가능한 의학과 생물학은 변방으로 밀려나 있었다. 이 상황에서 귀무가설을 이용한 추정 통계는 가뭄의 단비와도 같은 존재였다. 하지만 피셔는 가설 검정의 한계를 인정하고. 이를 통해서는 최소한의 가능성만 확인해야 한다는 관점이었다. 반면 피어슨은 통계만으로 결론을 추정해야 하는 불가피한 상황이 존재하며, 불가피하게 발생되는 오류를 적극적으로 줄여야 한다고 주장하였다. 이렇게 근원적 관점이 달랐기 때문에 논쟁은 끝날 기미를 보이지 않았다. 그리고 결론이 나지 않은 상태에서 피어슨의 귀무가설과 대립가설 설정과, 피셔의 p<0.05로 기각하는 논리가 결합되어 퍼져 나간다.
현재 사용되고 있는 가설검정법은 피셔의 것도 피어슨의 것도 아니다. 피셔는 통계적으로 의미가 있다는 말을 결론을 위해 사용하지 않았으며, 주목할 가치가 있다는 최소한의 의미로 사용하였다. 따라서 피셔의 귀무가설 기각은 유의미한 가설을 확인해 새로운 논리를 전개하는 단초의 의미가 강하다. 피어슨의 대립가설의 채택을 정당화하는 근거가 될 수 없는 것이다. 그리고 피어슨은 귀무가설의 동치가 아닌 대립가설의 채택에서 발생하는 오류를 최소화하는 통계적 방법을 제시하였다. 하지만 이런 전후의 논리는 다 무시되고 ‘귀무가설이 0.05로 기각되면 대립가설을 채택’한다는 기계적인 방법이 급속히 확산됐다. 그 결과 최소의 연관성이 인과의 결론으로 부풀려진 결과들이 쏟아져 나오기 시작하였다.
연구비를 위해 출판이 중요해진 성과우선주의에 휩쓸리면서, 연구가 담고 있는 내용보다 0.05라는 수치가 더 중요해지는 주객전도 상황이 발생한다. 위키미디어 코먼스
통계만으로 결론 내린 논문은 위험
설상가상으로 연구비를 위해 출판이 중요해진 성과우선주의에 휩쓸리면서, 연구가 담고 있는 내용보다 0.05라는 수치가 더 중요해지는 주객전도 상황이 발생한다. 암암리에 행해지는 P해킹(P hacking)은 p값이 0.05 이하로 나올 때까지 분석을 시도하는 것을 말한다. 무작위의 결과라도 여러번 시도하면 확률적으로 한 번 정도는 p값이 0.05 이하로 나오게 된다. 그럼 그 내용에 맞추어 결론을 내리고 논문을 작성하는 것이다. 이런 P해킹이 빈번하다는 것은 발표된 논문들의 p값이 0.05 근처에 몰려 있다는 것에서 간접 확인된다.
과학이 세분화될수록 p값을 이용해 논문의 가치를 정량하는 것이 편리해진다. 연구자, 편집자, 공무원에 이르기까지 의생명과학의 전반에 p값에 대한 잘못된 이해가 구조적으로 고착화되었다. 귀납적 접근만 가능한 연구에서 귀무가설을 설정하고 데이터로 검정하는 가상의 연역적 접근법은 과학적인 결론을 편리하게 만들어 준다. 그리고 연구의 결과를 투자대비 효용성으로 측정하려는 압력이 오랜 기간 지속되면서 p값은 연구를 평가하는 편리한 수치로 점점 오용되게 된다. 그 결과 p값이 전체 연구의 가치를 결정하는 주객전도 상황이 전방위로 확산되면서 재현성의 위기가 발생하였다.
독립적으로 완결되는 논문들이 지식 정보로서 가치가 있으려면 결론이 유기적으로 연결될 수가 있어야 한다. 수치만으로 이루어지는 가설 검정은 배경 지식을 고려하지 않기 때문에 잘못 수집된 데이터의 오류를 걸러낼 수도 없고, 인과관계를 찾아낼 수도 없다. 즉 가설 검정을 기계적으로 사용하면 잘못된 가설에도 의미를 부여할 위험이 있다. 이를 방지하기 위해서는 통계적으로 유의미하다는 말 뒤에 데이터를 감추는 관행이 없어져야 하며, 확신구간과 평균도 항상 같이 고려해야 한다. 그리고 통계를 이용한 가설 검정의 결론에서 그치지 않고 대립가설을 지지하는 증거들을 확인해야 한다. 반대로 의미가 있는 결과가 유의수준이라는 칼질에 잘려나가는 경우도 생긴다. 가치가 있는 결과가 단지 0.05를 맞추지 못해 버려지는 경우가 생기는 것이다. 이렇게 결론만 남고 데이터가 버려지는 문제는 빅데이터 시대의 큰 손실이 되고 있다.
일반인의 관점에서 이와 같은 복잡한 내용을 모두 기억할 필요는 없다. 대신 아무리 흥미로워도, 통계만으로 결론을 내린 논문은 잘못된 해석의 위험이 있다는 것만 기억하면 된다. 가설 검정의 재현 확률은 기존 지식과의 일치 확률로 결정된다. 동일한 p값으로 가설을 검정할 때, 재현 확률은 0에서 1사이 값을 가진다. 만약 기존 지식이 가설을 지지하는 확률이 0.05밖에 되지 않는다면 가설 검정의 재현 확률은 0.11에 불과하다. 기존 지식과 일치 확률이 0.9 이상되는 경우에만 재현 확률이 0.95에 도달한다. 그런데 기존 지식과 거의 일치하는 가설은 흥미롭지 않다. 이런 이유로 좋은 학술지에 실린 연구일수록 재현성이 낮아지는 딜레마가 발생하는 것이다.
정리하면 과학 상식에 배치되는 새로운 연구 결과를 접하면 재현 가능성이 0.1 정도라고 어림 짐작하면 된다. 만약 진실에 근접한 연구 결과라면 시간이 흐르면서 반복적으로 재현이 될 것이다. 그럼 이는 패러다임, 즉 우리의 과학 상식을 변화시키게 된다. 과학에서 예외적 주장에는 강력한 증거 아니면 시간이 요구된다.
주철현
댓글목록
등록된 댓글이 없습니다.