번역사례

두 개의 변수가 통계적인 관계를 형성할 수 있는 방법

김지현회계법률번역 2015. 11. 2. 15:04

두 개의 변수가 통계적인 관계를 형성할 수 있는 방법

이 섹션에서는 두 개의 변수가 서로 밀접한 관련을 가질 수 있는 5가지의 방법을 조사하고, 설명하기로 한다. 단지 이 두개의 변수는 뒤에서 언급하는 가정에 비추어 완전하게 무결해야 한다. 또는 모순이 없어야 한다.

[1]
두개의 변수, X and Y, 서로 관련이 있다.
Y의 종속변수가 X이기 때문이다.

X변수는 실제적인 원인이거나, 뒤에서 언급하는 합리적인 가정 하에서 Y의 원인으로서 매우 밀접한 관계가 있다. 예를 들어, 온도와 화씨 온도의 측정은 크리켓(영국 구기 스포츠의 일종)의 춰프의 빈도와 매우 밀접하게 관련되어 있다고 알려져 있다. Croxton과 Cowden에 의하면 만약 당신이 어떤 화씨 온도에서 3.78을 곱하여 137을 뺀다면, 당신은 크리켓 게임으로부터 기대되는 1분당 춰프의 수를 측정할 수 있을 것이다. (즉, Yc=-137.22+ 3.777X, 변수 Y는 춰프의 분당 수에 의해서 계산됨. 변수 X는 측정한 화씨 온도임) 두 개의 변수가 서로 밀접하게 관련되어 있다는 것은 다음과 같은 사실에 의해서 입증된 것이다. 1.0이 완전한 관련성일 때, 관련성 계수는 0.9919라는 수치에서 볼 수 있듯이 매우 강력하다.

온도라는 변수가 1분당 크리켓 춰프 수를 얼마만큼 변화시킬 수 있을지는 감정적으로 생각해본다면 (이와는 반대로 계산상의 예상보다)더욱 관련성이 큰 것 같다. 우리가 크리켓 선수가 춰프 속도를 증가시키기 위해서 드라이빙하는 것을 상상했을 때 실제로는 우스운 그림이 떠오를 것이다.

[2]
X와 Y, 이 두개의 변수는 서로 관련이 있다.
왜냐하면, X의 종속변수가 Y이기 때문이다.

때때로 가정된 원인들은 실제상에서도 영향을 준다. 또한 가정된 결과들이 실제상에서 원인으로 다시 환원되기도 한다. 나는 수탉 주인이 생각난다. Edmond Rostand의 수탉 영웅들은 Edmond Rostand라는 똑 같은 이름으로 수탉 울음소리 내기를 한다. 이러한 수탉 울음소리내기는 일찌기 튼튼한 수탉들이 날이 밝아 올 때 꼬꼬댁하고 울었던 것을 내기하면서 시작되었다. 울지 않는 수탉들은 해가 뜨지 않는 다고 수탉들이 알고 있었기 때문이고 따라서 아직 밤이었다. 다행스럽게도 수탉 주인의 원인과 결과라는 감정선 상에서, 만약 다른 감정이 없다면, 수탉 울음소리에 대한 주인의 내기들의 끝은 해피 엔딩이 되었을 것이다. 수탉 주인들은 수탉의 울음을 길게 유지하도록 하자는 것 없이는 잠자고 있는 동네 사람들에게 날이 밝아오는 것을 알리는 다른 방법이 실제로 없다는 것이다.

마케팅 조사자로서 당신을 고용한 회사를 상상해보라. 회사 경영의 측면에서는 매출액이 증가하기 위해서는 좀 더 많은 돈을 광고에 쏟아부어야 할까 아니면 고객들의 서비스에 쏟아 부어야 할까를 고민할 것이다. 만약 당신이 다른 회사에서의 당신의 경험에 비추어 위의 사항들을 가장 합당한 방법으로서 결정해야 한다면, 당신은 지출된 광고비와 매출액 분석에 있어서 적절한 표본을 추출해야 한다. 독립변수와 가정된 원인들을 최종적으로 고려해야 한다. 당신은 13-5의 그림은 위의 결과를 보여준다.

당신이 두 가지 변수 사이에서 강력한 비(긍정적)의 상관관계를 발견했다고 가정해보자. 당신은 무엇을 결정할 것인가? 회사경영을 위해서는 더욱 많은 광고비를 지출해야 할 것인가? 그렇지 말아야 할 것인가? 나는 당신이 아주 희망적인 방법을 아마도 이끌어 낼 것으로 의도한다. 현실적으로, 당신은 더욱 많은 광고비를 지출할 합리적인 근거를 알지 못할 것이다. 왜냐하면, 당신은 광고비와 매출액이라는 원인과 결과의 적절하고도 합당하게 배분된 비율을 정확하게 측정해내기 어렵기 때문이다. 아마도 가장 많은 매출액은 가장 많이 소비되는 광고비에서 나오지 않을까하고 추측할 뿐이다. 환원하면, 원인과 결과의 사슬이 광고와 매출액보다는 매출액과 광고의 관계에 의하여 운영되어질 수도 있다는 것이다.

이러한 관점에서 한 잡지 기사는 다음과 같이 설명하고 있다: "105개 브랜드를 조사한 연구에서 5개 브랜드만이 연평균 13page 광고를 통해서 6.8% 판매 이익을 얻는다. 반면에 17개 브랜드는 연평균 5page 광고를 통해서 5.5% 판매 이익을 얻는다. 또한 본 잡지에 대하여 어떠한 광고도 없는 40개 브랜드는 6%의 판매액이 감소한다. 그러나, 우량한 매출효과는 더욱 많은 광고비의 지출때문일까? 아니면 우량한 매출액이 더욱 많은 광고비의 지출을 야기한 것일까? 우라가 위의 사항들에 대하여 회사 경영의 관점에서 도식화하고 결론을 내리기에는 불충분할 것이다. 요점은 다음과 같다: 원인과 결과의 바람직한 사슬은 , 즉시 주어지는, 우리가 우량한 판매액이 광고비의 지출을 증가시킨다고 믿는 것보다 그 반대로서 광고비의 지출이 우량한 판매액을 가져올 수 있게끔 경영하는 것이다.

한 뉴스 매거진은 다음과 같이 보고한다: " 어떤 가족이 두세대의 차를 끌고 다니는 것이 단지 한 대의 차를 끌고 다니는 가족보다 평균 드라이빙 마일이 감소되는 경향이 있다.-그러나 이것은 휴일때만 발생하는 사항이 아니다. 도로교통국의 한 경제학자의 조사에 의하자면 하나의 차를 끌고 다니는 가족은 연평균 9,900마일인데, 두세대의 차를 끌고 다니는 가족은 연평균 10,000마일의 드라이빙을 한다." 이 말은 다음과 같은 사항을 암시하고 있다. 가족들이 여러대의 차를 소유할 때에는 그들의 드라이빙 욕구가 촉진됨에 의하여드라이빙 마일수도 더욱 많아진다. 그것은 최소한 한대의 차를 끌고 다니는 가족보다 상대적으로 더욱 많은 드라이빙하도록 여러대의 차를 끌고 다니는 가족들의 감정을 유발시킨다는 것이다. 가족들의 차에대한 이러한 양상은 드라이빙 마일 수가 더욱 많아질 수록 더욱 많은 차를 필요로 하게 된다는 것이다.

[3]
두가지 변수, X와 Y, 관계가 있다.
왜냐하면, 그들은 서로 상호작용을 하기 때문이다.

광고비와 매출액과의 상관관계를 조사하는 연구로 다시 돌아가보자. 직접적인 원인과 결과의 단순한 관계보다도 현실적인 분석은 광고비와 매출액은 때로는 원인(X)이 되고, 때로는 결과(Y)가 되면서 서로 상호작용한다는 것이다. 즉, 아마도 광고는 판매의 긴베게처럼 이렇게 저렇게 영향을 줄 것이며, 매출액의 증가 역시 광고비의 지출을 후하게 해 줄 것이다. 부수적인 광고(주된 광고에 부수적으로 따라다니는 미니광고)도 판매를 한층 촉진시켜줄 것이다. 즉, 아직까지는 매출액이 증가하고 있는 한 광고비를 아낌없이 투자할 여유가 있다. 그리고 그렇게 경영은 진행될 것이다. 만약 당신이 단순하고 직접적인 상관관계의 가정하에 분석하고 있다면 당신은 물론 이러한 spiraling effect(판매에 활기를 불어넣는 효과)를 알아차리지 못할 것이다. (예를 들어, 그림 13-5에서 흩어진 점들에서 활기효과를 보듯이) 그럼에도 불구하고, 요점은 충분한 가치가 있다: 원인과 결과의 비례가 가지는 경영상의 효과들, 그러나 X에서 Y ~ Y에서 X 의 범위로 가정하여야 한다.

[4]
두개의 변수, X와 Y, 기회에 의한 상관관계

때때로 당신은 욕조에 충분히 몸을 가라앉힌 후 전화벨이 울리는 소리를 들은 적이 있는가? 물론, 당신은 여러번 그런 적이 있을 것이다. 당신이 합리적으로 추축할 수 있는 어떤 상황도 그렇게 존재할 것이다. 그러나 어떤 사람들은 목욕할 때에 전화벨이 울리지 않기를 기대할 것이다. 목욕할 때에 전화벨이 울리는 소리는 서로 부적절한 관계가 형성되어 있기 때문이다.-우리는 그것을 Dagwood Burnstead 신드롬이라고 불러야 할까?- 그러한 목욕할 때에 전화벨이 울리는 부적절한 관계는 자주 있는 것이 아니라고 단지 부적절한 관계이기 때문에 합리화해버린다. 나는 위와 같은 사항을 정의하는 가장 확실한 용어로서 동시발생(coincidence)라는 용어를 사용하기로 한다. 나는 내 집에서 목욕물을 쓰고 있을 때 전자적 부담으로서 전화벨 소리가 공기를 타고 멈추지 않는 것을 느낀다. 나는 동시에 어떤 사람이 수 분이내에 나에게 전화를 걸기위한 의도를 가지고 있구나하고 느끼며, 또한 내가 의도하지 않았던 욕조에 충격을 주고 욕조 밖에서 인지하고 있는 기구를 통하여 내가 통화할 수 있도록 집어들지 않는다. 원인과 결과의 시스템으로서 가장 좋은 것은, 현재 나를 알고 있는 사람들이 또한 다른 날 특정한 시간대에는 집에서 나와 있고 그 날의 특정한 시간대에 내가 집에 있다는 사실을 알고있는 사람들이 그리고 나에게 전화를 걸 이유가 있는 사람들일 것이라는 시스템이다. 그들은 내가 집에 있을 것으로 기대하는 시간대에 나에게 자연스럽게 전화를 걸것이다. 그리고 나는 그 때마다 100% 욕조에서 시간을 보내고 있을 것이다. 만약 내가 욕조에 있을 때와 전화벨소리가 울리는 것이 동시에 일어났을 때 내가 집에 오면 항상 욕조에 있기 때문에 전화벨소리가 울리는 것을 의례히 있는 일인 것처럼 그렇게 놀라지 않을 것이다.

현실적으로, 나는 아마도 내가 욕조에 있을 때 내 집으로 걸려오는 전화가 그다지 많지 않을 것이다. 전화벨이 울릴 때마다 나는 화가 날 것이다. 따라서, 그러한 사건이 쉽게 잊혀지지 않을 것이다. 그러한 사건이 발생되지 않았을 때, 나는 또한 그것을 생각하는 것조차도 번거로울 것이다.- 그때, 또는 후에 그러한 사건이 또 발생했다고 치자. 문제의 본질은 동전을 넣은 공중전화라는 것이다. 만약 공중전화를 사용하기 위해 기다리는 사람의 수가 적고, 약간의 동전만이 남아 있다면 그러한 가치관계로 인한 영향력은 나에게 전달될 수도 있다(전화거는 사람의 불평 등) 그러나 보통 많은 대기자 수가 있을 경우에는 그러한 영향력은 사라진다( 전화거는 것을 다음 기회로 결정하기 때문)

통계 조건에서 선행되는 조건을 투입해보라: 상관관계를 분석할 때마다 표본 데이타가 적용될 것이다. 실제에서 가장 많이 발생하는 예로서. 위험성은 표본데이타가 실제 실험대상인 모집단에 정확하게 일치하는 것이 아님에도 불구하고, 적절한 것으로 가정한다는 것이다. 이러한 종류의 위험성은 표본 사이즈가 작을 수록 특별하게도 크다. 표본을 계획적으로 추출할 때보다 임의적으로 추출할 때 통계학자에 의한 의미가 있는 실험대상(표본)은 (전장에서 짧게 설명했듯이) 상대적으로 많은 기회가 쏟아져 나오다는 것이다. 그러나, 통계학자가 거짓으로 투입할 수 없는 것조차도 포함하여 모든 테스트의 근거가 되는 것은 가능성의 이론이다. 가능성의 이론을 요구할 때마다, 우연성의 기회에 의하여 예기치 않은 상황들을 발발할 가능성도 높다는 것을 실험자는 알아야만 한다.

[5]
두가지 변수, X와 Y, 상관관계가 있다.
왜냐하면, 그들은 어떤 종류의 세번째의 외부 변수의 분석상에서 X와 Y는 양쪽다 영향을 받기 때문이다.

스토리는 파일러트는 매번 운항하기 때문에, 부피가 있어 부담스러운 안전벨트보다 가벼운 안전밸트로 교환해달라는 사항을 항공사에 서면에 의하여 요청한 사람에 관한 것이다. 두말 할 필요도 없이, 비행기가 출발할 때 가벼운 안전벨트는 더욱 편안하게 승차할 수 있다. 이 제안을 한 자가 예상치 못했던 이른바 정말로 사나운 폭풍이란 세번째 변수에 의해서 비행기와 비행사용 안전벨트의 부피사이의 양쪽 변수는 세번째 변수에 의해서 결정된다.

나의 전 통계학 교수는 제 삼의 변수라는 개념을 타자기 판매에 있어서 잠재적인 원인인자의 어떤 것을 결정하는 관점에서 수년간 마케팅 연구 조사에 활용했다. 그 교수는 몇 개의 지역에서 인기있는 잡지를 구독하는 자수와 타자기 수는 상당한 긍정적 상관관계가 있음을 발견했다. "만약 당신이 잡지를 구독하지 않는다면, 당신은 아마도 타자기를 사용하지 않을 것이다." 라는 선전용 문구는 약간의 긴장감을 조성했다. 실제로 타자기 판매와 잡지의 구독이라는 양쪽 모두의 매출이 신장되었다.

Croxton 과 Cowden은 건초열의 심각성에서 그 역관계를 옥수수의 부당한 가격에서 발견하였던남부의 기상학자이다. 이러한 발견은 그러나 옥수수의 낮은 가격의 원인이 심각했던 건초열때문이라고 제안하지 않는다. 또한 심각한 건초열이 옥수수의 가격을 떨어뜨린다고 제안하지도 않는다. 옥수수 가격은 수확량이 많을 수록 낮아진다. 날씨가 좋아서 알이 굵은 옥수수를 수확할 때 그들은 또한 돼지풀도 많이 수확한다. 이리하여 옥수수의 가격하락은 건초열이 원인인것처럼 오인된다. 좋은 날씨를 생각하기도 전에. 그러나 각각의 인자에 직접적인 의존성이 있는 것은 아니다.

두가지 일반적인 회귀 착오

원인에 대하여 오류가 많은 결론은 흔히들 통계적인 관계로서 관찰되는 관계에 있어서 다소 억압적인 관계로서 오인된다. 나는 이장에서는 관계분석을 강조할 것이다. 그러나 회귀분석으로부터 오류된 결론은, 주제의 한 측면으로서 기술한 관계 형식과 관련되어 있다. 어떤 방법도 특별할 것이 없다: (1) 관찰된 데이터의 범위를 넘어 추정하는 것 (2) 회귀 오류

[1]
관찰된 데이터의 범위를 넘어서 추정하는 것

"당신의 남편이 당신과 함께 11분을 댄스하는 것은 당신의 남편이 49분 동안 조깅하는 것과 같은 에너지를 소비한다. 그가 결코 먹는 것을 멈추지 않는다면, 무슨 일이 발생하게 될지 상상해보라." 믿든 믿지 않든 이러한 광고는 최소한 한 개이상의 주요한 잡지에 몇 년전에 게재된 것이다. 먹는 것을 멈추지 않는 중년남성에게 많은 것들이 발생한다고 누구나 생각할 수 있다. -그리고 그들은 아주 고통스러울 것이다. 그러나, 우리는 먹는 것을 멈추지 않음으로써 그결과 물리적인 안략함의 발생과 많은 에너지의 증가를 주목하지 않고 있다. 다른 말로 하면, 우리는 광고에서 어떤 대등한 입장에서의 X(광고비)의 가치는 무한하게 팽창된 결과 에너지(활기효과)로서의 측면이 있다는 것을 특별하게 진술되지 않는다.( 어떤 측면에서는, 이러한 이상한 광고의 측면을 내가 어떻게 해석하는가에 달려있을 것이다. 아마도 당신은 아주 어렵게 해석될 것이다.) 방문을 받아들인다는 것은 알려진 회귀 동등화의 활용을 증명할 수 있는 것으로서는 항상 잠재적인 위험성이 있다.

우리가 온도와 크리켓 춰프 빈도수 사이의 관계를 예로 토론할 때, 우리는 다음과 같은 사실에 주목했다. 이러한 관계는 선형 함수로서 기술할 수 있다는 사실이다. Yc= -137.22 + 3.777 X, Yc는 1분당 춰프의 추정된 수 X는 화씨온도. 관찰된 데이터의 범위를 넘어서 추정된 결과일 가능성이 있는 문제는 -137.22의 값에 촛점을 맞추어 가장 단수하게 설명될 수 있다. 화씨 0도 일 때, 전형적인 분당 춰프수는 137번이라는 것을 이러한 스키마(개념도식)는 의미하고 있는가? 관찰된 바에 의하면 답은 아니다. 약 섭씨 45도에서 발생할 수 있는 분당 춰프 수는 0번보다 더 작을 수는 없다. X=0일때 Yc로서 a값이 원인이 된다. 상수 a는 단지 적절한 선의 높이를 의미한다. 그 결과 dot의 center 쪽으로 간다. 어떤 다른 해석은 잠재적으로 오인할 수 있을 것이다.

다른 방향에서는 어떤 결과를 추정할 수 있을까? 그것은 너무도 위험하다. 예를 들어, 우리는 화씨 500도 일때, 하나의 크리켓에서 분당 춰프 수는 얼마만큼인가를 알기 원한다. 화씨 500도의 동등한 조건아래 우리는 Yc=1751.22번을 얻었다. 이런 개념이 현실적인가? 다시말해서, 명백한 것이 아니다. 75도를 초과한 온도에서 어떤 사람도 크리켓을 관찰하지 않기 때문이다. 그래서 높은 온도는 무엇을 발생시키는가?는 모른다. 그러나 화씨 500로 제한된 조건 하에서 분당 춰프수는 합리적으로 믿을 만할 것이다. 즉 분당 방출하는 춰프수는 어떤 절대적인 물리적인 제한에서 가능하다. 화씨 500도 보다 낮은 온도뿐만이 아니라, 크리켓 선수를 죽이기 위해 고통당하기 때문에 춰프 수는 거의 없다.

관찰된 데이타의 범위 밖에서 회귀선을 설명한다는 것은 항상 위험하다. 확실한 것은, 추정은 필요하다는 것이다. 그러나 항상 높은 위험을 부담하며, 따라서 조사자는 오류된 결과를 얻고 있다고 봐야 한다.

[2]
회귀 오류

그러한 처리는 일종의 회귀 오류이다. 회귀오류에 관한 토론을 해보자. 이러한 오류는 상관관계 분석과 회귀 분석에서 추적할 수 있다. Francis Galton교수는 19세기 말에 근본적인 통계적 방법론의 이러한 측면을 발견 했다. 그는 또한 형식 분석의 기초에서 내포하고 있던 최초의 회귀 오류가 저질러진 특징들을 의심했다. 유전적 특성에 관한 그의 연구에서 Galton은 자연 특성을 추정하는 방법으로서 명백한 회귀오류를 발견했다. 예를 들어, 비정상적으로 키가 큰 사람은 키가 작은 아들을 갖기 원한다는 것을 발견했다. 또한 비정상적으로 키가 작은 사람은 키가 큰 아들을 갖기 원한다. 이 사실은 Galton의 "평범성을 향한 회귀"라 명명 되었다. 그런데, 회귀 분석 주기는 오늘날 점점 더 짧아지고 있다.

Galton의 관찰에서처럼 현실성이 충분한 이러한 현상은 "평범성을 향한 회귀"라는 가정이 그르다거나 회귀오류의 적절한 용어라는 의미가 아니다. 소리 실험은 우연한 기회에 의한 제 삼의 변수에 대하여 극도의 위험한 값을 가지고 있다; 그러므로 비정상적인 큰 키와 작은 키라는 인자는 무난하게 결과로서 통과되지 못할 것이다. 기초적 개념을 도식화 하는 데 편리한 방법은 다음의 네가지 가능한 카테고리에 속하는 키가 큰 사람의 관점이다: (1) 평범한 키인 아이 (2) 비정상적인 작은 키를 가진 아이 (3) 보통의 키를 가진 부모에서 비정상적인 키를 가진 아이 (4) 비정상적인 작은 키를 가진 부모에서 비정상적인 키를 가진 아이. 그룹 3은 그룹 2,4보다 더욱 흔하다. 왜냐하면, 큰 키나 작은 키를 가진 부모보다 상대적으로 보통의 부모는 가장 흔하기 때문이다. 따라서, 우리가 키큰 사람들의 그룹에서 부모의 키를 측정하고자 한다면, 우리는 보통보다 작은 키를 가진 부모들을 발견하길 기대할 것이다. (그들의 자녀들은 키가 큰 편임에도 불구하고)

위의 요점을 다시 반복해보자: 회귀 현상은 통계적인 오류로서 규정되지 않은 것으로서 매우 현실적으로 발생된다. 그것은 평범성의 선호라는 가정이다. 또는, 전체 인구의 분산 범위의 감소이다.

극도로 머리가 좋다거나 나쁜 부모들은 머리가 보통인 아이를 선호한다. 회귀오류를 저질른 것으로서 다음 세대에서는 평범한 아이를 선호함으로서 다음 세대의 아이들의 I.Q. 분산 범위를 감소시킨다.

자주 회귀 현상은 얼굴 모양에서도 발생한다. 과거 연도에 관계가 있었던 얼굴 모양은 추정될 주어진 해와 비교된다. 예를 들어, 주어진 해에 어떤 비지니스 회사에서 비정상적인 이익을 산출했다면 다른 회사에서는 비정상적인 이익이 발생하지 않을 것이다. 왜냐하면, 해당 상품에 대한 수요가 짧은 주기상에서 감소하였기 때문이다. 어떤 회사에서 다른 회사와의 경쟁에 정당하지 않는다면, 그다지 놀랄 만한 일이 아닐 것이다. 그러나 "평범으로 향한 회귀"라른 측면에서 본다면, 이것은 이익일 것이다. 회사가 한 해의 이익에 극도로 치중할 때, 그 회사는 두가지 종류의 안전성을 확보해야 한다. (1) 그들에 체류하는 곳에서의 일반적인 안정성 (2) 짧은 기간에서 극단적인 변화가 발생할 수 있는 분산의 범위에 대한 일반적 안정성(협소성) 마지막의 회사에서 중심으로 향하는 평균을 이동한다. 그러나 극한적인 처지에서 다른 회사들에 의한 비정상적인 중심의 접근은 짧은 기간의 인자에 의해 영향받는 것보다 극도의 일시적인 변화를 투입하게 된다.

그래서 많은 오류들은 통계적 관계에서 고려된다. 지금 단순히 몇몇의 다른 통계적 오류들을 고려해보자 그 중요성에도 불구하고, 이전 장에서 다룬 것처럼 편리하게 그들 요인들을 통계적 추정에 투입할 수 없다.