1. 통계 방법론에 대한 정리

t검증 -> one-way ANOVA -> two-way ANOVA -> MANOVA

             (공변량분석)

상관분석 -> 단순회귀분석 -> 중다회귀분석 -> 경로분석
                                                                                  ->  구조방정식                                                  
                                                            -> 요인분석

빈도분석 -> 교차표분석



2. 변수

독립변수        종속변수

범주               연속             ANOVA

연속               연속             회귀

연속               범주             판별

범주               범주             잠재계층분석

ex) 보험료 수가 계산, 대출 받을 때 이자 계산 모두 회귀분석임


3. 상관관계

Galton : 찰스 다윈의 조카. 진화론을 숫자로 증명해보고자 했음
            Galton의 수제자가 Pearson 임.

             '아버지와 아들의 키' 이런 주제를 연구했음
             '아버지가 190, 어머니가 185면, 2세가 190을 넘을 확률이 높을까?'
             -> 어머니 아버지대에서 그 수치는 굉장한 극단치. 예) 2%
             -> 아랫대에서 또다시 그러한 극단치가 나올 가능성은 별로 없다
             -> 평균으로의 회귀

변량: 한 변수가 평균으로부터 얼마나 흩어져 있느냐
상관계수: 표준화 시킨 두 변수 사이의 공변량., 두 변수 사이의 직선적 관계의 강도

y=ax+b

회귀분석은 회귀계수(a)를 찾는 것, 즉 우선 '선'을 찾는 것임.
x로 y를 예측하는데, 예측치인 y hat과 실제 y는 차이가 있음
y-y hat이 최소가 되어야 함. 그렇게 되는 선을 찾는 것

회귀분석 시뮬레이션 사이트(쵝오!!)


독립변인에 의해 설명되는 부분이 R squared
측정오차

예: 조직연결과 업무수행: 자기조정의 효과에 관한 연구
- 무차상관계수
- 부분상관계수


4. 산점도, 상관분석과 회귀분석

상관계수에서 *은 (유의도)는 큰 의미가 없음
상관계수의 절대값을 볼 것

회귀분석 결과
변량분석: 회귀모델의 확률적 유의성을 보는 작업


중다회귀
X는 왜 고정인가? 왜 오차가 없는가?
given variable
주어진 변수



다중공선성(multi-co-linearity): 독립변수들 사이에 상관관계는 없다

변수선택

모형선택: 전방선택, 후방소거, 단계별회귀





음..역시 무언가 순식간에 훝고 지나간 느낌이랄까..

ㅎㅎ열심히 나머지 해야지 ㅎㅎ
블로그 이미지

브라보맨

,
1. Quiz 1차.
 - 10문제, 쉬운 수준

2. 차이 검증(one-way ANOVA)
 - 전체 변량을 집단에 의한 부분과 집단 내에 의한 부분으로 나눈다는 개념이 중요함
 - 데이터 결과표(자승합)를 바탕으로 ANOVA 표 만들어 보기

3. 연구 예시 리뷰
 (1) 8.6.2 교육 및 성격에 따른 고정성향
 - 상호작용이 유의한 경우, 상호작용 부터 언급한다!

 (2) 8.6.3 흑인 광고모델의 등장과 구매욕구와의 관계분석
 - 독립변수가 4개 이상인 경우 어떤 일이 벌어지는가를 보여주는 연구

tip. 논문에 들어가는 표가 굉장히 중요함.
 - 초록과 표만 보고 이해가 되면 잘쓴 논문임
 - 표에 있는 모든 내용은 문장으로 있어야 하고, 문장 중 중요한 것은 표에 있어야 함

4. 공분산분석
 - 최근에는 잘 안씀. 차라리 MANOVA나 구조방정식을 사용(ㅠ.ㅠ)

5. ANOVA의 의문
 - 얼마나 차이가 나야 차이 난다고 할 수 있는가?

오늘의 과제

예제 파일의 13개의 문항 중 독립변인을 맘대로 정해서
통계적으로 유의한 것을 찾아오는 것
one-way로 해오기.

그리고 그 이유에 대해 나름의 해석을 써보기.





블로그 이미지

브라보맨

,

인과관계를 아는 것이 힘이다.


F값 = 집단간 변량/집단내 변량

에타제곱 = 집단간 변량/전체 변량




블로그 이미지

브라보맨

,
ANOVA 소개
블로그 이미지

브라보맨

,
4주차.

지난주 까지만해도 끼리끼리만 놀던 사람들이
신입생 환영회로 안면을 좀 텄다고 서로 인사하느라 강의실이 시끌시끌하다.

오늘의 강의 주제는?

SPSS 간략 소개 및 교차분석.

1. SPSS 소개

Tip. SAS vs SPSS
- SAS: 통계학과나 회계학쪽에서 쓰는 진짜(?) 통계 패키지
- SPSS: 사회과학을 위한 통계 패키지
- 둘 다 미국 대학 연구소에서 만든 것
- SAS는 회사 복지 시설이 좋다고 ㅋㅋㅋ

사실 굉장히 궁금했고 갈등했고 고민중인 부분이다.
대학원에서는 온통 SPSS를 쓴다고 난리인데
국내외 마케팅 관련 공고들에서 통계하면 죄다 SAS를 다룰줄 아는가를 보고 있었기 때문

지난주 분산분석과 회귀분석 교수님께도 여쭤봤지만
역시 SAS를 공부해야 할듯.

우선 SPSS부터 마스터하자 --;


데이터를 만드는 것이 제일 힘든 과정임
*.sav 는 SPSS 데이터 파일
*.spo 데이터를 통해 계산해서 나온 출력 파일

SPSS의 장점
사용자가 통계적 지식이 없을 때 신경 써야 할 것들을 디폴트로 잡아준다. (결과 표 양식 등)

일련 번호를 매기는 것이 굉장히 중요함
나중에 에러가 발생했을 경우 추적 할 수 있음
데이터 수집 후 제일 먼저 해야 하는 것이 일련 번호!

금주과제
공유자료실에 올라와 있는 자료에서
틀린 곳을 5군데 찾으시오.
목요일 밤 12시까지 가능한 찾아서 올려 주시기 바랍니다.
-> 코딩 미스를 찾으라는 것!
-> 기숥통계, 빈도분석에서 찾을 수 있을 것임
=> 데이터 활용에 익숙해지는 것이 목적임

syntax에 대해서 공부하면 좋다!
- 변수를 변환해야하는 작업이 반복적으로 있을 때(기타 작업에도 사용되겠지?)
-> 일종의 매크로?라고 보면 맞을까?
-> 반복된 작업을 프로그래밍화해서 한 번에 실행하는 것


다시 강의로...
결국 spss설치만 50분 소요, 과제에 대한 대략적인 설명 까지해서 1시간 반이 날아갔넹.
강의실 마다 spss 안깔아준 학교 탓이 크다.


교차분석(카이자승 분석)
- '빈도'를 가지고 분석하는 것이라 심리학에서는 잘 안씀.
- 마음대로 쓸 수 있는 칸은 1개 밖에 없었음. 이것이 자유도. df=(a-1)x(b-1)
- 자유도는 언제나 분석대상 데이터에서 자유롭게 움직일 수 있는 값이다.

- 카이자승 =  [(관찰빈도-기대빈도)/기대빈도] 의 자승합

- 영가설: 성별과 취업여부 관계가 없다.
- 영가설을 판단하기 위한 임게치가 필요함
- 카이자승의 분포는 자유도에 따라서 달라진다.

우리가 하는 것은 통계치를 얻는 것이다.
영가설 기각 채택을 해야하는데 기각 채택은 모집단에 대한 것임
.05 수준에 해당하는 이 높이가 .05 수준에 해당하는 어떤 특정한 값이면 
그것을 못넘어 갔을 경우 영가설 채택, 넘어갔을 경우 기각

어느 셀 하나가 유독 튀면, 카이스퀘어값은? 
- 기대빈도와의 차이가 커질테고, 카이스퀘어값도 커짐
- 어느 한 셀이던지 간에 5미만의 값을 가진다면 카이스퀘어 값은 신뢰롭지 않다.
-> 카이스퀘어에서는 셀당 빈도가 어떠냐에 따라서 차이가 날 수 있음

기대빈도와 실제빈도와의 차이...카이스퀘어값을 통해서 의사결정을 하게 됨
카이검증에도 통계학의 모든 가설 검증 메카니즘이 다 들어가 있음
* 참고: 구조방정식 모형에서는 카이스퀘어 값이 작을 수록 좋은 것임


오늘도 약간 의외의 강의 내용.
보통 책에서는 그 중요성 강조되지 않는 카이분포, 교차분석에 대해서만 1시간여를 할당하셨다.

하지만 통계에서 안중요한 건 없다고 생각한다.
모든게 베이스가 된다. 하나하나 차곡차곡.

이번주 정복 과제는 ==> 카이스퀘어, 교차분석, SPSS 데이터 다루기!

이번주는 꼭 복습을!!!



블로그 이미지

브라보맨

,