# 데이터 분석 패키지 준비하기  
---

|패키지|기능|주요 함수|
|---|---|---|
|numpy|배열 계산, 반올림,버리기|floor,ceil,power|
|pandas|데이터프레임으로 데이터 입력,가공|describe,groupby|
|matplotlib|그래프 그리기|plot,hist,bar|  

외에도 많은 패키지들이 있음  

# 넘파이로 배열 다루기  
---

## 넘파이로 배열 정의하기

In [1]:
import numpy as np

In [2]:
a=np.array([[2,3],[5,2]])

In [3]:
a

array([[2, 3],
       [5, 2]])

|2|3|
|---|---|
|5|2|

## 배열 슬라이싱하기  
---

In [4]:
d=np.array([[1,2,3,4,5],[2,4,5,6,7],[5,7,8,9,9]])
d

array([[1, 2, 3, 4, 5],
       [2, 4, 5, 6, 7],
       [5, 7, 8, 9, 9]])

첫 번째 인덱스 : 행, 두 번째 인덱스 : 열

In [5]:
d[1][2]

5

In [6]:
d[1,2]

5

## 배열 크기 알아내기  
---

In [7]:
d=np.array([[2,3,4,5,6]])
d

array([[2, 3, 4, 5, 6]])

In [8]:
d.shape

(1, 5)

In [9]:
e=np.array([[1,2,3,4],[3,4,5,6]])
e

array([[1, 2, 3, 4],
       [3, 4, 5, 6]])

In [10]:
e.shape

(2, 4)

## 배열 원소 유형 확인하기  
---

In [12]:
d.dtype

dtype('int32')

|원소 유형|표기법|
|---|---|
|부호가 있는 정수|int(32,64)|
|부호가 없는 정수|unit(32,64)|
실수|float(32,64)|
|복소수|complex|
|참 거짓을 가지는 자료|bool|
|문자열|string|
|파이썬 오브젝트|object|
|유니코드|unicode|

## 배열 유형 바꾸기  
---

In [14]:
data=np.arange(1,5)

In [16]:
data.dtype

dtype('int32')

In [17]:
data.astype('float64')

array([1., 2., 3., 4.])

유형을 정수에서 실수로

## 넘파이 함수 알아보기  
---

- 0으로 이루어진 배열  

In [18]:
np.zeros((2,10)) #행:2,열:10

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

- 1으로 이루어진 배열  

In [19]:
np.ones((2,10))

array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]])

- 연속형 정수 생성하기  

In [20]:
np.arange(2,10) #2이상10미만,1차원 배열

array([2, 3, 4, 5, 6, 7, 8, 9])

- 행과 열을 바꾸기 

In [21]:
a=np.ones((2,3))
a

array([[1., 1., 1.],
       [1., 1., 1.]])

In [22]:
b=np.transpose(a)
b

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

## 배열의 사칙연산  
---

In [23]:
arr1=np.array([[2,3,4],[6,7,8]])
arr2=np.array([[12,23,34],[36,47,58]])

- 덧셈

In [24]:
arr1+arr2 #같은 자리끼리

array([[14, 26, 38],
       [42, 54, 66]])

- 곱셈

In [25]:
arr1*arr2 #같은 자리끼리

array([[ 24,  69, 136],
       [216, 329, 464]])

- 나눗셈

In [26]:
arr1/arr2 #같은 자리끼리

array([[0.16666667, 0.13043478, 0.11764706],
       [0.16666667, 0.14893617, 0.13793103]])

- 크기가 서로 다른 배열끼리 더하기

In [28]:
arr3=np.array([100,200,300])

In [30]:
arr1.shape

(2, 3)

In [31]:
arr3.shape

(3,)

In [32]:
arr1+arr3

array([[102, 203, 304],
       [106, 207, 308]])

- 브로드캐스팅이 되지 않는 경우

In [33]:
arr4=np.array([1,2,3,4,5,6,7,8,9,10])

In [34]:
arr4.shape

(10,)

In [35]:
arr1+arr4

ValueError: operands could not be broadcast together with shapes (2,3) (10,) 

 **행과 열이 모두 다르면 계산을 할 수 없음**

## 리스트와 배열의 차이점  
---

In [44]:
d=np.array([[1,2,3,4,5],[2,4,5,6,7],[5,7,8,9,9]]) # 3*5

In [45]:
d_list=[[1,2,3,4,5],[2,4,5,6,7],[5,7,8,9,9]]

In [46]:
d_list

[[1, 2, 3, 4, 5], [2, 4, 5, 6, 7], [5, 7, 8, 9, 9]]

In [47]:
type(d_list)

list

In [48]:
d_list[:2]=0

TypeError: can only assign an iterable

In [49]:
d[:2]=0

In [50]:
d

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [5, 7, 8, 9, 9]])

### 설문지 데이터 전처리  
---

5점 만점으로 된 설문 조사 결과

In [51]:
import os,usecsv
import numpy as np

In [53]:
os.chdir(r'C:\Users\phl02\Desktop\P\doit_python_programming')

In [54]:
quest=np.array(usecsv.switch(usecsv.opencsv('quest.csv')))

In [55]:
quest

array([[1., 2., 1., 2., 2.],
       [1., 3., 2., 3., 2.],
       [1., 4., 3., 3., 3.],
       [2., 5., 4., 4., 4.],
       [2., 5., 6., 2., 5.],
       [3., 6., 4., 2., 5.],
       [3., 5., 4., 1., 6.],
       [3., 5., 5., 1., 3.]])

In [56]:
quest[quest>5]

array([6., 6., 6.])

In [57]:
quest[quest>5]=5

In [58]:
quest

array([[1., 2., 1., 2., 2.],
       [1., 3., 2., 3., 2.],
       [1., 4., 3., 3., 3.],
       [2., 5., 4., 4., 4.],
       [2., 5., 5., 2., 5.],
       [3., 5., 4., 2., 5.],
       [3., 5., 4., 1., 5.],
       [3., 5., 5., 1., 3.]])

In [59]:
usecsv.writecsv('resultcsv.csv',list(quest))

# 넘파이로 사업성 분석하기  
---

<span style="color:limegreen">**사업성 분석이란?**</span>  
이 사업을 했을 때 이익이나 손해가 어느 정도 나올지 따져보는 것 

**경제적 타당성의 개념**  
이 사업이 우리에게 비용 대비 얼마나 많은 효용을 가져다 줄 수 있는지를 나타내는 개념  
- 순현재가치: 할인된 현금 흐름의 값을 모두 더한 값을 말한다.  
- 내부수익률: 순현재가치를 0으로 만드는 할인율을 말한다.

- 재무적 타당성의 세부 지표  

|이름|공식|설명|
|---|---|---|
|비용(C)|$\sum C$|사업을 만드는 데 들어가는 모든 비용|
|수입(B)|$\sum B$|사업을 하면서 발생하는 이익|
|현금 흐름(CF)|CF=B-C|수입에서 비용을 제외한 금액|
|연차(n)|-|총 사업 기간|
|할인율(r)|-|미래의 현금 흐름을 현재 기준으로 환산할 때 적용하는 비율|
|현금 흐름의 현재 가치(PV)|$PV=\frac{CF_k}{(1+r)^k}$|할인율을 적용한 k년차 현금 흐름의 현재 가치|
|순현재가치(NPV)|$NPV=\sum\frac{CF_k}{(1+r)^k}$|투자 안의 매년 현재 가치(PV)를 다 더한 값, 0보다 크면 사업성이 있다고 해석|

### 자본의 현재 가치 구하기  
---

In [60]:
import numpy as np

In [61]:
discount=0.05 #할인율 5%
cashflow=100 #현금 흐름 100억원

In [63]:
def pv(n):
    return(cashflow/((1+discount)**n))

In [64]:
pv(1) #1년이 지난 후 자본의 현재 가치

95.23809523809524

In [65]:
pv(2) #2년이 지난 후 자본의 현재 가치

90.70294784580499

In [66]:
for i in range(20):
    print(pv(i))

100.0
95.23809523809524
90.70294784580499
86.3837598531476
82.27024747918819
78.35261664684589
74.62153966366274
71.06813301301213
67.6839362028687
64.46089162177971
61.39132535407592
58.46792890864373
55.68374181775592
53.03213506452945
50.506795299551854
48.101709809096995
45.811152199140004
43.62966876108571
41.5520654867483
39.57339570166504


### 놀이공원 사업의 사업성 분석하기  
---

건설회사 사장이 놀이공원을 여는 것이 꿈이다. 건설사업이 성공해서 이제는 놀이공원에 한번 도전해도 괜찮을 것 같다.  
건설회사 사장님이 모은 돈과 지금 가진 신용으로 이 놀이공원을 지을 수 있을지, 지었을 때 이익이 날지 손해가 날지 알고 싶다.

&#128528; 여기서는 실습의 편의를 위해 공사를 시작하는 시점을 1년 차로 가정, 일반적으로 운영 수입이 발생하는 시점을 기준  
&#128528; 가상의 사업을 분석하는 과정에서 분석 기간은 사업에 따라서 달라질 수 있다.

![KakaoTalk_20220612_152617234](https://user-images.githubusercontent.com/105963819/173220123-a68814cd-29d2-414b-bbbc-ca964de58565.jpg)


- 세부 지표 값 구하기

In [67]:
loss=[-750,-250] #1,2년 차
profit=[100]*18 #3년 차부터 
cf=loss+profit
cf

[-750,
 -250,
 100,
 100,
 100,
 100,
 100,
 100,
 100,
 100,
 100,
 100,
 100,
 100,
 100,
 100,
 100,
 100,
 100,
 100]

In [68]:
len(cf)

20

In [69]:
cashflow=np.array(cf)

- 순현재가치와 내부수익률 구하기

In [70]:
npv=np.npv(0.045,cashflow)

  npv=np.npv(0.045,cashflow)


In [71]:
npv

174.4011295118405

In [72]:
irr=np.irr(cashflow)

  irr=np.irr(cashflow)


In [73]:
irr

0.06434936937255586

- 핵심 지표 값 해석하기

순현재가치는 약 174.4억이고, 내부수익률은 6.4%정도가 나왔다.  
사실 재무적 타당성은 순현재가치나 내부수익률을 구하는 것보다 해석하는 일이 더 중요  
가정한 할인율은 4.5%였고, 6.4%는 4.5%보다 높기 때문에 수익성이 있다고 볼 수 있다.  
하지만 이자를 해마다 10%씩 내야 한다고 가정하면 다시 생각해야 한다.  
18년 동안 운영한다고 가정했을 때 내부수익룰이 6.4%이므로 10%보다 더 작다.  
현실에서는 할인율뿐만 아니라 여러 요소를 고려해서 분석해야 한다.

프로젝트의 가치는 174억으로서 이 정도 수익을 올릴 수 있다면. 이 사업은 순현재가치를 봤을 때도 사업성이 있는 것으로 판단

# 판다스로 데이터프레임 만들기  
---

데이터프레임이란?  
데이터를 쉽게 가공하게 도와주는 틀  
DataFrame()함수를 사용하면 딕셔너리형 자료를 판다스로 가공할 수 있는 데이터프레임으로 만들 수 있다.  

In [1]:
import pandas as pd

In [2]:
data={'name':['Mark','Jane','Chris','Ryan'],'age':[33,32,44,42],'score':[91.3,83.4,77.5,87.7]}

In [3]:
df=pd.DataFrame(data)

In [4]:
df

Unnamed: 0,name,age,score
0,Mark,33,91.3
1,Jane,32,83.4
2,Chris,44,77.5
3,Ryan,42,87.7


In [5]:
df.sum()

name     MarkJaneChrisRyan
age                    151
score                339.9
dtype: object

In [6]:
df.mean()

age      37.750
score    84.975
dtype: float64

In [7]:
df.age

0    33
1    32
2    44
3    42
Name: age, dtype: int64

In [8]:
df['age']

0    33
1    32
2    44
3    42
Name: age, dtype: int64

df.age 나 df['age']  결과는 같으나 가끔 첫 번째 방법은 오류가 날 수 있으니 두 번째 방법을 추천

### csv파일 불러와서 데이터프레임으로 만들기  
---

국토교통부는 아파트 실거래가를 매월 공개하고 있다. 누구나 연구 목적 등으로 이 자료를 내려받아서 사용할 수 있다.  

In [9]:
import re,os

In [10]:
os.chdir(r'C:\Users\phl02\Desktop\P\doit_python_programming')

In [12]:
df=pd.read_csv('apt.csv',encoding='cp949')

In [13]:
len(df)

42758

In [14]:
df.head()

Unnamed: 0,지역,번지,본번,부번,아파트,면적,계약년월,계약일,가격,층,건축년도,도로명
0,강원도 강릉시 견소동,202,202,0,송정한신,59.8,201910,4,10900,5,1997,경강로2539번길 8
1,강원도 강릉시 견소동,202,202,0,송정한신,116.175,201910,31,18500,10,1997,경강로2539번길 8
2,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.99,201910,5,25000,6,2005,경강로2539번길 22
3,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.99,201910,12,20600,3,2005,경강로2539번길 22
4,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.99,201910,20,20500,1,2005,경강로2539번길 22


In [15]:
df.tail()

Unnamed: 0,지역,번지,본번,부번,아파트,면적,계약년월,계약일,가격,층,건축년도,도로명
42753,충청북도 충주시 호암동,547-6,547,6,호반현대,59.76,201910,29,7000,3,1994,신촌2길 28
42754,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.68,201910,5,12000,15,2002,원호암5길 32
42755,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.68,201910,15,11000,7,2002,원호암5길 32
42756,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.68,201910,17,12000,14,2002,원호암5길 32
42757,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.68,201910,26,11200,11,2002,원호암5길 32


In [16]:
df.지역

0         강원도 강릉시 견소동
1         강원도 강릉시 견소동
2         강원도 강릉시 견소동
3         강원도 강릉시 견소동
4         강원도 강릉시 견소동
             ...     
42753    충청북도 충주시 호암동
42754    충청북도 충주시 호암동
42755    충청북도 충주시 호암동
42756    충청북도 충주시 호암동
42757    충청북도 충주시 호암동
Name: 지역, Length: 42758, dtype: object

면적의 단위는 1제곱미터, 가견의 단위는 1만 원

In [18]:
df[df.면적>130] #면적이 130이 넘는 데이터프레임 출력

Unnamed: 0,지역,번지,본번,부번,아파트,면적,계약년월,계약일,가격,층,건축년도,도로명
6,강원도 강릉시 교동,1982,1982,0,강릉교동롯데캐슬1단지,135.1727,201910,21,34300,9,2009,화부산로99번길 12
39,강원도 강릉시 남문동,183-2,183,2,삼익그린맨션,164.7540,201910,15,21000,12,1992,홍제로 7-17
334,강원도 속초시 금호동,629,629,0,보람레이크더하임,156.7600,201910,16,29500,1,2008,영랑호반길 115-13
433,강원도 원주시 개운동,01월 28일,28,1,원주힐스테이트,133.9912,201910,5,26000,16,2006,행구로 54
434,강원도 원주시 개운동,01월 28일,28,1,원주힐스테이트,137.4292,201910,31,24000,14,2006,행구로 54
...,...,...,...,...,...,...,...,...,...,...,...,...
42595,충청북도 충주시 문화동,2260,2260,0,럭키,156.7900,201910,21,15000,3,1993,중원대로 3379
42607,충청북도 충주시 안림동,1166,1166,0,엘리시아,136.1287,201910,19,18500,12,2007,국원초1길 48
42663,충청북도 충주시 연수동,1627,1627,0,연수힐스테이트,143.2109,201910,14,31500,13,2007,연수동산로 26
42736,충청북도 충주시 칠금동,626,626,0,삼일,143.5800,201910,20,18500,12,1996,금릉로 17


In [19]:
df.가격[df.면적>130] #가격만 보고 싶을 때

6        34300
39       21000
334      29500
433      26000
434      24000
         ...  
42595    15000
42607    18500
42663    31500
42736    18500
42737    16200
Name: 가격, Length: 1567, dtype: int64

In [23]:
df.가격[(df.면적>130)&(df.가격<20000)]

480      19000
481      17500
711      15000
861      15900
862      14900
927      13800
14171    19500
16143    17100
16584    19500
16585    18000
16785    14700
16786    16800
16787    16000
17126    18250
17276    15100
17651    17800
18028    19800
18067    16000
18091    15000
22085    17000
22144    16000
23069    19300
35386    17000
36733    14700
36753    17950
36859    17000
37554    19000
37726    13700
37788    19050
38076    16000
38365    19000
38440    15500
38557    18500
38724    15500
38810    15300
38811    14600
39487    12000
39958    18000
39959    18500
40353    19000
40360    19600
40680    12500
41173    14000
41376    17000
41447    18400
41578    13000
41617    17800
41693    18500
41881    16800
42589    19000
42595    15000
42607    18500
42736    18500
42737    16200
Name: 가격, dtype: int64

In [24]:
df.가격[(df.면적>130)|(df.가격<20000)]

0        10900
1        18500
6        34300
8        16200
11       17500
         ...  
42753     7000
42754    12000
42755    11000
42756    12000
42757    11200
Name: 가격, Length: 17117, dtype: int64

원하는 자료만 선택할 때 `loc`를 사용

In [25]:
df.loc[:10,['아파트','가격']] #아파트와 가격 자료만 10번까지 출력

Unnamed: 0,아파트,가격
0,송정한신,10900
1,송정한신,18500
2,송정해변신도브래뉴아파트,25000
3,송정해변신도브래뉴아파트,20600
4,송정해변신도브래뉴아파트,20500
5,강릉 교동 풍림아이원 아파트,29200
6,강릉교동롯데캐슬1단지,34300
7,강릉교동롯데캐슬2단지,32500
8,교동1주공,16200
9,교동1주공,21550


In [26]:
df.loc[:,['아파트','가격']][df.가격>40000]

Unnamed: 0,아파트,가격
382,속초청호아이파크,45800
541,무실e-편한세상,44600
592,원주반곡아이파크,40700
842,온의 롯데캐슬 스카이클래스,44000
843,온의 롯데캐슬 스카이클래스,42900
...,...,...
42364,신영지웰시티 1차,47700
42365,신영지웰시티 1차,46000
42366,신영지웰시티 1차,55800
42367,신영지웰시티 1차,67000


In [27]:
df['단가']=df.가격/df.면적

In [28]:
df.loc[:10,['아파트','가격','단가']]

Unnamed: 0,아파트,가격,단가
0,송정한신,10900,182.274247
1,송정한신,18500,159.242522
2,송정해변신도브래뉴아파트,25000,294.152253
3,송정해변신도브래뉴아파트,20600,242.381457
4,송정해변신도브래뉴아파트,20500,241.204848
5,강릉 교동 풍림아이원 아파트,29200,343.543962
6,강릉교동롯데캐슬1단지,34300,253.749463
7,강릉교동롯데캐슬2단지,32500,275.263703
8,교동1주공,16200,270.495909
9,교동1주공,21550,254.007544


- 데이터 정렬하는 방법  

`df.sort_values(by='열 이름') : 오름차순`  
`df.sort_values(by='열 이름',ascending=False) : 내림차순` 

In [29]:
df.sort_values(by='가격').loc[:,('가격','지역')]

Unnamed: 0,가격,지역
17024,600,경상북도 구미시 원평동
17022,700,경상북도 구미시 원평동
17637,750,경상북도 칠곡군 약목면 관호리
17031,800,경상북도 구미시 원평동
17027,800,경상북도 구미시 원평동
...,...,...
27036,373000,서울특별시 강남구 대치동
26805,376640,부산광역시 해운대구 우동
29946,415000,서울특별시 서초구 반포동
27061,461000,서울특별시 강남구 도곡동


In [30]:
df.sort_values(by='가격',ascending=False).loc[:,('가격','지역')]

Unnamed: 0,가격,지역
31258,485000,서울특별시 용산구 한남동
27061,461000,서울특별시 강남구 도곡동
29946,415000,서울특별시 서초구 반포동
26805,376640,부산광역시 해운대구 우동
27036,373000,서울특별시 강남구 대치동
...,...,...
17027,800,경상북도 구미시 원평동
17025,800,경상북도 구미시 원평동
17637,750,경상북도 칠곡군 약목면 관호리
17022,700,경상북도 구미시 원평동


In [31]:
df[df.가격>40000].sort_values(by='면적').loc[:,('가격','면적','지역')]

Unnamed: 0,가격,면적,지역
30111,90000,25.3284,서울특별시 성동구 성수동1가
27124,74000,28.2460,서울특별시 강남구 역삼동
27122,74500,28.2460,서울특별시 강남구 역삼동
27123,76000,28.2460,서울특별시 강남구 역삼동
29725,43500,30.0100,서울특별시 마포구 아현동
...,...,...,...
27118,245000,242.8200,서울특별시 강남구 역삼동
30002,206000,244.4200,서울특별시 서초구 서초동
10106,100000,244.6630,경기도 용인수지구 성복동
31501,240000,273.8200,서울특별시 중구 신당동


- 문자열 다루기  
---
`str.find()`를 사용하면 특정한 문자를 포함하는 열을 추출  

In [33]:
df.지역.str.find('강릉')

0        4
1        4
2        4
3        4
4        4
        ..
42753   -1
42754   -1
42755   -1
42756   -1
42757   -1
Name: 지역, Length: 42758, dtype: int64

**인덱스를 반환하고 없으면 -1**

In [35]:
dfF=df[df.지역.str.find('강릉')>-1]

In [36]:
dfF.mean()

본번               inf
부번      1.085106e+00
면적      7.047780e+01
계약년월    2.019100e+05
계약일     1.527128e+01
가격      1.541457e+04
층       7.420213e+00
건축년도    2.000463e+03
단가      2.099422e+02
dtype: float64

# 판다스로 통계 데이터 다루기  
---

데이터프레임으로 데이터를 가공하는 이유는 결국 통계 분석을 위해서

In [37]:
df2=pd.read_csv('survey.csv')

In [38]:
df2.head()

Unnamed: 0,sex,income,English,jobSatisfaction,stress
0,m,3000,500,5,5
1,f,4000,600,4,4
2,f,5000,700,3,2
3,m,6000,800,2,2
4,m,4000,700,2,5


In [39]:
df2.mean()

income             4304.217391
English             608.695652
jobSatisfaction       3.304348
stress                3.347826
dtype: float64

In [40]:
df2.income.mean()

4304.217391304348

In [41]:
df2.income.median()

4999.0

일일이 구해야 하는건 번거러운 일이므로 한 번에 보여주는 `describe()`를 사용

In [42]:
df2.describe()

Unnamed: 0,income,English,jobSatisfaction,stress
count,23.0,23.0,23.0,23.0
mean,4304.217391,608.695652,3.304348,3.347826
std,1019.478341,99.603959,1.25896,1.433644
min,3000.0,500.0,1.0,1.0
25%,3000.0,500.0,2.5,2.0
50%,4999.0,600.0,3.0,4.0
75%,5000.0,700.0,4.0,5.0
max,6000.0,800.0,5.0,5.0


In [43]:
df2.sex.value_counts() #빈도 분석

m    14
f     9
Name: sex, dtype: int64

In [44]:
df2.groupby(df2.sex).mean() #두 집단 평균구하기

Unnamed: 0_level_0,income,English,jobSatisfaction,stress
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
f,4333.111111,633.333333,3.666667,3.111111
m,4285.642857,592.857143,3.071429,3.5


In [45]:
from scipy import stats

싸이파이 패키지에서 stats 모듈만 임포트 

t검정은 두 집단의 평균을 비교할 때 사용

In [47]:
male=df2.income[df2.sex=='m']
female=df2.income[df2.sex=='f']

In [48]:
stats.ttest_ind(male,female)

Ttest_indResult(statistic=-0.10650308143428423, pvalue=0.9161940781163369)

p값이 0.916이므로 남성과 여성의 수입 평균은 차이가 없다고 해석할 수 있음

상관관계분석은 두 변수가 얼마나 관계가 있는지 알아보는 방법  
피어슨은 순위 척도일 때 사용하고 피어슨은 연속형 자료에서 사용

In [50]:
corr=df2.corr() #피어슨
corr

Unnamed: 0,income,English,jobSatisfaction,stress
income,1.0,0.599452,-0.040108,-0.13792
English,0.599452,1.0,-0.312051,0.073351
jobSatisfaction,-0.040108,-0.312051,1.0,0.165338
stress,-0.13792,0.073351,0.165338,1.0


In [51]:
df2.corr(method='spearman') #스피어만


Unnamed: 0,income,English,jobSatisfaction,stress
income,1.0,0.543705,-0.100683,-0.170584
English,0.543705,1.0,-0.309747,0.068223
jobSatisfaction,-0.100683,-0.309747,1.0,0.154982
stress,-0.170584,0.068223,0.154982,1.0


파일로 저장할 때 `to_csv()`를 사용

In [52]:
corr.to_csv('corr.csv')

- statsmodels 패키지로 회귀분석하기  
---

영어 점수와 직업 만족도사이에 인과관계가 있는지 분석

In [53]:
import statsmodels.formula.api as smf

`ols(formula='종속~독립',data=데이터프레임)`

In [54]:
model=smf.ols(formula='jobSatisfaction~English',data=df2)

In [55]:
result=model.fit()

In [56]:
print(result.summary())

                            OLS Regression Results                            
Dep. Variable:        jobSatisfaction   R-squared:                       0.097
Model:                            OLS   Adj. R-squared:                  0.054
Method:                 Least Squares   F-statistic:                     2.266
Date:                Mon, 13 Jun 2022   Prob (F-statistic):              0.147
Time:                        21:06:55   Log-Likelihood:                -36.243
No. Observations:                  23   AIC:                             76.49
Df Residuals:                      21   BIC:                             78.76
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      5.7052      1.615      3.532      0.0