# 3주 1강 : Pandas Basic
Date : 21.09.15

## 요약통계(Summary Statistics)

+ 퍼짐(spread) : 값들에 얼마나 많은 변동이 있는가
+ 꼬리(tail) : 최빈값(mode)에서 멀어질 때 확률이 얼마나 빨리 떨어지는가
+ 특이점(outlier) : 퍼짐과 꼬리를 통해 파악
+ 최빈값(mode) : 범주형 데이터에서 가장 많이 등장하는 범주

## 평균, 기대값

평균(Mean/Average) : 표본에서 구한 값

+ 산술평균 : 일반적인 Average                   [ A+B/2 ]
+ 기하평균 : 산술평균보다 언제나 작거나 같음      [ sqrt(A+B, 2)]
+ 조화평균 : 역수의 산술평균의 역수.             [ 2AB / A+B]

기대값(Expectation) : 샘플을 통한 모집단의 평균 값의 확률적인 예상치

+ Trimmed Mean : 가장 크거나 작은 값 일부를 지우고 평균을 계산하는 방법. 특이점(Outlier)를 줄이기 위해 사용하고 예를 들어 상하위 5% 제외하여 계산
+ Median : 중간값. 값이 짝수 일 때 두 값의 평균

일반화된 멱평균 : 멱함수로 평균을 일반화한 것. p=1 산술평균, p=-1 기하평균, p=0 극한으로 계산한 조화평균
일반화된 F평균 : 역함수가 존재, 일대일함수, 연속함수이어야 함. f(x) = x 산술평균, f(x) = log b X 기하평균, f(x) = 1/x 조화평균

## Sample Quantiles

+ Quartile : p를 1/4씩 나누는 경우
+ Percentile : p를 %단위로 나누는 경우

## 비대칭도(왜도, Skewness)

+ Positive Skewness: tail이 오른쪽(큰 값)에 있는 경우
+ Negative Skewness: tail이 왼 쪽(작은 값)에 있는 경우

## Effect Size 효과 크기

+ 어떤 현상의 크기를 정량적으로 측정하는 방법 ex) 인터넷 광고를 통한 매출액의 변화

## 1. DataFrame, Series

pandas 라이브러리와 nsfg 파일을 import 하여 사용한다

In [1]:
import pandas as pd
import nsfg
import numpy as np
import matplotlib.pyplot as plt

preg 를 정의한다. 2002FemPreg.tsv 파일을 참조하고 tab으로 seperate 한다.
정의한 preg를 불러올때는 head()

In [2]:
preg=pd.read_csv("./2002FemPreg.tsv", sep="\t")
preg.head()

Unnamed: 0,caseid,pregordr,howpreg_n,howpreg_p,moscurrp,nowprgdk,pregend1,pregend2,nbrnaliv,multbrth,...,laborfor_i,religion_i,metro_i,basewgt,adj_mod_basewgt,finalwgt,secu_p,sest,cmintvw,totalwgt_lb
0,1,1,,,,,6.0,,1.0,,...,0,0,0,3410.389399,3869.349602,6448.271112,2,9,,8.8125
1,1,2,,,,,6.0,,1.0,,...,0,0,0,3410.389399,3869.349602,6448.271112,2,9,,7.875
2,2,1,,,,,5.0,,3.0,5.0,...,0,0,0,7226.30174,8567.54911,12999.542264,2,12,,9.125
3,2,2,,,,,6.0,,1.0,,...,0,0,0,7226.30174,8567.54911,12999.542264,2,12,,7.0
4,2,3,,,,,6.0,,1.0,,...,0,0,0,7226.30174,8567.54911,12999.542264,2,12,,6.1875


preg의 columns(이름들)을 조회. [index]로 idx번째 값을 불러 올 수 있다. 총 244열

In [3]:
preg.columns

Index(['caseid', 'pregordr', 'howpreg_n', 'howpreg_p', 'moscurrp', 'nowprgdk',
       'pregend1', 'pregend2', 'nbrnaliv', 'multbrth',
       ...
       'laborfor_i', 'religion_i', 'metro_i', 'basewgt', 'adj_mod_basewgt',
       'finalwgt', 'secu_p', 'sest', 'cmintvw', 'totalwgt_lb'],
      dtype='object', length=244)

In [4]:
preg.columns[0]

'caseid'

pandas는 두 가지 데이터 클래스를 제공한다.

    1. DataFrame : 여러 개의 columns로 이루어진 자료형  ex) preg
    2. Series : 하나의 column만 있는 1차원적 자료형     ex) preg["pregordr"]

In [5]:
print(type(preg))
pregordr=preg["pregordr"]
print(type(pregordr))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


In [6]:
pregordr # preg["pregordr"] 은 13593개의 데이터를 가지고 있음. data type 은 int64

0        1
1        2
2        1
3        2
4        3
        ..
13588    1
13589    2
13590    3
13591    4
13592    5
Name: pregordr, Length: 13593, dtype: int64

In [7]:
pregordr[0] # [index]로 특정 데이터를 불러오는 것도 가능

1

In [8]:
pregordr[1:5] # Series[a:b] a부터 b-1 까지 슬라이싱 가능

1    2
2    1
3    2
4    3
Name: pregordr, dtype: int64

아래의 ["column"] / .column 둘 다 같은 방법

In [9]:
preg["outcome"].value_counts().sort_index()
preg.outcome.value_counts().sort_index()

1    9148
2    1862
3     120
4    1921
5     190
6     352
Name: outcome, dtype: int64

birthgwgt_lb 는 출산 후 몸무게를 파운드 단위로 집계한 것

In [10]:
preg.birthwgt_lb.value_counts().sort_index(0)

  preg.birthwgt_lb.value_counts().sort_index(0)


0.0        8
1.0       40
2.0       53
3.0       98
4.0      229
5.0      697
6.0     2223
7.0     3049
8.0     1889
9.0      623
10.0     132
11.0      26
12.0      10
13.0       3
14.0       3
15.0       1
Name: birthwgt_lb, dtype: int64

각 답변자의 caseid를 참조하여 응답자의 임신결과를 알려주는 dict

In [11]:
import nsfg

In [12]:
caseid=10229
preg_map=nsfg.MakePregMap(preg)
indices=preg_map[caseid]
preg.outcome[indices].values

array([4, 4, 4, 4, 4, 4, 1])

아래는 위 코드의 동작 방식. index는 임신 순서를 의미하고 결과값 4는 유산 / 1은 정상출산

In [13]:
from collections import defaultdict
preg_map2 = defaultdict(list)
for index, caseid in preg.caseid.iteritems():
    preg_map2[caseid].append(index)
caseid=1000
indices=preg_map2[caseid]
preg.outcome[indices].values

array([1, 1, 2, 1])

## 2. Exercises

In [14]:
preg.birthord.value_counts

<bound method IndexOpsMixin.value_counts of 0        1.0
1        2.0
2        1.0
3        2.0
4        3.0
        ... 
13588    1.0
13589    NaN
13590    NaN
13591    2.0
13592    3.0
Name: birthord, Length: 13593, dtype: float64>

birthord의 값 중 Not a Number를 isnull() 로 검사하고 sum()을 통해 카운팅해줌

In [15]:
preg.birthord.isnull().sum()

4445

In [16]:
preg.prglngth.value_counts().sort_index() # 임신기간을 나타내는 prglngth를 고르고 값을 센다 

0       15
1        9
2       78
3      151
4      412
5      181
6      543
7      175
8      409
9      594
10     137
11     202
12     170
13     446
14      29
15      39
16      44
17     253
18      17
19      34
20      18
21      37
22     147
23      12
24      31
25      15
26     117
27       8
28      38
29      23
30     198
31      29
32     122
33      50
34      60
35     357
36     329
37     457
38     609
39    4744
40    1120
41     591
42     328
43     148
44      46
45      10
46       1
47       1
48       7
50       2
Name: prglngth, dtype: int64

In [17]:
preg.totalwgt_lb.mean() # mean()을 통해 산술평균을 계산함

7.265628457623368

아래의 두 방법으로 파운드 단위를 킬로그람 단위로 변경 가능함.

In [18]:
def lb_to_kg(wgt_lb):
    return wgt_lb*0.45359237
preg["totalwgt_kg"]=preg.totalwgt_lb.apply(lb_to_kg)

In [19]:
preg["totalwgt_kg2"]=preg.totalwgt_lb * 0.45359237

In [20]:
preg[["totalwgt_kg", "totalwgt_kg2", "totalwgt_lb"]]

Unnamed: 0,totalwgt_kg,totalwgt_kg2,totalwgt_lb
0,3.997283,3.997283,8.8125
1,3.572040,3.572040,7.8750
2,4.139030,4.139030,9.1250
3,3.175147,3.175147,7.0000
4,2.806603,2.806603,6.1875
...,...,...,...
13588,2.806603,2.806603,6.1875
13589,,,
13590,,,
13591,3.401943,3.401943,7.5000


In [21]:
import nsfg
resp = nsfg.ReadFemResp
resp = pd.read_csv("./2002FemResp.tsv", sep="\t")

In [22]:
resp.head() #위 다섯 줄을 불러옴 resp[0:5] 와 동일

Unnamed: 0,caseid,rscrinf,rdormres,rostscrn,rscreenhisp,rscreenrace,age_a,age_r,cmbirth,agescrn,...,pubassis_i,basewgt,adj_mod_basewgt,finalwgt,secu_r,sest,cmintvw,cmlstyr,screentime,intvlngth
0,2298,1,5,5,1,5.0,27,27,902,27,...,0,3247.916977,5123.759559,5556.717241,2,18,1234,1222,18:26:36,110.492667
1,5012,1,5,1,5,5.0,42,42,718,42,...,0,2335.279149,2846.79949,4744.19135,2,18,1233,1221,16:30:59,64.294
2,11586,1,5,1,5,5.0,43,43,708,43,...,0,2335.279149,2846.79949,4744.19135,2,18,1234,1222,18:19:09,75.149167
3,6794,5,5,4,1,5.0,15,15,1042,15,...,0,3783.152221,5071.464231,5923.977368,2,18,1234,1222,15:54:43,28.642833
4,616,1,5,4,1,5.0,20,20,991,20,...,0,5341.329968,6437.335772,7229.128072,2,18,1233,1221,14:19:44,69.502667


`resp`에서 `age_r` column 을 골라서 값을 프린트 해 보세요. 가장 나이가 많거나 어린 사람의 연령은 어떻게 되나요?

In [23]:
resp.age_r.value_counts().sort_index() # age_r의 유효한 값을 추출 한 후 정렬. 15세~44세

15    217
16    223
17    234
18    235
19    241
20    258
21    267
22    287
23    282
24    269
25    267
26    260
27    255
28    252
29    262
30    292
31    278
32    273
33    257
34    255
35    262
36    266
37    271
38    256
39    215
40    256
41    250
42    215
43    253
44    235
Name: age_r, dtype: int64

`caseid`를 사용해서 `resp`와 `preg`를 매칭할 수 있습니다. 예를 들어서 `resp`에서 2298번 답변자의 값을 조회하려면

In [24]:
resp[resp["caseid"]==2298]

Unnamed: 0,caseid,rscrinf,rdormres,rostscrn,rscreenhisp,rscreenrace,age_a,age_r,cmbirth,agescrn,...,pubassis_i,basewgt,adj_mod_basewgt,finalwgt,secu_r,sest,cmintvw,cmlstyr,screentime,intvlngth
0,2298,1,5,5,1,5.0,27,27,902,27,...,0,3247.916977,5123.759559,5556.717241,2,18,1234,1222,18:26:36,110.492667


In [25]:
preg[preg.caseid==2298]

Unnamed: 0,caseid,pregordr,howpreg_n,howpreg_p,moscurrp,nowprgdk,pregend1,pregend2,nbrnaliv,multbrth,...,metro_i,basewgt,adj_mod_basewgt,finalwgt,secu_p,sest,cmintvw,totalwgt_lb,totalwgt_kg,totalwgt_kg2
2610,2298,1,,,,,6.0,,1.0,,...,0,3247.916977,5123.759559,5556.717241,2,18,,6.875,3.118448,3.118448
2611,2298,2,,,,,6.0,,1.0,,...,0,3247.916977,5123.759559,5556.717241,2,18,,5.5,2.494758,2.494758
2612,2298,3,,,,,6.0,,1.0,,...,0,3247.916977,5123.759559,5556.717241,2,18,,4.1875,1.899418,1.899418
2613,2298,4,,,,,6.0,,1.0,,...,0,3247.916977,5123.759559,5556.717241,2,18,,6.875,3.118448,3.118448


## Quiz 1. 1번 답변자의 나이는?

In [26]:
resp[resp.caseid==1].age_r

1069    44
Name: age_r, dtype: int64

## Quiz 2. 2298번 답변자는 얼마나 오래 임신기간을 유지했나요? 

In [27]:
preg[preg.caseid==2298].prglngth.max()

40

## Quiz 3. 5012번 환자의 첫 아이의 `birthwgt` 는 몇 파운드인가요?

In [28]:
preg[preg.caseid==5012].birthwgt_lb

5515    6.0
Name: birthwgt_lb, dtype: float64

## Quiz 4. `prglngth`으로 첫째 아이와 첫째가 아닌 아이에 대한 평균임신기간을 계산해보세요.`birthord`에 몇번째 아이인지 나와있습니다



In [29]:
preg[preg.birthord==1]["prglngth"].mean()

38.60095173351461

In [30]:
preg[preg.birthord>1]["prglngth"].mean()

38.52291446673706