In [19]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [20]:
!cd /content/drive/MyDrive/Colab\ Notebooks/github/Statistics

/content/drive/MyDrive/Colab Notebooks/github/Statistics


# 2주 1강: Pandas 기초

Allen B. Downey의 http://thinkstats2.com 코드를 참조했습니다.

이번 강의는 pandas를 쓰는 가장 기조적인 방법에 대해서 이야기하고자 합니다.

In [26]:
import pandas as pd
import nsfg

nsfg는 National Survey of Family Growth의 약자입니다. 

저희는 교과서 저자이신 Allen B. Downey 교수님이 NSFG 데이터를 미리 받아서 정제해둔 데이터를 사용합니다.


## NSFG 데이터를 읽어봅시다
nsfg.py에 아래의 함수들이 정의되어 있습니다
Read NSFG data into a Pandas DataFrame.

In [27]:
# preg = nsfg.ReadFemPreg() 
# 위는 교과서에 예제에 나오는 파일을 읽는 함수입니다.
# 꼭 dct파일을 쓸 이유가 없으므로, tsv형태로 변환된 데이터를 사용합니다 (아래 코드 사용). 
# preg.to_csv("./2002FemPreg.tsv", sep = "\t", index = None)

preg = pd.read_csv("./2002FemPreg.tsv", sep = "\t")
preg.head()

Unnamed: 0,caseid,pregordr,howpreg_n,howpreg_p,moscurrp,nowprgdk,pregend1,pregend2,nbrnaliv,multbrth,...,laborfor_i,religion_i,metro_i,basewgt,adj_mod_basewgt,finalwgt,secu_p,sest,cmintvw,totalwgt_lb
0,1,1,,,,,6.0,,1.0,,...,0,0,0,3410.389399,3869.349602,6448.271112,2,9,,8.8125
1,1,2,,,,,6.0,,1.0,,...,0,0,0,3410.389399,3869.349602,6448.271112,2,9,,7.875
2,2,1,,,,,5.0,,3.0,5.0,...,0,0,0,7226.30174,8567.54911,12999.542264,2,12,,9.125
3,2,2,,,,,6.0,,1.0,,...,0,0,0,7226.30174,8567.54911,12999.542264,2,12,,7.0
4,2,3,,,,,6.0,,1.0,,...,0,0,0,7226.30174,8567.54911,12999.542264,2,12,,6.1875


column의 이름들을 조회합니다

In [41]:
preg.columns 

Index(['caseid', 'pregordr', 'howpreg_n', 'howpreg_p', 'moscurrp', 'nowprgdk',
       'pregend1', 'pregend2', 'nbrnaliv', 'multbrth',
       ...
       'laborfor_i', 'religion_i', 'metro_i', 'basewgt', 'adj_mod_basewgt',
       'finalwgt', 'secu_p', 'sest', 'cmintvw', 'totalwgt_lb'],
      dtype='object', length=244)

index에 맞는 column의 이름을 조회합니다

In [42]:
preg.columns[1] # 1번째 column의 이름을 조회합니다

'pregordr'

Pandas는 크게 2가지의 class를 제공합니다
1. DataFrame: 여러개의 column으로 되어 있는 자료형
2. Series: 1개의 column만 있는 1차원 자료형 

In [30]:
print(type(preg))
pregordr = preg['pregordr']
print(type(pregordr))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


한 column을 출력해봅시다

In [31]:
pregordr # 아래에 shell의 내용이 뜹니다

0        1
1        2
2        1
3        2
4        3
        ..
13588    1
13589    2
13590    3
13591    4
13592    5
Name: pregordr, Length: 13593, dtype: int64

Select a single element from a column.

In [32]:
pregordr[0]

1

한 column의 일부를 잘라오는 방법은 아래와 같습니다. [a:b] 는 a, a+1, ..., b-1 까지를 리턴해줍니다.

In [33]:
pregordr[2:5]

2    1
3    2
4    3
Name: pregordr, dtype: int64

dot을 통해서 숫자를 셀 수 있습니다.

In [35]:
pregordr = preg.pregordr

0        1
1        2
2        1
3        2
4        3
        ..
13588    1
13589    2
13590    3
13591    4
13592    5
Name: pregordr, Length: 13593, dtype: int64


한 column을 정해서 숫자를 세 봅시다.

In [36]:
preg.outcome.value_counts().sort_index() # 이런 식으로 .을 통해서 column을 조회할 수도 있고

1    9148
2    1862
3     120
4    1921
5     190
6     352
Name: outcome, dtype: int64

In [37]:
preg["outcome"].value_counts().sort_index() # 이런 식으로 [] 을 통해서 조회할 수도 있습니다. 

1    9148
2    1862
3     120
4    1921
5     190
6     352
Name: outcome, dtype: int64

`birthwgt_lb`라는 변수도 조회해봅시다

In [38]:
preg.birthwgt_lb.value_counts().sort_index()

0.0        8
1.0       40
2.0       53
3.0       98
4.0      229
5.0      697
6.0     2223
7.0     3049
8.0     1889
9.0      623
10.0     132
11.0      26
12.0      10
13.0       3
14.0       3
15.0       1
Name: birthwgt_lb, dtype: int64

각 답변자의 `caseid`를 집어넣으면 응답자의 임신 결과를 리스트로 출력하는 dict를 만들어봅시다.

In [39]:
caseid = 10229
preg_map = nsfg.MakePregMap(preg)
indices = preg_map[caseid]
preg.outcome[indices].values

array([4, 4, 4, 4, 4, 4, 1])

In [40]:
from collections import defaultdict
preg_map2 = defaultdict(list) # 위의 함수는 이런 식으로 작동합니다
for index, caseid in preg.caseid.iteritems():
    preg_map2[caseid].append(index)
    # index는 전체에서의 임신 순서입니다.
caseid = 10229
indices = preg_map2[caseid]
preg.outcome[indices].values

array([4, 4, 4, 4, 4, 4, 1])

4는 유산, 1은 정상 출산을 의미합니다...

## Exercises

preg `DataFrame`에서 `birthord` column을 고르고, value count를 프린트해보세요. 그리고 codebook의 결과와 비교해보세요 [codebook](http://www.icpsr.umich.edu/nsfg6/Controller?displayPage=labelDetails&fileCode=PREG&section=A&subSec=8016&srtLabel=611933)

In [43]:
preg["birthord"].value_counts()

1.0     4413
2.0     2874
3.0     1234
4.0      421
5.0      126
6.0       50
7.0       20
8.0        7
9.0        2
10.0       1
Name: birthord, dtype: int64

nan (not a number)를 카운트하기 위해서 `isnull`이라는 함수를 사용할 수 있습니다
We can also use `isnull` to count the number of nans.

In [44]:
preg.birthord.isnull().sum()

4445

`prglngth` column을 고르고, 값을 세보세요. 그리고 이 값을 codebook과 비교해보세요: [codebook](http://www.icpsr.umich.edu/nsfg6/Controller?displayPage=labelDetails&fileCode=PREG&section=A&subSec=8016&srtLabel=611931)

In [45]:
preg["prglngth"].value_counts().sort_index()

0       15
1        9
2       78
3      151
4      412
5      181
6      543
7      175
8      409
9      594
10     137
11     202
12     170
13     446
14      29
15      39
16      44
17     253
18      17
19      34
20      18
21      37
22     147
23      12
24      31
25      15
26     117
27       8
28      38
29      23
30     198
31      29
32     122
33      50
34      60
35     357
36     329
37     457
38     609
39    4744
40    1120
41     591
42     328
43     148
44      46
45      10
46       1
47       1
48       7
50       2
Name: prglngth, dtype: int64

평균을 계산하기 위해서는 `mean()` 을 사용합니다

In [46]:
preg.totalwgt_lb.mean()

7.265628457623368

`totalwgt_kg` column을 만들고, `totalwgt_lb`의 파운드로 되어있는 무게를 kg으로 변환해서 저장하세요. 

In [47]:
def lb2kg(weightinlb):
    return 0.45359237 * weightinlb
preg["totalwgt_kg"] = preg.totalwgt_lb.apply(lb2kg)

In [50]:
preg["totalwgt_kg2"] = preg.totalwgt_lb * 0.45359237

In [51]:
preg[["totalwgt_kg", "totalwgt_kg2", "totalwgt_lb"]]

Unnamed: 0,totalwgt_kg,totalwgt_kg2,totalwgt_lb
0,3.997283,3.997283,8.8125
1,3.572040,3.572040,7.8750
2,4.139030,4.139030,9.1250
3,3.175147,3.175147,7.0000
4,2.806603,2.806603,6.1875
...,...,...,...
13588,2.806603,2.806603,6.1875
13589,,,
13590,,,
13591,3.401943,3.401943,7.5000


In [52]:
# resp = nsfg.ReadFemResp() 
resp = pd.read_csv("./2002FemResp.tsv", sep = "\t")

`DataFrame` 에는 `head` 을 통해 첫 5개 줄을 읽어오는 기능이 있습니다

In [53]:
resp.head()

Unnamed: 0,caseid,rscrinf,rdormres,rostscrn,rscreenhisp,rscreenrace,age_a,age_r,cmbirth,agescrn,...,pubassis_i,basewgt,adj_mod_basewgt,finalwgt,secu_r,sest,cmintvw,cmlstyr,screentime,intvlngth
0,2298,1,5,5,1,5.0,27,27,902,27,...,0,3247.916977,5123.759559,5556.717241,2,18,1234,1222,18:26:36,110.492667
1,5012,1,5,1,5,5.0,42,42,718,42,...,0,2335.279149,2846.79949,4744.19135,2,18,1233,1221,16:30:59,64.294
2,11586,1,5,1,5,5.0,43,43,708,43,...,0,2335.279149,2846.79949,4744.19135,2,18,1234,1222,18:19:09,75.149167
3,6794,5,5,4,1,5.0,15,15,1042,15,...,0,3783.152221,5071.464231,5923.977368,2,18,1234,1222,15:54:43,28.642833
4,616,1,5,4,1,5.0,20,20,991,20,...,0,5341.329968,6437.335772,7229.128072,2,18,1233,1221,14:19:44,69.502667


In [54]:
resp[0:5] # 사실 이것과 동일합니다

Unnamed: 0,caseid,rscrinf,rdormres,rostscrn,rscreenhisp,rscreenrace,age_a,age_r,cmbirth,agescrn,...,pubassis_i,basewgt,adj_mod_basewgt,finalwgt,secu_r,sest,cmintvw,cmlstyr,screentime,intvlngth
0,2298,1,5,5,1,5.0,27,27,902,27,...,0,3247.916977,5123.759559,5556.717241,2,18,1234,1222,18:26:36,110.492667
1,5012,1,5,1,5,5.0,42,42,718,42,...,0,2335.279149,2846.79949,4744.19135,2,18,1233,1221,16:30:59,64.294
2,11586,1,5,1,5,5.0,43,43,708,43,...,0,2335.279149,2846.79949,4744.19135,2,18,1234,1222,18:19:09,75.149167
3,6794,5,5,4,1,5.0,15,15,1042,15,...,0,3783.152221,5071.464231,5923.977368,2,18,1234,1222,15:54:43,28.642833
4,616,1,5,4,1,5.0,20,20,991,20,...,0,5341.329968,6437.335772,7229.128072,2,18,1233,1221,14:19:44,69.502667


`resp`에서 `age_r` column 을 골라서 값을 프린트 해 보세요. 가장 나이가 많거나 어린 사람의 연령은 어떻게 되나요?

In [61]:
# 직접 해보세요
resp.age_r.value_counts().sort_index()


15    217
16    223
17    234
18    235
19    241
20    258
21    267
22    287
23    282
24    269
25    267
26    260
27    255
28    252
29    262
30    292
31    278
32    273
33    257
34    255
35    262
36    266
37    271
38    256
39    215
40    256
41    250
42    215
43    253
44    235
Name: age_r, dtype: int64

`caseid`를 사용해서 `resp`와 `preg`를 매칭할 수 있습니다. 예를 들어서 `resp`에서 2298번 답변자의 값을 조회하려면

In [63]:
resp[resp.caseid==2298]

Unnamed: 0,caseid,rscrinf,rdormres,rostscrn,rscreenhisp,rscreenrace,age_a,age_r,cmbirth,agescrn,...,pubassis_i,basewgt,adj_mod_basewgt,finalwgt,secu_r,sest,cmintvw,cmlstyr,screentime,intvlngth
0,2298,1,5,5,1,5.0,27,27,902,27,...,0,3247.916977,5123.759559,5556.717241,2,18,1234,1222,18:26:36,110.492667


`preg` 에서 해당 사람의 값을 출력하려면 

In [64]:
preg[preg.caseid==2298]

Unnamed: 0,caseid,pregordr,howpreg_n,howpreg_p,moscurrp,nowprgdk,pregend1,pregend2,nbrnaliv,multbrth,...,metro_i,basewgt,adj_mod_basewgt,finalwgt,secu_p,sest,cmintvw,totalwgt_lb,totalwgt_kg,totalwgt_kg2
2610,2298,1,,,,,6.0,,1.0,,...,0,3247.916977,5123.759559,5556.717241,2,18,,6.875,3.118448,3.118448
2611,2298,2,,,,,6.0,,1.0,,...,0,3247.916977,5123.759559,5556.717241,2,18,,5.5,2.494758,2.494758
2612,2298,3,,,,,6.0,,1.0,,...,0,3247.916977,5123.759559,5556.717241,2,18,,4.1875,1.899418,1.899418
2613,2298,4,,,,,6.0,,1.0,,...,0,3247.916977,5123.759559,5556.717241,2,18,,6.875,3.118448,3.118448


1번 답변자의 나이는 몇살인가요?

In [65]:
resp[resp["caseid"] == 1]["age_r"]

1069    44
Name: age_r, dtype: int64

2298번 답변자는 얼마나 오래 임신기간을 유지했나요? 

In [83]:
# 직접 해보세요
preg[preg.caseid == 2298]["prglngth"].max()
#resp[resp["caseid"] == 2298]


40

5012번 환자의 첫 아이의 `birthwgt` 는 몇 파운드인가요?

In [91]:
# 직접 해보세요
preg[preg.caseid == 5012]["birthwgt_lb"]

5515    6.0
Name: birthwgt_lb, dtype: float64

통상적으로 첫 째 아이가 더 늦게 태어난다는 속설이 있습니다. 
이를 확인하기 위해서 `prglngth`으로 첫째 아이와 첫째가 아닌 아이에 대한 평균임신기간을 계산해보세요.
`birthord`에 몇번째 아이인지 나와있습니다



In [97]:
# 직접 해보세요
preg[preg.birthord == 1]["prglngth"].mean()

38.60095173351461

In [98]:
preg[preg.birthord != 1]["prglngth"].mean()

25.17124183006536