### DataFrame Load & Save

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.read_csv('./data/users.csv')
print(df.columns)
df

Index(['id', 'first_name', 'last_name', 'email', 'gender', 'ip_address'], dtype='object')


Unnamed: 0,id,first_name,last_name,email,gender,ip_address
0,1,Norbie,Wrassell,nwrassell0@bbc.co.uk,Male,201.234.222.219
1,2,Tybalt,Covendon,tcovendon1@indiegogo.com,Male,90.113.205.35
2,3,Elyn,Volk,evolk2@umich.edu,Female,254.131.69.38
3,4,Todd,Carriage,tcarriage3@youku.com,Male,242.31.116.66
4,5,Pryce,Brookzie,pbrookzie4@dmoz.org,Agender,212.63.28.128
...,...,...,...,...,...,...
995,996,Allsun,McTeague,amcteaguern@moonfruit.com,Female,134.34.119.166
996,997,Viva,Epinoy,vepinoyro@cnbc.com,Female,93.2.144.250
997,998,Heall,Mallett,hmallettrp@google.it,Male,254.24.191.245
998,999,Conroy,Scandrett,cscandrettrq@cornell.edu,Male,150.254.219.221


In [3]:
# 확장자가 다르더라도 csv 데이터면 read_csv로 처리 가능
df = pd.read_csv('./data/users.txt')
df

Unnamed: 0,id,first_name,last_name,email,gender,ip_address
0,1,Norbie,Wrassell,nwrassell0@bbc.co.uk,Male,201.234.222.219
1,2,Tybalt,Covendon,tcovendon1@indiegogo.com,Male,90.113.205.35
2,3,Elyn,Volk,evolk2@umich.edu,Female,254.131.69.38
3,4,Todd,Carriage,tcarriage3@youku.com,Male,242.31.116.66
4,5,Pryce,Brookzie,pbrookzie4@dmoz.org,Agender,212.63.28.128
...,...,...,...,...,...,...
995,996,Allsun,McTeague,amcteaguern@moonfruit.com,Female,134.34.119.166
996,997,Viva,Epinoy,vepinoyro@cnbc.com,Female,93.2.144.250
997,998,Heall,Mallett,hmallettrp@google.it,Male,254.24.191.245
998,999,Conroy,Scandrett,cscandrettrq@cornell.edu,Male,150.254.219.221


In [5]:
# 구분자가 .가 아닌 다른 문자인 경우에도 sep 인자를 넘겨주면 read_csv로 처리 가능
df = pd.read_csv('./data/users.tsv',sep="\t")
df

Unnamed: 0,id,first_name,last_name,email,gender,ip_address
0,1,Norbie,Wrassell,nwrassell0@bbc.co.uk,Male,201.234.222.219
1,2,Tybalt,Covendon,tcovendon1@indiegogo.com,Male,90.113.205.35
2,3,Elyn,Volk,evolk2@umich.edu,Female,254.131.69.38
3,4,Todd,Carriage,tcarriage3@youku.com,Male,242.31.116.66
4,5,Pryce,Brookzie,pbrookzie4@dmoz.org,Agender,212.63.28.128
...,...,...,...,...,...,...
995,996,Allsun,McTeague,amcteaguern@moonfruit.com,Female,134.34.119.166
996,997,Viva,Epinoy,vepinoyro@cnbc.com,Female,93.2.144.250
997,998,Heall,Mallett,hmallettrp@google.it,Male,254.24.191.245
998,999,Conroy,Scandrett,cscandrettrq@cornell.edu,Male,150.254.219.221


In [6]:
df = pd.read_csv(
    './data/users_headless.csv',
    header=None,    # 첫 줄에 있는 데이터가 header가 되지 않도록 함
    names=['id','first_name','last_name','email','gender','ip_address']
    )
df

Unnamed: 0,id,first_name,last_name,email,gender,ip_address
0,1,Norbie,Wrassell,nwrassell0@bbc.co.uk,Male,201.234.222.219
1,2,Tybalt,Covendon,tcovendon1@indiegogo.com,Male,90.113.205.35
2,3,Elyn,Volk,evolk2@umich.edu,Female,254.131.69.38
3,4,Todd,Carriage,tcarriage3@youku.com,Male,242.31.116.66
4,5,Pryce,Brookzie,pbrookzie4@dmoz.org,Agender,212.63.28.128
...,...,...,...,...,...,...
995,996,Allsun,McTeague,amcteaguern@moonfruit.com,Female,134.34.119.166
996,997,Viva,Epinoy,vepinoyro@cnbc.com,Female,93.2.144.250
997,998,Heall,Mallett,hmallettrp@google.it,Male,254.24.191.245
998,999,Conroy,Scandrett,cscandrettrq@cornell.edu,Male,150.254.219.221


---

### HTML 문서 내 table Load

- 정적 웹 페이지 내 table 태그 부분만 추출해 DataFrame 객체로 변환 가능
- parsing 처리를 위한 lxml 패키지 필요

In [7]:

tables = pd.read_html('https://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%98%81%ED%99%94_%ED%9D%A5%ED%96%89_%EA%B8%B0%EB%A1%9D')
len(tables)
tables

[    순위            제목     감독      한국내 배급사         개봉일       관객수  \
 0    1          《명량》    김한민       CJ E&M  2014-07-30  17616141   
 1    2        《극한직업》    이병헌     CJ엔터테인먼트  2019-01-23  16266480   
 2    3  《신과함께: 죄와 벌》    김용화     롯데엔터테인먼트  2017-12-20  14414658   
 3    4        《국제시장》    윤제균       CJ E&M  2014-12-17  14265222   
 4    5  《어벤져스: 엔드게임》  루소 형제  월트디즈니컴퍼니코리아  2019-04-24  13977602   
 ..  ..           ...    ...          ...         ...       ...   
 62  63         《베를린》    류승완       CJ E&M  2013-01-30   7166688   
 63  64         《마스터》    조의석       CJ E&M  2016-12-21   7150586   
 64  65          《터널》    김성훈          쇼박스  2016-08-10   7120780   
 65  66        《어벤져스》  조스 휘던  월트디즈니컴퍼니코리아  2012-04-26   7087971   
 66  67      《인천상륙작전》    이재한       CJ E&M  2016-07-27   7051660   
 
                  기타  
 0   영화진흥위원회 발권통계 기준  
 1   영화진흥위원회 발권통계 기준  
 2   영화진흥위원회 발권통계 기준  
 3   영화진흥위원회 발권통계 기준  
 4   영화진흥위원회 발권통계 기준  
 ..              ...  
 62  영화진흥위원회 발권통계 기준  
 63  영화진흥위

In [8]:
movie_df = tables[0]
movie_df

Unnamed: 0,순위,제목,감독,한국내 배급사,개봉일,관객수,기타
0,1,《명량》,김한민,CJ E&M,2014-07-30,17616141,영화진흥위원회 발권통계 기준
1,2,《극한직업》,이병헌,CJ엔터테인먼트,2019-01-23,16266480,영화진흥위원회 발권통계 기준
2,3,《신과함께: 죄와 벌》,김용화,롯데엔터테인먼트,2017-12-20,14414658,영화진흥위원회 발권통계 기준
3,4,《국제시장》,윤제균,CJ E&M,2014-12-17,14265222,영화진흥위원회 발권통계 기준
4,5,《어벤져스: 엔드게임》,루소 형제,월트디즈니컴퍼니코리아,2019-04-24,13977602,영화진흥위원회 발권통계 기준
...,...,...,...,...,...,...,...
62,63,《베를린》,류승완,CJ E&M,2013-01-30,7166688,영화진흥위원회 발권통계 기준
63,64,《마스터》,조의석,CJ E&M,2016-12-21,7150586,영화진흥위원회 발권통계 기준
64,65,《터널》,김성훈,쇼박스,2016-08-10,7120780,영화진흥위원회 발권통계 기준
65,66,《어벤져스》,조스 휘던,월트디즈니컴퍼니코리아,2012-04-26,7087971,영화진흥위원회 발권통계 기준



### [실습] titanic 승객 데이터 활용
##### 컬럼 설명

- PassengerId - 승객 고유번호
- Survived - 생존유무(target 값) (0 = 사망, 1 = - 생존)
- Pclass - 티켓 클래스 (1 = 1st, 2 = 2nd, 3 = 3rd)
- Name - 탑승객 성명
- Sex - 성별 (male: 남성, female: 여성)
- Age - 나이(세)
- SibSp - 함께 탑승한 형제자매, 배우자 수 총합
- Parch - 함께 탑승한 부모, 자녀 수 총합
- Ticket - 티켓 넘버
- Fare - 탑승 요금
- Cabin - 객실 넘버
- Embarked - 탑승 항구 (C: Cherbourg, Q: - Queenstown, S: Southampton)

In [9]:
# titanic.csv 파일 로드
# titanic 데이터셋의 메타 데이터 확인

##### - 기초문제

1. 전체 승객 중 생존자의 수와 사망자의 수를 구하여 출력
2. 승객 나이의 평균 출력
3. 1등급 승객 중 운임이 가장 높은 승객의 이름 출력
4. 여성 승객의 수를 구하여 출력
5. 운임이 50 이상인 승객의 이름과 운임 출력
6. 나이가 18세 미만인 승객들의 생존율을 계산하여 출력
7. 2등급 객실에 탑승한 승객의 평균 운임을 계산하여 출력
8. 승객 중 나이가 가장 많은 사람의 나이와 이름을 출력
9. S 항구에서 탑승한 승객의 수를 출력
10. 3등급 객실에 탑승한 남성 승객 중 생존자의 수를 출력


##### 고급문제
1. 생존자(Survived)와 그렇지 않은 사람들의 Pclass(객실 등급)별 평균 나이를 각각 출력
2. SibSp(형제/배우자 수)가 3 이상인 승객들 중에서, Fare(운임) 상위 5명의 이름과 나이를 출력
3. 승객 중에서 Age 값이 결측치(NaN)인 사람들의 Embarked(탑승 항구)별 분포를 출력
4. 나이가 16세 미만이고, 혼자 탑승한(SibSp == 0 and Parch == 0) 승객의 이름과 성별, 생존 여부를 출력
5. 1등급(Pclass == 1) 객실에 탑승한 승객들 중에서, 운임(Fare)이 평균보다 높은 사람들의 이름과 나이, 운임을 출력
6. 나이(Age), 객실 등급(Pclass), 운임(Fare) 값에 결측치가 없는 승객들만 대상으로, 각 등급별 평균 운임과 중앙값 운임을 출력
7. 승객들의 Embarked 별 평균 나이를 계산하고, 가장 많은 승객이 탑승한 항구를 기준으로 생존율을 계산하여 출력
8. 승객 중에서 여성(Sex == 'female')이면서 30세 이상인 사람들의 생존율을 계산하여 출력
9. 동반한 형제 또는 배우자 수(SibSp)와 부모 또는 자녀 수(Parch)의 합이 3 이상인 승객들만을 대상으로, 그들의 생존율을 계산하여 출력
10. Cabin(객실 번호) 정보가 있는 승객들만을 대상으로, 그들의 생존율을 객실 등급별로 구분하여 계산하여 출력