# DataFrame Load & Save

In [2]:
import numpy as np
import pandas as pd

---
### read_csv

In [None]:
df = pd.read_csv('./data/users.csv') # csv는 ,를 기준으로 데이터를 구분
print(df.columns)
df

Index(['id', 'first_name', 'last_name', 'email', 'gender', 'ip_address'], dtype='object')


Unnamed: 0,id,first_name,last_name,email,gender,ip_address
0,1,Norbie,Wrassell,nwrassell0@bbc.co.uk,Male,201.234.222.219
1,2,Tybalt,Covendon,tcovendon1@indiegogo.com,Male,90.113.205.35
2,3,Elyn,Volk,evolk2@umich.edu,Female,254.131.69.38
3,4,Todd,Carriage,tcarriage3@youku.com,Male,242.31.116.66
4,5,Pryce,Brookzie,pbrookzie4@dmoz.org,Agender,212.63.28.128
...,...,...,...,...,...,...
995,996,Allsun,McTeague,amcteaguern@moonfruit.com,Female,134.34.119.166
996,997,Viva,Epinoy,vepinoyro@cnbc.com,Female,93.2.144.250
997,998,Heall,Mallett,hmallettrp@google.it,Male,254.24.191.245
998,999,Conroy,Scandrett,cscandrettrq@cornell.edu,Male,150.254.219.221


In [None]:
df = pd.read_csv('./data/users.txt') # txt 파일도 csv 파일과 같은 데이터의 형태이기 때문에 read_csv 함수로 불러올 수 있음
df

Unnamed: 0,id,first_name,last_name,email,gender,ip_address
0,1,Norbie,Wrassell,nwrassell0@bbc.co.uk,Male,201.234.222.219
1,2,Tybalt,Covendon,tcovendon1@indiegogo.com,Male,90.113.205.35
2,3,Elyn,Volk,evolk2@umich.edu,Female,254.131.69.38
3,4,Todd,Carriage,tcarriage3@youku.com,Male,242.31.116.66
4,5,Pryce,Brookzie,pbrookzie4@dmoz.org,Agender,212.63.28.128
...,...,...,...,...,...,...
995,996,Allsun,McTeague,amcteaguern@moonfruit.com,Female,134.34.119.166
996,997,Viva,Epinoy,vepinoyro@cnbc.com,Female,93.2.144.250
997,998,Heall,Mallett,hmallettrp@google.it,Male,254.24.191.245
998,999,Conroy,Scandrett,cscandrettrq@cornell.edu,Male,150.254.219.221


In [None]:
# 구분자가 ,가 아닌 다른 문자인 경우에도 sep인자를 넘겨주면 read_csv로 처리 가능
df = pd.read_csv('./data/users.tsv', sep='\t')
df

Unnamed: 0,id,first_name,last_name,email,gender,ip_address
0,1,Norbie,Wrassell,nwrassell0@bbc.co.uk,Male,201.234.222.219
1,2,Tybalt,Covendon,tcovendon1@indiegogo.com,Male,90.113.205.35
2,3,Elyn,Volk,evolk2@umich.edu,Female,254.131.69.38
3,4,Todd,Carriage,tcarriage3@youku.com,Male,242.31.116.66
4,5,Pryce,Brookzie,pbrookzie4@dmoz.org,Agender,212.63.28.128
...,...,...,...,...,...,...
995,996,Allsun,McTeague,amcteaguern@moonfruit.com,Female,134.34.119.166
996,997,Viva,Epinoy,vepinoyro@cnbc.com,Female,93.2.144.250
997,998,Heall,Mallett,hmallettrp@google.it,Male,254.24.191.245
998,999,Conroy,Scandrett,cscandrettrq@cornell.edu,Male,150.254.219.221


In [None]:
# 첫 줄에 column label이 없는 데이터
df = pd.read_csv(
    './data/users_headless.csv',
    header=None, # 첫 줄에 있는 데이터가 header가 되지 않도록 함
    names = ['id','first_name','last_name','email','gender','ip_address']
    )
df

Unnamed: 0,id,first_name,last_name,email,gender,ip_address
0,1,Norbie,Wrassell,nwrassell0@bbc.co.uk,Male,201.234.222.219
1,2,Tybalt,Covendon,tcovendon1@indiegogo.com,Male,90.113.205.35
2,3,Elyn,Volk,evolk2@umich.edu,Female,254.131.69.38
3,4,Todd,Carriage,tcarriage3@youku.com,Male,242.31.116.66
4,5,Pryce,Brookzie,pbrookzie4@dmoz.org,Agender,212.63.28.128
...,...,...,...,...,...,...
995,996,Allsun,McTeague,amcteaguern@moonfruit.com,Female,134.34.119.166
996,997,Viva,Epinoy,vepinoyro@cnbc.com,Female,93.2.144.250
997,998,Heall,Mallett,hmallettrp@google.it,Male,254.24.191.245
998,999,Conroy,Scandrett,cscandrettrq@cornell.edu,Male,150.254.219.221


In [9]:
df.info() #메타데이터 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          1000 non-null   int64 
 1   first_name  1000 non-null   object
 2   last_name   1000 non-null   object
 3   email       1000 non-null   object
 4   gender      1000 non-null   object
 5   ip_address  1000 non-null   object
dtypes: int64(1), object(5)
memory usage: 47.0+ KB


---
### to_csv

In [None]:
# dataframe을 csv 파일로 변환하기
df.to_csv('./data/users2.csv') # 기본값: index=True, header=True

In [None]:
df.to_csv('./data/users2.csv', index=False) # 맨 앞 인덱스 없어짐

In [None]:
df.to_csv('./data/users2.csv', index=False, header=False) # header 없어짐

---
### html 문서 내 table load

- 정적 웹 페이지 내 table 태그 부분만 추출해 Dataframe 객체로 변환 가능
- parsing 처리를 위한 lxml 패키지 필요

In [None]:
#!pip install lxml



In [None]:
tables = pd.read_html('https://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%98%81%ED%99%94_%ED%9D%A5%ED%96%89_%EA%B8%B0%EB%A1%9D')
len(tables)

[    순위            제목     감독      한국내 배급사         개봉일       관객수  \
 0    1          《명량》    김한민       CJ E&M  2014-07-30  17616141   
 1    2        《극한직업》    이병헌     CJ엔터테인먼트  2019-01-23  16266480   
 2    3  《신과함께: 죄와 벌》    김용화     롯데엔터테인먼트  2017-12-20  14414658   
 3    4        《국제시장》    윤제균       CJ E&M  2014-12-17  14265222   
 4    5  《어벤져스: 엔드게임》  루소 형제  월트디즈니컴퍼니코리아  2019-04-24  13977602   
 ..  ..           ...    ...          ...         ...       ...   
 62  63         《베를린》    류승완       CJ E&M  2013-01-30   7166688   
 63  64         《마스터》    조의석       CJ E&M  2016-12-21   7150586   
 64  65          《터널》    김성훈          쇼박스  2016-08-10   7120780   
 65  66        《어벤져스》  조스 휘던  월트디즈니컴퍼니코리아  2012-04-26   7087971   
 66  67      《인천상륙작전》    이재한       CJ E&M  2016-07-27   7051660   
 
                  기타  
 0   영화진흥위원회 발권통계 기준  
 1   영화진흥위원회 발권통계 기준  
 2   영화진흥위원회 발권통계 기준  
 3   영화진흥위원회 발권통계 기준  
 4   영화진흥위원회 발권통계 기준  
 ..              ...  
 62  영화진흥위원회 발권통계 기준  
 63  영화진흥위

In [18]:
movie_df = tables[0]
movie_df

Unnamed: 0,순위,제목,감독,한국내 배급사,개봉일,관객수,기타
0,1,《명량》,김한민,CJ E&M,2014-07-30,17616141,영화진흥위원회 발권통계 기준
1,2,《극한직업》,이병헌,CJ엔터테인먼트,2019-01-23,16266480,영화진흥위원회 발권통계 기준
2,3,《신과함께: 죄와 벌》,김용화,롯데엔터테인먼트,2017-12-20,14414658,영화진흥위원회 발권통계 기준
3,4,《국제시장》,윤제균,CJ E&M,2014-12-17,14265222,영화진흥위원회 발권통계 기준
4,5,《어벤져스: 엔드게임》,루소 형제,월트디즈니컴퍼니코리아,2019-04-24,13977602,영화진흥위원회 발권통계 기준
...,...,...,...,...,...,...,...
62,63,《베를린》,류승완,CJ E&M,2013-01-30,7166688,영화진흥위원회 발권통계 기준
63,64,《마스터》,조의석,CJ E&M,2016-12-21,7150586,영화진흥위원회 발권통계 기준
64,65,《터널》,김성훈,쇼박스,2016-08-10,7120780,영화진흥위원회 발권통계 기준
65,66,《어벤져스》,조스 휘던,월트디즈니컴퍼니코리아,2012-04-26,7087971,영화진흥위원회 발권통계 기준


In [None]:
movie_df.describe() # int형으로 되어 있는 컬럼에 대해서만 describe 해줌

Unnamed: 0,순위,관객수
count,67.0,67.0
mean,34.0,10108980.0
std,19.485037,2598352.0
min,1.0,7051660.0
25%,17.5,7667830.0
50%,34.0,9427588.0
75%,50.5,12290420.0
max,67.0,17616140.0


In [21]:
movie_df[movie_df['감독']=='봉준호']

Unnamed: 0,순위,제목,감독,한국내 배급사,개봉일,관객수,기타
9,10,《괴물》,봉준호,쇼박스,2006-07-27,13019740,영화진흥위원회 공식통계 기준
30,31,《기생충》,봉준호,CJ엔터테인먼트,2019-05-30,10313735,영화진흥위원회 발권통계 기준
34,35,《설국열차》,봉준호,CJ E&M,2013-08-01,9354547,영화진흥위원회 발권통계 기준


In [None]:
movie_df[movie_df['제목'].str.contains('어'), na=False] # na=는 결측치를 처리하는 옵션

Unnamed: 0,순위,제목,감독,한국내 배급사,개봉일,관객수,기타
4,5,《어벤져스: 엔드게임》,루소 형제,월트디즈니컴퍼니코리아,2019-04-24,13977602,영화진흥위원회 발권통계 기준
23,24,《어벤져스: 인피니티 워》,루소 형제,월트디즈니컴퍼니코리아,2018-04-25,11233176,영화진흥위원회 발권통계 기준
27,28,《어벤져스: 에이지 오브 울트론》,조스 휘던,월트디즈니컴퍼니코리아,2015-04-23,10504487,영화진흥위원회 발권통계 기준
65,66,《어벤져스》,조스 휘던,월트디즈니컴퍼니코리아,2012-04-26,7087971,영화진흥위원회 발권통계 기준


---
# [실습] titanic 승객 데이터 활용
##### 컬럼 설명 
- PassengerId - 승객 고유번호
- Survived - 생존유무(target 값) (0 = 사망, 1 = 생존)
- Pclass - 티켓 클래스 (1 = 1st, 2 = 2nd, 3 = 3rd)
- Name - 탑승객 성명
- Sex - 성별 (male: 남성, female: 여성)
- Age - 나이(세)
- SibSp - 함께 탑승한 형제자매, 배우자 수 총합
- Parch - 함께 탑승한 부모, 자녀 수 총합
- Ticket - 티켓 넘버
- Fare - 탑승 요금
- Cabin - 객실 넘버
- Embarked - 탑승 항구 (C: Cherbourg, Q: Queenstown, S: Southampton)