# Day17 - Pandas를 통한 데이터 전처리 2

### 엑셀 파일로 저장하기
- DataFrame객체.to_excel('경로/파일명', [encoding ='코딩방식'])
    - 한글 encoding 방식: encoding = 코딩방식(utf-8이나 euc-kr)

In [1]:
import pandas as pd

In [2]:
names = ['철수','영이','길동','미영','순이','철이']

In [3]:
lectures = ['국어','영어','수학']

In [4]:
scores = [[84,87,78],[21,15,84],[87,84,76],[100,87,99],[59,99,59],[46,77,56]]

In [5]:
d1 = pd.DataFrame(scores, index=names, columns=lectures)

In [7]:
d1.to_excel('/Users/richard/Desktop/AI_Innovation/data/scores.xls', encoding='utf-8')

### 엑셀 파일 읽어오기
- DataFrame객체 = pd.read_excel('경로/파일명', [sheet_name='시트명', encoding ='코딩방식'])
    - 시트명을 넣어주지 않으면 1번째 시트에서 읽어 옴
    - index열 지정: index_col = 열번호
- 예시 – index 열 지정하지 않은 경우

In [8]:
d2 = pd.read_excel('/Users/richard/Desktop/AI_Innovation/data/scores.xls')

In [9]:
d2

Unnamed: 0.1,Unnamed: 0,국어,영어,수학
0,철수,84,87,78
1,영이,21,15,84
2,길동,87,84,76
3,미영,100,87,99
4,순이,59,99,59
5,철이,46,77,56


- 예시 – index 열 지정한 경우

In [12]:
d3 = pd.read_excel('/Users/richard/Desktop/AI_Innovation/data/scores.xls', index_col = 0)

In [13]:
d3

Unnamed: 0,국어,영어,수학
철수,84,87,78
영이,21,15,84
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56


### CSV(comma-separated values) 파일로 저장하기
- 줄바꿈으로 행, comma 등으로 열을 구분하여 데이터를 저장하는 파일 형식
- DataFrame객체.to_csv('경로/파일명.csv', [encoding ='코딩방식'])
    - 한글 encoding 방식은 euc-kr 

In [15]:
d1.to_csv('/Users/richard/Desktop/AI_Innovation/data/scores.csv')

### CSV 파일 읽어오기
- DataFrame객체 = pd.read_csv('경로/파일명', [encoding ='코딩방식'])
    - index열 지정: index_col = 열번호
    - comma(,) 외의 구별 문자 지정: sep = 구별문자(보통 '\t' 탭)
- 예시 - index 열 지정하지 않은 경우

In [16]:
d2 = pd.read_csv('/Users/richard/Desktop/AI_Innovation/data/scores.csv')

In [17]:
d2

Unnamed: 0.1,Unnamed: 0,국어,영어,수학
0,철수,84,87,78
1,영이,21,15,84
2,길동,87,84,76
3,미영,100,87,99
4,순이,59,99,59
5,철이,46,77,56


- 예시 - index 열 지정한 경우

In [19]:
d3 = pd.read_csv('/Users/richard/Desktop/AI_Innovation/data/scores.csv', index_col = 0)

In [20]:
d3

Unnamed: 0,국어,영어,수학
철수,84,87,78
영이,21,15,84
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56


### JSON 파일로 저장하기
- DataFrame객체.to_json('경로/파일명')

In [22]:
d1.to_json('/Users/richard/Desktop/AI_Innovation/data/scores.json')

### JSON 파일 읽어오기
- DataFrame객체 = pd.read_json('경로/파일명')

In [23]:
d2 = pd.read_json('/Users/richard/Desktop/AI_Innovation/data/scores.json')

In [24]:
d2

Unnamed: 0,국어,영어,수학
길동,87,84,76
미영,100,87,99
순이,59,99,59
영이,21,15,84
철수,84,87,78
철이,46,77,56


### HTML 파일로 저장하기
- Dataframe은 HTML 페이지에 표 형식(<table>)으로 저장됨
- DataFrame객체.to_html('경로/파일명')

In [25]:
d1.to_html('/Users/richard/Desktop/AI_Innovation/data/scores.html')

### HTML 파일 읽어오기
- HTML 웹 페이지에 있는 <table> 태그에서 표 형식의 데이터를 읽어옴
- DataFrame객체리스트 = pd.read_html('경로/파일명', [encoding = '코딩방식'])
- DataFrame객체리스트 = pd.read_html('웹주소(url)', [encoding = '코딩방식'])

In [32]:
tables = pd.read_html('/Users/richard/Desktop/AI_Innovation/data/scores.html', index_col = 0, encoding = 'utf-8')

In [33]:
print(len(tables))

1


In [34]:
for i in range(len(tables)):
    print('tables[%d]' %i)
    print(tables[i])
    print()

tables[0]
     국어  영어  수학
철수   84  87  78
영이   21  15  84
길동   87  84  76
미영  100  87  99
순이   59  99  59
철이   46  77  56



### 데이터베이스에 저장하기: SQLite DB 사용
- DataFrame객체.to_sql(name, con, flavor='sqlite', schema=None, if_exists='fail', index=True, index_label=None, chunksize=None, dtype=None)

In [36]:
import sqlite3
import pandas as pd

In [37]:
con = sqlite3.connect('test.db')

In [46]:
d1.to_sql('scores', con, index_label = '이름')

### 데이터베이스에서 읽어오기: SQLite DB 사용
- DataFrame객체 = pd.read_sql('쿼리', con)

In [47]:
con = sqlite3.connect('test.db')

In [48]:
d2 = pd.read_sql('SELECT * FROM scores', con)

In [49]:
d2

Unnamed: 0,이름,국어,영어,수학
0,철수,84,87,78
1,영이,21,15,84
2,길동,87,84,76
3,미영,100,87,99
4,순이,59,99,59
5,철이,46,77,56


## 실습 - 공공데이터 분석: 구별 인구 데이터 분석
### 데이터 취득
• 서울시열린데이터광장 (https://data.seoul.go.kr) => 서울시 주민등록인구 (구별) 통계

In [75]:
pop_seoul = pd.read_excel('/Users/richard/Desktop/AI_Innovation/data/Report.xls')

In [76]:
pop_seoul

Unnamed: 0,기간,자치구,세대,인구,인구.1,인구.2,인구.3,인구.4,인구.5,인구.6,인구.7,인구.8,세대당인구,65세이상고령자
0,기간,자치구,세대,합계,합계,합계,한국인,한국인,한국인,등록외국인,등록외국인,등록외국인,세대당인구,65세이상고령자
1,기간,자치구,세대,계,남자,여자,계,남자,여자,계,남자,여자,세대당인구,65세이상고령자
2,2019.1/4,합계,4290922,10054979,4909387,5145592,9770216,4772134,4998082,284763,137253,147510,2.28,1436125
3,2019.1/4,종로구,73914,162913,78963,83950,152778,74536,78242,10135,4427,5708,2.07,26981
4,2019.1/4,중구,61800,135836,66720,69116,125942,61992,63950,9894,4728,5166,2.04,22421
5,2019.1/4,용산구,109413,245139,119597,125542,229168,110626,118542,15971,8971,7000,2.09,38049
6,2019.1/4,성동구,137247,314608,154011,160597,306404,150287,156117,8204,3724,4480,2.23,43076
7,2019.1/4,광진구,163460,370658,179162,191496,354873,172361,182512,15785,6801,8984,2.17,46288
8,2019.1/4,동대문구,162228,363262,179100,184162,346750,172784,173966,16512,6316,10196,2.14,57570
9,2019.1/4,중랑구,181182,407211,201808,205403,402203,199730,202473,5008,2078,2930,2.22,62789


### 데이터 읽기
- 특정 열 가져오고, column 설정

In [77]:
pop_seoul = pd.read_excel('/Users/richard/Desktop/AI_Innovation/data/Report.xls', usecols=[1,3,6,9,13], header=2)

In [78]:
pop_seoul

Unnamed: 0,자치구,계,계.1,계.2,65세이상고령자
0,합계,10054979,9770216,284763,1436125
1,종로구,162913,152778,10135,26981
2,중구,135836,125942,9894,22421
3,용산구,245139,229168,15971,38049
4,성동구,314608,306404,8204,43076
5,광진구,370658,354873,15785,46288
6,동대문구,363262,346750,16512,57570
7,중랑구,407211,402203,5008,62789
8,성북구,450021,438245,11776,68612
9,강북구,321151,317386,3765,58858


### 데이터 읽기
- column명 변경

In [79]:
pop_seoul.columns = ['구별','인구수','한국인','외국인','고령자']

In [80]:
pop_seoul

Unnamed: 0,구별,인구수,한국인,외국인,고령자
0,합계,10054979,9770216,284763,1436125
1,종로구,162913,152778,10135,26981
2,중구,135836,125942,9894,22421
3,용산구,245139,229168,15971,38049
4,성동구,314608,306404,8204,43076
5,광진구,370658,354873,15785,46288
6,동대문구,363262,346750,16512,57570
7,중랑구,407211,402203,5008,62789
8,성북구,450021,438245,11776,68612
9,강북구,321151,317386,3765,58858


### 데이터 읽기
- index 설정

In [81]:
pop_seoul.set_index('구별', inplace = True)

In [82]:
pop_seoul

Unnamed: 0_level_0,인구수,한국인,외국인,고령자
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
합계,10054979,9770216,284763,1436125
종로구,162913,152778,10135,26981
중구,135836,125942,9894,22421
용산구,245139,229168,15971,38049
성동구,314608,306404,8204,43076
광진구,370658,354873,15785,46288
동대문구,363262,346750,16512,57570
중랑구,407211,402203,5008,62789
성북구,450021,438245,11776,68612
강북구,321151,317386,3765,58858


### 데이터 읽기
- 합계 데이터(1번째 행) 삭제

In [83]:
pop_seoul.drop('합계', inplace=True)

In [84]:
pop_seoul.head()

Unnamed: 0_level_0,인구수,한국인,외국인,고령자
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
종로구,162913,152778,10135,26981
중구,135836,125942,9894,22421
용산구,245139,229168,15971,38049
성동구,314608,306404,8204,43076
광진구,370658,354873,15785,46288


### 데이터 분석하기

#### 실습1 - 공공데이터 분석: 구별 인구 데이터 분석
- 한국인 비율 구하기

In [87]:
pop_seoul['한국인 비율(%)'] = (pop_seoul['한국인'] / pop_seoul['인구수']) * 100

In [92]:
pop_seoul.head()

Unnamed: 0_level_0,인구수,한국인,외국인,고령자,한국인 비율(%),외국인 비율(%)
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
종로구,162913,152778,10135,26981,93.778888,6.221112
중구,135836,125942,9894,22421,92.716217,7.283783
용산구,245139,229168,15971,38049,93.484921,6.515079
성동구,314608,306404,8204,43076,97.39231,2.60769
광진구,370658,354873,15785,46288,95.741357,4.258643


- 외국인 비율 구하기

In [89]:
pop_seoul['외국인 비율(%)'] = (pop_seoul['외국인'] / pop_seoul['인구수']) * 100

In [91]:
pop_seoul.head()

Unnamed: 0_level_0,인구수,한국인,외국인,고령자,한국인 비율(%),외국인 비율(%)
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
종로구,162913,152778,10135,26981,93.778888,6.221112
중구,135836,125942,9894,22421,92.716217,7.283783
용산구,245139,229168,15971,38049,93.484921,6.515079
성동구,314608,306404,8204,43076,97.39231,2.60769
광진구,370658,354873,15785,46288,95.741357,4.258643


- 고령자 비율 구하기

In [93]:
pop_seoul['고령자 비율(%)'] = (pop_seoul['고령자'] / pop_seoul['인구수']) * 100

In [94]:
pop_seoul.head()

Unnamed: 0_level_0,인구수,한국인,외국인,고령자,한국인 비율(%),외국인 비율(%),고령자 비율(%)
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
종로구,162913,152778,10135,26981,93.778888,6.221112,16.5616
중구,135836,125942,9894,22421,92.716217,7.283783,16.505934
용산구,245139,229168,15971,38049,93.484921,6.515079,15.521398
성동구,314608,306404,8204,43076,97.39231,2.60769,13.69196
광진구,370658,354873,15785,46288,95.741357,4.258643,12.488062


- 인구수 합계 내림차순 정렬하기

In [102]:
pop_seoul.sort_values(by = '인구수', ascending = False).head()

Unnamed: 0_level_0,인구수,한국인,외국인,고령자,한국인 비율(%),외국인 비율(%),고령자 비율(%)
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
송파구,685361,678521,6840,83492,99.001986,0.998014,12.182193
강서구,602886,596287,6599,80903,98.905432,1.094568,13.419287
강남구,546875,541854,5021,68104,99.081874,0.918126,12.453303
노원구,545486,541174,4312,78170,99.209512,0.790488,14.33034
관악구,520645,502615,18030,73005,96.536988,3.463012,14.02203


- 인구수가 적은 순서대로 5개 구 출력하기

In [96]:
pop_seoul.sort_values(by = '인구수').head()

Unnamed: 0_level_0,인구수,한국인,외국인,고령자,한국인 비율(%),외국인 비율(%),고령자 비율(%)
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
중구,135836,125942,9894,22421,92.716217,7.283783,16.505934
종로구,162913,152778,10135,26981,93.778888,6.221112,16.5616
용산구,245139,229168,15971,38049,93.484921,6.515079,15.521398
금천구,254244,233981,20263,36301,92.030097,7.969903,14.278016
성동구,314608,306404,8204,43076,97.39231,2.60769,13.69196


- 외국인수 내림차순 정렬하기

In [101]:
pop_seoul.sort_values(by = '외국인', ascending = False).head()

Unnamed: 0_level_0,인구수,한국인,외국인,고령자,한국인 비율(%),외국인 비율(%),고령자 비율(%)
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
영등포구,404556,368824,35732,56463,91.167601,8.832399,13.956782
구로구,438889,404726,34163,63017,92.216027,7.783973,14.3583
금천구,254244,233981,20263,36301,92.030097,7.969903,14.278016
관악구,520645,502615,18030,73005,96.536988,3.463012,14.02203
동대문구,363262,346750,16512,57570,95.45452,4.54548,15.848066


- 외국인 비율 내림차순 정렬하기

In [100]:
pop_seoul.sort_values(by = '외국인 비율(%)', ascending = False).head()

Unnamed: 0_level_0,인구수,한국인,외국인,고령자,한국인 비율(%),외국인 비율(%),고령자 비율(%)
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
영등포구,404556,368824,35732,56463,91.167601,8.832399,13.956782
금천구,254244,233981,20263,36301,92.030097,7.969903,14.278016
구로구,438889,404726,34163,63017,92.216027,7.783973,14.3583
중구,135836,125942,9894,22421,92.716217,7.283783,16.505934
용산구,245139,229168,15971,38049,93.484921,6.515079,15.521398


- 고령자 비율 오름차순 정렬하기

In [99]:
pop_seoul.sort_values(by = '고령자 비율(%)').head()

Unnamed: 0_level_0,인구수,한국인,외국인,고령자,한국인 비율(%),외국인 비율(%),고령자 비율(%)
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
송파구,685361,678521,6840,83492,99.001986,0.998014,12.182193
강남구,546875,541854,5021,68104,99.081874,0.918126,12.453303
광진구,370658,354873,15785,46288,95.741357,4.258643,12.488062
양천구,466622,462599,4023,58930,99.137846,0.862154,12.629066
서초구,437007,432762,4245,55366,99.02862,0.97138,12.669362


## 통계 함수 적용

### 평균값
- 모든 열의 평균값: DataFrame객체.mean()
- 특정 열의 평균값: DataFrame객체['column명'].mean()

In [103]:
names = ['철수','영이','길동','미영','순이','철이']

In [104]:
lectures = ['국어','영어','수학']

In [105]:
scores = [[84,87,78],[21,15,84],[87,84,76],[100,87,99],[59,99,59],[46,77,56]]

In [106]:
d1 = pd.DataFrame(scores, index=names, columns=lectures)

In [107]:
d1.mean()

국어    66.166667
영어    74.833333
수학    75.333333
dtype: float64

In [108]:
d1['국어'].mean()

66.16666666666667

### 중간값
- 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값
- 값이 짝수개일 때에는 중앙에 있는 두 값의 평균
- 모든 열의 중간값: DataFrame객체.median()
- 특정 열의 중간값: DataFrame객체['column명']. median()

In [109]:
d1.median()

국어    71.5
영어    85.5
수학    77.0
dtype: float64

In [111]:
d1['영어'].median()

85.5

### 최대값
- 모든 열의 최대값: DataFrame객체.max()
- 특정 열의 최대값: DataFrame객체['column명']. max()

In [112]:
d1.max()

국어    100
영어     99
수학     99
dtype: int64

In [113]:
d1.수학.max()

99

### 최소값
- 모든 열의 최소값: DataFrame객체.min()
- 특정 열의 최소값: DataFrame객체['column명']. min()

In [114]:
d1.min()

국어    21
영어    15
수학    56
dtype: int64

In [115]:
d1[['국어','수학']].min()

국어    21
수학    56
dtype: int64

### 표준편차
- 표준 편차(standard deviation)는 분산을 제곱근한 것
    - 분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 
- 모든 열의 표준편차: DataFrame객체.std()
- 특정 열의 표준편차 : DataFrame객체['column명']. std()

In [116]:
d1.std()

국어    29.647372
영어    30.162339
수학    16.020820
dtype: float64

In [117]:
d1['국어'].std()

29.64737200270315

### 상관계수
- 두 변수간의 관계 강도를 나타냄
- 모든 열의 상관계수: DataFrame객체.corr()
- 특정 열의 상관계수 : DataFrame객체[column명 리스트].corr()

In [118]:
d1.corr()

Unnamed: 0,국어,영어,수학
국어,1.0,0.739217,0.411671
영어,0.739217,1.0,-0.260196
수학,0.411671,-0.260196,1.0


In [119]:
d1[['국어','영어']].corr()

Unnamed: 0,국어,영어
국어,1.0,0.739217
영어,0.739217,1.0


#### 실습2 - 공공데이터 분석: 구별 인구 데이터 분석

- 평균 구하기

In [120]:
pop_seoul.mean()

인구수          402199.160000
한국인          390808.640000
외국인           11390.520000
고령자           57445.000000
한국인 비율(%)        96.686855
외국인 비율(%)         3.313145
고령자 비율(%)        14.568931
dtype: float64

- 인구수 최대값/최소값 구하기

In [122]:
pop_seoul['인구수'].max()

685361

In [123]:
pop_seoul['인구수'].min()

135836

- 인구수와 고령자수 간의 상관 관계

In [125]:
pop_seoul[['인구수','고령자']].corr()

Unnamed: 0,인구수,고령자
인구수,1.0,0.942086
고령자,0.942086,1.0
