# Ch.2 데이터 분석 기초
## Ch.2.1 pandas
### 1. pandas 란
- https://pandas.pydata.org/
- pandas 설치 : $ conda install -c conda-forge -n playdata pandas

### 2. Inspection
- 주피터 노트북의 기능
- 변수, 파이썬 객체에 "?" 추가하고 실행하면 해당 객체에 대한 문서를 볼 수 있음

### 3. Magic Command, Magic Cell Command
- Ex) %ls, %cd, %pwd(경로), %mkdir

### 4. pandas의 기본 자료구조(클래스)
- DataFrame
- Series


### 5. DataFrame에서
- Index는 Row Index를 의미
- Column은 Column Index를 의미


### 6. 숫자 데이터외의 데이터 타입에 대한 describe()
- $ sample_1.describe(include=['object'])


### 7. DataFrame에 loc, iloc를 사용하지 않은 인덱싱은 컬럼에 대한 인덱싱으로 인식

### 8. pandas의 인덱싱 방법
- 정수 인덱싱: iloc[  ,  ,  , ]
- 이름 인덱싱: loc[  ,  , ] , loc로 접근 시 슬라이싱을 사용하면 마지막 인덱스도 포함됨
- 팬시 인덱싱(fancy indexing): 인덱스 값으로 리스트 사용
- 불 인덱싱: 인덱스 값으로 True, False 사용

In [59]:
# 자료 가져오기
import pandas as pd
sample_1 = pd.read_excel('C:/Users/ChangHo Kim/Desktop/datasalon-master/02_개정판/2_Data_Analysis_Basic/files/sample_1.xlsx', header=1, skipfooter=2, usecols='A:C')
sample_1['기준년월'] = '2019-11'
sample_1.head()

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
1,A01,여성,191436,2019-11
2,A31,남성,319,2019-11
3,A31,여성,42,2019-11
4,A18,남성,158912,2019-11


In [18]:
# 자료에 대한 정보 제공 (평균 등...)
sample_1.describe()

Unnamed: 0,입국객수
count,6.0
mean,114995.333333
std,98105.752006
min,42.0
25%,26819.25
50%,132616.0
75%,183305.0
max,232943.0


In [4]:
# 자료 인덱싱
sample_1.iloc[1:4]

Unnamed: 0,국적코드,성별,입국객수
1,A01,여성,191436
2,A31,남성,319
3,A31,여성,42


In [60]:
# 특정 조건에 대한 자료 가져오기 및 True/False 자료형
print((sample_1['입국객수'] > 150000) & (sample_1['성별'] == '남성')) 
# python 과 다르게 "&" 사용하며 반환도 True를 해줌

print(sample_1[sample_1['입국객수'] > 150000])

0    False
1    False
2    False
3    False
4     True
5    False
dtype: bool
  국적코드  성별    입국객수     기준년월
1  A01  여성  191436  2019-11
4  A18  남성  158912  2019-11
5  A18  여성  232943  2019-11


In [61]:
# 특정 조건 값 가져오기
# "~"은 not의 의미임
print(sample_1.국적코드.isin(['A01', 'A18']))
print(sample_1[~sample_1.국적코드.isin(['A01', 'A18'])])

0     True
1     True
2    False
3    False
4     True
5     True
Name: 국적코드, dtype: bool
  국적코드  성별  입국객수     기준년월
2  A31  남성   319  2019-11
3  A31  여성    42  2019-11


### 9. 데이터 통합 (merge : 옆으로 통합)

In [62]:
code_master = pd.read_excel('C:/Users/ChangHo Kim/Desktop/datasalon-master/02_개정판/2_Data_Analysis_Basic/files/sample_codemaster.xlsx')
code_master

Unnamed: 0,국적코드,국적명
0,A01,일본
1,A02,대만
2,A03,홍콩
3,A18,중국
4,A19,이란
5,A22,우즈베키스탄
6,A23,카자흐스탄
7,A99,아시아 기타


In [63]:
# how='left'통해서 왼쪽 자료를 기준으로 통합 (cf. how='inner'는 데이터가 일치하는 경우에만 데이터를 통합)
sample_1_code = pd.merge(left=sample_1, right=code_master, how='left', left_on='국적코드', right_on='국적코드')
sample_1_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-11,일본
1,A01,여성,191436,2019-11,일본
2,A31,남성,319,2019-11,
3,A31,여성,42,2019-11,
4,A18,남성,158912,2019-11,중국
5,A18,여성,232943,2019-11,중국


In [46]:
sample_1_code = pd.merge(left=sample_1, right=code_master, how='inner', left_on='국적코드', right_on='국적코드')
sample_1_code

Unnamed: 0,국적코드,성별,입국객수,국적명
0,A01,남성,106320,일본
1,A01,여성,191436,일본
2,A18,남성,158912,중국
3,A18,여성,232943,중국


### 10. 데이터 통합 (append : 아래로 통합)

In [53]:
sample_2 = pd.read_excel('C:/Users/ChangHo Kim/Desktop/datasalon-master/02_개정판/2_Data_Analysis_Basic/files/sample_2.xlsx'
                            , header=1, skipfooter=2, usecols='A:C')
sample_2['기준년월'] = '2021-09'
sample_2

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,92556,2021-09
1,A01,여성,163737,2021-09
2,A18,남성,155540,2021-09
3,A18,여성,249023,2021-09


In [64]:
sample_2_code = pd.merge(left=sample_1, right=code_master, how='left', left_on='국적코드', right_on='국적코드')
sample_2_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-11,일본
1,A01,여성,191436,2019-11,일본
2,A31,남성,319,2019-11,
3,A31,여성,42,2019-11,
4,A18,남성,158912,2019-11,중국
5,A18,여성,232943,2019-11,중국


In [67]:
sample = sample_1_code.append(sample_2_code, ignore_index=True)
# ignore_index = True를 통해 기존 index 무시
sample

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-11,일본
1,A01,여성,191436,2019-11,일본
2,A31,남성,319,2019-11,
3,A31,여성,42,2019-11,
4,A18,남성,158912,2019-11,중국
5,A18,여성,232943,2019-11,중국
6,A01,남성,106320,2019-11,일본
7,A01,여성,191436,2019-11,일본
8,A31,남성,319,2019-11,
9,A31,여성,42,2019-11,


### 11. 데이터 저장 (excel로 저장)

In [65]:
# sample이라는 객체이름이 없는 경우 : pd.DataFrame.to_excel 이용
sample.to_excel('C:/Users/ChangHo Kim/Documents/GitHub/SSAC_study/WebCrawling/Sample/ch2sample.xlsx')
# index 저장 원하지 않는 경우, index=False 추가

### 12. 데이터 집계 : pivot_table, 기존 데이터의 칼럼을 재구성해 데이터에 대한 통계를 정리한 표

In [69]:
sample_pivot = sample.pivot_table(values='입국객수', index='국적명', columns='기준년월', aggfunc='mean')
sample_pivot

기준년월,2019-11
국적명,Unnamed: 1_level_1
일본,148878.0
중국,195927.5
