# 1. Pandas 기초 

## Import

- import module 
  - module 불러오기 
  - ex) module.function
- import module as md
  - module의 이름을 md로 설정하여 사용
  - ex) md.function
- from module import function
  - module에 포함된 function만 사용
  - ex) function

In [None]:
import pandas as pd
import numpy as np

## Read CSV

- read_csv
  - CSV 파일 읽기
  - encoding : 파일 형식
  - filepath or buffer : 파일경로/파일이름.csv 을 입력하여 파일을 불러옵니다.
  - sep or delimiter : 초기값은 comma(,), 만일 분리되어있는 기준이 쉼표(,)로 분리되어 있지 않은 경우 기준이 되는 값을 입력하면 됩니다. 예를 들어 슬라이스(/), Tab( ) 등 으로 분리되어 있는 경우를 말합니다.
  - header : 초기값은 0, 컬럼명으로 사용할 행의 번호를 입력합니다.
  - names : 사용할 변수명을 입력합니다. 파일에 변수명이 없다면 header를 None으로 설정해야합니다.
  - index_col : 데이터의 인덱스로 사용할 열의 번호를 입력합니다.
  - skiprows : 첫 행을 기준으로 데이터를 얼마나 건너뛰고 읽어올지를 정합니다.
  - nrows : 파일을 읽어올 행의 수를 입력합니다.
  - date_parser : 시계열 타입으로 변환할 변수를 입력합니다.

In [None]:
cctv_seoul = pd.read_csv('./../data/Seoul_CCTV.csv', encoding='utf-8', index_col=0)
cctv_seoul.head()

- reset_index() 
  - 인섹스가 이상하거나 수정이 필요할 때 사용

In [None]:
# inplace = True 시 원본 데이터 바로, 적용 False는 변경 없음
cctv_seoul.reset_index(drop=True, inplace=True)
cctv_seoul.head()

- drop()
  - 필요없는 row 삭제

In [None]:
cctv_seoul.drop([0], inplace=True)
cctv_seoul.head()

In [None]:
cctv_seoul.reset_index(drop=True, inplace=True)
cctv_seoul.head()

- colums
  - Colums 요소 확인 및 인덱스 접근

In [None]:
cctv_seoul.columns

In [None]:
cctv_seoul.columns[0]

- rename()
  - Column 이름 변경
  - 인덱싱 또는 column 이름 직접 입력 후 변경할 이름 입력

In [None]:
cctv_seoul.rename(columns={cctv_seoul.columns[0]:'구별'}, inplace=True)
# cctv_seoul.rename(columns={'구분':'구별'}, inplace=True) # 이렇게도 가능
cctv_seoul.head()

## Read Excel

- read_excel
  - sheet_name: 기본값 0. 시트의 인덱스 번호(int) 또는 시트의 이름(문자열)이 들어감. 리스트 값을 넣을 수 있음. None 설정 시 모든 시트 선택
  - header: 어느 행(row)에 열(column)의 이름이 있는지 지정. 기본 값은 0으로 첫 번째 줄. None 설정 시 헤더가 없는 것으로 설정되어 첫 번째 줄부터 바로 데이터로 받아옴
  - names: header가 None일 경우 열(column)의 이름을 지정해줌
  - index_col: 각 행(row)의 이름이 위치한 열(column)을 지정. 기본값은 None
  - usecols: 기본값은 None으로 모든 열을 다 불러옴. “A:E”, “A,C,F:H” 와 같이 원하는 열을 선택해 불러올 수 있음
  - dtype: 각 열의 데이터 타입을 지정 가능
  - skiprows: 엑셀을 읽을 때 첫줄(0)으로 부터 몇 줄을 건너뛸 지 지정
  - nrow: 몇 줄을 읽을 지 지정
  - na_values: 값이 없는 경우 어떤 str 등으로 넣을 지 지정
  - thousands: 돈과 같이 천단위로 쉼표(,)로 구분된 문자를 변환하기 위해 천단위의 구분자가 무엇인지 지정

In [None]:
pop_seoul = pd.read_excel("./../data/Seoul_Population.xlsx")
pop_seoul.head()

In [None]:
pop_seoul = pd.read_excel("./../data/Seoul_Population.xlsx", 
                            header=2, usecols='B,D,G,J,N')
pop_seoul.head()

In [None]:
pop_seoul.rename(columns={pop_seoul.columns[0]:'구별',
                          pop_seoul.columns[1]:'인구수',
                          pop_seoul.columns[2]:'한국인',
                          pop_seoul.columns[3]:'외국인',
                          pop_seoul.columns[4]:'고령자',},
                          inplace=True)
pop_seoul.head()

## Data Type

- Series
  - 가장 간단한 pandas data type 

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

- 날짜와 관련된 데이터 입력 가능

In [None]:
data_list = pd.date_range('20130101', periods=6)
data_list

- index와 columns 요소를 사용하여 다음과 같이 table을 만들 수 있다.

In [None]:
df = pd.DataFrame(np.random.randn(6, 4),
                  index=data_list,
                  columns=['A','B','C','D'])
df

In [None]:
df.head()

- index
  - Index 확인

In [None]:
df.index

- columns
  - column 요소 화인

In [None]:
df.columns

- values
  - 테이블 값 확인

In [None]:
df.values

- info
  - table 정보 표시

In [None]:
df.info()

## 데이터 정렬 및 조회

- describe
  - 데이터 수치 분석

In [None]:
df.describe()

- 데이터 정렬
  - by : 특정 column을 기준으로 정렬

In [None]:
df.sort_values(by='B', ascending=False)

- 특정 컬럼 조회
  - dictionary 인덱싱 방법과 같음

In [None]:
df['A']

- 특정 행 조회 
  - 리스트 인덱싱 방법과 동일

In [None]:
df[0:3]

- 특정 인덱스 조회
  - dictionary 인덱스 조회 방법과 동일

In [None]:
df['20130102':'20130104']

- loc
  - 인덱스 조회 방법
  - column과 row 값을 통해 인덱스 조회

- iloc
  - 인덱스 조회 방법
  - list 인덱싱 방법과 동일하게 사용 가능

In [None]:
df.loc[:, ['A','B']]

In [None]:
df.loc['20130102':'20130104', ['A','B']]

In [None]:
df.iloc[3]

In [None]:
df.iloc[3:5, 0:2]

In [None]:
df.iloc[[1,2,4],[0,2]]

In [None]:
df.iloc[:, 1:3]

- 조건문을 이용한 slicing

In [None]:
df[df['A']>0]

In [None]:
df[df>0]

- 특정 column 추가

In [None]:
df['E'] = ['one', 'one', 'two', 'three', 'four', 'tree']
df

- isin
  - Column 요소 확인

In [None]:
df['E'].isin(['two', 'four'])

In [None]:
df[df['E'].isin(['two', 'four'])]

- 특정 컬럼 제거

In [None]:
del df['E']
df

- 각 컬럼 누적합(cumsum)을 Dataframe 에 적용

In [None]:
df.apply(np.cumsum)

## 데이터 합치기

- 데이터 생성

In [None]:
left = pd.DataFrame(
    {
        'key' : ['K0', 'K4', 'K2', 'K3'],
        'A' : ['A0', 'A1', 'A2', 'A3'],
        'B' : ['B0', 'B1', 'B2', 'B3']
    }
)

right = pd.DataFrame(
    {
        'key' : ['K0', 'K1', 'K2', 'K3'],
        'C' : ['C0', 'C1', 'C2', 'C3'],
        'D' : ['D0', 'D1', 'D2', 'D3']        
    }
)

In [None]:
left

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K4,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [None]:
right

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


- merge
  - on : 특정 컬럼을 기준으로 병합
  - how : 병합 시 기준 데이터 지정

- 기본 모드 일 때는, on을 기준으로 공통된 값만 merge하여 보여줌

In [None]:
pd.merge(left, right, on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3


- left
  - 왼쪽 테이블의 키 값을 기준으로 병합 됨.
- right
  - 오른쪽 테이블의 키 값을 기준으로 병합 됨.
- outer 
  - 두 테이블의 키 값을 모두 포함 함.
- inner
  - 두 테이블의 공통된 키 값만 병함 함.

In [None]:
pd.merge(left, right, how='left', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K4,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [None]:
pd.merge(left, right, how='right', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,,,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [None]:
pd.merge(left, right, how='outer', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,,,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3
4,K4,A1,B1,,


In [None]:
pd.merge(left, right, how='inner', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3


---