# Pandas
파이썬에서 사용하는 데이터 분석 라이브러리

In [3]:
import pandas as pd
import numpy as np

---
## 1. Series
- 1차원 데이터(정수, 실수, 문자열 등)

### Series 객체 생성
예) 1월부터 4월까지 평균 온도 데이터(-20, -10, 10 20)

In [None]:
temp = pd.Series([-20, -10, 10, 20])
temp

In [None]:
temp[0]

### Serires 객체 생성(Index 지정)

In [None]:
temp = pd.Series([-20, -10, 10, 20], index=['Jan', 'Fab', 'Mar', 'Apr'])
temp

In [None]:
temp['Jan']

___
## 2. DataFrame
- 2차원 데이터 (Series들의 모음)

### 데이터 준비
사전 (dict) 자료구조를 통해 생성

In [None]:
data = {
    '이름' : ['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협'],
    '학교' : ['북산고', '북산고', '북산고', '북산고', '북산고', '능남고', '능남고', '능남고'],
    '키' : [197, 184, 168, 187, 188, 202, 188, 190],
    '국어' : [90, 40, 80, 40, 15, 80, 55, 100],
    '영어' : [85, 35, 75, 60, 20, 100, 65, 85],
    '수학' : [100, 50, 70, 70, 10, 95, 45, 90],
    '과학' : [95, 55, 80, 75, 35, 85, 40, 95],
    '사회' : [85, 25, 75, 80, 10, 80, 35, 95],
    'SW특기' : ['Python', 'Java', 'Javascript', '', '', 'C', 'PYTHON', 'C#']
}
data

In [None]:
data['이름']

### DataFrame 객체 생성

In [None]:
df = pd.DataFrame(data)
df

### 데이터 접근

In [None]:
df[['이름', '키']]

### DataFrame 객체 생성(컬럼 지정)

In [None]:
df = pd.DataFrame(data, columns=['학교', '키'])
df

### DataFrame 객체 생성(Index 지정)

In [None]:
df = pd.DataFrame(data, index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
df

___
## 3. Index
- 데이터에 접근할 수 있는 주소 값

In [None]:
df.index

### Index 이름 설정

In [None]:
df.index.name = 'no'
df

### Index 초기화

In [None]:
df.reset_index()

In [None]:
df.reset_index(drop=True)

In [None]:
df.reset_index(drop=True, inplace=True)
df

### Index 설정
- 지정한 Column으로 Index 설정

In [None]:
df.set_index('이름')

In [None]:
df.set_index('이름', inplace=True)
df

---
## 4. 파일 저장 및 열기
- DataFrame 객체를 파일로 저장 및 열기

In [None]:
df = pd.DataFrame(data, index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
df.index.name = 'no'
df

### 저장

In [None]:
df.to_csv('data/score.csv', encoding='utf-8-sig')

In [None]:
df.to_csv('data/score_no_index.csv', encoding='utf-8-sig', index=False)

In [None]:
df.to_csv('data/score.txt', encoding='utf-8-sig', sep='\t')

In [None]:
df.to_excel('data/score.xlsx')

In [None]:
df.to_pickle('data/score.pk')

### 열기

In [None]:
df = pd.read_csv('data/score.csv')

In [None]:
df = pd.read_csv('data/score.csv', skiprows=5)

In [None]:
df = pd.read_csv('data/score.csv', skiprows=[1, 3, 5])

In [None]:
df = pd.read_csv('data/score.csv', nrows=4)

In [None]:
df = pd.read_csv('data/score.csv', index_col='no')

In [None]:
df = pd.read_excel('data/score.xlsx', index_col='no')

In [None]:
df = pd.read_pickle('data/score.pk', index_col='no')

---
## 5. 데이터확인

### DataFrame 확인
숫자 데이터에 대해 갯수, 평균, 표준편차, 최소/최대값 등의 정보를 보여줌

In [None]:
df.describe()

In [None]:
df.info()

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.values

In [None]:
df.index

In [None]:
df.columns

In [None]:
df.shape

### Series 확인

In [None]:
df['키'].describe()

In [None]:
df['키'].mean()

In [None]:
df['키'].nlargest(3)

In [None]:
df['키'].nsmallest(3)

In [None]:
df['키'].count()

In [None]:
df['학교'].unique()

In [None]:
df['학교'].nunique()

---
## 6. 데이터 선택(기본)

### 컬럼 선택

In [None]:
df['이름']

### 컬럼 선택(정수 인덱스)

In [None]:
df.columns[0]

In [None]:
df[df.columns[1]]

In [None]:
df[df.columns[-1]]

In [None]:
df['이름'][1:5]

In [None]:
df[['이름', '키']][1:5]

In [None]:
df[2:6]

---
## 7. 데이터 선택

### filter

In [None]:
df.filter(like='e', axis=1)     # 'e'가 들어간 컬럼
df.filter(regex='[cn]', axis=1) # 'c'와 'n'이 들어간 컬럼

### loc

In [None]:
df.loc['a']

In [None]:
df.loc['b', '키']

In [None]:
df.loc[['a', 'b'], '키']

In [None]:
df.loc[['a', 'b'], ['이름', '키']]

In [None]:
df.loc['a':'c', '이름':'키']

### iloc

In [None]:
df.iloc[0]

In [None]:
df.iloc[0:5, 0:1]

In [None]:
df.iloc[[0,1], 2]

In [None]:
df.iloc[::-1, :]

---
## 8. 데이터 선택(조건)

In [None]:
df = pd.read_csv('score.csv', index_col='no')
df['키'] >= 185

In [None]:
Filter = (df['키'] >= 185)
df[Filter]

In [None]:
df[~Filter]

In [None]:
df.loc[Filter, ['이름', '학교']]

### 다양한 조건

In [None]:
df.loc[(df['키']>185) & (df['학교'] == '북산고')]

In [None]:
df.loc[(df['키']<185) | (df['키']>200)]

### str 함수

In [None]:
Filter = df['이름'].str.startswith('송')
df[Filter]

In [None]:
Filter = df['이름'].str.contains('태')
df[Filter]

In [None]:
df[~Filter]

In [None]:
Filter = df['이름'].isin(['정대만', '변덕규'])
df[Filter]

### contains 함수의 na 처리

In [None]:
Filter = df['SW특기'].str.contains('Java')
df[Filter]

In [None]:
Filter = df['SW특기'].str.contains('Java', na=False)
df[Filter]

---
## 9. 결측치

### 결측치 확인

In [None]:
df.isnull()

### 치환

In [None]:
df = pd.read_csv('score.csv', index_col='no')
df.fillna('없음')

In [None]:
df['학교'] = np.nan
df

In [None]:
df.fillna('모름')

In [None]:
df.fillna('모름', inplace=True)
df

In [None]:
df['SW특기'].fillna('확인중', inplace=True)
df

In [None]:
df.replace(np.nan, '모름')

In [None]:
df.interpolate() # 주변 값으로 치환

### 삭제

In [None]:
df.dropna()

In [None]:
df.dropna(inplace=True)
df

In [None]:
df = pd.read_csv('score.csv')
df

### dropna 고급
- axis : index | columns
- how : any | all

In [None]:
df.dropna(axis='index', how='any')

In [None]:
df.dropna(axis='index', how='all')

In [None]:
df.dropna(axis='columns')

___
## 10. 데이터 정렬

### 컬럼 정렬

In [None]:
df.sort_values('키')

In [None]:
df.sort_values('키', ascending=False)

In [None]:
df['키'].sort_values()

In [None]:
df.sort_index(ascending=False)

In [None]:
df.sort_values(['학교', '이름'], ascending=True)[['학교', '이름', '키']]

In [None]:
df.sort_values(['학교', '이름'], ascending=[True, False])[['학교', '이름', '키']]

### Index 정렬

In [None]:
df.sort_index()

In [None]:
df.sort_index(ascending=False)

---
## 11. 데이터 수정

### 컬럼 수정

In [None]:
df = pd.read_csv('score.csv')

df['학교'].replace('북산고', '상북고')                          # 1개 치환

df['학교'].replace({'북산고':'상북고', '능남고':'무슨고'})      # 여러 개 치환

In [None]:
df['학교'].replace({'북산고':'상북고', '능남고':'무슨고'}, inplace=True)
df

In [None]:
df['SW특기'] = df['SW특기'].str.lower()
df

In [None]:
df['학교'] = df['학교'] + "등학교"
df

In [None]:
df['총합'] = df[df.columns[4:9]].sum(axis=1)
df

In [None]:
df['결과'] = 'Fail'
df

In [None]:
df.loc[df['총합'] > 400, '결과'] = 'Pass'
df

### Cell 값 수정

In [None]:
df = pd.read_csv('score.csv')
df.loc[7, 'SW특기'] = 'Python'
df

In [None]:
df.loc[6, ['학교', 'SW특기']] = ['능남고', 'C']
df

### Row 추가

In [None]:
df = pd.read_csv('score.csv')
df.loc[8] = ['i', '이정현', '해남고', 184, 90, 90, 90, 90, 90, 'Fortran']
df

### Row 삭제

In [None]:
df.drop(index=2)

In [None]:
Filter = df['수학'] < 80
df.drop(index = df[Filter].index)

### 컬럼 순서 변경

In [None]:
cols = list(df.columns)
df[[cols[-1]]+cols[0:-1]]

In [None]:
temp = df[['학교', '이름']]
temp

In [None]:
temp.columns = ["School", "Name"]
temp

### 컬럼 삭제

In [None]:
df.drop(columns = ['no'])

In [None]:
df.drop(columns = ['국어', '영어', '수학'])

---
## 12. 함수적용

In [None]:
# 키에 cm를 추가
def add_cm(height):
    return str(height) + 'cm'

df['키'].apply(add_cm)

In [None]:
df['키'].apply(lambda x : str(x)+'cm')

In [None]:
# numpy 함수도 호출 가능
df['키'].apply(np.sqrt)

---
## 13. 그룹화

In [None]:
df.groupby('학교').size()

In [None]:
df.groupby('학교').size()['능남고']

In [None]:
df.groupby('학교').get_group('북산고')

In [None]:
df.groupby('학교').mean()

In [None]:
df.groupby('학교')['키'].mean()

In [None]:
df.groupby('학교')[['국어', '영어', '수학']].mean()

In [None]:
df = pd.read_csv('score.csv')
df['학년'] = [3,3,2,1,1,3,2,2]
df

In [None]:
df.groupby(['학교', '학년']).mean()

In [None]:
df.groupby('학년').mean().sort_values('키')

In [None]:
df.groupby('학교')['이름', 'SW특기'].count()

In [None]:
school = df.groupby('학교')
school['학년'].value_counts()

In [None]:
school['학년'].value_counts().loc['북산고']

In [None]:
school['학년'].value_counts().loc['능남고']

In [None]:
school['학년'].value_counts(normalize=True).loc['능남고']

---
## 14. 데이터 프레임 조작

### 데이터프레임 치환

In [None]:
x = [0, 1, 2, 3, 4]
y = [10, 20, 30, 40, 50]

df = pd.DataFrame(data=y, index=x, columns=['Y'])
df = df.T

### 데이터 프레임 병합

In [None]:
df_vert = pd.concat([df, df], axis=0)
df_vert

In [None]:
df_hori = pd.concat([df, df], axis=1)
df_hori

### 데이터 프레임 조인

In [None]:
pd.merge(df1, df2, on='cust_id')

pd.merge(df1, df2, left_on='lkey', right_on='rkey', how='inner')

pd.merge(df1, df2, left_index=True, right_index=True, how='outer')

df1.join(df2, how='inner')

---
## 15. 기타

### 시각화

In [4]:
data = {
    'class':['A', 'B', 'C', 'A', 'B', 'C', 'C'],
    'name':['S1', 'S2', 'S3', 'S4', 'S5', 'S6', 'S7'],
    'age':[20, 19, 21, 22, 24, 25, 26],
    'score':[90., 95., 75., 80., 70, 85., 90.]
}

df = pd.DataFrame(data=data)
df.plot.bar('name', ['score', 'age'], figsize=(10, 5))

### 범주화

In [8]:
df['qcut'] = pd.qcut(df.score, 3, labels=['하', '중', '상'])
df

Unnamed: 0,class,name,age,score,qcut
0,A,S1,20,90.0,중
1,B,S2,19,95.0,상
2,C,S3,21,75.0,하
3,A,S4,22,80.0,하
4,B,S5,24,70.0,하
5,C,S6,25,85.0,중
6,C,S7,26,90.0,중
