# Pandas
파이썬에서 사용하는 데이터 분석 라이브러리

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

---
## 1. DataFrame 만들기 & 저장

### 1) Series 만들기

In [None]:
pd.Series([-20, -10, 10, 20])
pd.Series([-20, -10, 10, 20], index=['Jan', 'Fab', 'Mar', 'Apr'])

### 2) DataFrame 만들기

In [None]:
# Set로 컬럼 지정해서 만들기
pd.DataFrame({'sl':iris.sl, 'sw':iris.sw})

# data, columns, index 지정해서 만들기
pd.DataFrame(data=np.random.randn(2,2), columns=['x', 'y'], index=['a', 'b'])

### 3) DataFrame 불러오기

In [None]:
# Data Set에서 불러오기
from sklearn.datasets import load_iris
iris_data = load_iris()
iris = pd.DataFrame(data=iris_data.data, columns=['sl', 'sw', 'pl', 'pw'])

# CSV + Skip Row 지정
iris = pd.read_csv('data/iris.csv', skiprows=5)
iris = pd.read_csv('data/iris.csv', skiprows=[1, 3, 5])

# CSV + 불러올 갯수 지정 + 헤더 제거
iris = pd.read_csv('data/iris.csv', nrows=4, header=None)

# 엑셀 파일 오픈
iris = pd.read_excel('data/iris.xlsx')

# 이진 파일 오픈
iris = pd.read_pickle('data/iris.pk')

# encoding 지정 
iris = pd.read_csv('data/iris.csv', encoding='utf-8-sig', index_col='no')

### 4) DataFrame 저장하기

In [None]:
# CSV
iris.to_csv('data/iris.csv', encoding='utf-8-sig', index=True)

# CSV + index 저장 안함
iris.to_csv('data/iris_no_index.csv', encoding='utf-8-sig', index=True)

# TXT
iris.to_csv('data/iris.txt', encoding='utf-8-sig', sep='\t', index=True)

# Excel
iris.to_excel('data/iris.xlsx', index=True)

# Pickle
iris.to_pickle('data/iris.pk')

___
## 2. 구조 & 데이터 세트 확인

### 1) Index

In [None]:
# 인덱스 확인
iris.index

# 인덱스 이름 부여
iris.index.name = 'no'

# 인덱스 초기화
iris.reset_index(drop=True, inplace=False)

# 인덱스를 특정 컬럼으로 지정
iris.set_index('sl', inplace=False)

In [None]:
# Multi index 
iris['g1'] = pd.qcut(iris.sl, 3, labels=['하', '중', '상'])
iris['g2'] = pd.qcut(iris.pw, 2, labels=['m', 'w'])
gtmp = iris.groupby(['g1', 'g2']).max()

# 1차, 2차 1개 인덱스 조회
gtmp.loc[(slice('하'), 'm'), :]

# 1차 여러개, 2차 1개 인덱스 지정
gtmp.loc[(slice('중', '상'), slice('m')), :]

# 1차 전체, 2차 인덱스 지정
gtmp.loc[(slice(None), slice('m', 'w')), :]

# 1차 여러개, 2차 전체 인덱스 지정
gtmp.loc[(slice('하', '중'), slice(None)), :]

# Munti Index UnStack
gtmp.sl.unstack()

# 인덱스 초기화(레벨 지정)
gtmp.reset_index()

iris.drop(columns=['g1', 'g2'], inplace=True)

### 2) Column

In [None]:
# 컬럼 확인
iris.columns

# 컬럼 데이터 타입 확인
iris.dtypes

# 첫번째 컬럼
iris[iris.columns[0]]

# 마지막 컬럼
iris[iris.columns[-1]]

### 3) 데이터 확인

In [None]:
# 데이터 구조 & 값
iris.shape
iris.values

# 데이터 통계 정보
iris.describe()
iris.info()

# 데이터 조회
iris.head()
iris.tail()

---
## 3. 데이터 조회/검색

### 1) 행 위치

In [None]:
# 3번째 위치에서 6번째 행 까지 조회
iris[3:7]

# 마지막 행 조회
iris[-1:]

# 마지막 행 ~ 첫 행 까지 조회
iris[::-1]


### 2) 컬럼명

In [None]:
# 컬럼명으로 조회
iris['sl']

# 여러 컬럼을 이름으로 조회
iris[['sl', 'sw']]

### 3) 인덱스, 컬럼명 필터

In [None]:
# 행 + '5' 필터
iris.filter(like='5', axis=0)

# 행 + '1' 또는 '6' 필터
iris.filter(regex='[16]', axis=0)

# 컬럼 + 'e' 필터
iris.filter(like='sl', axis=1)

# 컬럼 + 's' 또는 'w' 필터
iris.filter(regex='[sw]', axis=1)

### 3) loc : 이름 기준 접근

In [None]:
iris.loc[1]
iris.loc[1, 'sl']
iris.loc[[1, 2], 'sl']
iris.loc[[1, 2], ['sl', 'sw']]
iris.loc[1:4, 'sl':'sw']

### 4) iloc : 위치 기준 접근

In [None]:
iris.iloc[0]
iris.iloc[0:5, 0:1]
iris.iloc[[0,1], 2]
iris.iloc[::-1, :]

### 5) 데이터 검색
Query 함수 사용이 가장 편리함

In [None]:
# 포함여부 검색
sl_filter = iris.sl.isin([4.9, 5.0])
iris[sl_filter]
iris[~ sl_filter]

# 데이터 조건 검색
sl_filter = (iris.sl > 4.7)
iris[sl_filter]
iris[~sl_filter]

# 중첩 조건 검색
iris[(iris.sl > 4.5) & (iris.sw > 3.0)]
iris[(iris.sl < 4.5) | (iris.sl > 4.8)]

# Query 함수 이용
iris.query("sl in [4.9, 5.0]")
iris.query("sl not in [4.9, 5.0]")
iris.query("(sl > 4.3) and (sw > 3.0)")

# Query 함수 + 변수
sl, pl = 4.3, 3.2
iris.query("(sl > @sl) and (sw > @pl)")

# Query Null Check
# df.query("Cabin.notnull() and Cabin.str.startswith('A')", engine='python')

---
## 4. 데이터 변경/삭제

### 1) 행 변경/삭제

In [None]:
# 행 추가
iris.loc[iris.last_valid_index()+1] = [None, 0, None, 0]

# Cell 값 변경
iris.loc[1, 'sl'] = 2.1

# 여러 Cell 값 변경
iris.loc[1, ['sl', 'sw']] = [2.1, 2.3]

# 행 삭제
iris.drop(index=1, inplace=False)

# 여러 행 삭제
iris.drop(index=[2,3,4], inplace=False)

### 2) 컬럼 변경/삭제

In [None]:
# 마지막 컬럼을 가장 좌측으로 이동
cols = list(iris.columns)
iris[[cols[-1]] + cols[0:-1]]

# 컬럼 삭제
iris.drop(columns=['sl','sw'], inplace=False)

# 컬럼 연산
iris.eval("tot = sl + sw + pl + pw", inplace=False)

### 3) 데이터 정렬

In [None]:
# 컬럼 값 기준 정렬
iris.sort_values('sl', ascending=True)

# 다중 컬럼 값 기준 정렬
iris.sort_values(['sl', 'sw'], ascending=[False, True])

# 인덱스 기준 정렬
iris.sort_index(ascending=True)

### 4) 병합

In [None]:
# concat 이용(행 병합)
pd.concat([iris, iris], axis=0)

# append 이용(행 병합)
iris.append(iris)

# 열 병합 
pd.concat([iris, iris], axis=1)

### 5) 조인

In [None]:
# merge 함수
pd.merge(iris, iris, on='no')
pd.merge(iris, iris, left_on='no', right_on='no', how='inner')
pd.merge(iris, iris, left_index=True, right_index=True, how='outer')

# join 함수
# iris.join(iris, how='left')

### 4) 행/컬럼 치환

In [None]:
# 행과 컬럼을 치환
iris.T

---
## 5. 데이터 정제

### 1) 결측/이상치 처리

- 결측치 확인

In [None]:
temp = pd.DataFrame({'x':[1, 2, 3., 4, 1], 'y':[1, np.nan, 5, None, 1]}, index=np.arange(5))

# 전체 값에 대해 Null 체크
temp.isnull()

# 행전체가 Null이 아닌지 체크
temp.isnull().any(axis=1)

# Null이 아닌지 체크
temp.notnull()

# 열 전체가 Null이 아닌지 체크
airquality.notnull().all()

- 결측/이상치 처리

In [None]:
# 지정 값으로 치환
temp.fillna('0', inplace=False)

# 좌측 컬럼을 기준으로 치환
temp.fillna(method='ffill', axis=0, inplace=False)

# 뒤쪽 행 값으로 치환
temp.fillna(method='bfill', inplace=False)

# 앞/뒤 평균 값으로 치환
temp.interpolate()

# 결측치 삭제
temp.dropna(inplace=False)

# 하나라도 있으면 행을 삭제
temp.dropna(axis=0, how='any')

# 전체가 NA면 행을 삭제
temp.dropna(axis=0, how='all')

# NA가 있으면 컬럼을 삭제
temp.dropna(axis=1)

# 이상값 치환
temp.replace(5.0, 6.0, inplace=False)

# 이상값 치환
temp.replace({4.9:0.0, 5.0:9.0}, inplace=False)

- 중복값 처리

In [None]:
# 중복 확인
temp.duplicated()

# 중복 확인
temp.duplicated(keep=False) # 중복된 모든것 조회, (default) firts | last | False

# 고유 값만 있는지 확인
temp.x.is_unique

# 유일한 값만 있는지 확인
iris.sw.is_unique

# 중복 제거
temp.drop_duplicates()

### 2) 문자형 데이터 처리
str을 이용해서 거의 모든 함수 접근 가능

In [None]:
iris['txt'] = pd.qcut(iris.sl, 3, labels=['하', '중', '상'])

# 문자 길이
iris.txt.str.len()

# 문자열 검색
iris.txt.str.contains('상')
iris.txt.str.startswith('상')

# 공맥으로 연결된 문자열 마지막 문자만 추출
iris.txt.str.split().str.get(-1)

### 3) 범주형 데이터 처리

In [None]:
# 카테고리 데이터 타입 확인
iris.dtypes

# 특정 컬럼을 카테고리 타입으로 변경
iris.txt = iris.txt.astype('category')

# 카테고리 컬럼명을 리스트로 추출
list(iris.columns[iris.dtypes == 'category'])

# 카테고리 타입 데이터 종류 확인
iris.txt.values.categories

### 4) 시계열 데이터 처리

In [None]:
import datetime as dt

# 현재 시간
dt.datetime.now()

# 10일후
dt.datetime.now() + dt.timedelta(days=10)

# datetime으로 변환
pd.to_datetime('20220101').to_pydatetime()

# 날짜 인덱스 지원
ts = pd.DataFrame({'close':np.random.randint(30, 50, 100), 'high':np.random.randint(50, 80, 100)}, 
    index=pd.date_range('2022-01-01', periods=100))

# 날짜 인덱스 이용 Slicing
ts['2022-02-03':]

# 2022년 2월 데이터만 확인
ts.close['2022-02']

# Shift 연산
ts.shift(1)

# 날짜 지정 데이터 생성
pd.date_range('2022-02-01', '2022-2-21')

# 종료일 + 업무일 기준 데이터 생성
pd.date_range(end='2022-03-09', periods=10, freq='B')

# 기간 지정 데이터 생성
days = pd.date_range('2022-02-25', periods=10)

# 기간 연산 지원
days - days[0]

# 2 시간 단위 데이터 생성
pd.date_range('2022-02-25', periods=10, freq='1H') # T(분단위), S(초단위)

# Time Zone 처리
import pytz
idx = pd.date_range('2020-01-01 09:00:00', periods=7, tz='Asia/Seoul')
idx.tz_convert('UTC')

# 월 단위 평균 리샘플링
ts.resample('M', kind='period').mean()

# 3일 단위 최대값 리샘플링
ts.resample('3D', kind='period').max()

# 월 단위 OHLC 조회
ts.resample('M', kind='period').ohlc()

# 3일 단위 데이터 추출
ts.resample('3D').asfreq()

# 무빙 윈도우 - 3일 이동평균
ts.close.rolling(3).mean()

# 차트로 그리기
ts.close.rolling(3).mean().plot()

---
## 6. 집계/그룹화

### 1) Aggregation

In [None]:
# 원하는 갯수의 최대/최소값 가져오기
iris.sl.nlargest(3)
iris.sl.nsmallest(3)

# 컬럼을 나중에 써도 됨
iris[['sl', 'sw']].nlargest(5, columns=['sl'])

# 데이터 갯수 확인
iris.sl.count()

# RANK 확인
iris.sl.rank(method='max') # max, min, fitst

# 유일한 값
iris.sl.unique()

# 유일한 값 갯수
iris.sl.nunique()

# 4 분위수
iris.sl.quantile([.25, .5, .75])

# 왜도, 첨도
iris.skew()
iris.kurt()

# 누적합
iris.sl.cumsum()

# 누적곱
iris.pw.cumprod()

## 누적차
iris.pw.diff()

# 누적 Percent 증감
iris.pw.pct_change()

# 범주화
iris['slcut'] = pd.qcut(iris.sl, 3, labels=['하', '중', '상'])

# 상관관계
iris.corr()

# 상관관계 - 변수 지정
iris.corrwith(iris.sl)

# 공분산
iris.cov()

### 2) Group by 연산

In [None]:
# 전체 그룹별 갯수
iris.groupby('slcut').size()

# 전체 그룹별 사분위수 확인
iris.groupby('slcut').quantile([.25, .5, .75])

# 전체 그룹별 평균
iris.groupby('slcut').mean()

# 컬럼 선택 + 그룹 중위값
iris.groupby('slcut')['sl'].median()

# 여러 컬럼 선택 + 그룹 평균
iris.groupby('slcut')[['sl', 'sw']].mean()

# 컬럼 선택 + 그룹별 유일 값 갯수
iris.groupby('slcut')['sl'].value_counts()

# 컬럼 선택 + 그룹별 유일 값 갯수 + 퍼센트로 값 추출
iris.groupby('slcut')['sl'].value_counts(normalize=True)

# 컬럼 선택 + 그룹별 갯수
iris.groupby('slcut')['sl'].count()

# 그룹화 + 소속 그룹 필터링
iris.groupby('slcut').get_group('상')

# 여러 컬럼 그룹화
iris.groupby(['slcut', 'txt']).mean()

# 집계 종합 출력
iris.groupby('slcut').agg(['mean', 'min', 'max'])

# 출력할때 멀티 인덱스를 제거
iris.groupby(['slcut', 'txt'], as_index=False).mean()

### 3) 피벗 테이블

In [None]:
# 조회 데이터, 행, 열, 함수, 공백시 값
iris.pivot_table(['pl', 'pw'], index='slcut', columns=['sl'], aggfunc='mean', fill_value='').sort_index(ascending=False)

# 행/열 마지막에 집계 행/열 추가
iris.pivot_table(['pl', 'pw'], index='slcut', columns=['sl'], aggfunc='mean', fill_value='', margins=True).sort_index(ascending=False)

# Cross Tab 함수 이용
pd.crosstab(iris.slcut, iris.sl, values=iris.pl, aggfunc=sum, margins=True)

# melt(키와 변수, 변수 값으로 변경) --> 원래로 돌릴 때는 피벗을 이용함
iris.melt(['pl', 'pw'])

### 4) 함수 적용

In [None]:
# 키에 cm를 추가
def add_cm(height):
    return str(height) + 'cm'

iris.sl.apply(add_cm)

# lambda 함수 이용
iris.sl.apply(lambda x: str(x)+'cm')

# numpy 함수 호출
iris.sl.apply(np.sqrt)

---
## 7. 시각화

In [None]:
import ADPLearn as adp

iris, _ = adp.loaddata('iris')

plt.figure()
iris.plot.bar(figsize=(10, 5))
plt.show()

In [None]:
# Histogram Line Color
iris[iris.columns[0]].plot.hist(edgecolor='white', density=True, facecolor='g', alpha=0.55)

---
# 9. 고급/응용

In [None]:
import ADPLearn as adp
import numpy as np

titanic, _ = adp.load_data('titanic')

titanic['Adult'] = np.where(
    titanic.Age >= 10,
    'Adult',
    np.where(
        titanic.Age >= 0,
        'Child',
        'Unknown')
    )

rtn = titanic.pivot_table(
    index=['Adult', 'Survived'], 
    values='PassengerId', 
    aggfunc='count',
    margins=True
    )

x = titanic.shape[0]
rtn.eval("pct = PassengerId / @x * 100", inplace=True)
rtn.columns = ['명', '%']
rtn

In [None]:
exam = pd.DataFrame({'grade':[1,1,2],
                     'class':["A","B","C"],
                     'korean':[70,80,85],
                     'math':[80,95,100]})

mt=pd.melt(exam, id_vars=["grade","class"])