# 72 Pandas

Editor : Rayleigh Kim

email : rayleigh@dplus.company

thanks to 이숙번 님

이 노트북의 70%는 숙번님께서 제작하셨습니다.


#### 주의 : 판다스의 모든 것을 다루지 않습니다. Machine Learning 또는 Deep Learning을 공부하기 위해 최소한 알아야 하는 범위만을 다룹니다.


### 파이썬 실습시간!

pandas 데이터 분석 라이브러리의 사용법을 간략하게 설명합니다.
데이터의 로드, 파싱 및 변환을 위한 방법을 보여줍니다.

#### 선행지식
1. Python 언어 기초.
2. Numpy 라이브러리 기초.
3. table 구조의 데이터에 대한 이해. (엑셀 형태의 데이터)

#### 실습목표
1. csv 파일 읽는법. 
2. dataframe을 만드는 법.
2. dataframe을 다루기.
3. head, tail
4. 정렬
5. numpy array와 변환, 
6. 다양한 dataframe 연산.


## 00. 라이브러리 불러오기 & 데이터 업로드

In [0]:
import pandas as pd
from google.colab import files

In [0]:
uploaded = files.upload() # Graduate_apply.csv를 업로드 해두자

In [0]:
ls

## 01. Creating Data Frames

In [0]:
# Dataframes 생성
d = {
   'col1': ['Item0', 'Item0', 'Item1', 'Item1'],
   'col2': ['Gold', 'Bronze', 'Gold', 'Silver'],
   'col3': [1, 2, 3, 4]
}
df = pd.DataFrame(d)

In [0]:
# Numpy Array => Pandas DataFrame
import numpy as np

dates = pd.date_range('20171201', periods=6)
# DatetimeIndex(['2017-12-01', '2017-12-02', '2017-12-03', '2017-12-04',
#                '2017-12-05', '2017-12-06'],
#               dtype='datetime64[ns]', freq='D')

df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
#                   A         B         C         D
# 2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
# 2013-01-02  1.212112 -0.173215  0.119209 -1.044236
# 2013-01-03 -0.861849 -2.104569 -0.494929  1.071804
# 2013-01-04  0.721555 -0.706771 -1.039575  0.271860
# 2013-01-05 -0.424972  0.567020  0.276232 -1.087401
# 2013-01-06 -0.673690  0.113648 -1.478427  0.524988

df

In [0]:
# Pandas DataFrame => Numpy Array
np_array = df.values
print(np_array, np_array.shape)

In [0]:
# Loading CSV files

df = pd.read_csv('./Graduate_apply.csv', sep=',')
print(df.head())

df = pd.read_csv('./Graduate_apply.csv', sep=',', skipinitialspace=True)
print(df.head())

# to_csv
df.to_csv('./file.csv', header=True, index=False, encoding='utf-8')

In [0]:
ls

## 02. Previewing Data

In [0]:
# 첫 5개 행의 데이터를 보여줍니다.
df.head()

In [0]:
# 마지막 3개 행의 데이터를 보여줍니다.
df.tail(3)

In [0]:
# 데이터 프레임 모양 확인 - (rows, cols) tuple
df.shape

In [0]:
# 칼럼명 출력
print(df.columns)
print(list(df))

In [0]:
# 각 칼럼의 데이터 타입
df.dtypes

In [0]:
# 데이터 출력 - numpy array
df.values

In [0]:
# 간단한 통계 정보
df.describe()

## 03. Sorting

In [0]:
# index로 정렬
df.sort_index(axis=0, ascending=False).head()

In [0]:
# 특정 컬럼의 값으로 정렬
df.sort_values(by=['admit', 'gpa'], ascending=False).head()

### 실습

In [0]:
# pandas 라이브러리 호출

# pandas read_csv 함수를 이용하여 ./resources/graduate_apply.csv 파일을 읽고, data_frame 변수에 담습니다. 

# data_frame의 shape를 확인합니다.

# data_frame의 칼럼명과 각 칼럼의 데이터 타입을 확인합니다.

# data_frame의 데이터의 첫 3행의 데이터와 마지막 3행의 데이터를 출력합니다.

# data_frame의 데이터를 numpy array로 변환하여 출력합니다.

# data_frame의 데이터를 'gra' 칼럼을 기준으로 오름차순으로 정렬합니다. 


## 04. Selecting/Querying

In [0]:
# 칼럼명으로 조회 1
df.gre.head()

In [0]:
# 칼럼명으로 조회 2
df['gre'].head()
df['gre'].unique()          # 중복 제거

In [0]:
# 두 개의 칼럼 동시 조회
df[['gpa', 'gre']].head()

In [0]:
# 행번호 1 조회
df.iloc[1]

In [0]:
# 행번호 1~3 조회
df.iloc[1:3]

In [0]:
# 0번째 row, 0번째 column
df.iloc[0, 0]

In [0]:
# 0~4 rows & 0~2 columns
df.iloc[0:4, 0:2]

In [0]:
# Produces and array, not a single value!
(df.gpa > 3.5).head()

In [0]:
# Query by a single column value
df[df.gpa > 3.0].head()

In [0]:
# Query by a single column, if it is in a list of predefined values
df[df['rank'].isin([1, 2])].head()

In [0]:
# A conjunction query using two columns
df[(df['gpa'] > 3.0) & (df['rank'] == 3)].head()

In [0]:
# A disjunction query using two columns
df[(df['gpa'] > 3.0) | (df['rank'] == 3)].head()

In [0]:
# Dataframes 생성
d = {
   'col1': ['Item0', 'Item0', 'Item1', 'Item1'],
   'col2': ['Gold', 'Bronze', 'Gold', 'Silver'],
   'col3': [1, 2, 3, 4]
}
df1 = pd.DataFrame(d)

# 문자열이 들어있는 row만 조회
df1[df1.col2.str.contains('ilver')]

### 실습

In [0]:
# pandas 라이브러리 호출

# pandas read_csv 함수를 이용하여 ./resources/graduate_apply.csv 파일을 읽고, data_frame 변수에 담습니다. 

# data_frame의 shape를 확인합니다.

# data_frame의 칼럼명과 각 칼럼의 데이터 타입을 확인합니다.

# data_frame의 데이터의 첫 3행의 데이터와 마지막 3행의 데이터를 출력합니다.

# 'gpa' 칼럼의 데이터를 조회합니다. 

# unique 함수를 가지고 'rank'의 칼럼에 들어있는 데이터의 종류를 확인합니다.

# 100번째 행의 데이터를 조회합니다.

# rank가 0인 데이터를 조회합니다. 

# rank가 3, 4인 데이터의 갯수를 확인합니다.


## 05. Modifying Data Frames

In [0]:
# 인덱스와 칼럼명으로 조회 & 수정
df1.loc[1, 'col2'] = 'Bronze and Gold' 
df1

In [0]:
# 행번호, 열번호로 조회 & 수정
df1.iloc[1, 1] = 'Bronze again' 
df1

In [0]:
# Replaces the column with the array. It could be a numpy array or a simple list.
# Could also be used to create new columns
df1.loc[1:3, 'col3'] = ['Unknown0'] * 3
df1

In [0]:
# Equivalent to the previous
df1.col3 = ['Unknown1'] * len(df1) 
df1

# 위와 동일하게 동작하는 코드
# df1.loc[:, 'col3'] = ['Unknown2'] * len(df1)

In [0]:
def f(x):
    return x + ' New Column';

# Uses the unary function f to create a new column based on an existing one
df1.col4 = f(df1.col3) 
df1

In [0]:
def g(x, y):
    return x + '_' + y

# Uses the 2-arg function g to create a new column based on 2 existing columns
df1.col4 = g(df1.col3, df1.col2)
df1

In [0]:
df = pd.read_csv('./Graduate_apply.csv', sep=',', skipinitialspace=True, engine='python')
print(df.head())
print("------")

# 특정 칼럼의 Dummy Variable을 얻기
df_rank = pd.get_dummies(df['rank'])
print(df_rank.head())
print("------")

# Dummy 데이터를 원래 데이터와 합치기
df_new = pd.concat([df, df_rank], axis=1)
print(df_new.head())
print("------")

# 특정 칼럼 제거하기
df_new.drop('rank', axis=1, inplace=True)
print(df_new.head())
print("------")

# 여러 칼럼 동시 제거하기
df_new.drop(['gre', 'gpa'], axis=1, inplace=True)
print(df_new.head())
print("------")


## 06. Group by, Join, Rolling

In [0]:
import pandas as pd

In [0]:
df = pd.read_csv('https://raw.githubusercontent.com/RayleighKim/Example_datasets/master/Graduate_apply.csv')

In [0]:
print(df.shape)
df.head(3)

[고군분투의 흔적](https://www.facebook.com/photo.php?fbid=1939114629501924&set=a.1046527102094019&type=3)

### 06-1. Group by

일단 단순한 수준에서 겪어보자

In [0]:
df.groupby(by=['rank'], as_index = False)['gre'].mean()

In [0]:
df.groupby(by = ['rank', 'admit'], as_index=False)['gre', 'gpa'].mean()

In [0]:
df.groupby(by = ['rank', 'admit'], as_index=False)['gre', 'gpa'].std()

In [0]:
df.groupby(by = ['rank', 'admit'], as_index=False).count()

In [0]:
df.groupby(by = ['rank', 'admit'], as_index=False)['gre'].count()

이름들이 조금 이상하다. 컬럼이름을 바꾸어보자

In [0]:
df_by_rank = df.groupby(by = ['rank'], as_index=False)['gre'].mean()
df_by_rank.head()

In [0]:
if 'gre' in df_by_rank.columns :
    df_by_rank.rename(columns={'gre':'gre_mean'}, inplace = True)

In [0]:
df_by_rank.head()

실습해봅시다!

rank, admit 기준으로 gre의 최대값을 출력하시오.

.max()를 사용하면 됩니다.

In [0]:
## Your Code



### 06-2 Join

In [0]:
mean_by_rank = df.groupby(by = ['rank'], as_index=False)['gre', 'gpa'].mean()
mean_by_rank.rename(columns = {'gre':'gre_mean', 'gpa':'gpa_mean'}, inplace = True)
mean_by_rank

In [0]:
'''
pandas,  ver0.22.0 기준으로 망가져 있는 기능.
rank가 미쳐보이지만 놀랍게도, 값들은 정상입니다.
'''
std_by_rank = df.groupby(by = ['rank'], as_index=False)['gre', 'gpa'].std()
std_by_rank.rename(columns = {'gre':'gre_std', 'gpa':'gpa_std'}, inplace = True)
std_by_rank

pandas ver0.22.0 기준으로 망가져 있는 기능을 우회하여 사용하는 가장 빠른 방법은 다음과 같습니다.

In [0]:
std_by_rank['rank'] = mean_by_rank['rank']
std_by_rank

판다스에서 join은 굉장히 간단합니다.

자동으로 key를 잡아줍니다!

다만, 자동으로 inner join을 합니다.

In [0]:
pd.merge(mean_by_rank, std_by_rank)

In [0]:
pd.merge(mean_by_rank, std_by_rank, on = 'rank', how = 'outer')

multiple key에 대해서도 자동으로 join이 됩니다!

In [0]:
mean_by_rank2 = df.groupby(by = ['rank', 'admit'], as_index=False)['gre', 'gpa'].mean()
mean_by_rank2.rename(columns = {'gre':'gre_mean', 'gpa':'gpa_mean'}, inplace = True)
mean_by_rank2

In [0]:
std_by_rank2 = df.groupby(by = ['rank','admit'], as_index=False)['gre', 'gpa'].std()
std_by_rank2.rename(columns = {'gre':'gre_std', 'gpa':'gpa_std'}, inplace = True)
std_by_rank2['rank'] = mean_by_rank2['rank']
std_by_rank2

In [0]:
pd.merge(mean_by_rank2,std_by_rank2)

실습해봅시다!

rank, admit 기준으로 gre의 최소값을 담는 dataframe을 만들어

다음의 데이터 프레임(df_to_merge)와 join 하시오.

In [0]:
df_to_merge = pd.merge(mean_by_rank2, std_by_rank2)
df_to_merge.head()

In [0]:
df_mingre = df.groupby(by = ['rank','admit'], as_index=False)['gre'].min()
df_mingre

In [0]:
### Your Code here

### 06-3 Rolling


In [0]:
import pandas as pd

In [0]:
stock = pd.read_csv('https://raw.githubusercontent.com/RayleighKim/Example_datasets/master/Stock_Edwards_Lifesciences_corporation.csv')
stock.head()

Date 와 Close 가격만을 남겨 보죠.

In [0]:
stock = stock[['Date', 'Close']]
stock.head()

기준일 포함하여 과거 3일의 평균을 데이터 프레임에 붙여봅시다.

In [0]:
stock['Close_MA_3'] = stock['Close'].rolling(3).mean()
stock.head(10)

min_periods를 기억하자

In [0]:
stock['Close_MA_3(2)'] = stock['Close'].rolling(3, min_periods=1).mean()
stock.head(10)

기준일 포함하여 과거 3일 중 최대값은 어떨까요?

In [0]:
stock['Close_MM_3'] = stock['Close'].rolling(3).max()
stock.head(10)

기준일을 포함하지 않은, 과거 3일의 평균을 붙인다면?

In [0]:
stock['Close_MA_3_lag1'] = stock['Close_MA_3'].shift()
stock.head()

실습!!

stock 옆에, 과거 4일의 표준편차를 붙이시오!

In [0]:
stock['Close_MS_3'] = ## Your Code
    
stock.head()