# Pandas
파이썬 데이터 분석의 3대 라이브러리: 
* Numpy : 배열, 행열을 다룸
* Pandas : 엑셀과 같은 데이터프레임을 다룸
* Matplotlib : 시각화

In [1]:
# pandas 사용하기
import numpy as np
import pandas as pd

In [None]:
# 2. Pandas 자료구조
# Pandas 에서는 기본적으로 정의되는 자료구조인 Series와 Data Frame을 사용한다.
# 이 자료구조들은 빅 데이터 분석에 있어서 높은 수준의 성능을 보여준다.

In [None]:
# 2-1. Series

In [2]:
# Series 정의하기
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [3]:
# Series의 값만 확인하기
obj.values

array([ 4,  7, -5,  3])

In [6]:
# Series의 인덱스만 확인하기
obj.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
# Series의 자료형 확인하기
obj.dtypes

dtype('int64')

In [10]:
# 인덱스를 바꿀 수 있다
# obj2 = pd.Series([4,7,-5,3], index=['d','b','a','c'])
# obj2

obj2 = pd.Series([4,7,-5,3], index=['d','b','a','c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [11]:
# python의 dictionary 자료형을 Series data로 만들 수 있다.
# dictionary의 key가 Series의 index가 된다
# sdata = {'kim':35000, 'park':67000, 'john':12000, 'choi':4000}
# obj3 = pd.Series(sdata)
# obj3

sdata = {'kim':35000, 'park':67000, 'john':12000, 'choi':4000}
obj3 = pd.Series(sdata)
obj3

kim     35000
park    67000
john    12000
choi     4000
dtype: int64

In [14]:
# index 변경
# obj3.index = ['A', 'B', 'C', 'D']
# obj3

obj3.index = ['A', 'B', 'C', 'D']
obj3

A    35000
B    67000
C    12000
D     4000
dtype: int64

In [None]:
# 2-2. Data Frame

In [None]:
# Data Frame 정의하기
# 이전에 DataFrame에 들어갈 데이터를 정의해주어야 하는데,
# 이는 python의 dictionary 또는 numpy의 array로 정의할 수 있다.

data = {'name':['lee', 'lee', 'lee', 'kim', 'park'],
       'year':[2013, 2014, 2015, 2016, 2015],
       'points':[1.5, 1.7, 3.6, 2.4, 2.9]}

df = pd.DataFrame(data)
df

In [None]:
# 행과 열의 구조를 가진 데이터가 생긴다.

In [None]:
# 행 번호
df.index

In [None]:
# 열 이름
df.columns

In [None]:
df.head(3)

In [None]:
df.tail(2)

In [None]:
# 값 얻기
df.values

In [None]:
data

In [None]:
# DataFrame을 만들면서 columns와 index를 설정할 수 있다.

df2 = pd.DataFrame(data, columns=['year', 'name', 'points', 'penalty'], index=['one', 'two', 'three', 'four', 'five'])
df2

In [None]:
# DataFrame을 정의하면서, data로 들어가는 python dictionary와 columns의
# 순서가 달라도 알아서 맞춰서 정의된다.
# 하지만 data에 포함되어 있지 않은 값은
# Nan(Not a Number)으로 나타나게 된다.
# 이는 null과 같은 개념이다.
# Nan 값은 추후에 어떠한 방법으로도 처리가 되지 않는 데이터이다.
# 따라서 올바른 데이터 처리를 위해 추가적으로 값을 넣어줘야 한다.

In [None]:
# describe() 함수는 DataFrame의 계산 가능한 값들에 대한 요약통계 값을 보여준다.
df2.describe()

In [None]:
# info() 함수는 DataFrame의 요약정보를 보여준다.
df2.info()

In [None]:
# 3. DataFrame Indexing

In [None]:
data = {'names':['lee', 'lee', 'lee', 'park', 'park'],
       'year': [2014, 2015, 2016, 2015, 2016],
       'points':[1.5, 1.7, 3.6, 2.4, 2.9]}

df3 = pd.DataFrame(data, 
                   columns=['year', 'names', 'points', 'penalty'], 
                   index=['one', 'two', 'three', 'four', 'five'])
df3

In [None]:
# 3-1. DataFrame 에서 열을 선택하고 조작하기

In [None]:
df3['names']

In [None]:
# 동일한 의미를 갖는, 다른 방법
df3.names

In [None]:
df3[['year', 'points']]

In [None]:
# 특정 열에 대해 위와 같이 선택하고, 우리가 원하는 값을 대입할 수 있다.
df3.penalty = 0.5
df3

In [None]:
# 또는
# python의 List나 numpy의 array
df3.penalty = [0.2, 0.3, 0.5, 0.8, 0.1]
df3

In [None]:
# 새로운 열을 추가하기
df3['zeros'] = np.arange(5)
df3

In [None]:
# Series를 추가할 수도 있다.
val = pd.Series([-1.2, -1.5, -1.7],
               index=['two', 'four', 'five'])

In [None]:
df3['depts'] = val
df3

In [None]:
# 하지만 Series로 넣을 때는 val와 같이 넣으려는 data의 index에 맞춰서 
# 데이터가 들어간다.
# 이점이 python list나 numpy array로 데이터를 넣을 때와 가장 큰 차이점이다.

In [None]:
df3['net_points'] = df3['points'] - df3['penalty']
df3

In [None]:
df3['high_points'] = df3['net_points'] > 2
df3

In [None]:
# 열 삭제하기
del df3['high_points']
df3

In [None]:
del df3['net_points']
df3

In [None]:
# 3-2. DataFrame에서 행을 선택하고 조작하기
# Pandas에서는 DataFrame에서 행을 인덱싱하는 방법이 무수히 많다.
# 물론 위에서 소개했던 열을 선택하는 방법도 수많은 방법 중에 하나에 불과하다.

In [None]:
# 0번째 부터 2(3-1)번째 까지 가져온다.
# 뒤에 써준 숫자번째의 행은 뺀다.
df3[0:3]

In [None]:
# 아래 방법을 권장한다.
# .loc 또는 .iloc 함수를 사용하는 방법
df3

In [None]:
df3.loc[:,'year']

In [None]:
df3.loc['one','year']

In [None]:
df3.loc['two']

In [None]:
df3.loc['two':'four']

In [None]:
# DataFrame 복제하는 방법 

data = {'names':['lee', 'lee', 'lee', 'park', 'park'],
       'year': [2014, 2015, 2016, 2015, 2016],
       'points':[1.5, 1.7, 3.6, 2.4, 2.9]}

df = pd.DataFrame(data, 
                   columns=['year', 'names', 'points', 'penalty'], 
                   index=['one', 'two', 'three', 'four', 'five'])
df

In [None]:
# np.copy 를 이용해서 복제하면 각각의 DataFrame이 독립적이다.
df_copy = df.copy() 
df_copy

In [None]:
del df_copy['penalty']
print(df)
print(df_copy)

In [None]:
# '=' 를 이용해서 복제하면 종속되어 같이 변경된다.
df_copy = df
df_copy

In [None]:
del df_copy['penalty']
print(df)
print(df_copy)

In [None]:
data = {'names':['lee', 'lee', 'lee', 'park', 'park'],
       'year': [2014, 2015, 2016, 2015, 2016],
       'points':[1.5, 1.7, 3.6, 2.4, 2.9]}

df = pd.DataFrame(data, 
                   columns=['year', 'names', 'points', 'penalty'], 
                   index=['one', 'two', 'three', 'four', 'five'])
df

In [None]:
# 새로운 행 삽입하기
df.loc['six',:] = [2013, 'june', 4.0, 0.1]
df

In [None]:
# .iloc 사용 :: index 번호를 사용한다.
df.iloc[3]

In [None]:
df.iloc[3:5, 0:2]

In [None]:
df.iloc[[1,3,4],[1,2]]

In [None]:
df.iloc[:,1:4]

In [None]:
df.loc['seven',:] = [2018, 'may', 5.0, 0.8]
df

In [None]:
df.drop('seven')

In [None]:
df.iloc[5,1]

In [None]:
# 4.DataFrame에서의 boolean Indexing

In [None]:
df

In [None]:
# year가 2014보다 큰 boolean data
df['year']>2014

In [None]:
# year가 2014보다 큰 모든 행의 값

df.loc[df['year']>2014,:]   # df.loc[df['year']>2014] 와 동일

In [None]:
df[df['year']>2014]

In [None]:
df

In [None]:
df.loc[df['names'] == 'lee',['points','penalty']]

In [None]:
df

In [None]:
# numpy에서와 같이 논리연산을 응용할 수 있다.
# points < 1.7 이거나 points >2.9 인 행을 가져오자

# 연산자 우선순위를 고려하여 조건식(부등식)에 괄호를 씌운다.

df.loc[(df['points']<1.7) + (df['points']>2.9),:]

In [None]:
# 5.Data

In [None]:
# DataFrame을 만들 때 index, column을 설정하지 않으면 
# 기본 값으로 0부터 시작하는 정수형 숫자로 입력된다.
df = pd.DataFrame(np.random.randn(6,4))
df

In [None]:
# pandas에서 제공하는 date_range 함수는 datetime 자료형으로 구성된,
# 날짜, 시각 등을 알 수 있는 자료형을 만드는 함수
df.columns = ['A', 'B', 'C', 'D']
df.index = pd.date_range('20190911', periods=6)
df

In [None]:
# np.nan은 NaN값을 의미한다.
df['F'] = [1.0, np.nan, 3.5, 6.1, np.nan, 7.0]
df

In [None]:
# NaN 없애기

In [None]:
# 행의 값 중 하나라도 nan인 경우 그 행을 없앤다.
df.dropna(how='any')

In [None]:
df

In [None]:
# 행의 값이 모두 nan인 경우 그행을 없앤다.
df.dropna(how='all')

In [None]:
# 주의 drop함수는 특정 행 또는 열을 drop하고 난 DataFrame을 반환한다.
# 즉, 반환을 받지 않으면 기존의 DataFrame은 그대로이다.
# 아니면, inplace = True 라는 인자를 추가하여, 반환을 받지 않고서도
# 기존의 DataFrame이 변경되도록 한다.

In [None]:
# nan 값에 값 넣기
df.fillna(value=0.5, inplace=True)
df

In [None]:
# nan 값인지 확인하기
df.isnull()

In [None]:
df = pd.DataFrame(np.random.randn(6,4))
df.columns = ['A', 'B', 'C', 'D']
df.index = pd.date_range('20190911', periods=6)
df['F'] = [1.0, np.nan, 3.5, 6.1, np.nan, 7.0]
df

In [None]:
# F열에서 nan값을 포함하는 행만 추출하기
df.loc[df.isnull()['F'],:]

In [None]:
pd.to_datetime('20190911')

In [None]:
# 특정 행 drop 하기
df.drop(pd.to_datetime('20190911'))

In [None]:
# 2개 이상도 가능
df.drop([pd.to_datetime('20190912'), pd.to_datetime('20190914')])

In [None]:
# 특정 열 삭제하기
df.drop('F', axis=1)

In [None]:
# 2개 이상의 열도 가능
df.drop(['A', 'C'], axis=1)

In [None]:
# 6.Data 분석용 함수들

In [None]:
data = [[1.4, np.nan],
       [7.1, -4.5],
       [np.nan, np.nan],
       [0.75, -1.3]]

df = pd.DataFrame(data, columns = ['one', 'two'], index=['a', 'b', 'c', 'd'])
df

In [None]:
# 행 방향으로의 합(즉, 각 열의 합)
df.sum(axis=0)

In [None]:
# 열방향으로의 합(즉, 각 행의 합)
df.sum(axis=1)

In [None]:
# 이 때, 위에서 볼 수 있듯이 NaN값은 배제하고 계산한다.
# NaN 값을 배제하지 않고 계산하려면 아래와 같이 skipna에 대해 false를 지정해 준다.

In [None]:
# 연산의 대상이 되는 값이 행 요소이면 axis=0, 열 요소이면 axis=1

In [None]:
df.sum(axis=1, skipna=False)

In [None]:
# 특정 행 또는 특정 열에서만 계산하기
df['one'].sum()

In [None]:
df.loc['b',:].sum()

In [None]:
# 열을 찾을 때는 인덱싱 하는 것처럼 하면 되지만, 행을 찾을 때는 .loc 메소드를 사용한다.
# 데이터프레임에서 열은 라벨이라는 같은 속성으로 값들을 가지지만, 행은 인덱스만 같을 뿐 다른 속성으로 값을 가진다.
# 딕셔너리에서 key값으로 value를 찾을수는 있지만 value로 Key를 찾을수 없는 것과 같다.

In [None]:
# pandas에서 DataFrame에 적용되는 함수들
# sum()함수 이외에도 pandas에서 DataFrame에 적용되는 함수는 다음의 것들이 있다.
# count 전체 성분의(NaN이 아닌) 값의 갯수를 계산
# min, max 전체 성분의 최솟, 최댓값을 계산
# argmin, argmax 전체 성분의 최솟값, 최댓값이 위치한 (정수)인덱스를 반환
# idxmin, idxmax 전체 인덱스 중 최솟값, 최댓값을 반환
# quantile 전체 성분의 특정 사분위수에 해당하는 값을 반환 (0~1 사이)
# sum 전체 성분의 합을 계산
# mean 전체 성분의 평균을 계산
# median 전체 성분의 중간값을 반환
# mad 전체 성분의 평균값으로부터의 절대 편차(absolute deviation)의 평균을 계산
# std, var 전체 성분의 표준편차, 분산을 계산
# cumsum 맨 첫 번째 성분부터 각 성분까지의 누적합을 계산(0에서부터 계속 더해짐)
# cumprod 맨 첫번째 성분부터 각 성분까지의 누적곱을 계산(1에서부터 계속 곱해짐)

In [None]:
df2 = pd.DataFrame(np.random.randn(6,4),
                  columns=['A', 'B', 'C', 'D'],
                  index = pd.date_range('20160701', periods=6))
df2

In [None]:
# A열과 B열의 상관계수 구하기
df2['A'].corr(df2['B'])

In [None]:
# 정렬함수 및 기타함수

In [None]:
dates = df2.index
random_dates = np.random.permutation(dates)
df2 = df2.reindex(index=random_dates, columns = ['D', 'B', 'C', 'A'])
df2

In [None]:
# index와 column의 순서가 섞여있다.
# 이 때 index가 오름차순이 되도록 정렬해보자
df2.sort_index(axis=0)

In [None]:
# column을 기준으로?
df2.sort_index(axis=1)

In [None]:
# 내림차순으로는?
df2.sort_index(axis=0, ascending=False)

In [None]:
# 값 기준 정렬하기
# D열의 값이 오름차순이 되도록 정렬하기
df2.sort_values(by='D')

In [None]:
# B열의 값이 내림차순이 되도록 정렬하기
df2.sort_values(by='B', ascending=False)

In [None]:
df2['E'] = np.random.randint(0, 6, size=6)
df2['F'] = ['a', 'b', 'g', 'g', 'a', 'g']
df2

In [None]:
# E열과 F열을 동시에 고려하여, 오름차순으로 하려면?
df2.sort_values(by=['E', 'F'])

In [None]:
df2.sort_values(by=['F', 'E'])

In [None]:
# 지정한 행 또는 열에서 중복값을 제외한 유니크한 값만 얻기
df2['F'].unique()

In [None]:
# 지정한 행 또는 열에서 값에 따른 개수 얻기
df2['F'].value_counts()

In [None]:
# 지정한 행 또는 열에서 입력한 값이 있는지 확인하기
df2['F'].isin(['a', 'b'])

In [None]:
# F열의 값이 a나 b인 모든 행 구하기
df2.loc[df2['F'].isin(['a', 'b']),:]

In [None]:
# 사용자가 직접 만든 함수를 적용하기

func = lambda x: x.max() - x.min()

# def func(x):
#   r = x.max() - x.min()

In [None]:
del df2['F']

In [None]:
df2.apply(func, axis=0)