# Pandas
파이썬 데이터 분석의 3대 라이브러리: 
* Numpy : 배열, 행열을 다룸
* Pandas : 엑셀과 같은 데이터프레임을 다룸
* Matplotlib : 시각화

In [0]:
# pandas 사용하기
import numpy as np #numpy 도 함께 사용
import pandas as pd

In [0]:
# 2. Pandas 자료구조
# Pandas 에서는 기본적으로 정의되는 자료구조인 Series와 Data Frame을 사용한다.
# 이 자료구조들은 빅 데이터 분석에 있어서 높은 수준의 성능을 보여준다.

In [0]:
# 2-1. Series

In [0]:
# Series 정의하기
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [0]:
obj = pd.Series([4, 7, -5, 3],index=['a','b','c','d'])
obj

a    4
b    7
c   -5
d    3
dtype: int64

In [0]:
# Series의 값만 확인하기
obj.values

array([ 4,  7, -5,  3])

In [0]:
# Series의 인덱스만 확인하기
obj.index

RangeIndex(start=0, stop=4, step=1)

In [0]:
# Series의 자료형 확인하기
obj.dtypes

dtype('int64')

In [0]:
# 인덱스를 바꿀 수 있다


In [0]:
# python의 dictionary 자료형을 Series data로 만들 수 있다.
# dictionary의 key가 Series의 index가 된다
sdata = {'kim':35000, 'park':67000, 'john':12000, 'choi':4000}
obj3 = pd.Series(sdata)
obj3

kim     35000
park    67000
john    12000
choi     4000
dtype: int64

In [0]:
# index 변경
obj3.index=['A','B','C','D']
obj3

A    35000
B    67000
C    12000
D     4000
dtype: int64

In [0]:
# 2-2. Data Frame

In [0]:
# Data Frame 정의하기
# 이전에 DataFrame에 들어갈 데이터를 정의해주어야 하는데,
# 이는 python의 dictionary 또는 numpy의 array로 정의할 수 있다.

data = {'name':['lee', 'lee', 'lee', 'kim', 'park'],
       'year':[2013, 2014, 2015, 2016, 2015],
       'points':[1.5, 1.7, 3.6, 2.4, 2.9]}
df=pd.DataFrame(data)
df

Unnamed: 0,name,year,points
0,lee,2013,1.5
1,lee,2014,1.7
2,lee,2015,3.6
3,kim,2016,2.4
4,park,2015,2.9


In [0]:
# 행과 열의 구조를 가진 데이터가 생긴다.

In [0]:
# 행 번호
df.index

RangeIndex(start=0, stop=5, step=1)

In [0]:
# 열 이름
df.columns

Index(['name', 'year', 'points'], dtype='object')

In [0]:
df.head(2)

Unnamed: 0,name,year,points
0,lee,2013,1.5
1,lee,2014,1.7


In [0]:
df.tail(2) #뒤에서부터 2개 보여줌

Unnamed: 0,name,year,points
3,kim,2016,2.4
4,park,2015,2.9


In [0]:
# 값 얻기
df.values

array([['lee', 2013, 1.5],
       ['lee', 2014, 1.7],
       ['lee', 2015, 3.6],
       ['kim', 2016, 2.4],
       ['park', 2015, 2.9]], dtype=object)

In [0]:
# DataFrame을 만들면서 columns와 index를 설정할 수 있다.
df2=pd.DataFrame(data,columns=['year','name','points','penalty'], index=['one','two','three','four','five'])
df2

Unnamed: 0,year,name,points,penalty
one,2013,lee,1.5,
two,2014,lee,1.7,
three,2015,lee,3.6,
four,2016,kim,2.4,
five,2015,park,2.9,


In [0]:
# DataFrame을 정의하면서, data로 들어가는 python dictionary와 columns의
# 순서가 달라도 알아서 맞춰서 정의된다.
# 하지만 data에 포함되어 있지 않은 값은
# Nan(Not a Number)으로 나타나게 된다.
# 이는 null과 같은 개념이다.
# Nan 값은 추후에 어떠한 방법으로도 처리가 되지 않는 데이터이다.
# 따라서 올바른 데이터 처리를 위해 추가적으로 값을 넣어줘야 한다.

In [0]:
# describe() 함수는 DataFrame의 계산 가능한 값들에 대한
# 요약통계 값을 보여준다.
df2.describe()

Unnamed: 0,year,points
count,5.0,5.0
mean,2014.6,2.42
std,1.140175,0.864292
min,2013.0,1.5
25%,2014.0,1.7
50%,2015.0,2.4
75%,2015.0,2.9
max,2016.0,3.6


In [0]:

#데이터요약
df2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, one to five
Data columns (total 4 columns):
year       5 non-null int64
name       5 non-null object
points     5 non-null float64
penalty    0 non-null object
dtypes: float64(1), int64(1), object(2)
memory usage: 200.0+ bytes


In [0]:
# 3. DataFrame Indexing

In [0]:
data = {'name':['lee', 'lee', 'lee', 'park', 'park'],
       'year': [2014, 2015, 2016, 2015, 2016],
       'points':[1.5, 1.7, 3.6, 2.4, 2.9]}

df=pd.DataFrame(data,columns=['year','name','points','penalty'], index=['one','two','three','four','five'])
df

Unnamed: 0,year,name,points,penalty
one,2014,lee,1.5,
two,2015,lee,1.7,
three,2016,lee,3.6,
four,2015,park,2.4,
five,2016,park,2.9,


In [0]:
# 3-1. DataFrame 에서 열을 선택하고 조작하기

In [0]:
df['year']

one      2014
two      2015
three    2016
four     2015
five     2016
Name: year, dtype: int64

In [0]:
df['name']

one       lee
two       lee
three     lee
four     park
five     park
Name: name, dtype: object

In [0]:
# 동일한 의미를 갖는, 다른 방법
df.year

one      2014
two      2015
three    2016
four     2015
five     2016
Name: year, dtype: int64

In [0]:
df[['year','points']]

Unnamed: 0,year,points
one,2014,1.5
two,2015,1.7
three,2016,3.6
four,2015,2.4
five,2016,2.9


In [0]:
# 특정 열에 대해 위와 같이 선택하고, 우리가 원하는 값을 대입할 수 있다.
df['penalty']=0.5
df

Unnamed: 0,year,name,points,penalty
one,2014,lee,1.5,0.5
two,2015,lee,1.7,0.5
three,2016,lee,3.6,0.5
four,2015,park,2.4,0.5
five,2016,park,2.9,0.5


In [0]:
# 또는
# python의 List나 numpy의 array

df['penalty']=[1,33,2,44,3]
df

Unnamed: 0,year,name,points,penalty,win
one,2014,lee,1.5,1,3
two,2015,lee,1.7,33,3
three,2016,lee,3.6,2,3
four,2015,park,2.4,44,3
five,2016,park,2.9,3,3


In [0]:
df['win']=3
df

Unnamed: 0,year,name,points,penalty,win
one,2014,lee,1.5,0.5,3
two,2015,lee,1.7,0.5,3
three,2016,lee,3.6,0.5,3
four,2015,park,2.4,0.5,3
five,2016,park,2.9,0.5,3


In [0]:
# 새로운 열을 추가하기
df['zeros']=np.arange(5)

In [0]:
df

Unnamed: 0,year,name,points,penalty,win,zeros
one,2014,lee,1.5,1,3,0
two,2015,lee,1.7,33,3,1
three,2016,lee,3.6,2,3,2
four,2015,park,2.4,44,3,3
five,2016,park,2.9,3,3,4


In [0]:
# Series를 추가할 수도 있다.
val = pd.Series([-1.2,-1.5,-1.7],index=['two','four','five'])

In [0]:
df['debt']=val

In [0]:
df

Unnamed: 0,year,name,points,penalty,win,zeros,debt
one,2014,lee,1.5,1,3,0,
two,2015,lee,1.7,33,3,1,-1.2
three,2016,lee,3.6,2,3,2,
four,2015,park,2.4,44,3,3,-1.5
five,2016,park,2.9,3,3,4,-1.7


In [0]:
# 하지만 Series로 넣을 때는 val와 같이 넣으려는 data의 index에 맞춰서 
# 데이터가 들어간다.
# 이점이 python list나 numpy array로 데이터를 넣을 때와 가장 큰 차이점이다.

In [0]:
df['net_points']=df['points']-df['penalty']
df

Unnamed: 0,year,name,points,penalty,win,zeros,debt,net_points
one,2014,lee,1.5,1,3,0,,0.5
two,2015,lee,1.7,33,3,1,-1.2,-31.3
three,2016,lee,3.6,2,3,2,,1.6
four,2015,park,2.4,44,3,3,-1.5,-41.6
five,2016,park,2.9,3,3,4,-1.7,-0.1


In [0]:
 df['high_points'] =df['net_points']
 df

Unnamed: 0,year,name,points,penalty,win,zeros,debt,net_points,high_points
one,2014,lee,1.5,1,3,0,,0.5,0.5
two,2015,lee,1.7,33,3,1,-1.2,-31.3,-31.3
three,2016,lee,3.6,2,3,2,,1.6,1.6
four,2015,park,2.4,44,3,3,-1.5,-41.6,-41.6
five,2016,park,2.9,3,3,4,-1.7,-0.1,-0.1


In [0]:
# 열 삭제하기
del df['win']
df

Unnamed: 0,year,name,points,penalty,debt,high_points
one,2014,lee,1.5,1,,0.5
two,2015,lee,1.7,33,-1.2,-31.3
three,2016,lee,3.6,2,,1.6
four,2015,park,2.4,44,-1.5,-41.6
five,2016,park,2.9,3,-1.7,-0.1


In [0]:
del df['net_points']
del df['zeros']
df

Unnamed: 0,year,name,points,penalty,win,debt,high_points
one,2014,lee,1.5,1,3,,0.5
two,2015,lee,1.7,33,3,-1.2,-31.3
three,2016,lee,3.6,2,3,,1.6
four,2015,park,2.4,44,3,-1.5,-41.6
five,2016,park,2.9,3,3,-1.7,-0.1


In [0]:
# 3-2. DataFrame에서 행을 선택하고 조작하기
# Pandas에서는 DataFrame에서 행을 인덱싱하는 방법이 무수히 많다.
# 물론 위에서 소개했던 열을 선택하는 방법도 수많은 방법 중에 하나에 불과하다.

In [0]:
# 0번째 부터 2(3-1)번째 까지 가져온다.
# 뒤에 써준 숫자번째의 행은 뺀다.
df[:3]

Unnamed: 0,year,name,points,penalty,debt,high_points
one,2014,lee,1.5,1,,0.5
two,2015,lee,1.7,33,-1.2,-31.3
three,2016,lee,3.6,2,,1.6


In [0]:
# 아래 방법을 권장한다.
# .loc 또는 .iloc 함수를 사용하는 방법
df.loc['two']

year           2015
name            lee
points          1.7
penalty          33
debt           -1.2
high_points   -31.3
Name: two, dtype: object

In [0]:
df.loc['two':'four']

Unnamed: 0,year,name,points,penalty,debt,high_points
two,2015,lee,1.7,33,-1.2,-31.3
three,2016,lee,3.6,2,,1.6
four,2015,park,2.4,44,-1.5,-41.6


In [0]:
df.loc['two':'four','points']

two      1.7
three    3.6
four     2.4
Name: points, dtype: float64

In [0]:
df.loc[:,'year']

one      2014
two      2015
three    2016
four     2015
five     2016
Name: year, dtype: int64

In [0]:
#카피하는법
df2=df.copy()
df2

Unnamed: 0,year,name,points,penalty,debt,high_points
one,2014,lee,1.5,1,,0.5
two,2015,lee,1.7,33,-1.2,-31.3
three,2016,lee,3.6,2,,1.6
four,2015,park,2.4,44,-1.5,-41.6
five,2016,park,2.9,3,-1.7,-0.1


In [0]:
# 새로운 행 삽입하기
df.loc['six',:]=[2013,'June',4.0, 0.1,2.1,2]

In [0]:
df

Unnamed: 0,year,name,points,penalty,debt,high_points
one,2014.0,lee,1.5,1.0,,0.5
two,2015.0,lee,1.7,33.0,-1.2,-31.3
three,2016.0,lee,3.6,2.0,,1.6
four,2015.0,park,2.4,44.0,-1.5,-41.6
five,2016.0,park,2.9,3.0,-1.7,-0.1
six,2013.0,June,4.0,0.1,2.1,2.0


In [0]:
# .iloc 사용 :: index 번호를 사용한다.


In [0]:
df.iloc[3]

year           2015
name           park
points          2.4
penalty          44
debt           -1.5
high_points   -41.6
Name: four, dtype: object

In [0]:
df.iloc[3:5,0:2] #3번째부터 3,4 가져오고, 0,1 가져온다

Unnamed: 0,year,name
four,2015.0,park
five,2016.0,park


In [0]:
df.iloc[[1,3,4],[1,2]] #인댁스 2,4,5 가져오고,컬럼은 1랑 2가져옴

Unnamed: 0,name,points
two,lee,1.7
four,park,2.4
five,park,2.9


In [0]:
df.iloc[:,1:4]

Unnamed: 0,name,points,penalty
one,lee,1.5,1.0
two,lee,1.7,33.0
three,lee,3.6,2.0
four,park,2.4,44.0
five,park,2.9,3.0
six,June,4.0,0.1


In [0]:
df.iloc[5,1]

'June'

In [0]:
# 4.DataFrame에서의 boolean Indexing

In [0]:
df

Unnamed: 0,year,name,points,penalty,debt,high_points
one,2014.0,lee,1.5,1.0,,0.5
two,2015.0,lee,1.7,33.0,-1.2,-31.3
three,2016.0,lee,3.6,2.0,,1.6
four,2015.0,park,2.4,44.0,-1.5,-41.6
five,2016.0,park,2.9,3.0,-1.7,-0.1
six,2013.0,June,4.0,0.1,2.1,2.0


In [0]:
# year가 2014보다 큰 boolean data
df['year']>2014

one      False
two       True
three     True
four      True
five      True
six      False
Name: year, dtype: bool

In [0]:
# year가 2014보다 큰 모든 행의 값
df.loc[df['year']>2014 , :]
#df.loc[df['year']>2014]
#df[df['year']>2014]

Unnamed: 0,year,name,points,penalty,debt,high_points
two,2015.0,lee,1.7,33.0,-1.2,-31.3
three,2016.0,lee,3.6,2.0,,1.6
four,2015.0,park,2.4,44.0,-1.5,-41.6
five,2016.0,park,2.9,3.0,-1.7,-0.1


In [0]:
#name이 lee  인 사람들중 points, penalty가져오기
# df[df['name']=='lee']
df.loc[df['name']=='lee',['points','penalty']]

Unnamed: 0,points,penalty
one,1.5,1.0
two,1.7,33.0
three,3.6,2.0


In [0]:
# numpy에서와 같이 논리연산을 응용할 수 있다.
#points <1.7 or points>2.9

df.loc[(df['points']<1.7) | (df['points']>2.9)]

Unnamed: 0,year,name,points,penalty,debt,high_points
one,2014.0,lee,1.5,1.0,,0.5
three,2016.0,lee,3.6,2.0,,1.6
six,2013.0,June,4.0,0.1,2.1,2.0


In [0]:
# 새로운 값을 대입할 수도 있다.


In [0]:
# 5.Data

In [0]:
# DataFrame을 만들 때 index, column을 설정하지 않으면 
# 기본 값으로 0부터 시작하는 정수형 숫자로 입력된다.


In [0]:
# pandas에서 제공하는 date_range 함수는 datetime 자료형으로 구성된,
# 날짜, 시각 등을 알 수 있는 자료형을 만드는 함수


In [0]:
# np.nan은 NaN값을 의미한다.


In [0]:
# NaN 없애기

In [0]:
# 행의 값 중 하나라도 nan인 경우 그 행을 없앤다.


In [0]:
# 행의 값이 모두 nan인 경우 그행을 없앤다.


In [0]:
# 주의 drop함수는 특정 행 또는 열을 drop하고 난 DataFrame을 반환한다.
# 즉, 반환을 받지 않으면 기존의 DataFrame은 그대로이다.
# 아니면, inplace = True 라는 인자를 추가하여, 반환을 받지 않고서도
# 기존의 DataFrame이 변경되도록 한다.

In [0]:
# nan 값에 값 넣기


In [0]:
# nan 값인지 확인하기


In [0]:
# F열에서 nan값을 포함하는 행만 추출하기


In [0]:
# 특정 행 drop 하기


In [0]:
# 2개 이상도 가능


In [0]:
# 특정 열 삭제하기


In [0]:
# 2개 이상의 열도 가능


In [0]:
# 6.Data 분석용 함수들

In [0]:
data = [[1.4, np.nan],
       [7.1, -4.5],
       [np.nan, np.nan],
       [0.75, -1.3]]


In [0]:
# 행 방향으로의 합(즉, 각 열의 합)


In [0]:
# 열방향으로의 합(즉, 각 행의 합)


In [0]:
# 이 때, 위에서 볼 수 있듯이 NaN값은 배제하고 계산한다.
# NaN 값을 배제하지 않고 계산하려면 아래와 같이 skipna에 대해 false를 지정해 준다.

In [0]:
# 특정 행 또는 특정 열에서만 계산하기


In [0]:
# pandas에서 DataFrame에 적용되는 함수들
# sum()함수 이외에도 pandas에서 DataFrame에 적용되는 함수는 다음의 것들이 있다.
# count 전체 성분의(NaN이 아닌) 값의 갯수를 계산
# min, max 전체 성분의 최솟, 최댓값을 계산
# argmin, argmax 전체 성분의 최솟값, 최댓값이 위치한 (정수)인덱스를 반환
# idxmin, idxmax 전체 인덱스 중 최솟값, 최댓값을 반환
# quantile 전체 성분의 특정 사분위수에 해당하는 값을 반환 (0~1 사이)
# sum 전체 성분의 합을 계산
# mean 전체 성분의 평균을 계산
# median 전체 성분의 중간값을 반환
# mad 전체 성분의 평균값으로부터의 절대 편차(absolute deviation)의 평균을 계산
# std, var 전체 성분의 표준편차, 분산을 계산
# cumsum 맨 첫 번째 성분부터 각 성분까지의 누적합을 계산(0에서부터 계속 더해짐)
# cumprod 맨 첫번째 성분부터 각 성분까지의 누적곱을 계산(1에서부터 계속 곱해짐)

In [0]:
df2 = pd.DataFrame(np.random.randn(6,4),
                  columns=['A', 'B', 'C', 'D'],
                  index = pd.date_range('20160701', periods=6))


In [0]:
# A열과 B열의 상관계수 구하기


In [0]:
# 정렬함수 및 기타함수

In [0]:
dates = df2.index
random_dates = np.random.permutation(dates)
df2 = df2.reindex(index=random_dates, columns = ['D', 'B', 'C', 'A'])
df2

Unnamed: 0,D,B,C,A
2016-07-05,0.932733,0.269832,-0.998379,-0.424055
2016-07-06,-0.487578,-0.282857,-0.648273,0.168039
2016-07-04,-0.649186,0.901783,-0.133759,1.198959
2016-07-01,-0.904026,0.041603,-0.0091,-0.978572
2016-07-02,0.511111,1.241189,-0.630021,0.828623
2016-07-03,-0.370081,0.894973,-1.348481,-0.639651


In [0]:
# index와 column의 순서가 섞여있다.
# 이 때 index가 오름차순이 되도록 정렬해보자


In [0]:
# column을 기준으로?


In [0]:
# 내림차순으로는?


In [0]:
# 값 기준 정렬하기
# D열의 값이 오름차순이 되도록 정렬하기


In [0]:
# B열의 값이 내림차순이 되도록 정렬하기


In [0]:
# E열과 F열을 동시에 고려하여, 오름차순으로 하려면?


In [0]:
# 지정한 행 또는 열에서 중복값을 제외한 유니크한 값만 얻기


In [0]:
# 지정한 행 또는 열에서 값에 따른 개수 얻기


In [0]:
# 지정한 행 또는 열에서 입력한 값이 있는지 확인하기


In [0]:
# F열의 값이 alpha나 beta인 모든 행 구하기


In [0]:
# 사용자가 직접 만든 함수를 적용하기
