In [4]:
##### Pandas

# pandas는 numpy를 기반으로 만들어진 패키지로, dataframe 자료구조를 제공
# dataframe : 행과 열 레이블이 부착된 다차원 배열, 여러 타입의 데이터를 가질 수 있고, 데이터 누락도 허용
# pandas의 series와 dataframe 객체는 numpy array 구조를 기반으로 하여 data munging작업을 도와준다.

# Data munging(또는 Data Wrangling)
# raw data를 또다른 형태로 수작업으로 전환하거나 매핑하는 과정
# 데이터 랭글링에는 먼징, 데이터 시각화, 통계모형 학습 뿐만 아니라 다른 용도도 포함.

import numpy as np
import pandas as pd
pd.__version__

'0.24.2'

In [None]:
#########################################################################################################

In [13]:
##### Pandas 3가지 객체(자료구조)소개 (p113) - Series, Dataframe, Index

In [14]:
### (1) Series : 인덱싱된 데이터의 1차원 배열, 유연한 인덱스를 가지는 1차원 array

data = pd.Series([0.25,0.5,0.75,1])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [16]:
print(data.values)    # numpy array
print(data.index)     # pd.Index 타입의 배열과 비슷한 객체
print(data[1])        # 파이썬 대괄호 표기법을 통해 연결된 인덱스로 접근할 수 있다.

RangeIndex(start=0, stop=4, step=1)
[0.25 0.5  0.75 1.  ]
0.5


In [17]:
data = pd.Series([0.25,0.5,0.75,1], index=['a','b','c','d'])
data 
# 인덱스는 정수일 필요가 없고 어떤 타입의 값으로도 구성할 수 있다.

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [19]:
population_dict = {'California': 38332521, 'Texas': 26448193, 'New York': 19651127,
                   'Florida': 19552860,'Illinois': 12882135}
population = pd.Series(population_dict)
population
# 파이썬 딕셔너리에서 직접 Series객체를 구성할 수 있다.

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [None]:
area_dict = {'California': 423967, 'Texas':695662, 'New York':141297, 'Florida':170312, 'Illinois':149995}
area = pd.Series(area_dict)
area

In [22]:
### (2) Dataframe : 일반화된 2차원 Numpy array, 유연한 행 인덱스와 열 이름을 가진 2차원 array


states = pd.DataFrame({'population': population, 'area':area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [23]:
states['area']
# dataframe의 경우 data['col0']이 첫번쨰 열을 반환한다.

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [25]:
pd.DataFrame(population, columns=['population'])
# DataFrame은 Series 객체의 집합체로서, 열 하나짜리 dataframe은 단일 Series로부터 구성할 수 있다.

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [27]:
data = [{'a':i, 'b':2*i} for i in range(3)]    # list comprehension으로 데이터 만들기
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [30]:
pd.DataFrame([{'a':1, 'b':2}, {'b':3, 'c':4}])
# 딕셔너리의 일부 키가 누락되더라도 pandas는 누락된 자리를 NaN 값으로 채운다

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [31]:
pd.DataFrame(np.random.rand(3,2), columns=['foo','bar'], index=['a','b','c'])
# 2차원 numpy array에서 지정된 열과 인덱스 이름을 가진 dataframe을 생성할 수 있다.


Unnamed: 0,foo,bar
a,0.028467,0.332096
b,0.727785,0.796487
c,0.94,0.429154


In [32]:
### (3) Index : 불변의 배열이나 정렬된 집합(중복가능한 set)

ind = pd.Index([2,3,5,7,11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [34]:
print(ind[1])
print(ind.size, ind.shape, ind.ndim, ind.dtype)

3
5 (5,) 1 int64


In [35]:
ind[1] = 0
# index객체는 일반적인 방법으로는 변경될 수 없는 불변의 값임

TypeError: Index does not support mutable operations

In [None]:
#########################################################################################################

In [None]:
##### 데이터 인덱싱과 선택 (p123)

In [36]:
### (1) Series에서 데이터 선택

# series 객체는 딕셔너리와 마찬가지로 키의 집합을 값의 집합에 mapping한다
data = pd.Series([0.25,0.5,0.75,1], index=['a','b','c','d'])
data.keys()
# 1차원 array와 마찬가지로 슬라이싱, 마스킹, 팬시 인덱싱 등이 가능하다.

Index(['a', 'b', 'c', 'd'], dtype='object')

In [38]:
print(data['a':'c'])  # 명시적 인덱스로 슬라이싱할 때는 이상 이하로
print(data[0:2])      # 암묵적 인덱스로 슬라이싱할 때는 이상 미만으로 
# 따라서 혼란이 생길수 있기 때문에, Pandas는 특별한 indexer 속성을 제공한다. : loc, iloc, ix

a    0.25
b    0.50
c    0.75
dtype: float64
a    0.25
b    0.50
dtype: float64


In [41]:
data = pd.Series(['a','b','c'], index=[1,3,5])
data

1    a
3    b
5    c
dtype: object

In [42]:
print(data.loc[1])
print(data.loc[1:3])
# loc속성은 언제나 명시적인 인덱스를 참조한다.

a
1    a
3    b
dtype: object


In [43]:
print(data.iloc[1])
print(data.iloc[1:3])
# iloc속성은 언제나 암묵적인 인덱스를 참조한다.

b
3    b
5    c
dtype: object


In [None]:
# ix속성은 loc와 iloc의 하이브리드 형태로, Series객체에 대해서는 표준[]기반의 인덱싱과 동일하다.

In [None]:
### (2) DataFrame에서의 데이터 선택

In [None]:
### (3) Pandas에서 데이터 연산하기
# numpy의 기본 중 하나는 요소 단위의 연산을 빠르게 수행할수 있다는 점이다,
# pandas는 numpy로부터 이 기능을 대부분 상속받았으며, 유니버셜 함수(p58)가 그 핵심이다.

In [58]:
## (3)-1 유니버셜 함수 : 인덱스 보존
rng = np.random.RandomState(42)         # 다양한 확률분포로부터 1x42의 random number를 생성할수 있음 
ser = pd.Series(rng.randint(0,10,4))    # 0부터 10까지의 임의의 정수로 채운, 1x4 Series객체 생성
ser

0    6
1    3
2    7
3    4
dtype: int32

In [53]:
df = pd.DataFrame(rng.randint(0,10,(3,4)), columns=['A','B','C','D'])     # 0부터 10까지 임의의 정수로 채운, 3x4 DataFrame 객체 생성
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [59]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [60]:
np.exp(df)

Unnamed: 0,A,B,C,D
0,403.428793,8103.083928,7.389056,403.428793
1,1096.633158,54.59815,20.085537,1096.633158
2,1096.633158,7.389056,148.413159,54.59815


In [None]:
## 3-(2) 유니버설 함수 : 인덱스 정렬
# 둘 중 하나라도 값이 없는 항목은 NaN으로 표시된다.

In [67]:
## 3-(3) 유니버셜 함수 : DataFrame과 Series간의 연산

A = rng.randint(10, size=(3,4))
A
df = pd.DataFrame(A, columns=list('QRST'))

In [68]:
A - A[0]   # 2차원 numpy array에서 연산규칙이 행방향으로 적용된다.

array([[ 0,  0,  0,  0],
       [-2, -1, -2,  2],
       [ 2,  3, -7,  1]])

In [69]:
df - df.iloc[0]   # pandas에서도 연산규칙이 기본적으로 행 방향으로 적용된다.

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-2,-1,-2,2
2,2,3,-7,1


In [70]:
df.subtract(df['R'], axis=0) # 열방향으로 연산하고 싶으면, 객체 메서드를 사용하면서 axis키워드를 사용한다.

Unnamed: 0,Q,R,S,T
0,3,0,5,-1
1,2,0,4,2
2,2,0,-5,-3


In [None]:
#########################################################################################################

In [71]:
##### 누락된 데이터 처리하기(p137)

# None : 파이썬의 누락된 데이터
# None은 파이썬의 객체이므로 임의의 numpy,pandas 배열에서 사용할 수 없고, 데이터 타입이 object여야 한다.
# object 데이터타입은 가장 일반적이므로 연산이 상대적으로 느리다.
vals1 = np.array([1,None,3,4])
vals1

array([1, None, 3, 4], dtype=object)

In [73]:
# NaN : 누락된 숫자 데이터
# NaN은 모든 시스템이 인식하는 특수 부동 소수점 값으로, 어떤 연산이든 NaN이 포함되면 결과는 NaN이 된다.
vals2 = np.array([1,np.nan,3,4])
vals2.dtype

dtype('float64')

In [75]:
## Null값 연산하기
# isnull()
# notnull()
# dropna()
# fillna()
data = pd.Series([1, np.nan, 'hello', None])

In [76]:
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [77]:
data[data.notnull()]   # 이런식으로 응용 가능

0        1
2    hello
dtype: object

In [78]:
data.dropna()

0        1
2    hello
dtype: object

In [79]:
data.fillna(0)

0        1
1        0
2    hello
3        0
dtype: object

In [None]:
#########################################################################################################

In [None]:
##### 계층적 인덱싱 (p147) (Hierarchical indexing, 다중 인덱싱(multi-indexing))

# Pandas는 기본적으로 3차원과 4차원 데이터를 처리할 수 있는 Panel과 Panel4D를 제공한다.
# 하지만 실제로, 단일 인덱스 내에 여러 인덱스 레벨을 포함하는 계층적 인덱싱을 더 많이 사용한다.
# => 이 방식으로 고차원 데이터를 익숙한 Series나 DataFrame 객체로 간결하게 표현할 수 있다.

In [80]:
# 나쁜방식
index = [('California', 2000), ('California', 2010), ('New York', 2000), ('New York', 2010), ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956,18976457, 19378102,20851820, 25145561]
pop = pd.Series(populations, index=index)
pop

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

In [82]:
# 더 나은방식 : Pandas Multiindex
index = pd.MultiIndex.from_tuples(index)
index
pop = pop.reindex(index)
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [83]:
pop_df = pop.unstack()   # unstack()은 다중 인덱스를 가진 Series를, 일반적인 DataFrame으로 바꿔줌
pop_df

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [84]:
pop_df.stack()       # stack()은 이와 반대되는 연산을 제공한다.

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [None]:
# 대부분의 multiindex 슬라이싱 연산은 인덱스가 정렬되어 있지 않으면 실패한다
# data.sort_index()를 통해 인덱스를 정렬할 수 있다.
# data.reset_index()로도 계층적 데이터를 재정렬 할 수 있다.

In [None]:
#########################################################################################################

In [85]:
##### 데이터 세트 결합 : Concat과 Append (p164)

# 아래는 편의상 앞으로 사용할 특정 형태의 dataframe을 생성하는 함수를 정의한 것
def make_df(cols, ind):
    data = {c:[str(c)+str(i) for i in ind] for c in cols}
    return pd.DataFrame(data, ind)
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [87]:
# 복습 : numpy에서의 배열 연결 by np.concatenate
x=[1,2,3]; y=[4,5,6]; z=[7,8,9]
np.concatenate([x,y,z])

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [89]:
x = [[1,2], [3,4]]
np.concatenate([x,x], axis=1)

array([[1, 2, 1, 2],
       [3, 4, 3, 4]])

In [91]:
# pandas에서는 pd.concat()으로 Series나 DataFrame객체를 간단하게 연결할 때 사용할 수 있다.
ser1 = pd.Series(['A','B','C'], index=[1,2,3])
ser2 = pd.Series(['D','E','F'], index=[4,5,6])
pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [None]:
# np.concatenate와 pd.concat의 중요한 차이는,
# pandas에서의 연결은 그 결과가 복제된 인덱스를 가지더라도 인덱스를 유지한다는데 있다.

In [93]:
# 조인을 이용한 연결
df5 = make_df('ABC', [1,2])
df6 = make_df('BCD', [3,4])
print(df5); print(df6); print(pd.concat([df5,df6], join='inner'))

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4
    B   C
1  B1  C1
2  B2  C2
3  B3  C3
4  B4  C4


In [None]:
#########################################################################################################

In [98]:
##### 데이터세트 결합하기:병합과 조인 (p170)

### 일대일 조인
df1 = make_df('eg', [0,1,2,3])
df2 = make_df('eh', [0,1,2,3])
print(df1); print(df2); print(pd.merge(df1,df2))

    e   g
0  e0  g0
1  e1  g1
2  e2  g2
3  e3  g3
    e   h
0  e0  h0
1  e1  h1
2  e2  h2
3  e3  h3
    e   g   h
0  e0  g0  h0
1  e1  g1  h1
2  e2  g2  h2
3  e3  g3  h3


In [99]:
### 다대일 조인
df3 = make_df('egh', [0,1,2,3])
df4 = make_df('gs', [0,1,2,3])
print(df3); print(df4); print(pd.merge(df3, df4))

    e   g   h
0  e0  g0  h0
1  e1  g1  h1
2  e2  g2  h2
3  e3  g3  h3
    g   s
0  g0  s0
1  g1  s1
2  g2  s2
3  g3  s3
    e   g   h   s
0  e0  g0  h0  s0
1  e1  g1  h1  s1
2  e2  g2  h2  s2
3  e3  g3  h3  s3


In [101]:
### 다대다 조인 (p172)

In [None]:
# 데이터 병합시 위에 경우처럼 데이터가 깨끗한 경우가 드물다
# 그럴 때 병합 키 지정을 사용할 수 있다. (p173)
# on, left_on과 right_on, left_index와 right_index, suffixes 등

In [None]:
#########################################################################################################

In [106]:
##### 집계와 분류 (p185)

import seaborn as sns
planets = sns.load_dataset('planets')
planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [107]:
# 행성 데이터에 누락된 값이 있는 행을 삭제하고 describe() 메서드를 사용해 일반적인 집계를 함
planets.dropna().describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,498.0,498.0,498.0,498.0,498.0
mean,1.73494,835.778671,2.50932,52.068213,2007.37751
std,1.17572,1469.128259,3.636274,46.596041,4.167284
min,1.0,1.3283,0.0036,1.35,1989.0
25%,1.0,38.27225,0.2125,24.4975,2005.0
50%,1.0,357.0,1.245,39.94,2009.0
75%,2.0,999.6,2.8675,59.3325,2011.0
max,6.0,17337.5,25.0,354.0,2014.0


In [109]:
# 데이터를 더 깊이 살펴보려면 간단한 집계 연산만으로는 충분하지 않은 경우가 많다.
# 이럴때 groupby연산(split, apply, combine)을 사용한다.

df = pd.DataFrame({'key' : ['A','B','C','A','B','C'],
                  'data' : range(6)}, columns=['key','data'])
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


In [111]:
df.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


In [None]:
# GroupBy 객체에는 그룹 데이터를 결합하기 전에 여러 유용한 연산을 효율적으로 구현하는 메서드들이 있다.
# 집계(aggregate), 필터(filter), 변환(transform), 적용(apply)등이 있다. (p192)

In [116]:
# 분류(Grouping) 예제 (p197)
# 연대별로 발견된 행성의 개수 세기

decade = 10 * (planets['year'] // 10)  # 10으로 나눈 몫에서 10을 곱함.
decade = decade.astype(str) + 's'
decade.name = 'decade'
planets.groupby(['method', decade])['number'].sum()

method                         decade
Astrometry                     2010s       2
Eclipse Timing Variations      2000s       5
                               2010s      10
Imaging                        2000s      29
                               2010s      21
Microlensing                   2000s      12
                               2010s      15
Orbital Brightness Modulation  2010s       5
Pulsar Timing                  1990s       9
                               2000s       1
                               2010s       1
Pulsation Timing Variations    2000s       1
Radial Velocity                1980s       1
                               1990s      52
                               2000s     475
                               2010s     424
Transit                        2000s      64
                               2010s     712
Transit Timing Variations      2010s       9
Name: number, dtype: int64

In [118]:
planets.groupby(['method', decade])['number'].sum().unstack().fillna(0)

decade,1980s,1990s,2000s,2010s
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Astrometry,0.0,0.0,0.0,2.0
Eclipse Timing Variations,0.0,0.0,5.0,10.0
Imaging,0.0,0.0,29.0,21.0
Microlensing,0.0,0.0,12.0,15.0
Orbital Brightness Modulation,0.0,0.0,0.0,5.0
Pulsar Timing,0.0,9.0,1.0,1.0
Pulsation Timing Variations,0.0,0.0,1.0,0.0
Radial Velocity,1.0,52.0,475.0,424.0
Transit,0.0,0.0,64.0,712.0
Transit Timing Variations,0.0,0.0,0.0,9.0


In [None]:
#########################################################################################################

In [120]:
##### 피벗 테이블 (p198)

titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [122]:
titanic.groupby('sex')[['survived']].mean()

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


In [125]:
titanic.groupby(['sex','class'])['survived'].aggregate('mean').unstack()

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [126]:
# pivor_table 메서드를 사용해 앞의 연산을 동일하게 구현
titanic.pivot_table('survived', index='sex', columns='class')
# 이 코드는 groupby를 사용한 코드보다 훨씬 더 읽기 쉬우면서도 같은 결과를 만들어낸다.

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [127]:
# 다단계 피벗 테이블 - pd.cut()함수를 사용
age = pd.cut(titanic['age'], [0,18,80])
titanic.pivot_table('survived', ['sex',age], 'class')

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 80]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 80]",0.375,0.071429,0.133663


In [128]:
#########################################################################################################

In [None]:
##### 벡터화된 문자열 연산 (p208)

# 파이썬의 강점으로 문자열 데이터를 처리하고 가공하기가 비교적 쉽다라는 점이 있다.
# pandas는 벡터화된 문자열 연산을 종합적으로 제공한다.

In [None]:
#########################################################################################################

In [None]:
##### 시계열 다루기 (p220)
# pandas는 금융 모델링을 위해 개발돼 날짜, 시간, 시간 인덱스를 가진 데이터를 다루는 다양한 도구를 갖고있다.

In [None]:
##### Pandas 시계열 : 시간으로 인덱싱하기 (p225)

In [None]:
#########################################################################################################

In [None]:
##### 고성능 Pandas : eval()과 query() (p244)
# pandas는 비용이 많이 드는 중간 배열의 할당 없이 속도가 빠른 C연산에 직접 접근할수 있는 도구가 있다
# 이 도구에는 Numexpr 패키지를 기반으로 하는 eval()과 query()함수가 있다.
# 임시 datafreame의 크기가 일반적으로 수 기가 바이트보다 크다면 eval()이나 query() 표현식을 사용하면 좋다.