# Pandas
pandas는 numpy기반으로 만들어진 패키지로, Series와 Dataframe이라는 효율적인 자료구조를 제공한다.

설치 `pip install pandas`

## Pandas Series
### Series 선언

In [5]:
import pandas as pd

data = pd.Series([0.25, 0.5, 0.75, 1.0])
print(data)
print(data.values)
print(data.index)

data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])  # 인덱스 지정
print(data)

population_dict = {'California': 38332521, 'Texas': 26448193, 'New York': 19651127, 'Florida': 19552860}
population = pd.Series(population_dict)  # 딕셔너리 형태로도 가능
print(population)
print(population['California'])
print(population['California':'New York'])

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64
[0.25 0.5  0.75 1.  ]
RangeIndex(start=0, stop=4, step=1)
a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64
California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64
38332521
California    38332521
Texas         26448193
New York      19651127
dtype: int64


### Series 데이터 선택

In [29]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
print(data['b'])  # 딕셔너리처럼 키:value 매핑
data['e'] = 1.25  # 새로운 데이터 추가 가능
print(data)

0.5
a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64


In [30]:
print(data['a':'c']) # 명시적 인덱스로 슬라이싱
print(data[0:2])  # 암묵적 정수 인덱스로 슬라이싱
print(data[(data > 0.3) & (data < 0.8)])  # 마스킹
print(data[['a', 'e']])  # 팬시 인덱싱

a    0.25
b    0.50
c    0.75
dtype: float64
a    0.25
b    0.50
dtype: float64
b    0.50
c    0.75
dtype: float64
a    0.25
e    1.25
dtype: float64


In [31]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])  # 인덱스를 정수로 사용하는 경우 슬라이싱에 혼동
print(data[1])  # a가 나오는게 맞을까 b가 나오는게 맞을까?(명시적 인덱스 사용)
print(data[1:3])  # 슬라이싱할때는 암묵적 인덱스 사용
# 결과적으론 혼용하게 되어 혼동이 올 수 있다.

a
3    b
5    c
dtype: object


In [32]:
print(data.loc[1])
print(data.loc[1:3])  # loc 명시적 인덱스 참조
print(data.iloc[1])
print(data.iloc[1:3])  # iloc 암묵적 인덱스 참조

a
1    a
3    b
dtype: object
b
3    b
5    c
dtype: object


## Pandas DataFrame

In [16]:
population_dict = {'California': 38332521, 'Texas': 26448193, 'New York': 19651127, 'Florida': 19552860}
population = pd.Series(population_dict)
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297, 'Florida': 170312}
area = pd.Series(area_dict)

states = pd.DataFrame({'population':population, 'area':area})
print(states)
print(states.index)
print(states.columns)
print(states['area'])
states = pd.DataFrame(population, columns=['population'])  # 또다른 선언법, 위에 방법이 더 나은듯함
print(states)

            population    area
California    38332521  423967
Texas         26448193  695662
New York      19651127  141297
Florida       19552860  170312
Index(['California', 'Texas', 'New York', 'Florida'], dtype='object')
Index(['population', 'area'], dtype='object')
California    423967
Texas         695662
New York      141297
Florida       170312
Name: area, dtype: int64
            population
California    38332521
Texas         26448193
New York      19651127
Florida       19552860
                   0       1
California  38332521  423967
Texas       26448193  695662
New York    19651127  141297
Florida     19552860  170312


In [17]:
data = pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])
print(data)  # 누락된 자리를 Nan(not a number)로 채운다

     a  b    c
0  1.0  2  NaN
1  NaN  3  4.0


In [21]:
# 리스트 형태의 데이터를 데이터프레임화 할때 사용
data = pd.DataFrame(np.random.rand(3, 2), columns=['foo', 'bar'], index=['a', 'b', 'c'])
print(data)

a = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])  # 이런식으로 미리 데이터타입 정해둘수 있음
data = pd.DataFrame(a)
print(data)

        foo       bar
a  0.638455  0.445583
b  0.870392  0.007108
c  0.948372  0.835707
   A    B
0  0  0.0
1  0  0.0
2  0  0.0


### Pandas Index 객체
객체 데이터를 참조하고 수정하게 해주는 명시적 인덱스, 불변 배열이며, 중복된값을 포함할 수 있다.

In [22]:
index = pd.Index([2, 3, 5, 7, 11])
print(index)
print(index[1])
print(index[::2])
print(index.size, index.shape, index.ndim, index.dtype)

Int64Index([2, 3, 5, 7, 11], dtype='int64')
3
Int64Index([2, 5, 11], dtype='int64')
5 (5,) 1 int64


In [23]:
index[1] = 10  # 수정불가

TypeError: Index does not support mutable operations

In [27]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])
# print(indA & indB)  # 교집합
# print(indA | indB)  # 합집합
# print(indA ^ indB)  # 여집합
print(pd.Index.intersection(indA, indB))  # 교집합
print(pd.Index.union(indA, indB))  # 합집합
print(pd.Index.symmetric_difference(indA, indB))  # 여집합

Int64Index([3, 5, 7], dtype='int64')
Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')
Int64Index([1, 2, 9, 11], dtype='int64')


### DataFrame 데이터 선택

In [34]:
population_dict = {'California': 38332521, 'Texas': 26448193, 'New York': 19651127, 'Florida': 19552860}
population = pd.Series(population_dict)
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297, 'Florida': 170312}
area = pd.Series(area_dict)

data = pd.DataFrame({'population':population, 'area':area})
print(data['area'])  # 딕셔너리 스타일 인덱싱 ok
print(data.area)  # 열이름을 이용해 속성으로 접근도 ok
print(data['area'] is data.area)  # 동일한 데이터임, 속성명이 이미 정의된 메소드와 겹칠경우 False(조심)

California    423967
Texas         695662
New York      141297
Florida       170312
Name: area, dtype: int64
California    423967
Texas         695662
New York      141297
Florida       170312
Name: area, dtype: int64
True


In [36]:
data['destiny'] = data['population'] / data['area']  # 새 열을 할당
print(data.values)  # 해시 데이터 기반 원시 데이터 배열 확인가능

print(data['area'])  # 열 접근
print(data.iloc[:3, :2])  # 암묵적 데이터 슬라이싱

[[3.83325210e+07 4.23967000e+05 9.04139261e+01]
 [2.64481930e+07 6.95662000e+05 3.80187404e+01]
 [1.96511270e+07 1.41297000e+05 1.39076746e+02]
 [1.95528600e+07 1.70312000e+05 1.14806121e+02]]
California    423967
Texas         695662
New York      141297
Florida       170312
Name: area, dtype: int64
            population    area
California    38332521  423967
Texas         26448193  695662
New York      19651127  141297


In [38]:
print(data.loc[data.destiny > 100, ['population', 'destiny']])  # 다양한 표현법 결합 가능
print(data.iloc[0, [1,2]])

          population     destiny
New York    19651127  139.076746
Florida     19552860  114.806121
area       423967.000000
destiny        90.413926
Name: California, dtype: float64


### 유니버설 함수

In [40]:
import pandas as pd
import numpy as np

rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
print(ser)
df = pd.DataFrame(rng.randint(0, 10, (3, 4)), columns=['A', 'B', 'C', 'D'])
print(df)

print(np.sin(df * np.pi / 4))  # 판다스는 넘파이 기반이라 넘파이와 함께 작업될 수 있음

0    6
1    3
2    7
3    4
dtype: int32
   A  B  C  D
0  6  9  2  6
1  7  4  3  7
2  7  2  5  4
          A             B         C             D
0 -1.000000  7.071068e-01  1.000000 -1.000000e+00
1 -0.707107  1.224647e-16  0.707107 -7.071068e-01
2 -0.707107  1.000000e+00 -0.707107  1.224647e-16


In [42]:
a = pd.DataFrame(rng.randint(0, 20, (2, 2)), columns=list('AB'))
b = pd.DataFrame(rng.randint(0, 10, (3, 3)), columns=list('BAC'))
print(a)
print(b)
print(a + b)  # 자동으로 인덱스 정렬, 합집합(비는 결과는 Nan처리)

fill = a.stack().mean()  # 평균
print(a.add(b, fill_value=fill))  # 빈값을 원하는 값으로 넣어주는것도 가능

    A   B
0  19   2
1   4  18
   B  A  C
0  6  4  8
1  6  1  3
2  8  1  9
      A     B   C
0  23.0   8.0 NaN
1   5.0  24.0 NaN
2   NaN   NaN NaN
       A      B      C
0  23.00   8.00  18.75
1   5.00  24.00  13.75
2  11.75  18.75  19.75


In [46]:
a = rng.randint(10, size=(3, 4))
a = pd.DataFrame(a, columns=list('QRST'))
print(a)
print(a-a.iloc[0])  # 데이터프레임과 시리즈간의 연산, 기본적으로 행방향으로 적용

   Q  R  S  T
0  7  6  8  7
1  4  1  4  7
2  9  8  8  0
   Q  R  S  T
0  0  0  0  0
1 -3 -5 -4  0
2  2  2  0 -7


In [49]:
print(a.subtract(a['R'], axis=0))  # axis로 명시하여 열방향도 ok

   Q  R  S  T
0  1  0  2  1
1  3  0  3  6
2  1  0  0 -8


In [50]:
halfrow = a.iloc[0, ::2]
print(halfrow)
print(a - halfrow)  # 브로드캐스팅 & 짝이 안맞는건 연산못하니 Nan처리

Q    7
S    8
Name: 0, dtype: int32
     Q   R    S   T
0  0.0 NaN  0.0 NaN
1 -3.0 NaN -4.0 NaN
2  2.0 NaN  0.0 NaN


### 누락된 데이터 처리

In [51]:
data = np.array([1, None, 3, 4])  # None은 파이썬 객체
print(data)  # 파이썬 객체는 일반적으로 많은 오버헤드가 발생해 느림

[1 None 3 4]


In [54]:
data = np.array([1, np.nan, 3, 4])  # Not a Number 표준 IEEE 부동소수점표기(특수 부동 소수점 값)
print(data.dtype)
print(1 + np.nan)
print(0 * np.nan)
print(data.sum(), data.min(), data.max())
print(np.nansum(data), np.nanmin(data), np.nanmax(data))

float64
nan
nan
nan nan nan
8.0 1.0 4.0


In [57]:
data = pd.Series([1, np.nan, 2, None]) # 판다스에서는 숫자의 경우 None도 Nan처리
print(data)

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64


In [59]:
data = pd.Series(['a', np.nan, 'b', None])
print(data)  # dtype이 object, Boolean인 경우 None 또는 np.nan이고, float, integer의 경우 np.nan

0       a
1     NaN
2       b
3    None
dtype: object


In [60]:
data = pd.Series([1, np.nan, 'hello', None])
print(data.isnullll())  # None, Nan 다 True 반환

0    False
1     True
2    False
3     True
dtype: bool


In [61]:
print(data.notnull())  # 빈값이 아닌것 boolean
print(data.dropna())  # 빈값 드랍
print(data.fillna('Nope'))  # 빈값 채우기

0     True
1    False
2     True
3    False
dtype: bool
0        1
2    hello
dtype: object
0        1
1     Nope
2    hello
3     Nope
dtype: object


In [65]:
df = pd.DataFrame([[1, np.nan, 2],
                  [2, 3, 5],
                  [np.nan, 4, 6]])  # 2차원에서 dropna 작동
print(df, '\n')
print(df.dropna(), '\n')  # 행 기준 제거
print(df.dropna(axis='columns'))  # 열기준 제거

     0    1  2
0  1.0  NaN  2
1  2.0  3.0  5
2  NaN  4.0  6 

     0    1  2
1  2.0  3.0  5 

   2
0  2
1  5
2  6


In [68]:
df[3] = np.nan
print(df, '\n')
print(df.dropna(axis=1, how='all'), '\n')  # how= all->전부 Nan인 경우, any-> 하나라도 Nan인 경우
print(df.dropna(axis=1, thresh=3))  # thresh=최소 x개의 nan이 아닌 값이있는 axis

     0    1  2   3
0  1.0  NaN  2 NaN
1  2.0  3.0  5 NaN
2  NaN  4.0  6 NaN 

     0    1  2
0  1.0  NaN  2
1  2.0  3.0  5
2  NaN  4.0  6 

   2
0  2
1  5
2  6


In [69]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
print(data, '\n')
print(data.fillna(0), '\n')
print(data.fillna(method='ffill'))  # 이전 값으로 채우기
print(data.fillna(method='bfill'))  # 다음에 오는 값으로 채우기

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64 

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64 

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64
a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64


### 계층적 인덱싱
단일 인덱스 내에 여러 인덱스 레벨을 포함하는 계층적 인덱싱(다중 인덱싱)으로 다차원 데이터를 1차원 Series, 2차원 Dataframe 객체로 간결하게 표현

In [73]:
index = [('California', 2000), ('California', 2010), ('New York', 2000), ('New York', 2010), ('Texas', 2000), ('Texas', 2010)]

index = pd.MultiIndex.from_tuples(index)
print(index)  # level=[['California', 'New York', 'Texas'], [2000,2010]], labels=[[0, 0, 1, 1, 2, 2,], [0, 1, 0, 1, 0, 1]]

MultiIndex([('California', 2000),
            ('California', 2010),
            (  'New York', 2000),
            (  'New York', 2010),
            (     'Texas', 2000),
            (     'Texas', 2010)],
           )


In [74]:
population = [3387, 37253, 1123, 4334, 23123, 21123]
pop = pd.Series(population, index=index)
print(pop)

California  2000     3387
            2010    37253
New York    2000     1123
            2010     4334
Texas       2000    23123
            2010    21123
dtype: int64


In [75]:
print(pop[:, 2010])

California    37253
New York       4334
Texas         21123
dtype: int64


In [76]:
pop_df = pop.unstack()  # 멀티인덱스를 DataFrame으로 쉽게 저장 가능
print(pop_df)  # 반대되는 연산은 stack()

             2000   2010
California   3387  37253
New York     1123   4334
Texas       23123  21123


In [77]:
df = pd.DataFrame(np.random.rand(4, 2), index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]], columns=['data1', 'data2']) # MultiIndex 선언법
print(df)

        data1     data2
a 1  0.823451  0.641704
  2  0.416564  0.665171
b 1  0.996951  0.025642
  2  0.555297  0.980211


In [78]:
pop.index.names = ['state', 'year']  # 멀티인덱스 이름 지정
print(pop)

state       year
California  2000     3387
            2010    37253
New York    2000     1123
            2010     4334
Texas       2000    23123
            2010    21123
dtype: int64


In [81]:
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]], names=['year', 'visit'])  # 열도 multiIndex 가능
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']], names=['subject', 'type'])
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
health_data = pd.DataFrame(data, index=index, columns=columns)
print(health_data)

subject      Bob      Guido       Sue     
type          HR Temp    HR Temp   HR Temp
year visit                                
2013 1      -5.0  0.6 -14.0 -1.3  4.0 -0.3
     2      26.0  0.1  27.0 -0.4 -4.0 -1.8
2014 1      -4.0 -0.7 -10.0 -0.9  5.0 -0.8
     2      -7.0 -1.3  -8.0  0.7 -4.0 -1.3


In [84]:
# MultiIndex 인덱싱 및 슬라이싱 Series
print(pop['California', 2000], '\n') # 여러 용어로 단일 요소에 접근
print(pop['California'], '\n')
print(pop['California':'New York'], '\n') # 슬라이싱
print(pop[:, 2000], '\n')
print(pop[pop > 5000], '\n')

3387 

year
2000     3387
2010    37253
dtype: int64 

state       year
California  2000     3387
            2010    37253
New York    2000     1123
            2010     4334
dtype: int64 

state
California     3387
New York       1123
Texas         23123
dtype: int64 

state       year
California  2010    37253
Texas       2000    23123
            2010    21123
dtype: int64 



In [86]:
# MultiIndex 인덱싱 및 슬라이싱 DataFrame
print(health_data, '\n')
print(health_data['Guido', 'HR'], '\n')
print(health_data.iloc[:2, :2], '\n')
print(health_data.loc[:, ('Bob', 'HR')], '\n')

idx = pd.IndexSlice  # 슬라이스를 명시적으로 하는 경우
print(health_data.loc[idx[:, 1], idx[:, 'HR']])

subject      Bob      Guido       Sue     
type          HR Temp    HR Temp   HR Temp
year visit                                
2013 1      -5.0  0.6 -14.0 -1.3  4.0 -0.3
     2      26.0  0.1  27.0 -0.4 -4.0 -1.8
2014 1      -4.0 -0.7 -10.0 -0.9  5.0 -0.8
     2      -7.0 -1.3  -8.0  0.7 -4.0 -1.3 

year  visit
2013  1       -14.0
      2        27.0
2014  1       -10.0
      2        -8.0
Name: (Guido, HR), dtype: float64 

subject      Bob     
type          HR Temp
year visit           
2013 1      -5.0  0.6
     2      26.0  0.1 

year  visit
2013  1        -5.0
      2        26.0
2014  1        -4.0
      2        -7.0
Name: (Bob, HR), dtype: float64 

subject     Bob Guido  Sue
type         HR    HR   HR
year visit                
2013 1     -5.0 -14.0  4.0
2014 1     -4.0 -10.0  5.0


In [87]:
print(pop, '\n')
print(pop.unstack(level=0), '\n')
print(pop.unstack(level=1), '\n')

state       year
California  2000     3387
            2010    37253
New York    2000     1123
            2010     4334
Texas       2000    23123
            2010    21123
dtype: int64 

state  California  New York  Texas
year                              
2000         3387      1123  23123
2010        37253      4334  21123 

year         2000   2010
state                   
California   3387  37253
New York     1123   4334
Texas       23123  21123 



In [88]:
pop_flat = pop.reset_index(name='population')
print(pop_flat)

        state  year  population
0  California  2000        3387
1  California  2010       37253
2    New York  2000        1123
3    New York  2010        4334
4       Texas  2000       23123
5       Texas  2010       21123


In [90]:
print(pop_flat.set_index(['state', 'year']))

                 population
state      year            
California 2000        3387
           2010       37253
New York   2000        1123
           2010        4334
Texas      2000       23123
           2010       21123


### 데이터 세트 결합 Concat, Append

In [91]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
print(pd.concat([ser1, ser2]))

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object


In [93]:
df1 = pd.DataFrame({'A':['A0', 'A1'], 'B':['B0', 'B1']})
df2 = pd.DataFrame({'C':['C0', 'C1'], 'D':['D0', 'D1']})
print(pd.concat([df1, df2], axis=0), '\n')
print(pd.concat([df1, df2], axis=1))

     A    B    C    D
0   A0   B0  NaN  NaN
1   A1   B1  NaN  NaN
0  NaN  NaN   C0   D0
1  NaN  NaN   C1   D1 

    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1


In [96]:
# verify_integrity=True 중복되는 정수 인덱스가 있을 경우 에러 발생
print(pd.concat([df1, df2], axis=0, verify_integrity=True), '\n')

ValueError: Indexes have overlapping values: Int64Index([0, 1], dtype='int64')

In [98]:
print(pd.concat([df1, df2], axis=0, join='inner'))  # join='inner' 교집합

Empty DataFrame
Columns: []
Index: [0, 1, 0, 1]


In [100]:
print(df1.append(df2))  # extend와 다르게 새로운 결합된 데이터를 만듬

     A    B    C    D
0   A0   B0  NaN  NaN
1   A1   B1  NaN  NaN
0  NaN  NaN   C0   D0
1  NaN  NaN   C1   D1


### Merge & Join으로 데이터 결합

In [101]:
df1 = pd.DataFrame({'emploee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'emploee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_data': [2004, 2008, 2012, 2014]})
df3 = pd.merge(df1, df2)  # 공통분모 다른 칼럼 병합
print(df3)

  emploee        group  hire_data
0     Bob   Accounting       2008
1    Jake  Engineering       2012
2    Lisa  Engineering       2004
3     Sue           HR       2014


In [104]:
# 다대일 조인
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']})
print(pd.merge(df3, df4))

  emploee        group  hire_data supervisor
0     Bob   Accounting       2008      Carly
1    Jake  Engineering       2012      Guido
2    Lisa  Engineering       2004      Guido
3     Sue           HR       2014      Steve


In [105]:
# 다대다 조인
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'], 'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']})
print(pd.merge(df1, df5))

  emploee        group        skills
0     Bob   Accounting          math
1     Bob   Accounting  spreadsheets
2    Jake  Engineering        coding
3    Jake  Engineering         linux
4    Lisa  Engineering        coding
5    Lisa  Engineering         linux
6     Sue           HR  spreadsheets
7     Sue           HR  organization


### 병합 키 지정