# Pandas로 데이터 가공하기
## Pandas 설치 및 사용
## Pandas 객체 소개
### Pandas Series 객체
### Pandas DataFrame 객체
### Pandas Index 객체
## 데이터 인덱싱과 선택
### Series에서 데이터 선택
### DataFrame에서 데이터 선택
### Pandas에서 데이터 연산하기
### 유니버설 함수: 인덱스 보존
### 유니버설 함수: 인덱스 정렬
### 유니버설 함수: DataFrame과 Series 간의 연산
## 누락된 데이터 처리하기
### 누락된 데이터 처리 방식의 트레이드오프
### Pandas에서 누락된 데이터
### 널 값 연산하기
## 계층적 인덱싱
### 다중 인텍스된 Series
### MultiIndex 생성 메서드
### MultiIndex 인덱싱 및 슬라이싱
### 다중 인덱스 재정렬하기
### 다중 인덱스에서 데이터 집계
## 데이터세트 결합: Concat과 Append
### 복습: NumPy 배열 연결
### pd.concat을 이용한 간단한 연결
## 데이터세트 결합하기: 병합과 조인
### 관계 대수
### 조인 작업의 분류
### 병합 키 지정
### 조인을 위한 집합 연산 지정하기
### 열 이름이 겹치는 경우: suffixes 키워드
### 예제: 미국 주 데이터
## 집계와 분류
### 행성 데이터
### Pandas의 간단한 집계 연산
### GroupBy: 분할, 적용, 결합
## 피벗 테이블
### 피벗 테이블 시작
### 피벗 테이블 등장 배경
### 피벗 테이블 구문
### 예제: 출생률 데이터
## 벡터화된 문자열 연산
### Pandas 문자열 연산 소개
### Pandas 문자열 메서드 목록
### 예제: 조리법 데이터베이스
## 시계열 다루기
### 파이썬에서의 날짜와 시간
## Pandas 시계열: 시간으로 인덱싱하기
### Pandas 시계열 데이터 구조
### 주기와 오프셋
### 리샘플링, 시프팅, 윈도잉
### 추가 학습 자료
### 예제: 시애틀 자전거 수 시각화
## 고성능 Pandas: eval()과 Query()
### eval()과 Query()의 등장 배경: 복합 표현식
### 효율적인 연산을 위한 Pandas.eval()
### 열 단위의 연산을 위한 DataFrame.eval()
### DataFrame.query() 메서드
### 성능: 이 함수를 사용해야 하는 경우


# Pandas로 데이터 가공하기
## Pandas 설치 및 사용

In [1]:
import pandas as pd
pd.__version__

'1.2.5'

## Pandas 객체 소개

In [2]:
import numpy as np

### Pandas Series 객체

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [4]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [5]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
data[1]

0.5

In [7]:
data[1:3]

1    0.50
2    0.75
dtype: float64

#### Series: 일반화된 NumPy 배열

In [8]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [9]:
data['c']

0.75

In [10]:
data = pd.Series(np.linspace(.25, 1.0, 4), index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [11]:
data[5]

0.5

#### Series: 특수한 딕셔너리

In [12]:
population_dict = {'California': 38332521, 
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [13]:
population['New York']

19651127

In [14]:
population['California':'Florida']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64

#### Series 객체 구성하기

In [15]:
pd.Series(list(range(2,8,2)))

0    2
1    4
2    6
dtype: int64

In [16]:
pd.Series(99, index=[10, 20, 30, 40, 50])

10    99
20    99
30    99
40    99
50    99
dtype: int64

In [17]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

In [18]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[1, 2, 3])

1    b
2    a
3    c
dtype: object

### Pandas DataFrame 객체
#### DataFrame: 일반화된 NumPy 배열

In [19]:
area_dict = {'California': 423967, 
             'Texas': 695662,
             'New York': 141297,
             'Florida': 170312,
             'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [20]:
states = pd.DataFrame({'population': population, 'area': area}, columns=['area', 'population'])
states

Unnamed: 0,area,population
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [21]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [22]:
states.columns

Index(['area', 'population'], dtype='object')

#### DataFrame: 특수한 딕셔너리

In [23]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

#### DataFrame 객체 구성하기

In [24]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [25]:
data = [{'a':i, 'b':2*i, 'c':3*i} for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b,c
0,0,0,0
1,1,2,3
2,2,4,6


In [26]:
pd.DataFrame([{'a':1, 'b':2},{'b':3, 'c':4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [27]:
pd.DataFrame({'area':area, 'population':population})

Unnamed: 0,area,population
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [28]:
grd = np.random.rand(3,2)
pd.DataFrame(grd, columns=['foo','bar'], index=['a','b','c'])

Unnamed: 0,foo,bar
a,0.204743,0.747643
b,0.175706,0.548746
c,0.579041,0.365187


In [29]:
pd.DataFrame(grd)

Unnamed: 0,0,1
0,0.204743,0.747643
1,0.175706,0.548746
2,0.579041,0.365187


In [30]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [31]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


### Pandas Index 객체

In [32]:
ind = pd.Index([2,3,5,7,11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

Index: 불변의 배열

In [33]:
ind[1]

3

In [34]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [35]:
ind.size, ind.shape, ind.ndim, ind.dtype

(5, (5,), 1, dtype('int64'))

In [36]:
ind[1] = 0

TypeError: Index does not support mutable operations

#### Index: 정렬된 집합

In [37]:
indA = pd.Index([1,3,5,7,9])
indB = pd.Index([2,3,5,7,11])
indA.intersection(indB), indA.union(indB), indA.symmetric_difference(indB)

(Int64Index([3, 5, 7], dtype='int64'),
 Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64'),
 Int64Index([1, 2, 9, 11], dtype='int64'))

## 데이터 인덱싱과 선택
### Series에서 데이터 선택
#### Series: 딕셔너리

In [38]:
data = pd.Series(np.linspace(.25,1.0,4), index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [39]:
data['b']

0.5

In [40]:
'a' in data

True

In [41]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [42]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [43]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

#### Series: 1차원 배열

In [44]:
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [45]:
data[0:2]

a    0.25
b    0.50
dtype: float64

In [46]:
data[(0.5<=data) & (data<=1.0)]

b    0.50
c    0.75
d    1.00
dtype: float64

In [47]:
data[['c','b','c']]

c    0.75
b    0.50
c    0.75
dtype: float64

#### 인덱서: loc, iloc, ix

In [48]:
data = pd.Series(['a','b','c'],index=[1,3,5])
data[1:3]

3    b
5    c
dtype: object

In [49]:
data[1]

'a'

In [50]:
data.loc[1], data.iloc[1]

('a', 'b')

In [51]:
data.loc[1:3],data.iloc[1:3]

(1    a
 3    b
 dtype: object,
 3    b
 5    c
 dtype: object)

### DataFrame에서 데이터 선택
#### DataFrame: 딕셔너리

In [52]:
data = pd.DataFrame({'area':area, 'pop':population})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [53]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [54]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [55]:
data.area is data['area']

True

In [56]:
data.pop is data['pop']

False

In [57]:
data['density'] = data['pop']/data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


#### DataFrame: 2차원 배열

In [58]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

In [59]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


In [60]:
data.values[0]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

In [61]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [62]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [63]:
data.loc[:'Illinois',:'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [64]:
data.loc[data.density > 100, ['density', 'pop']]

Unnamed: 0,density,pop
New York,139.076746,19651127
Florida,114.806121,19552860


In [65]:
data.loc[data['density'] > 100, ['density']]

Unnamed: 0,density
New York,139.076746
Florida,114.806121


In [66]:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


#### 추가적인 인덱싱 규칙

In [67]:
data['Texas':'New York']

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


In [68]:
data[1:3]

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


In [69]:
data[data['density']>100]

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121


In [70]:
data[['pop','density']]

Unnamed: 0,pop,density
California,38332521,90.0
Texas,26448193,38.01874
New York,19651127,139.076746
Florida,19552860,114.806121
Illinois,12882135,85.883763


### Pandas에서 데이터 연산하기
### 유니버설 함수: 인덱스 보존

In [71]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0,10,4))
ser

0    6
1    3
2    7
3    4
dtype: int32

In [72]:
df = pd.DataFrame(rng.randint(0, 10,(3,4)),
                  columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [73]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [74]:
df = np.cos(df * np.pi/4)

In [75]:
df['B'] = np.arccos(df['B'])
df

Unnamed: 0,A,B,C,D
0,-1.83697e-16,0.785398,6.123234000000001e-17,-1.83697e-16
1,0.7071068,3.141593,-0.7071068,0.7071068
2,0.7071068,1.570796,-0.7071068,-1.0


### 유니버설 함수: 인덱스 정렬
#### Series에서 인덱스 정렬

In [76]:
area = pd.Series({'Alaska':1723337,'Texas':695662,'California':423967}, name='area')
population = pd.Series({'California':38332521,'Texas':26448193,'New York':19651127}, name='population')
population/area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

In [77]:
area.index.union(population.index)

Index(['Alaska', 'California', 'New York', 'Texas'], dtype='object')

In [78]:
A = pd.Series([2,4,6],index=[0,1,2])
B = pd.Series([1,3,5],index=[1,2,3])
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [79]:
A.add(B, fill_value = 0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

#### Dataframe에서 인덱스 정렬

In [80]:
A = pd.DataFrame(np.random.randint(0,20,(2,2)),columns=list('AB'))
A

Unnamed: 0,A,B
0,4,12
1,19,13


In [81]:
B = pd.DataFrame(np.random.randint(0,10,(3,3)),columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,2,8,4
1,3,3,4
2,2,1,1


In [82]:
A + B

Unnamed: 0,A,B,C
0,12.0,14.0,
1,22.0,16.0,
2,,,


In [83]:
A.add(B, fill_value=0)

Unnamed: 0,A,B,C
0,12.0,14.0,4.0
1,22.0,16.0,4.0
2,1.0,2.0,1.0


In [84]:
A.stack()

0  A     4
   B    12
1  A    19
   B    13
dtype: int32

In [85]:
fill = A.stack().mean()
fill

12.0

In [86]:
fill_b = A.mean()
fill_b

A    11.5
B    12.5
dtype: float64

In [87]:
A.add(B,fill_value=fill)

Unnamed: 0,A,B,C
0,12.0,14.0,16.0
1,22.0,16.0,16.0
2,13.0,14.0,13.0


### 유니버설 함수: DataFrame과 Series 간의 연산

In [88]:
A = np.random.randint(10, size=(3,4))
A

array([[7, 3, 7, 9],
       [2, 8, 6, 6],
       [6, 3, 2, 7]])

In [89]:
A - A[0]

array([[ 0,  0,  0,  0],
       [-5,  5, -1, -3],
       [-1,  0, -5, -2]])

In [90]:
df = pd.DataFrame(A, columns=list('QRST'))
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-5,5,-1,-3
2,-1,0,-5,-2


In [91]:
df.subtract(df['R'],axis=0)

Unnamed: 0,Q,R,S,T
0,4,0,4,6
1,-6,0,-2,-2
2,3,0,-1,4


In [92]:
halfrow = df.iloc[1,::2]
halfrow

Q    2
S    6
Name: 1, dtype: int32

In [93]:
df - halfrow

Unnamed: 0,Q,R,S,T
0,5.0,,1.0,
1,0.0,,0.0,
2,4.0,,-4.0,


## 누락된 데이터 처리하기
### 누락된 데이터 처리 방식의 트레이드오프
### Pandas에서 누락된 데이터
#### None: 파이썬의 누락된 데이터

In [96]:
vals1 = np.array([1, None, 3, 4])
vals1

array([1, None, 3, 4], dtype=object)

In [98]:
for dtype in ['object','int']:
    print("dtype =",dtype)
    %timeit np.arange(1E7, dtype=dtype).sum()
    print()

dtype = object
343 ms ± 8.33 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

dtype = int
13.5 ms ± 634 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)



In [99]:
vals1.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

#### Nan: 누락된 숫자 데이터

In [100]:
vals2 = np.array([1,np.nan,3,4])
vals2.dtype

dtype('float64')

In [101]:
1+np.nan, 0 * np.nan

(nan, nan)

In [102]:
vals2.sum(), vals2.min(), vals2.max()

(nan, nan, nan)

In [103]:
np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2)

(8.0, 1.0, 4.0)

#### Pandas에서 NaN과 None
### 널 값 연산하기
## 계층적 인덱싱
### 다중 인텍스된 Series
### MultiIndex 생성 메서드
### MultiIndex 인덱싱 및 슬라이싱
### 다중 인덱스 재정렬하기
### 다중 인덱스에서 데이터 집계
## 데이터세트 결합: Concat과 Append
### 복습: NumPy 배열 연결
### pd.concat을 이용한 간단한 연결
## 데이터세트 결합하기: 병합과 조인
### 관계 대수
### 조인 작업의 분류
### 병합 키 지정
### 조인을 위한 집합 연산 지정하기
### 열 이름이 겹치는 경우: suffixes 키워드
### 예제: 미국 주 데이터
## 집계와 분류
### 행성 데이터
### Pandas의 간단한 집계 연산
### GroupBy: 분할, 적용, 결합
## 피벗 테이블
### 피벗 테이블 시작
### 피벗 테이블 등장 배경
### 피벗 테이블 구문
### 예제: 출생률 데이터
## 벡터화된 문자열 연산
### Pandas 문자열 연산 소개
### Pandas 문자열 메서드 목록
### 예제: 조리법 데이터베이스
## 시계열 다루기
### 파이썬에서의 날짜와 시간
## Pandas 시계열: 시간으로 인덱싱하기
### Pandas 시계열 데이터 구조
### 주기와 오프셋
### 리샘플링, 시프팅, 윈도잉
### 추가 학습 자료
### 예제: 시애틀 자전거 수 시각화
## 고성능 Pandas: eval()과 Query()
### eval()과 Query()의 등장 배경: 복합 표현식
### 효율적인 연산을 위한 Pandas.eval()
### 열 단위의 연산을 위한 DataFrame.eval()
### DataFrame.query() 메서드
### 성능: 이 함수를 사용해야 하는 경우