## Pandas로 데이터 가공하기

NumPy를 활용하여 복잡한 데이터 배열(n 차원)을 저장하고 가공할 수 있었다. Pandas는 NumPy를 기반으로 만들어진 새로운 패키지로서 DataFrame이라는 효율적인 자료구조를 제공한다. 
- DataFrame : 근본적으로 행과 열 레이블이 부착된 다차원 배열, 여러가지 타입의 데이터를 저장할 수 있으며 데이터 누락도 혀용, **데이터베이스와 스프레드시트 프로그램과 유사**

### Pandas 설치 및 사용

시스템에 Pandas를 설치하려면 먼저 Numpy가 설치되어 있어야한다. 일반적으로 Numpy를 np라는 별명으로 임포트 하는 것처럼 Pandas도 pd라는 별명으로 임포트

In [378]:
import pandas as pd

### Pandas 객체 소개

Pandas는 기본 자료구조(Series, DataFrame, Index)에 추가로 여러 유용한 도구와 메서드, 기능을 제공하지만 먼저 기본 자료구조에 대해 알아보자 

#### Pandas Series 객체

Pandas Series는 인덱싱된 데이터의 1차원 배열, 리스트나 배열로 부터 만들 수 있다.

In [379]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Series는 값과 인덱스 속성으로 접근할 수 있다.

In [380]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [381]:
data.index

RangeIndex(start=0, stop=4, step=1)

Numpy 배열과 마찬가지로 데이터는 친숙한 괄호 표기법으로 인덱스 접근 가능

In [382]:
data[1]

0.5

In [383]:
data[1:3]

1    0.50
2    0.75
dtype: float64

#### Series : 일반화된 Numpy 배열

Numpy 배열에는 값에 접근하는데 사용되는 암묵적 정수형 인덱스(0,1,2,3,...)가 있고, Pandas Series에는 값에 명시적으로 연결된 인덱스가 있음

In [384]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [385]:
data['b']

0.5

인접하지 않거나 연속적이지 않은 인덱스 사용 가능

In [386]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2,5,3,7])
data[5]

0.5

#### Series : 딕셔너리 활용

딕셔너리를 활용하여 Pandas Series 객체를 구성함으로써 의미를 분명하게 정할 수 있다

In [387]:
pop_dict = {'California' : 38332521, 'Texas' : 19552862, 'New York' : 128832123, 
            'Florida' : 195321122, 'illinois' : 2582123 }
pop = pd.Series(pop_dict)
pop

California     38332521
Florida       195321122
New York      128832123
Texas          19552862
illinois        2582123
dtype: int64

In [388]:
pop['California']

38332521

In [389]:
pop['California' : 'New York']

California     38332521
Florida       195321122
New York      128832123
dtype: int64

##### Quiz
다음 데이터로 시리즈 객체 만들기
area_dic = {'California' : 423967, 'Texas' : 695662, 'New York' : 141297, 
            'Florida' : 170312, 'illinois' : 149995 } 

### Pandas DataFrame 객체

#### DataFrame : 일반회된 Numpy 배열

Series가 유연한 인덱스를 가지는 1차원 배열이면 DataFrame은 유연한 행 인덱스와 열이름을 가진 2차원 배열

In [390]:
area_dic = {'California' : 423967, 'Texas' : 695662, 'New York' : 141297, 
            'Florida' : 170312, 'illinois' : 149995 } 

In [391]:
area = pd.Series(area_dic)
area

California    423967
Florida       170312
New York      141297
Texas         695662
illinois      149995
dtype: int64

In [392]:
pop

California     38332521
Florida       195321122
New York      128832123
Texas          19552862
illinois        2582123
dtype: int64

pop Series와 area Series(1차원)을 합쳐 2차원 객체 구성

In [393]:
states = pd.DataFrame({'population':pop, 'area': area})
states

Unnamed: 0,area,population
California,423967,38332521
Florida,170312,195321122
New York,141297,128832123
Texas,695662,19552862
illinois,149995,2582123


In [394]:
states.index

Index(['California', 'Florida', 'New York', 'Texas', 'illinois'], dtype='object')

In [395]:
states.columns

Index(['area', 'population'], dtype='object')

열 이름으로 Series 객체를 참조 

In [396]:
states['area']

California    423967
Florida       170312
New York      141297
Texas         695662
illinois      149995
Name: area, dtype: int64

#### DataFrame 객체 구성하기

In [397]:
pd.DataFrame(pop, columns=['population'])

Unnamed: 0,population
California,38332521
Florida,195321122
New York,128832123
Texas,19552862
illinois,2582123


In [398]:
data = [{'a':i, 'b':2*i} for i in range(3) ]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [399]:
pd.DataFrame([{'a':1, 'b':2},{'b':3,'c':4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [400]:
data = pd.DataFrame({'population' : pop, 'area' : area})
data

Unnamed: 0,area,population
California,423967,38332521
Florida,170312,195321122
New York,141297,128832123
Texas,695662,19552862
illinois,149995,2582123


In [401]:
import numpy as np

pd.DataFrame(np.random.rand(3,2),
            columns=['foo','bar'],
            index=['a','b','c'])

Unnamed: 0,foo,bar
a,0.060397,0.206568
b,0.822647,0.231614
c,0.944964,0.588088


In [402]:
data['density'] = data['population'] / data['area']
data

Unnamed: 0,area,population,density
California,423967,38332521,90.413926
Florida,170312,195321122,1146.842982
New York,141297,128832123,911.782437
Texas,695662,19552862,28.106842
illinois,149995,2582123,17.214727


##### Quiz
다음 데이터(pd_data01.xlsx)로 데이터프레임 객체를 만드세요.

In [403]:
def myfunc(a):
    return a * 10

data['multi_1'] = myfunc(data['area'])
#data['multi_2'] = (lambda a : a * 10)(data['area'])

In [404]:
# data = data.drop('multi_1', axis=1)
# data = data.drop('Texas')

In [405]:
data

Unnamed: 0,area,population,density,multi_1
California,423967,38332521,90.413926,4239670
Florida,170312,195321122,1146.842982,1703120
New York,141297,128832123,911.782437,1412970
Texas,695662,19552862,28.106842,6956620
illinois,149995,2582123,17.214727,1499950


##### Quiz
앞에서 만든 데이터프레임 객체 '행사진행일수' 칼럼을 만드세요.

### Pandas Index 객체

Series와 DataFrame 객체에서 데이터를 참조하고 수정하게 해주는 Index객체는 배열 처럼 관련함수 사용 가능, 단 **객체처럼 변경 불가**

In [406]:
ind = pd.Index([2,3,5,7,11])

In [407]:
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [408]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


In [409]:
# ind[1] = 0

#### 인덱서 : loc, iloc

Series 혹은 DataFrame 객체가 명시적인 정수 인덱스를 가지고 있다면, 인덱싱 혹은 슬라이싱 할때 혼선이 발생

In [410]:
data = pd.Series(['a','b','c'], index=[1,3,5])
data

1    a
3    b
5    c
dtype: object

In [411]:
data[1] # 직접 정수 인덱스 사용

'a'

In [412]:
data[1:3] # 파이썬에서 정해진 인덱스 (0,1,2) 사용

3    b
5    c
dtype: object

Pandas는 특정 인덱싱 방식만 활용할 수 있는 인덱서(indexer) 속성을 제공

- loc 인덱서는 직접 정한 인덱스만 사용한다

In [413]:
data.loc[1]

'a'

In [414]:
data.loc[1:3]

1    a
3    b
dtype: object

- iloc 인덱서는 파이썬 내부에서 정한 인덱스만 활용한다.

In [415]:
data.iloc[1]

'b'

In [416]:
data.iloc[1:3]

3    b
5    c
dtype: object

### Pandas에서 데이터 연산하기

numpy로 기본 산술 연산, 삼각함수, 지수, 로그함수 등 요소 단위의 연산을 빠르게 수행할 수 있다. Pandas는 Numpy로 부터 이 기능을 대부분 상속
- 단항 연산의 경우, 유니버설 함수가 결과물에 인덱스와 열 테이블을 보존 (유니버설 함수: 배열 안에 있는 데이터 원소 별로 연산을 수행하는 함수)
- 이항 연산의 경우, Pandas가 유니버설 함수에 객체를 전달할 때 인덱스를 자동으로 정렬

#### 인덱스 보존

In [417]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0,10,4)) # 0에서 10까지 4개
ser

0    6
1    3
2    7
3    4
dtype: int64

In [418]:
df = pd.DataFrame(rng.randint(0,10,(3,4)), columns=['A','B','C','D'])

In [419]:
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [420]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [421]:
np.sin(df*np.pi/4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


#### 인덱스 정렬

두개의 Series 또는 DataFrame객체에 이항 연산을 적용하는 경우 Pandas는 연산을 수행하는 과정에서 인덱스를 정렬

In [422]:
area = pd.Series({'Alaska': 1722321, 'Texas':394842, 'California':397393},
                 name='area')
population = pd.Series({'California':39283912, 'Texas':39481293, 'New York': 39581232},
                       name='population')

In [423]:
population / area

Alaska              NaN
California    98.854061
New York            NaN
Texas         99.992638
dtype: float64

In [424]:
A = pd.Series([2,4,6], index=[0,1,2])
B = pd.Series([1,3,5], index=[1,2,3])

In [425]:
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

누락된 요소에 채우기 값을 선택해 명시적으로 지정

In [426]:
A.add(B, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

In [427]:
A = pd.DataFrame(rng.randint(0,20,(2,2)), columns=list('AB'))

In [428]:
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [429]:
B = pd.DataFrame(rng.randint(0,10,(3,3)), columns=list('BAC'))

In [430]:
B

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0
2,9,2,6


In [431]:
A + B

Unnamed: 0,A,B,C
0,1.0,15.0,
1,13.0,6.0,
2,,,


In [432]:
fill = A.stack().mean()
A.add(B, fill_value=fill)

Unnamed: 0,A,B,C
0,1.0,15.0,13.5
1,13.0,6.0,4.5
2,6.5,13.5,10.5


파이썬 연산자와 Pandas 메서드 매핑

| 파이썬 연산자 |       Pandas 메서드        |
| :-----------: | :------------------------: |
|       +       |           add()            |
|       -       |     sub(), subtract()      |
|       *       |     mul(), multiply()      |
|       /       | div(), truediv(), divide() |
|      //       |         floordiv()         |
|       %       |           mod()            |
|      **       |           pow()            |

### DataFrame과 Series 간의 연산

DataFrame과 Series 사이의 연산할 때 인덱스와 열의 순서는 비슷하게 유지

In [433]:
A = rng.randint(10, size=(3,4))
A

array([[3, 8, 2, 4],
       [2, 6, 4, 8],
       [6, 1, 3, 8]])

In [434]:
A - A[0]

array([[ 0,  0,  0,  0],
       [-1, -2,  2,  4],
       [ 3, -7,  1,  4]])

In [435]:
df = pd.DataFrame(A, columns=list('QRST'))

In [436]:
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [437]:
df-df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-1,-2,2,4
2,3,-7,1,4


DataFrame, Series 연산은 앞에서 언급했던 연산과 마찬가지로 두 요소간의 인덱스를 자동으로 맞춘다.

In [438]:
halfrow = df.iloc[0, ::2]
halfrow

Q    3
S    2
Name: 0, dtype: int64

In [439]:
df - halfrow

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,-1.0,,2.0,
2,3.0,,1.0,


## 누락된 데이터 처리하기

누락된 데이터 존재를 나타내기 위한 여러 가지 방식
    - 1비트를 누락 전용 표기로 활용 (P0012, N0012, P0014, P0015 ...)
    - 데이터에서 나올 수 없는 값 (-1, -9999, 0101010)
    - NaN(Not a Number)로 표시
    - NA(Nat Available) : 값이 결손(손상)됨, Pandas에 미포함
    - Null : 값이 존재하지 않는다. 손상되어 쓸 수 없는 경우도 포함

### None : 파이썬의 누락된 데이터

None은 파이썬 코드에서 누락된 데이터 표시를 위해 사용, Pandas/Numpy 에서는 데이터 타입이 'object'일 경우에만 사용할 수 있다.

In [440]:
import numpy as np
import pandas as pd

vals1 = np.array([1, 2, 3, 4])
vals1

array([1, 2, 3, 4])

In [441]:
vals2 = np.array([1, None, 3, 4])
vals2

array([1, None, 3, 4], dtype=object)

None 값을 가진 배열에서 sum()이나 min()같은 연산을 하면 오류가 발생

In [442]:
vals1.sum()


10

In [443]:
# vals2.sum()

### NaN : 누락된 숫자 데이터

NaN(Not a Number)는 표준 IEEE 부동소수점 표기를 사용하는 모든 시스템이 인식하는 **특수 부동 소수점 값**이다

In [444]:
val2 = np.array([1, np.nan, 3, 4])
val2

array([ 1., nan,  3.,  4.])

In [445]:
val2.dtype

dtype('float64')

NaN이 포함된 산술 연산의 결과는 항상 NaN

In [446]:
1 + np.nan

nan

In [447]:
val2.sum()

nan

NaN 값을 무시하는 연산들

In [448]:
np.nansum(val2), np.nanmin(val2), np.nanmax(val2)

(8.0, 1.0, 4.0)

### Pandas에서 NaN과 None

NaN과 None은 각자의 역할이 있고 Pandas에서는 이 둘을 서로 호환 및 변환 할 수 있다.

In [449]:
pd.Series([1, np.nan, 2, None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

In [450]:
x = pd.Series(range(2), dtype=int)
x

0    0
1    1
dtype: int64

In [451]:
x[0] = None
x

0    NaN
1    1.0
dtype: float64

### 널 값 연산하기

Pandas는 None과 NaN을 근본적으로 누락된 값이나 없는 값을 가리키기 위해 호환되는 값으로 처리한다. 데이터에서 이 값들을 감시하고 삭제하는데 유용한 메소드들이 있다ㅡ



#### 널 값 감지 isnull(), notnull()

널 데이터를 탐지하기 위한 메소드로 데이터에 대한 불 배열을 반환한다



In [452]:
data = pd.Series([1, np.nan, 'hello', None])
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [453]:
data[data.notnull()]

0        1
2    hello
dtype: object

#### 널 값 제거하기 dropna(), fillna()

NA값을 제거하는 dropna(), NA값을 채우는 fillna()

In [454]:
data.dropna()

0        1
2    hello
dtype: object

In [455]:
df = pd.DataFrame([[1, np.nan, 2],[2, 3, 5],[np.nan, 4, 6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [456]:
dropna()는 데이터프레임에 대해 널 값이 있는 모든 행을 삭제한다.

SyntaxError: invalid syntax (<ipython-input-456-26b8ac4fd881>, line 1)

In [None]:
df.dropna()

In [None]:
df.dropna(axis='rows') # 행일 경우 rows

In [None]:
df

In [None]:
df[3] = np.nan

In [None]:
df

In [None]:
행이나 열의 값이 모두 NA값이거나 일부분만 NA일 경우 how, thresh 제거할 기준을 조정한다.
기본 how값은 any : NA값이 있는 행이나 열을 모두 제거

In [None]:
df.dropna(axis='columns', how='all')

thresh 옵션은 행이나 열에서 널이 아닌 값이 최소 몇 개 있는지 지정

In [None]:
df.dropna(axis='rows', thresh=3)

#### 널 값 채우기 fillna()

NA 값을 삭제하지 않고 유효한 값으로 대체해야 할 때가 있다. Pandas는 이러한 연산을 위해 fillna()함수를 제공한다.

In [None]:
data = pd.Series([1,np.nan,2,None,3],index=list('abcde'))

In [None]:
data

In [None]:
data.fillna(0)

이전 값으로 체우는 ffill(forward-fill), bfill(back-fill)과 기준 축 지정 axis(rows는 0 columns은 1)

In [None]:
data.fillna(method='ffill')

In [None]:
data.fillna(method='bfill')

In [None]:
df

In [None]:
df.fillna(method='ffill', axis=1) 

##### Quiz
다음과 같이 데이터가 있을 때 데이터프레임을 만들고 아래와 같이 누락된 데이터를 처리하세요.

In [None]:
state = pd.Series(['AK', 'AL', 'CA', 'FL', 'HI','IA'])
state

In [None]:
gender = pd.Series([np.nan, np.nan, 0, np.nan, 0, np.nan])
gender

In [None]:
name = pd.Series(['Elsie',
'Clyde',
'Russell',
'Eliza',
'Charles',
'Margaret',])
name

In [None]:
win = pd.Series([38,
38,
32,
32,
33,
25])
win

In [None]:
lose = pd.Series([1,
np.nan,
np.nan,
np.nan,
np.nan,
np.nan])
lose

In [471]:
quiz = pd.DataFrame({'state':state, 'gender':gender, 'name':name, 'win':win, 'lose':lose})

In [472]:
quiz

Unnamed: 0,gender,lose,name,state,win
0,,1.0,Elsie,AK,38
1,,,Clyde,AL,38
2,0.0,,Russell,CA,32
3,,,Eliza,FL,32
4,0.0,,Charles,HI,33
5,,,Margaret,IA,25


In [473]:
quiz = quiz[['state','gender','name','win','lose']]

In [474]:
quiz

Unnamed: 0,state,gender,name,win,lose
0,AK,,Elsie,38,1.0
1,AL,,Clyde,38,
2,CA,0.0,Russell,32,
3,FL,,Eliza,32,
4,HI,0.0,Charles,33,
5,IA,,Margaret,25,


In [480]:
quiz2 = quiz.dropna(axis='rows', thresh=4)

In [481]:
quiz2

Unnamed: 0,state,gender,name,win,lose
0,AK,,Elsie,38,1.0
2,CA,0.0,Russell,32,
4,HI,0.0,Charles,33,


In [482]:
quiz3 = quiz.dropna(axis='columns')

In [483]:
quiz3

Unnamed: 0,state,name,win
0,AK,Elsie,38
1,AL,Clyde,38
2,CA,Russell,32
3,FL,Eliza,32
4,HI,Charles,33
5,IA,Margaret,25
