## Pandas으로 데이터 가공하기

NumPy를 활용하여 복잡한 데이터 배열(n 차원)을 저장하고 가공할 수 있었다. Pandas는 NumPy를 기반으로 만들어진 새로운 패키지로서 DataFrame이라는 효율적인 자료구조를 제공한다.
- DataFrame : 근본적으로 행과 열 레이블이 부착된 다차원 배열, 여러가지 타입의 데이터를 저장할 수 있으며 데이터 누락도 혀용, 데이터베이스와 스프레드시트 프로그램과 유사

## Pandas 설치 및 사용

시스템에 Pandas를 설치하려면 먼저 Numpy가 설치되어 있어야한다. 일반적으로 Numpy를 np라는 별명으로 임포트 하는 것처럼 Pandas도 pd라는 별명으로 임포트

In [77]:
import pandas as pd

## Pandas 객체 소개

Pandas는 기본 자료구조(Series, DataFrame, Index)에 추가로 여러 유용한 도구와 메서드, 기능을 제공하지만 먼저 기본 자료구조에 대해 알아보자

### Pandas Series 객체

Pandas Series는 인덱싱된 데이터의 1차원 배열, 리스트나 배열로 부터 만들 수 있다.

In [78]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Series는 값과 인덱스 속성으로 접근할 수 있다.

In [79]:
data.values


array([0.25, 0.5 , 0.75, 1.  ])

In [80]:
data.index

RangeIndex(start=0, stop=4, step=1)

Numpy 배열과 마찬가지로 데이터는 친숙한 괄호 표기법으로 인덱스 접근 가능

In [81]:
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [82]:
data[1]

0.5

In [83]:
data[1:3]

1    0.50
2    0.75
dtype: float64

### Series : 일반화된 Numpy 배열

Numpy 배열에는 값에 접근하는데 사용되는 암묵적 정수형 인덱스(0,1,2,3,...)가 있고, Pandas Series에는 값에 명시적으로 연결된 인덱스가 있음

In [84]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a','b','c','d'])
#data = pd.Series([0.25, 0.5, 0.75, 1.0], index=list('abcd'))
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [85]:
data['b']

0.5

In [86]:
pop = pd.Series([6000, 100000, 50000], index=["korea", "china", "india"])

In [87]:
pop

korea      6000
china    100000
india     50000
dtype: int64

인접하지 않거나 연속적이지 않은 인덱스 사용 가능

In [88]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2,5,3,7])
data[5]

0.5

In [89]:
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

### Series : 딕셔너리 활용

딕셔너리를 활용하여 Pandas Series 객체를 구성함으로써 의미를 분명하게 정할 수 있다

In [90]:
pop_dict = {'California' : 38332521, 'Texas' : 19552862, 
            'New York' : 128832123, 'Florida' : 195321122,
            'illinois' : 2582123 }
pop = pd.Series(pop_dict)
pop

California     38332521
Florida       195321122
New York      128832123
Texas          19552862
illinois        2582123
dtype: int64

In [91]:
pop['California']

38332521

In [92]:
same = pd.Series(5, index=[100, 200, 300])
same

100    5
200    5
300    5
dtype: int64

##### Quiz
다음 데이터로 시리즈 객체 만들기 
- area_dic = {'California' : 423967, 'Texas' : 695662, 'New York' : 141297, 'Florida' : 170312, 'illinois' : 149995 }

In [93]:
area_dic = {'California' : 423967, 'Texas' : 695662, 'New York' : 141297, 'Florida' : 170312, 'illinois' : 149995 }
area = pd.Series(area_dic)

In [94]:
area

California    423967
Florida       170312
New York      141297
Texas         695662
illinois      149995
dtype: int64

### Pandas DataFrame 객체

#### DataFrame : 일반회된 Numpy 배열

Series가 유연한 인덱스를 가지는 1차원 배열이면 DataFrame은 유연한 행 인덱스와 열이름을 가진 2차원 배열

In [95]:
state = pd.DataFrame({'population':pop, 'area':area})

In [96]:
state

Unnamed: 0,area,population
California,423967,38332521
Florida,170312,195321122
New York,141297,128832123
Texas,695662,19552862
illinois,149995,2582123


In [97]:
state.index

Index(['California', 'Florida', 'New York', 'Texas', 'illinois'], dtype='object')

In [98]:
state.columns

Index(['area', 'population'], dtype='object')

#### DataFrame 객체 구성하기

In [99]:
pd.DataFrame(pop, columns=['population'])

Unnamed: 0,population
California,38332521
Florida,195321122
New York,128832123
Texas,19552862
illinois,2582123


In [100]:
data = [{'a':i, 'b':2*i} for i in range(3) ]

In [101]:
data

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]

In [102]:
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [103]:
pd.DataFrame([{'a':1, 'b':2},{'b':3,'c':4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [104]:
import numpy as np

pd.DataFrame(np.random.rand(3,2),
            columns=['foo','bar'],
            index=['a','b','c'])

Unnamed: 0,foo,bar
a,0.173711,0.926512
b,0.48536,0.573056
c,0.133675,0.54501


In [105]:
state

Unnamed: 0,area,population
California,423967,38332521
Florida,170312,195321122
New York,141297,128832123
Texas,695662,19552862
illinois,149995,2582123


In [106]:
state['density'] = state['population'] / state['area']
state

Unnamed: 0,area,population,density
California,423967,38332521,90.413926
Florida,170312,195321122,1146.842982
New York,141297,128832123,911.782437
Texas,695662,19552862,28.106842
illinois,149995,2582123,17.214727


In [107]:
def myFunc(a):
    # 복잡한 연산
    return a * 10

state['multi_1'] = myFunc(state['population'])
state['multi_2'] = (lambda a : a * 10)(state['population'])
state

Unnamed: 0,area,population,density,multi_1,multi_2
California,423967,38332521,90.413926,383325210,383325210
Florida,170312,195321122,1146.842982,1953211220,1953211220
New York,141297,128832123,911.782437,1288321230,1288321230
Texas,695662,19552862,28.106842,195528620,195528620
illinois,149995,2582123,17.214727,25821230,25821230


In [108]:
#state = state.drop('multi_1', axis=1) # axis 값 : 1("columns"), 0("rows")
state

Unnamed: 0,area,population,density,multi_1,multi_2
California,423967,38332521,90.413926,383325210,383325210
Florida,170312,195321122,1146.842982,1953211220,1953211220
New York,141297,128832123,911.782437,1288321230,1288321230
Texas,695662,19552862,28.106842,195528620,195528620
illinois,149995,2582123,17.214727,25821230,25821230


In [109]:
state

Unnamed: 0,area,population,density,multi_1,multi_2
California,423967,38332521,90.413926,383325210,383325210
Florida,170312,195321122,1146.842982,1953211220,1953211220
New York,141297,128832123,911.782437,1288321230,1288321230
Texas,695662,19552862,28.106842,195528620,195528620
illinois,149995,2582123,17.214727,25821230,25821230


In [110]:
#state_copy = state.drop("Texas")

In [112]:
#state_copy

##### quiz
앞에서 만든 데이터프레임 객체 '행사진행일수' 칼럼을 만드세요.

In [113]:
code = pd.Series([89444,
52691,
52712,
98146,
98145,
98144
])
code

0    89444
1    52691
2    52712
3    98146
4    98145
5    98144
dtype: int64

In [114]:
types = pd.Series(["전시/미술",
"콘서트",
"콘서트",
"전시/미술",
"기타",
"전시/미술"
])
types

0    전시/미술
1      콘서트
2      콘서트
3    전시/미술
4       기타
5    전시/미술
dtype: object

In [115]:
title = pd.Series(["군기시유적전시실",
"페인터즈: 히어로",
"요리하는 마술사",
"규장각과 정조시대",
"과학체험학습",
"서화전적실 상설전"
])
title

0     군기시유적전시실
1    페인터즈: 히어로
2     요리하는 마술사
3    규장각과 정조시대
4       과학체험학습
5    서화전적실 상설전
dtype: object

In [116]:
stDay = pd.Series([
    "2017-01-01",
"2010-10-01",
"2014-09-13",
"2018-03-12",
"2018-03-12",
"2016-10-07"
])
stDay

0    2017-01-01
1    2010-10-01
2    2014-09-13
3    2018-03-12
4    2018-03-12
5    2016-10-07
dtype: object

In [117]:
edDay = pd.Series(["2020-12-31",
"2020-12-31",
"2025-06-30",
"2028-12-31",
"2028-12-31",
"2028-12-31"
])
edDay

0    2020-12-31
1    2020-12-31
2    2025-06-30
3    2028-12-31
4    2028-12-31
5    2028-12-31
dtype: object

In [154]:
events = pd.DataFrame({"문화행사코드":code, 
                       "장르명":types, 
                       "제목" : title,
                      "시작일자":stDay,
                      "종료일자":edDay})

In [155]:
events

Unnamed: 0,문화행사코드,시작일자,장르명,제목,종료일자
0,89444,2017-01-01,전시/미술,군기시유적전시실,2020-12-31
1,52691,2010-10-01,콘서트,페인터즈: 히어로,2020-12-31
2,52712,2014-09-13,콘서트,요리하는 마술사,2025-06-30
3,98146,2018-03-12,전시/미술,규장각과 정조시대,2028-12-31
4,98145,2018-03-12,기타,과학체험학습,2028-12-31
5,98144,2016-10-07,전시/미술,서화전적실 상설전,2028-12-31


In [168]:
# 매개 변수의 자료형을 확인 1
type(events["시작일자"])

pandas.core.series.Series

In [173]:
# 매개 변수의 자료형을 확인 2
type(events["시작일자"].values)

numpy.ndarray

In [217]:
# 계산할 함수를 구성
from datetime import datetime

def calDate(stDay, edDay):
    arStDay = stDay.values
    arEdDay = edDay.values
    
    # 두 날짜의 차이를 저장할 리스트
    result = []
    
    
    # 두 칼럼의 크기가 같은지 비교
    if len(arStDay) == len(arEdDay):
        for i in range(len(arStDay)):
            # array의 안의 값(문자열)을 하이픈을 기준으로 분리 
            sp_arStDay = arStDay[i].split('-')
            sp_arEdDay = arEdDay[i].split('-')
            
            # datetime 객체에 년, 월, 일 값을 전달
            dt_StDay = datetime(int(sp_arStDay[0]), int(sp_arStDay[1]), int(sp_arStDay[2]))
            dt_EdDay = datetime(int(sp_arEdDay[0]), int(sp_arEdDay[1]), int(sp_arEdDay[2]))
            
            # 두 날자의 차를 계산한 후 결과를 리스트에 저장
            result.append((dt_EdDay-dt_StDay).days)
    else:
        print("Error")
    
    """
    # case2)
    for (st, ed) in zip(list(arStDay), list(arEdDay)):
        sp_arStDay = st.split('-')
        sp_arEdDay = ed.split('-')
        
        # datetime 객체에 년, 월, 일 값을 전달
        dt_StDay = datetime(int(sp_arStDay[0]), int(sp_arStDay[1]), int(sp_arStDay[2]))
        dt_EdDay = datetime(int(sp_arEdDay[0]), int(sp_arEdDay[1]), int(sp_arEdDay[2]))

        # 두 날자의 차를 계산한 후 결과를 리스트에 저장
        result.append((dt_EdDay-dt_StDay).days)
    """
    return result
     

In [218]:
calDate(events["시작일자"], events["종료일자"])

[1460, 3744, 3943, 3947, 3947, 4468]

In [219]:
events["행사진행일수"] = calDate(events["시작일자"], events["종료일자"])

In [220]:
events

Unnamed: 0,문화행사코드,시작일자,장르명,제목,종료일자,행사진행일수
0,89444,2017-01-01,전시/미술,군기시유적전시실,2020-12-31,1460
1,52691,2010-10-01,콘서트,페인터즈: 히어로,2020-12-31,3744
2,52712,2014-09-13,콘서트,요리하는 마술사,2025-06-30,3943
3,98146,2018-03-12,전시/미술,규장각과 정조시대,2028-12-31,3947
4,98145,2018-03-12,기타,과학체험학습,2028-12-31,3947
5,98144,2016-10-07,전시/미술,서화전적실 상설전,2028-12-31,4468


### Pandas Index 객체

Series와 DataFrame 객체에서 데이터를 참조하고 수정하게 해주는 Index객체는 배열 처럼 관련함수 사용 가능, 단 객체처럼 변경 불가

In [197]:
ind = pd.Index([2,3,5,7,11])

In [198]:
#ind[0] = 10

In [199]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


### 인덱서 : loc, iloc

Series 혹은 DataFrame 객체가 명시적인 정수 인덱스를 가지고 있다면, 인덱싱 혹은 슬라이싱 할때 혼선이 발생

In [201]:
data = pd.Series(['a','b','c'], index=[1,3,5])
data

1    a
3    b
5    c
dtype: object

In [202]:
data[1]

'a'

loc 인덱서는 직접 정한 인덱스만 사용한다

In [203]:
data.loc[1]

'a'

In [204]:
data.loc[1:3]

1    a
3    b
dtype: object

iloc 인덱서는 파이썬 내부에서 정한 인덱스만 
활용한다.

In [205]:
data.iloc[1]

'b'

In [206]:
data

1    a
3    b
5    c
dtype: object

In [207]:
data.iloc[1:3]

3    b
5    c
dtype: object

In [208]:
data.loc[1:3]

1    a
3    b
dtype: object

### Pandas에서 데이터 연산하기

numpy로 기본 산술 연산, 삼각함수, 지수, 로그함수 등 요소 단위의 연산을 빠르게 수행할 수 있다. Pandas는 Numpy로 부터 이 기능을 대부분 상속

- 단항 연산의 경우, 유니버설 함수가 결과물에 인덱스와 열 테이블을 보존 (유니버설 함수: 배열 안에 있는 데이터 원소 별로 연산을 수행하는 함수)
- 이항 연산의 경우, Pandas가 유니버설 함수에 객체를 전달할 때 인덱스를 자동으로 정렬