
# Chapter 5 Getting Started with pandas

* 빅데이터 시대에 '데이터를 얼마나 잘 처리하느냐'는 것이 매우 중요해짐. 파이썬에서 다량의 데이터를 대상으로 데이터 처리와 분석을 쉽게 할 수 있게 도와주는 라이브러리 [모듈]이 `pandas`임
* `pandas`는 `NumPy`를 기반으로 만들어졌지만 좀 더 복잡한 데이터 분석에 특화된 라이브러리임
* `NumPy`는 같은 데이터 타입의 배열 (ndarray)만 처리할 수 있는 반면 `pandas`는 데이터 타입이 다양하게 섞여 있을 때도 처리가 


`pandas`는 앞으로 가장 자주 살펴볼 라이브러리임. 이 라이브러리는 파이썬에서 데이터 정제 및 분석을 빠르고 쉽게 행할 수 있게 하는 자료 구조와 자료 변환 도구를 포함함 

`pandas`는 `Numpy`와 `SciPy`같은 수치 계산 도구나 `statesmodels`나 `scikit-learn`같은 분석 라이브러리, 시각화 라이브러리인 `matplotlib`와 함께 사용하는 경우가 흔함

`pandas`는 for문을 사용하지 않고 데이터를 처리한다거나 배열 기반의 함수를 제공하는 등 `Numpy`의 배열 기반 계산 스타일을 많이 차용함

`pandas`가 `NumPy`의 스타일을 많이 차용하지만 가장 큰 차이점은 `pandas`는 표 형식의 데이터나 다양한 형태 [혼합 형태]의 데이터를 다르는 데 초점을 맞춰 설계함. 반면, `NumPy`는 단일 산술 배열 데이터를 다루는 데 특화되어 있음

In [2]:
import pandas as pd

In [3]:
from pandas import Series, DataFrame

In [4]:
import numpy as np

# random number seed
np.random.seed(12345)

import matplotlib.pyplot as plt


# 5.1 Introduction to pandas Data Structures

`pandas`에 대하여 알아보려면 `Series`와 `DataFrame`, 이 두 가지 자료 구조에 익숙해질 필요가 있음

이 두 가지 자료 구조로 모든 문제를 해결할 수는 없지만 대부분의 애플리케이션에서 사용하기 쉽고 탄탄한 기반을 제공함

<br>

| <center>Python</center> | <center>R</center> | 
|:--------|:--------|
| Series | vector |
| DataFrame | data.frame |

## 5.1.1 Series 시리즈

* 구조적 1차원 데이터 (레이블을 갖는)를 생성함
* `Sereis` 생성 방법

```
s = pd.Series(seq_data)
```

* `Series`의 인자로는 시퀀스 데이터 (seq_data)가 들어감. 시퀀스 데이터로는 리스트와 튜플 타입의 데이터를 모두 사용할 수 있으나 주로 리스트를 사용함. 
* `Series`를 지정하면 인자로 놓은 시퀀스 데이터에 순서를 표시하는 레이블 (label)이 자동으로 부여됨. `Series` 데이터에서는 세로축 레이블을 **색인 (index)**라고 하고, 입력한 데이터를 **값 (value)**이라 부름

<br>

**`Series`를 활용한 데이터 생성**

`Series` 데이터를 출력하면 데이터 앞에 색인이 함께 표시됨. 이 색인은 `Series` 데이터 생성시 자동으로 만들어진 것으로 데이터를 처리할 때 이용하게 됨

In [6]:
s1 = pd.Series([10, 20, 30, 40, 50, 60, 70, 80, 90, 100])
s1

0     10
1     20
2     30
3     40
4     50
5     60
6     70
7     80
8     90
9    100
dtype: int64

`NumPy`의 경우 배열의 모든 원소가 데이터 타입이 같아야 하지만 `pandas`에서는 원소의 데이터 타입이 달라도 됨. 그러므로 `Series`로 데이터를 생성할 때 문자와 숫자가 혼합된 리스트를 인자로 이용할 수 있음

In [8]:
s2 = pd.Series(['a', 'b', 'c', 'd', 'e', 1, 2, 3, 4, 5])
s2

0    a
1    b
2    c
3    d
4    e
5    1
6    2
7    3
8    4
9    5
dtype: object

# index를  인자로 지정하기

In [9]:
index_date = ['2020-03-01','2020-03-02','2020-03-03','2020-03-04', '2020-03-05']
s4 = pd.Series([200, 195, np.nan, 205, 210], index = index_date)
s4

2020-03-01    200.0
2020-03-02    195.0
2020-03-03      NaN
2020-03-04    205.0
2020-03-05    210.0
dtype: float64

<br>

**`Series` 생성시 딕셔너리를 이용하는 경우**

```
s = pd.Series(dict_data)
```

파이썬의 딕셔너리를 이용하면 데이터와 색인을 함께 입력할 수 있음

딕셔너리 데이터의 키 (keys)와 값 (values)이 각각 `Series` 데이터의 색인 (index)과 값 (values)로 들어감

In [12]:
s5 = pd.Series({'국어': 100, '영어': 95, '수학': 90, '과학': 100})
s5

국어    100
영어     95
수학     90
과학    100
dtype: int64

In [13]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

## 5.1.2 DataFrame 데이터프레임

In [21]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data) #적힌 순서대로

In [22]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [23]:
pd.DataFrame(data, columns=['year', 'state', 'pop']) #순서 정해주기

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


**`DataFrame`에서 특정 열을 추출하기**

1. 열의 index를 사용하는 방법: DataFrame.loc[]

2. 열의 순서 (위치)를 사용하는 방법: DataFrame.iloc[]

In [24]:
frame.loc[:,['state']]

Unnamed: 0,state
0,Ohio
1,Ohio
2,Ohio
3,Nevada
4,Nevada
5,Nevada


In [25]:
frame.iloc[:,0]

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [26]:
frame[['state', 'pop']]

Unnamed: 0,state,pop
0,Ohio,1.5
1,Ohio,1.7
2,Ohio,3.6
3,Nevada,2.4
4,Nevada,2.9
5,Nevada,3.2


In [27]:
frame.loc[0:2,['state']]

Unnamed: 0,state
0,Ohio
1,Ohio
2,Ohio


In [28]:
frame.iloc[3,0]    # 4번째 행, 첫 번째 열에 해당하는 원소

'Nevada'

`del`의 예로서, 'state' 열의 값이 'Ohio'인지 아닌지에 대한 bool값을 담고 있는 새로운 열을 생성해 보자.

In [30]:
frame['eastern'] = frame.state == 'Ohio'
frame

Unnamed: 0,state,year,pop,eastern
0,Ohio,2000,1.5,True
1,Ohio,2001,1.7,True
2,Ohio,2002,3.6,True
3,Nevada,2001,2.4,False
4,Nevada,2002,2.9,False
5,Nevada,2003,3.2,False


In [32]:
del frame['eastern']
frame.columns

Index(['state', 'year', 'pop'], dtype='object')

## 5.2.5 Arithmetic and Data Alignment 산술 연산과 데이터 정렬


In [33]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])
print(s1)
print(s2)

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64
a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64


In [34]:
# 공유하는 색인이 없는 경우 NaN이 됨
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [37]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list('abcde'))

In [38]:
df2.loc[1, 'b'] = np.nan
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [17]:
from sklearn.datasets import load_iris

In [18]:
Iris = load_iris()

In [19]:
# np_r: 배열을 왼쪽에서 오른쪽으로 붙이기
# np.c_: 배열을 위에서 아래로 붙이기

Iris_data = pd.DataFrame(data = np.c_[Iris['data'], Iris['target']], columns = Iris['feature_names'] + ['target'])
Iris_data

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0.0
1,4.9,3.0,1.4,0.2,0.0
2,4.7,3.2,1.3,0.2,0.0
3,4.6,3.1,1.5,0.2,0.0
4,5.0,3.6,1.4,0.2,0.0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2.0
146,6.3,2.5,5.0,1.9,2.0
147,6.5,3.0,5.2,2.0,2.0
148,6.2,3.4,5.4,2.3,2.0
