# Pandas 

Pandas는 NumPy를 기반으로 만들어진 새로운 패키지로 Dataframe이라는 효율적인 자료구조를 제공한다. DataFrame은 근본적으로 행과 열 레이블이 부착된 다차원 배열로서, 여러 가지 타입의 데이터를 가질 수 있으며 데이터 누락도 허용된다.

NumPy의 ndarray 데이터 구조는 레이블, 누락된 데이터 등 요소 단위의 브로드캐스팅에 잘 매핑되지 않는 연산(그룹화, 피벗)을 하고자 하는 경우 한계점이 있음

* Data Munging - Row Data를 또 다른 형태로 매핑하는 과정

In [1]:
import pandas as pd
pd.__version__

'0.23.4'

### Pandas 객체 소개

Series, DataFrame, Index에 대해 알아보자

##### Pandas Series 객체

Pandas Series는 인덱싱된 데이터의 1차원 배열

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

일련의 값과 인덱스를 모두 감싸고 있으며, 각각 values와 index 속성으로 접근할 수 있다. values는 NumPy 배열이다

In [6]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [7]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
data[0:2]

0    0.25
1    0.50
dtype: float64

##### Series: 일반화된 NumPy 배열
NumPy 배열에는 값에 접근하는 데 사용되는 암묵적인 인덱스가 있고, Pandas Series에는 값에 연결된 명시적으로 정의된 인덱스가 있다

In [10]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [14]:
data['c']

0.75

In [20]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[5, 7, 3, 1])
data[7] # 암묵적인 인덱스 였다면 indexError 발생

0.5

##### Series: 특수한 딕셔너리

딕셔너리는 임의의 값 / 임의의 키 매핑하는 구조

Series는 타입이 지정된 키를 일련의 타입이 지정된 값에 매핑하는 구조

In [22]:
test_dict = {
    'test1': 123,
    'test2': 456,
    'test3': 789,
    'test4': 147,
    'test5': 555
}
test = pd.Series(test_dict)
test

test1    123
test2    456
test3    789
test4    147
test5    555
dtype: int64

In [27]:
test['test1': 'test3']

test1    123
test2    456
test3    789
dtype: int64

In [29]:
# 명시적으로 지정한 index에 대해서만 설정된다
pd.Series(test_dict, index=['test1', 'test2'])

test1    123
test2    456
dtype: int64

### Pandas DataFrame 객체

##### DataFrame: 일반화된 NumPy 배열

Series가 유연한 인덱스를 가지는 1차원 배열이라면 DataFrame은 유연한 행 인덱스와 유연한 열 이름을 가진 2차원 배열이라고 볼 수 있다.

In [31]:
test2_dict = {
    'test1': 111,
    'test2': 222,
    'test3': 333,
    'test4': 444,
    'test6': 555
}

test2 = pd.Series(test2_dict)
test2

test1    111
test2    222
test3    333
test4    444
test6    555
dtype: int64

In [32]:
df = pd.DataFrame({'one': test, 'two': test2})
df

Unnamed: 0,one,two
test1,123.0,111.0
test2,456.0,222.0
test3,789.0,333.0
test4,147.0,444.0
test5,555.0,
test6,,555.0


In [33]:
df.index

Index(['test1', 'test2', 'test3', 'test4', 'test5', 'test6'], dtype='object')

In [34]:
df.columns

Index(['one', 'two'], dtype='object')

In [35]:
df.values

array([[123., 111.],
       [456., 222.],
       [789., 333.],
       [147., 444.],
       [555.,  nan],
       [ nan, 555.]])

In [37]:
# NumPy에서는 df[0]과 같이 접근 시 행을 반환하지만 DataFrame에서는 열을 반환한다
df['one']

test1    123.0
test2    456.0
test3    789.0
test4    147.0
test5    555.0
test6      NaN
Name: one, dtype: float64

##### DataFrame 객체 구성하기