## 5장 판다스 시작하기

### 기본

#### Series
* Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조다.
    * 어떤 넘파이 자료형이라도 담을 수 있다.)
* index를 동반한다.


In [16]:
import pandas as pd

obj = pd.Series([4, 1, 2, -3])
print(obj)

0    4
1    1
2    2
3   -3
dtype: int64


위와 같이 Series의 표현을 보면 왼쪽에는 index를, 오른쪽에는 해당 index에 해당하는 값을 보여준다.

In [21]:
print(obj.index)

obj_2 = obj

obj_2.index = ['a', 'b', 'd', 'c']
print(obj_2)

Index(['a', 'b', 'd', 'c'], dtype='object')
a    4
b    1
d    2
c   -3
dtype: int64


자유로운 필터링이 가능하다.

In [25]:
print(obj_2[obj_2 > 0])

print(obj_2*2)

import numpy as np

print(np.exp(obj_2))

a    4
b    1
d    2
dtype: int64
a    8
b    2
d    4
c   -6
dtype: int64
a    54.598150
b     2.718282
d     7.389056
c     0.049787
dtype: float64


Series를 이해하는 다른 방법은 고정 길이의 정렬된 딕셔너리라고 생각하는 것이다.
Series와 딕셔너리 사이의 자유로운 호환이 가능하다.

In [28]:
data = {"a" : 1, "b" : 2, "c" : 10, "d" : 100}

import pandas as pd

s_data = pd.Series(data)
print(s_data)

d_data = s_data.to_dict()
print(d_data)

a      1
b      2
c     10
d    100
dtype: int64
{'a': 1, 'b': 2, 'c': 10, 'd': 100}


Series 객체와 index는 모두 name 속성을 가지며, 이 속성은 판다스의 다른 기능들과 통합되어 있다.

s_data.name = "test"
s_data.index.name = "index"
s_data

---

#### DataFrame
* DataFrame은 표 같은 스프레드시트 형식의 자료구조다.
* DataFrame은 행과 열에 대한 색인을 가지며, 색인의 모양이 같은 Series 객체를 담고 있는 파이썬 딕셔너리로 생각하면 편하다.

In [34]:
data = {"state" : ["ohio", "nevada", "ohio", "nevada", "ohio"],
        "year" : [2020, 2020, 2021, 2021, 2022],
        "pop" : [1.5, 1.7, 1.2, 1.1, 1]}

import pandas as pd

df = pd.DataFrame(data)

df

Unnamed: 0,state,year,pop
0,ohio,2020,1.5
1,nevada,2020,1.7
2,ohio,2021,1.2
3,nevada,2021,1.1
4,ohio,2022,1.0


In [40]:
df['test'] = df['state'] == 'ohio'
df

Unnamed: 0,state,year,pop,test
0,ohio,2020,1.5,True
1,nevada,2020,1.7,False
2,ohio,2021,1.2,True
3,nevada,2021,1.1,False
4,ohio,2022,1.0,True


넘파이 배열과 유사한 문법으로 데이터를 전치할 수 있다.

In [42]:
df_T = df.T

df_T

Unnamed: 0,0,1,2,3,4
state,ohio,nevada,ohio,nevada,ohio
year,2020,2020,2021,2021,2022
pop,1.5,1.7,1.2,1.1,1.0
test,True,False,True,False,True


In [43]:
df_T.T

Unnamed: 0,state,year,pop,test
0,ohio,2020,1.5,True
1,nevada,2020,1.7,False
2,ohio,2021,1.2,True
3,nevada,2021,1.1,False
4,ohio,2022,1.0,True


배열과 유사하게 Index 객체도 고정된 크기로 작동한다.

In [45]:
df_T

Unnamed: 0,0,1,2,3,4
state,ohio,nevada,ohio,nevada,ohio
year,2020,2020,2021,2021,2022
pop,1.5,1.7,1.2,1.1,1.0
test,True,False,True,False,True


In [46]:
df_T.columns

RangeIndex(start=0, stop=5, step=1)

In [47]:
3 in df_T.columns

True

In [48]:
"ohio" in df.index

False

In [49]:
df_T.index

Index(['state', 'year', 'pop', 'test'], dtype='object')

---

### 핵심 기능