# Pandas
## Series
- 데이터 테이블: 정형화된 데이터의 모습, 인덱스, feature 갖고 있음
- Series: 일련의 객체를 담을 수 있는 1차원 배열, array, index, dtype 속성을 통해 확인 가능

In [2]:
import pandas as pd
personal_info = pd.Series(index=["name", "gender", "age"])

- name 속성
- 색인 교체, 데이터 추가는 dictionary와 비슷하게 가능

## DataFrame 생성

In [3]:
from pandas import Series, DataFrame

In [4]:
# 동일한 길이의 리스트가 value로 담긴 딕셔너리 -> DataFrame으로 생성 가능
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada", ],
        "year": [2000, 2001, 2002, 2003, 2004, 2005],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

# data를 데이터프레임으로 변환
frame = DataFrame(data)

In [5]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2003,2.4
4,Nevada,2004,2.9
5,Nevada,2005,3.2


## head(), tail()

- head(): 상위 5개 인덱스의 데이터를 보여줌
- tail(): 하위 5개 인덱스의 데이터를 보여줌

In [6]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2003,2.4
4,Nevada,2004,2.9


In [7]:
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2003,2.4
4,Nevada,2004,2.9
5,Nevada,2005,3.2


## Feature 선택적으로 생성

In [8]:
DataFrame(data, columns=["year", "state"])

Unnamed: 0,year,state
0,2000,Ohio
1,2001,Ohio
2,2002,Ohio
3,2003,Nevada
4,2004,Nevada
5,2005,Nevada


## 없는 Feature 선택 시 결측치로 생성

In [9]:
# data 딕셔너리에 debt 키는 없기 때문에 결측치(NaN)로 생성됨
frame2 = DataFrame(data, columns=["year", "state", "pop", "debt"])
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2003,Nevada,2.4,
4,2004,Nevada,2.9,
5,2005,Nevada,3.2,


## Feature 확인, Feature별 데이터 호출

In [10]:
# index를 마음대로 변경 가능, 하지만 함부로 바꾸면 data가 망가지기 때문에 최대한 하지 않는 것이 좋음
# 각 샘플 호출
frame2.index

RangeIndex(start=0, stop=6, step=1)

In [11]:
# 각 feature 이름
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [12]:
# DataFrame에서 특정 column 호출 -> Series 객체
frame2["state"]

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [13]:
frame2.year

0    2000
1    2001
2    2002
3    2003
4    2004
5    2005
Name: year, dtype: int64

## 특정 Feature 데이터는 Series 객체

In [14]:
type(frame2)

pandas.core.frame.DataFrame

In [15]:
type(frame2["year"])

pandas.core.series.Series

# Feature 수정

In [16]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2003,2.4
4,Nevada,2004,2.9
5,Nevada,2005,3.2


In [17]:
frame["debt"] = 16.5
frame

Unnamed: 0,state,year,pop,debt
0,Ohio,2000,1.5,16.5
1,Ohio,2001,1.7,16.5
2,Ohio,2002,3.6,16.5
3,Nevada,2003,2.4,16.5
4,Nevada,2004,2.9,16.5
5,Nevada,2005,3.2,16.5


In [18]:
frame["state"] == "Ohio"

0     True
1     True
2     True
3    False
4    False
5    False
Name: state, dtype: bool

In [19]:
frame["eastern"] = frame["state"] == "Ohio"
frame

Unnamed: 0,state,year,pop,debt,eastern
0,Ohio,2000,1.5,16.5,True
1,Ohio,2001,1.7,16.5,True
2,Ohio,2002,3.6,16.5,True
3,Nevada,2003,2.4,16.5,False
4,Nevada,2004,2.9,16.5,False
5,Nevada,2005,3.2,16.5,False


In [20]:
val = Series([-1.2, -1.5, -1.7], index=["two", "four", "five"])
# val = Series([-1.2, -1.5, -1.7], index=[2, 4, 5])
frame["debt"] = val # 해당 index가 없기 때문에 debt의 값이 결측치로 처리
frame

Unnamed: 0,state,year,pop,debt,eastern
0,Ohio,2000,1.5,,True
1,Ohio,2001,1.7,,True
2,Ohio,2002,3.6,,True
3,Nevada,2003,2.4,,False
4,Nevada,2004,2.9,,False
5,Nevada,2005,3.2,,False


## Feature 삭제

In [21]:
del frame["eastern"]
frame

Unnamed: 0,state,year,pop,debt
0,Ohio,2000,1.5,
1,Ohio,2001,1.7,
2,Ohio,2002,3.6,
3,Nevada,2003,2.4,
4,Nevada,2004,2.9,
5,Nevada,2005,3.2,


In [22]:
frame.pop("debt")

0   NaN
1   NaN
2   NaN
3   NaN
4   NaN
5   NaN
Name: debt, dtype: float64

In [23]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2003,2.4
4,Nevada,2004,2.9
5,Nevada,2005,3.2


# 중첩 딕셔너리 활용 DataFrame 생성
## 동일한 길이로 value가 이루어진 딕셔너리 -> DataFrame
### 결측치 X

In [24]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada", ],
        "year": [2000, 2001, 2002, 2003, 2004, 2005],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

DataFrame(data)

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2003,2.4
4,Nevada,2004,2.9
5,Nevada,2005,3.2


## 딕셔너리 리스트 -> DataFrame
### 같은 길이의 리스트를 가질 필요가 없음
- 각 딕셔너리가 샘플이 됨
- 키의 합집합이 feature 이름(결측치 생성 가능성)

In [25]:
data1 = {"state": "Ohio",
         "year": 2000,
         "pop": 1.5}
data2 = {"state": "Mass",
         "year": 2000,
         "GDP": 1.8}
data3 = {"year": 2011,
         "pop": 1.1}

In [26]:
DataFrame([data1, data2, data3])

Unnamed: 0,state,year,pop,GDP
0,Ohio,2000,1.5,
1,Mass,2000,,1.8
2,,2011,1.1,


## 딕셔너리들의 딕셔너리 -> DataFrame
### index 이름 지정 가능
- 바깥쪽 키가 feature 이름
- 안쪽 키의 합집합이 index(결측치 생성 가능성)

In [27]:
# 외부 딕셔너리의 키가 feature 이름
# 내부 딕셔너리에서 키의 합집합이 index가 됨
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},
               "Nevada": {2001: 2.4, 2002: 2.9}}

In [28]:
frame3 = DataFrame(populations)
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


## name 속성
- index name과 feature(columns) name 속성

In [29]:
frame3.index.name = "year"
frame3.columns.name = "state"
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [30]:
frame3.to_numpy()

array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9]])

## Reindex(재색인)
### 기존 색인-feature 관계 유지, 새롭게 색인
### 순서나 원하는 데이터만 뽑아서 reindex

In [31]:
obj = Series([4.5, 7.2, -5.3, -3.6], index=["d", "b", "a", "c"])
obj

d    4.5
b    7.2
a   -5.3
c   -3.6
dtype: float64

In [33]:
obj.index = ["a", "b", "c", "d"]
obj     # 원래 index-feature 사이의 관계가 깨짐(index 새로 assign)

a    4.5
b    7.2
c   -5.3
d   -3.6
dtype: float64

### reindex는 기존 index-feature 사이 관계 유지

In [34]:
obj2 = obj.reindex(["a", "c", "d", "b", "e"])
obj2    # 각각의 index에 매칭되어 있던 값이 유지

a    4.5
c   -5.3
d   -3.6
b    7.2
e    NaN
dtype: float64

In [35]:
obj3 = Series(["blue", "purple", "yellow"], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [36]:
import numpy as np
obj3.reindex(np.arange(6))

0      blue
1       NaN
2    purple
3       NaN
4    yellow
5       NaN
dtype: object

In [37]:
# method로 결측치 처리
# ffill: 결측치 발생 시 이전의 값으로 채움
obj3.reindex(np.arange(6), method="ffill")

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [39]:
# bfill: 결측치 발생 시 이후의 값으로 채움
obj3.reindex(np.arange(6), method="bfill")

0      blue
1    purple
2    purple
3    yellow
4    yellow
5       NaN
dtype: object

In [40]:
# fill_value: 해당 값을 원하는 값으로 채울 수 있음
obj3.reindex(np.arange(6), fill_value=777)

0      blue
1       777
2    purple
3       777
4    yellow
5       777
dtype: object

## DataFame에서의 재색인

In [41]:
frame = DataFrame(np.arange(9).reshape(3, 3),
                  index=["a", "c", "d"],
                  columns=["Ohio", "Texas", "California"])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [43]:
frame2 = frame.reindex(index=["a", "b", "c", "d"])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0
