# Pandas Dataframe and Series

In [26]:
import pandas as pd

파이썬에는 리스트, 딕셔너리 같은 자료형이 있습니다. 데이터를 저장하고, 불러오기에 안성맞춤이죠. 그럼에도 파이썬의 대표적인 데이터 분석 라이브러리인 Pandas는 시리즈(Series), 데이터프레임(DataFrame)이라는 두 가지 자료형을 추가로 제공합니다. 파이썬에서 기본으로 제공하는 자료형보다 사용하기 편하고, 복잡한 연산을 좀 더 편하게 하기 위해서입니다. 사실 Pandas의 자료형까지 잘 알고 쓰는 사람이 많지는 않을 것 같아요. 하지만 알아두면 판다스를 좀 더 정확하고 빠르고 편리하게 능숙하게 사용할 수 있습니다!  
파이썬 자료형에 대해서는 [점프 투 파이썬 02장 파이썬 프로그래밍의 기초, 자료형](https://wikidocs.net/11)이 친절한 설명을 제공합니다! 파이썬 자료형에 익숙하지 않으신 분들은 이 자료부터 보시고 오시면 좋겠네요.

## 파이썬의 자료형

In [27]:
# 파이썬의 리스트
a = [1, 2, 3, 4]

In [53]:
# 파이썬의 딕셔너리. Key와 Value로 이루어져 있다.
dic = {'A': [1, 2, 3, 4], 'B': 'Summer', 'C': '판다스', 'D': ['판다스', '어렵지아나요']}

파이썬의 리스트는 integer 인덱스로 특정 값을 가져온다던지, 더 작은 리스트를 만든다던지 하는 일이 가능하죠. 딕셔너리는 그런 일을 Key로 합니다.

In [58]:
# 자네 이런 것은 본 적 있나. 이것도 리스트 슬라이싱이라네.
a[::-1]

[4, 3, 2, 1]

In [59]:
dic['D']

['판다스', '어렵지아나요']

## 판다스의 Series

판다스는 조금 더 진화한 자료형을 제공합니다. 파이썬에 리스트가 있다면, 판다스에는 시리즈(Series)가 있습니다. 시리즈는 `pd.Series()` 함수를 사용해서 만들 수 있습니다. Series는 Index와 Values로 구성됩니다.

In [62]:
s = pd.Series([1, 2, 3, 4])
s

0    1
1    2
2    3
3    4
dtype: int64

In [64]:
print(s.index) # Series의 index
print(list(s.index))

RangeIndex(start=0, stop=4, step=1)
[0, 1, 2, 3]


In [65]:
s.values # Series의 values

array([1, 2, 3, 4])

판다스 시리즈는 인덱스를 이용해 값을 호출할 수 있습니다. 파이썬 리스트가 원소의 위치를 이용해 슬라이싱을 하는 것과 비슷하지만, 시리즈의 인덱스에는 정수 이외의 값도 들어갈 수 있습니다. 예를 들어서, 이렇게 Series의 인덱스를 바꿀 수 있습니다.

In [66]:
s.index = ['A', 'B', 'C', 'D']

In [67]:
s

A    1
B    2
C    3
D    4
dtype: int64

In [68]:
# 'A'에 들어있는 값을 찾기 위해서는 아래와 같이 호출합니다. 마치 딕셔너리에서 Key를 넣고, value를 뽑아내는 것과 비슷하게 생겼죠?
s['A']

1

## Pandas의 DataFrame

그 다음으로는 약간 더 진화한 DataFrame이 있습니다. 드디어 우리가 익숙한 컬럼(column)과 로(row)가 있는 표 형태의 데이터를 볼 수 있게 되었네요.

In [73]:
df = pd.DataFrame({
    'A': [1, 2, 3, 4], 
    'B': [1, 2, 3, 3], 
    'C': pd.Series([5, 6, 7, 8]),
    'D': ['더운', '여름에', '다들', '고생이많아요'],
    'E': ['모기도', '더워서', '알을 안낳는다는', '2019 써머...']
})

In [74]:
df

Unnamed: 0,A,B,C,D,E
0,1,1,5,더운,모기도
1,2,2,6,여름에,더워서
2,3,3,7,다들,알을 안낳는다는
3,4,3,8,고생이많아요,2019 써머...


시리즈와 마찬가지로 index, values 기능을 제공합니다.

In [78]:
print(df.index) # df의 index
print(list(df.index)) # range index안에 있는 값들을 구체적으로 보기 위해서 list로 변환 -> range()에 대해서는 아직 몰라도 됨
print(df.values) # df의 values

RangeIndex(start=0, stop=4, step=1)
[0, 1, 2, 3]
[[1 1 5 '더운' '모기도']
 [2 2 6 '여름에' '더워서']
 [3 3 7 '다들' '알을 안낳는다는']
 [4 3 8 '고생이많아요' '2019 써머...']]


하지만 데이터프레임에는 Series에는 없는 다른 속성이 하나 더 있죠! 바로 columns 입니다. 표 형식으로 데이터를 저장하기 때문에 컬럼이 있습니다.

In [80]:
df.columns # 총 5개의 컬럼이 있네요.

Index(['A', 'B', 'C', 'D', 'E'], dtype='object')

## 데이터 프레임에서 값 선택하기
[10 minutes pandas](https://dataitgirls2.github.io/10minutes2pandas/)에서 잘 설명하지만, 판다스 데이터 프레임에는 여러가지 방법으로 원하는 값을 선택할 수 있습니다. 대표적인 함수로 `df.loc()`, `df.iloc()`, `df.at()`, `df.iat()`이 있습니다.

In [89]:
df.loc[0:1, ['D', 'E']]

Unnamed: 0,D,E
0,더운,모기도
1,여름에,더워서


In [87]:
# 이 결과는 왜 위의 결과와 다르게 나올까요?
df.iloc[0:1, 3:5]

Unnamed: 0,D,E
0,더운,모기도


## 컬럼인가 인덱스인가?
`df.reset_index()`, `df.set_index(컬럼명)`

In [91]:
df.reset_index()

Unnamed: 0,index,A,B,C,D,E
0,0,1,1,5,더운,모기도
1,1,2,2,6,여름에,더워서
2,2,3,3,7,다들,알을 안낳는다는
3,3,4,3,8,고생이많아요,2019 써머...


In [92]:
df.set_index('C')

Unnamed: 0_level_0,A,B,D,E
C,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
5,1,1,더운,모기도
6,2,2,여름에,더워서
7,3,3,다들,알을 안낳는다는
8,4,3,고생이많아요,2019 써머...
