## Pandas 다루기-1
파이썬으로 머신러닝 프로젝트를 진행하다보면 pandas 라이브러리가 필요한 상황이 많이 발생한다.  
이번 스터디에서는 예제들을 직접 따라해보면서 pandas의 기본적인 사용법을 익혀보도록 한다.  

### Series
pandas는 Series, Dataframe 두 가지 자료구조를 제공해준다.  
Series는 판다스에서 1차원 배열을 나타내는 자료구조이다. 아래 예시를 보자.  

In [2]:
import pandas as pd

inflation = pd.Series((2.2, 3.4, 2.8, 1.6, 2.3, 2.7, 3.4, 2.8, 3.8, -0.4, .16, 3.2, 2.1, 1.5, 1.5))
inflation

0     2.20
1     3.40
2     2.80
3     1.60
4     2.30
5     2.70
6     3.40
7     2.80
8     3.80
9    -0.40
10    0.16
11    3.20
12    2.10
13    1.50
14    1.50
dtype: float64

시리즈는 기본적으로 리스트와 유사하지만, 추가적으로 사용할 수 있는 기능들이 있다.

In [3]:
print(len(inflation))
print(inflation.values)
print(inflation.index)

15
[ 2.2   3.4   2.8   1.6   2.3   2.7   3.4   2.8   3.8  -0.4   0.16  3.2
  2.1   1.5   1.5 ]
RangeIndex(start=0, stop=15, step=1)


데이터 프레임은 이러한 시리즈들을 모아서 테이블 형식으로 관리하는 자료구조이다.  
예시를 위해서 2009년 알콜 소비량 데이터를 담은 csv 파일을 
읽어온 뒤, 데이터 프레임을 생성해보자.

In [29]:
df = pd.read_csv('niaaa-report2009.csv', index_col='State')
df.head()

Unnamed: 0_level_0,Beer,Wine,Spirits
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alabama,1.2,0.22,0.58
Alaska,1.31,0.54,1.16
Arizona,1.19,0.38,0.74
Arkansas,1.07,0.17,0.6
California,1.05,0.55,0.73


데이터 프레임의 각 컬럼은 다음과 같이 접근할 수 있다.

In [30]:
df['Wine'].head()

State
Alabama       0.22
Alaska        0.54
Arizona       0.38
Arkansas      0.17
California    0.55
Name: Wine, dtype: float64

In [31]:
df.Beer.head()

State
Alabama       1.20
Alaska        1.31
Arizona       1.19
Arkansas      1.07
California    1.05
Name: Beer, dtype: float64

다음과 같이 새로운 컬럼을 추가할 수 있다.

In [32]:
df['Total'] = 0
df.head()

Unnamed: 0_level_0,Beer,Wine,Spirits,Total
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alabama,1.2,0.22,0.58,0
Alaska,1.31,0.54,1.16,0
Arizona,1.19,0.38,0.74,0
Arkansas,1.07,0.17,0.6,0
California,1.05,0.55,0.73,0


데이터 프레임에서 가로 축 값들은 index, 세로 축 값들은 columns라고 하며,  
다음의 코드를 통해서 축 이름들을 가져올 수 있다.  

In [33]:
df.index.values

array(['Alabama', 'Alaska', 'Arizona', 'Arkansas', 'California',
       'Colorado', 'Connecticut', 'Delaware', 'District of Columbia',
       'Florida', 'Georgia', 'Hawaii', 'Idaho', 'Illinois', 'Indiana',
       'Iowa', 'Kansas', 'Kentucky', 'Louisiana', 'Maine', 'Maryland',
       'Massachusetts', 'Michigan', 'Minnesota', 'Mississippi',
       'Missouri', 'Montana', 'Nebraska', 'Nevada', 'New Hampshire',
       'New Jersey', 'New Mexico', 'New York', 'North Carolina',
       'North Dakota', 'Ohio', 'Oklahoma', 'Oregon', 'Pennsylvania',
       'Rhode Island', 'South Carolina', 'South Dakota', 'Tennessee',
       'Texas', 'Utah', 'Vermont', 'Virginia', 'Washington',
       'West Virginia', 'Wisconsin', 'Wyoming'], dtype=object)

In [34]:
df.columns.values

array(['Beer', 'Wine', 'Spirits', 'Total'], dtype=object)

일련번호 형태로 인덱스를 재생성할 수도 있다.

In [35]:
alco2009.reset_index().head()

Unnamed: 0,State,Beer,Wine,Spirits,Total
0,Alabama,1.2,0.22,0.58,0
1,Alaska,1.31,0.54,1.16,0
2,Arizona,1.19,0.38,0.74,0
3,Arkansas,1.07,0.17,0.6,0
4,California,1.05,0.55,0.73,0


특정 열과 행에 있는 데이터를 가져오고 싶다면 iloc 함수를 통해서 접근한다.

In [25]:
df.iloc[:, 0].head()

State
Alabama       1.20
Alaska        1.31
Arizona       1.19
Arkansas      1.07
California    1.05
Name: Beer, dtype: float64

In [26]:
df.iloc[0, :].head()

Beer       1.20
Wine       0.22
Spirits    0.58
Total      0.00
Name: Alabama, dtype: float64

특정 인덱스에 있는 데이터를 가져오고 싶다면 loc 함수를 통해서 접근한다.

In [28]:
df.loc['Arizona']

Beer       1.19
Wine       0.38
Spirits    0.74
Total      0.00
Name: Arizona, dtype: float64

## 마치며
지금까지 판다스의 시리즈, 데이터 프레임의 기본적인 사용방법을 알아보았다.  
하지만 판다스는 이보다 더 많은 기능들을 가지고 있으며, 이를 잘 활용하면  
데이터를 굉장히 편하고 유연하게 다룰 수 있다.  
다음 시간에는 판다스의 더 고급 기능들을 다뤄볼 예정이다.  