# Pandas 기초

## 1. Pandas 란?

In [1]:
# pandas 사용하기
import numpy as np # numpy 도 함께 import. 필수인가?
import pandas as pd

## 2. Pandas 자료구조
Pandas에서는 기본적으로 정의되는 자료구조인 Series 와 Data Frame 을 사용합니다.<br />
이 자료구조들은 빅 데이터 분석에 있어서 높은 수준의 성능을 보여줍니다.

### 2-1. Series
먼저 Series 에 대해서 알아보도록 하겠습니다.

In [2]:
# Series 정의하기
obj = pd.Series([4, 7, -5, 3]) # np.array([4,...])
obj # 나타나는 자료구조가 np.array 처럼 array([]) 이렇게 보이지 않네. idx 가 첫번째 열에 생겨있네.`

0    4
1    7
2   -5
3    3
dtype: int64

In [3]:
# Series 의 값만 확인하기
obj.values # 어라. 이것 numpy 아냐?

array([ 4,  7, -5,  3], dtype=int64)

In [4]:
# Series 의 인덱스만 확인하기
obj.index # => RangeIndex(start=0, stop=4, step=1)

RangeIndex(start=0, stop=4, step=1)

In [5]:
# Series 의 자료형 확인하기
obj.dtypes

dtype('int64')

In [6]:
# Series 의 인덱스를 바굴 수 있다.
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2 # > 1차원의 idx 이지.

d    4
b    7
a   -5
c    3
dtype: int64

In [7]:
# python 의 dictionary 자료형을 Series data 로 만들 수 있다.
# dictionary 의 key 가 Series 의 index 가 된다.
sdata = { 'Kim': 35000, 'Beomwoo': 67000, 'Joan': 12000, 'Choi': 400 }
obj3 = pd.Series(sdata)
obj3

Kim        35000
Beomwoo    67000
Joan       12000
Choi         400
dtype: int64

In [8]:
obj3.name = 'Salary'
obj3.index.name = 'Names'
obj3

Names
Kim        35000
Beomwoo    67000
Joan       12000
Choi         400
Name: Salary, dtype: int64

In [9]:
# index 변경
obj3.index = ['A', 'B', 'C', 'D']
obj3

A    35000
B    67000
C    12000
D      400
Name: Salary, dtype: int64

### 2-2. Data Frame

이번에는 Data Frame 에 대해서 알아보도록 하겠습니다.

In [10]:
## Data Frame 정의하기
# 이전에 DataFrame 에 들어갈 데이터를 정의해주어야 하는데,
# 이는 python 의 dictionary 또는 numpy 의 array로 정의할 수 있다.

data = {'name': ['Changbeom', 'Changbeom', 'Changbeom', 'Tak', 'Kim'],
       'year': [2013,2014,2015,2016,2017],
       'points': [1.5,1.6,3.6,2.4,2.9]}
df = pd.DataFrame(data)
df

# 결국 key 가 column 의 header 로 갔다는 것이네.

Unnamed: 0,name,year,points
0,Changbeom,2013,1.5
1,Changbeom,2014,1.6
2,Changbeom,2015,3.6
3,Tak,2016,2.4
4,Kim,2017,2.9


In [11]:
# 행과 열의 구조를 가진 데이터가 생긴다.

In [12]:
# 행 방향의 index
df.index

RangeIndex(start=0, stop=5, step=1)

In [13]:
# 열 방향의 index
# 아까 생각한 것처럼 dictionary 의 key 는 column 이 된다.
df.columns

Index(['name', 'year', 'points'], dtype='object')

In [14]:
# 값 얻기
df.values
#  결국, numpy 의 행렬이 된다.

array([['Changbeom', 2013, 1.5],
       ['Changbeom', 2014, 1.6],
       ['Changbeom', 2015, 3.6],
       ['Tak', 2016, 2.4],
       ['Kim', 2017, 2.9]], dtype=object)

In [15]:
# 각 인덱스에 대한 이름 설정하기
df.index.name = 'Num'
df.columns.name = 'Info'
df

# 이런 이름을 설정하는 이유는 무엇일까?

Info,name,year,points
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Changbeom,2013,1.5
1,Changbeom,2014,1.6
2,Changbeom,2015,3.6
3,Tak,2016,2.4
4,Kim,2017,2.9


In [17]:
# DataFrame 을 만들면서 columns 와 index 를 설정할 수 있다.
# > 특히, dictionary 의 key 는 column 의 header 가 되는데, 이 부분의 순서와 없는 column 도 만들 수 있네.
# > 열의 index 는 어짜피 긴 DataFrame 에서는 수로 하지 않을까.
df2 = pd.DataFrame(data, columns=['year','name','points','penalty'],
                  index=['one','two','three','four','five'])
df2

Unnamed: 0,year,name,points,penalty
one,2013,Changbeom,1.5,
two,2014,Changbeom,1.6,
three,2015,Changbeom,3.6,
four,2016,Tak,2.4,
five,2017,Kim,2.9,


DataFrame 을 정의하면서, data 로 들어가는 python dictionary 와 columns 의 순서가 달라도 알아서 맞춰서 정의된다.<br/>
하지만 data 에 포함되어 있지 않은 값은 NaN(Not a Number) 으로 나타나게 되는데, 이는 null 과 같은 개념이다.<br/>
NaN 값은 추후에 어떠한 방법으로도 처리가 되지 않는 데이터이다.<br />
따라서 올바른 데이터 처리를 위해 추가적으로 값을 넣어줘야 한다.

In [18]:
# describe() 함수는 DataFrame 의 계산 가능한 값들에 대한 다양한 계산 값을 보여준다.
df2.describe()

Unnamed: 0,year,points
count,5.0,5.0
mean,2015.0,2.4
std,1.581139,0.886002
min,2013.0,1.5
25%,2014.0,1.6
50%,2015.0,2.4
75%,2016.0,2.9
max,2017.0,3.6
