### 0. Pandas란?
파이썬에서 사용하는 데이터분석 라이브러리
행(row)과 열(column)로 이루어진 데이터 객체를 만들어 다룰 수 있다
대용량의 데이터를 처리하는데 매우 편리

In [1]:
# Pandas 사용하기
import numpy as np # numpy도 함께 import
import pandas as pd

### 1. Pandas 자료구조
판다스에서는 기본적으로 정의되는 자료구조 Series와 Data Frame 사용함

#### 1-1. Series

In [2]:
# series 정의
obj = pd.Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [3]:
# series의 값만 확인하기
obj.values

array([ 4,  7, -5,  3])

In [4]:
# series의 인덱스만 확인하기
obj.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
# series의 자료형 확인하기
obj.dtypes

dtype('int64')

In [8]:
# 인덱스를 바꿀 수 있음
obj2 = pd.Series([4,7,-5,3], index = ['d','b','a','c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [9]:
# python의 dictionary 자료형을 series data로 만들 수 있다
# dictionary의 key가 series의 index

sdata = {'kang': 35000, 'semin': 67000, 'serah':25000, 'doo':1300}
obj3 = pd.Series(sdata)
obj3

kang     35000
semin    67000
serah    25000
doo       1300
dtype: int64

In [10]:
# 표 이름 정하기(Salary로)
# 인덱스열의 이름 정하기(Names로)
obj3.name = 'Salary'
obj3.index.name = "Names"
obj3

Names
kang     35000
semin    67000
serah    25000
doo       1300
Name: Salary, dtype: int64

#### 1-2. Data Frame

In [12]:
# Data Frame 정의하기
# 이전에 DataFrame에 들어갈 데이터 정의해야하는데
# 이는 Python의 딕셔너리 또는 numpy의 array로 정의할 수 있음

data = {'name':['semin','semin','semin','kang','doo'], 'year':[2013,2014,2015,2016,2015],
       'points':[1.5,1.7,3.6,2.4,2.9]}
df = pd.DataFrame(data)
df

Unnamed: 0,name,year,points
0,semin,2013,1.5
1,semin,2014,1.7
2,semin,2015,3.6
3,kang,2016,2.4
4,doo,2015,2.9


In [13]:
# 행과 열의 구조를 가진 표 형태의 데이터가 생성됨

In [14]:
# 행 방향의 index
df.index

RangeIndex(start=0, stop=5, step=1)

In [16]:
# 열 방향의 index
df.columns

Index(['name', 'year', 'points'], dtype='object')

In [17]:
# 값 얻기
df.values

array([['semin', 2013, 1.5],
       ['semin', 2014, 1.7],
       ['semin', 2015, 3.6],
       ['kang', 2016, 2.4],
       ['doo', 2015, 2.9]], dtype=object)

In [18]:
# 각 인덱스에 대한 이름 정하기
df.index.name = 'Num'
df.columns.name = 'Info'
df

Info,name,year,points
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,semin,2013,1.5
1,semin,2014,1.7
2,semin,2015,3.6
3,kang,2016,2.4
4,doo,2015,2.9


In [19]:
# DataFrame을 만들면서 columns와 index 설정하기
df2 = pd.DataFrame(data, columns=['year','name','points','penalty'],
                  index = ['one','two','three','four','five'])
df2

Unnamed: 0,year,name,points,penalty
one,2013,semin,1.5,
two,2014,semin,1.7,
three,2015,semin,3.6,
four,2016,kang,2.4,
five,2015,doo,2.9,


In [20]:
# data에 포함되지 않은 값은 NaN(Not a Number)로 나타남 == null