### pandas의 고유한 자료구조 - Series와 DataFrame 이해하기
- pandas에서는 고유하게 정의한 자료구조인 Series와 DataFrame을 사용함.
- Series : 동일한 데이터형의 복수 개의 성분으로 구성된 자료구조
- DataFrame : 서로 같거나 다른 데이터형의 여러 개의 열에 대하여 복수 개의 성분으로 구성된 표 형태

In [1]:
import numpy as np
import pandas as pd

In [2]:
# Series 자료구조 정의
obj = pd.Series([4,7,-5,3])

In [3]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [5]:
# 값 따로 얻기
obj.values

array([ 4,  7, -5,  3])

In [7]:
# 인덱스만 따로 얻기
obj.index

RangeIndex(start=0, stop=4, step=1)

In [8]:
#시리즈의 데이터 타입
obj.dtypes

dtype('int64')

In [9]:
# 인덱스 지정
obj2 = pd.Series([4,7,-5,3], index = ['d','b','a','c'])

In [10]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [15]:
sdata = {"Charles" : 35000, "Kilho" : 71000, "Hayoung" : 16000 , "Sangjae" : 5000}
obj3 = pd.Series(sdata)

In [16]:
obj3

Charles    35000
Hayoung    16000
Kilho      71000
Sangjae     5000
dtype: int64

In [17]:
# Series의 이름 지정 , 인덱스의 이름 지정 
obj3.name = "Salary"
obj3.index.name = "Names"
obj3

Names
Charles    35000
Hayoung    16000
Kilho      71000
Sangjae     5000
Name: Salary, dtype: int64

In [18]:
# 인덱스 변경 
obj3.index = ['A','B','C','D']

In [19]:
obj3

A    35000
B    16000
C    71000
D     5000
Name: Salary, dtype: int64

In [20]:
# 데이터 프레임 정의하기
data = {"names": ["Kilho", "Kilho", "Kilho", "Charles", "Charles"],
        "year": [2014, 2015, 2016, 2015, 2016],
        "points": [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data)

In [21]:
df

Unnamed: 0,names,points,year
0,Kilho,1.5,2014
1,Kilho,1.7,2015
2,Kilho,3.6,2016
3,Charles,2.4,2015
4,Charles,2.9,2016


In [22]:
# 인덱스 조회
df.index

RangeIndex(start=0, stop=5, step=1)

In [23]:
# 컬럼 조회
df.columns

Index([u'names', u'points', u'year'], dtype='object')

In [24]:
df.values

array([['Kilho', 1.5, 2014],
       ['Kilho', 1.7, 2015],
       ['Kilho', 3.6, 2016],
       ['Charles', 2.4, 2015],
       ['Charles', 2.9, 2016]], dtype=object)

In [25]:
# 인덱스와 컬럼에 이름지정 
df.index.name = "Num"
df.columns.name = "Info"

In [26]:
df

Info,names,points,year
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Kilho,1.5,2014
1,Kilho,1.7,2015
2,Kilho,3.6,2016
3,Charles,2.4,2015
4,Charles,2.9,2016


In [27]:
df2 = pd.DataFrame(data, columns=["year","name","points","penalty"],
                  index = ["one","two","three","four","five"])

In [28]:
df2
#NaN(Not a Number) : 해당하는 값이 존재하지 않음

Unnamed: 0,year,name,points,penalty
one,2014,,1.5,
two,2015,,1.7,
three,2016,,3.6,
four,2015,,2.4,
five,2016,,2.9,


In [29]:
df2.index

Index([u'one', u'two', u'three', u'four', u'five'], dtype='object')

In [30]:
df2.values

array([[2014, nan, 1.5, nan],
       [2015, nan, 1.7, nan],
       [2016, nan, 3.6, nan],
       [2015, nan, 2.4, nan],
       [2016, nan, 2.9, nan]], dtype=object)

In [31]:
# describe 함수 : 계산이 가능한 컬럼에 한해서 각 컬럼의 통계값 산출한 결과를 보여줌 
df.describe()

Info,points,year
count,5.0,5.0
mean,2.42,2015.2
std,0.864292,0.83666
min,1.5,2014.0
25%,1.7,2015.0
50%,2.4,2015.0
75%,2.9,2016.0
max,3.6,2016.0
