# pandas의 고유한 자료구조 - Series와 DataFrame 
 
pandas에서는 고유하게 정의한 자료 구조인 Series와 DataFrame을 사용하여, 빅 데이터 분석을 할 수 있다. Series는 동일한 데이터형의 복수 개의 성분으로 구성된 자료 구조이며, DataFrame은 서로 같거나 다른 데이터형의 여러 개의 열에 대하여 복수 개의 성분으로 구성된 '표와 같은 형태'의 자료 구조이다.

# 2) DataFrame
 
DataFrame은 pd.DataFrame() 함수를 사용하여 정의한다. DataFrame에 입력할 데이터는 Python 딕셔너리 혹은 numpy의 2차원 array 등의 형태가 될 수 있다.

In [1]:
import pandas as pd

data = {"names": ['Hyun','Hyun','Hyun','Charles','Charles'],
        "year": [2014, 2015, 2016, 2015, 2016],
        "points": [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data)
df

Unnamed: 0,names,year,points
0,Hyun,2014,1.5
1,Hyun,2015,1.7
2,Hyun,2016,3.6
3,Charles,2015,2.4
4,Charles,2016,2.9


In [2]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [3]:
df.columns

Index(['names', 'year', 'points'], dtype='object')

In [4]:
df.values

array([['Hyun', 2014, 1.5],
       ['Hyun', 2015, 1.7],
       ['Hyun', 2016, 3.6],
       ['Charles', 2015, 2.4],
       ['Charles', 2016, 2.9]], dtype=object)

# describe 함수
DataFrame df에 대하여 df.describe() 함수를 실행하게 되면, 계산이 가능한 컬럼에 한해서 각 컬럼의 평균, 분산, 최솟/최댓값 등 기본 통계량 을 산출한 결과를 보여준다. 이는 데이터셋을 DataFrame 형태로 막 읽어들인 직후에, 데이터셋을 전체적으로 살펴보고자 할 때 사용하기 유용 하다.

In [7]:
df2 = pd.DataFrame(data, columns = ['year','names','points','penalty'],
                  index = ['one','two','three','four','five'])

In [8]:
df2

Unnamed: 0,year,names,points,penalty
one,2014,Hyun,1.5,
two,2015,Hyun,1.7,
three,2016,Hyun,3.6,
four,2015,Charles,2.4,
five,2016,Charles,2.9,


In [12]:
df2.index

Index(['one', 'two', 'three', 'four', 'five'], dtype='object')

In [13]:
df2.columns

Index(['year', 'names', 'points', 'penalty'], dtype='object')

In [14]:
df2.values

array([[2014, 'Hyun', 1.5, nan],
       [2015, 'Hyun', 1.7, nan],
       [2016, 'Hyun', 3.6, nan],
       [2015, 'Charles', 2.4, nan],
       [2016, 'Charles', 2.9, nan]], dtype=object)

In [11]:
df2.describe()

Unnamed: 0,year,points
count,5.0,5.0
mean,2015.2,2.42
std,0.83666,0.864292
min,2014.0,1.5
25%,2015.0,1.7
50%,2015.0,2.4
75%,2016.0,2.9
max,2016.0,3.6


# DataFrame 인덱싱 

In [15]:
import pandas as pd
import numpy as np

In [16]:
data = {'names': ['Hyu','Hyu','Hyu','Charles','Charles'],
       'year':[2014,2015,2016,2015,2016],
       'points':[1.5,1.7,3.6,2.4,2.9]}

df = pd.DataFrame(data, columns=['year','names','points','penalty'],
                 index = ['one','two','three','four','five'])

In [18]:
df

Unnamed: 0,year,names,points,penalty
one,2014,Hyu,1.5,
two,2015,Hyu,1.7,
three,2016,Hyu,3.6,
four,2015,Charles,2.4,
five,2016,Charles,2.9,


In [19]:
# year 열만 얻기
df['year']

one      2014
two      2015
three    2016
four     2015
five     2016
Name: year, dtype: int64

In [20]:
df.year

one      2014
two      2015
three    2016
four     2015
five     2016
Name: year, dtype: int64

In [21]:
# 두 개 이상의 열 얻어오기
df[['year', 'points']]

Unnamed: 0,year,points
one,2014,1.5
two,2015,1.7
three,2016,3.6
four,2015,2.4
five,2016,2.9


In [22]:
df

Unnamed: 0,year,names,points,penalty
one,2014,Hyu,1.5,
two,2015,Hyu,1.7,
three,2016,Hyu,3.6,
four,2015,Charles,2.4,
five,2016,Charles,2.9,


In [23]:
df['penalty'] = 0.5

In [24]:
df

Unnamed: 0,year,names,points,penalty
one,2014,Hyu,1.5,0.5
two,2015,Hyu,1.7,0.5
three,2016,Hyu,3.6,0.5
four,2015,Charles,2.4,0.5
five,2016,Charles,2.9,0.5


In [25]:
df['penalty'] = [0.1, 0.2, 0.3, 0.4, 0.5]
df

Unnamed: 0,year,names,points,penalty
one,2014,Hyu,1.5,0.1
two,2015,Hyu,1.7,0.2
three,2016,Hyu,3.6,0.3
four,2015,Charles,2.4,0.4
five,2016,Charles,2.9,0.5


In [26]:
# columns 추가하고 값을 넣을 수 있음
df['zero'] = np.arange(5)
df

Unnamed: 0,year,names,points,penalty,zero
one,2014,Hyu,1.5,0.1,0
two,2015,Hyu,1.7,0.2,1
three,2016,Hyu,3.6,0.3,2
four,2015,Charles,2.4,0.4,3
five,2016,Charles,2.9,0.5,4


In [27]:
val = pd.Series([-1.2, -1.5, -1.7], index = ['two', 'four', 'five'])

In [28]:
# 'debt' 열 추가하고, 'val' Series 데이터를 debt 열에 넣는다. 이 때, 인덱스가 같은 것끼리 값이 대입되어진다

In [29]:
df['debt'] = val
df

Unnamed: 0,year,names,points,penalty,zero,debt
one,2014,Hyu,1.5,0.1,0,
two,2015,Hyu,1.7,0.2,1,-1.2
three,2016,Hyu,3.6,0.3,2,
four,2015,Charles,2.4,0.4,3,-1.5
five,2016,Charles,2.9,0.5,4,-1.7
