# pandas의 고유한 자료구조 - Series와 DataFrame 
 
pandas에서는 고유하게 정의한 자료 구조인 Series와 DataFrame을 사용하여, 빅 데이터 분석을 할 수 있다. Series는 동일한 데이터형의 복수 개의 성분으로 구성된 자료 구조이며, DataFrame은 서로 같거나 다른 데이터형의 여러 개의 열에 대하여 복수 개의 성분으로 구성된 '표와 같은 형태'의 자료 구조이다.

 
# 1) Series

 
Series는 pd.Series() 함수를 사용하여 정의합니다. 이 때 Python 리스트나, 혹은 numpy array 등이 함수의 인자로 입력된다. 

In [1]:
import pandas as pd
import numpy as np

In [2]:
obj = pd.Series([4,7,-5,3])

In [3]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [4]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [5]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
obj.dtype

dtype('int64')

In [7]:
obj.shape

(4,)

In [8]:
obj2 = pd.Series([4,7,-5,3], index=['d','b','c','a'])

In [9]:
obj2

d    4
b    7
c   -5
a    3
dtype: int64

In [10]:
#Series 는 dictionary와 같이 사용할 수도 있다.
sdata = {'Charles ':35000, 'Hyunsuk':16000, 'Hayoung':71000,'Joohee':5000}

In [11]:
obj3 = pd.Series(sdata)

In [12]:
obj3

Charles     35000
Hayoung     71000
Hyunsuk     16000
Joohee       5000
dtype: int64

In [13]:
obj3.name = 'Salary'
obj3.index.name='name'
obj3

name
Charles     35000
Hayoung     71000
Hyunsuk     16000
Joohee       5000
Name: Salary, dtype: int64

In [14]:
#index 변경하기
obj3.index = ['A','B','C','D']
obj3

A    35000
B    71000
C    16000
D     5000
Name: Salary, dtype: int64

# 2) DataFrame
 
DataFrame은 pd.DataFrame() 함수를 사용하여 정의한다. DataFrame에 입력할 데이터는 Python 딕셔너리 혹은 numpy의 2차원 array 등의 형태가 될 수 있다.

In [25]:
data = {"names": ['Hyunsuk','Hyunsuk','Hyunsuk','Charles','Charles'],
        "year": [2014, 2015, 2016, 2015, 2016],
        "points": [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data)
df


Unnamed: 0,names,points,year
0,Hyunsuk,1.5,2014
1,Hyunsuk,1.7,2015
2,Hyunsuk,3.6,2016
3,Charles,2.4,2015
4,Charles,2.9,2016


In [27]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [28]:
df.columns

Index(['names', 'points', 'year'], dtype='object')

In [29]:
df.values

array([['Hyunsuk', 1.5, 2014],
       ['Hyunsuk', 1.7, 2015],
       ['Hyunsuk', 3.6, 2016],
       ['Charles', 2.4, 2015],
       ['Charles', 2.9, 2016]], dtype=object)

* DataFrame 관련 함수 혹은 변수 등을 조회하고자 할 경우
    --------------------------------------------------------

    어떤 특정한 DataFrame df와 관련하여 실행할 수 있는 함수 혹은 변수의 정확한 이름이 제대로 기억나지 않을 경우, IPython Notebook에서 df.
    까지만 입력하고 TAB 키를 누르면 사용 가능한 모든 변수 및 함수가 표시된다.
 
    
    describe 함수
    --------------- 
    DataFrame df에 대하여 df.describe() 함수를 실행하게 되면, 계산이 가능한 컬럼에 한해서 각 컬럼의 평균, 분산, 최솟/최댓값 등 기본 통계량
    을 산출한 결과를 보여준다. 이는 데이터셋을 DataFrame 형태로 막 읽어들인 직후에, 데이터셋을 전체적으로 살펴보고자 할 때 사용하기 유용
    하다. 


In [31]:
df2 = pd.DataFrame(data, columns = ['year','names','points','penalty'],
                  index = ['one','two','three','four','five'])

In [33]:
df2
#NaN  : Not a Number (데이터가 없거나 무한대인 경우)

Unnamed: 0,year,names,points,penalty
one,2014,Hyunsuk,1.5,
two,2015,Hyunsuk,1.7,
three,2016,Hyunsuk,3.6,
four,2015,Charles,2.4,
five,2016,Charles,2.9,


In [34]:
df2.index

Index(['one', 'two', 'three', 'four', 'five'], dtype='object')

In [35]:
df2.columns

Index(['year', 'names', 'points', 'penalty'], dtype='object')

In [36]:
df2.values

array([[2014, 'Hyunsuk', 1.5, nan],
       [2015, 'Hyunsuk', 1.7, nan],
       [2016, 'Hyunsuk', 3.6, nan],
       [2015, 'Charles', 2.4, nan],
       [2016, 'Charles', 2.9, nan]], dtype=object)

In [38]:
df2.describe()

Unnamed: 0,year,points
count,5.0,5.0
mean,2015.2,2.42
std,0.83666,0.864292
min,2014.0,1.5
25%,2015.0,1.7
50%,2015.0,2.4
75%,2016.0,2.9
max,2016.0,3.6
