# pandas 모듈: 데이터구조 Data Frame

## 사전을 이용한 dataframe 생성
dict와 잘 맞는다.

In [238]:
import pandas as pd

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year' : [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
pd.DataFrame(data)

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [239]:
pd.DataFrame(data, columns = ['pop', 'year', 'state'],
             index = ['one', 'two', 'three', 'four', 'five'])

Unnamed: 0,pop,year,state
one,1.5,2000,Ohio
two,1.7,2001,Ohio
three,3.6,2002,Ohio
four,2.4,2001,Nevada
five,2.9,2002,Nevada


## column 다루기
- 하나의 column은 하나의 series(dtype)가 된다.
- 컬럼에 해당하는 값이 없으면 NaN으로 채워진다.

In [240]:
a = pd.DataFrame(data, columns = ['pop', 'year', 'state', 'debt'],
                index = ['one', 'two', 'three', 'four', 'five']); a

Unnamed: 0,pop,year,state,debt
one,1.5,2000,Ohio,
two,1.7,2001,Ohio,
three,3.6,2002,Ohio,
four,2.4,2001,Nevada,
five,2.9,2002,Nevada,


In [241]:
a['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [242]:
a.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [243]:
a.debt = 16.5; a

Unnamed: 0,pop,year,state,debt
one,1.5,2000,Ohio,16.5
two,1.7,2001,Ohio,16.5
three,3.6,2002,Ohio,16.5
four,2.4,2001,Nevada,16.5
five,2.9,2002,Nevada,16.5


In [244]:
a['debt'] = range(5); a

Unnamed: 0,pop,year,state,debt
one,1.5,2000,Ohio,0
two,1.7,2001,Ohio,1
three,3.6,2002,Ohio,2
four,2.4,2001,Nevada,3
five,2.9,2002,Nevada,4


In [245]:
a['debt'] = pd.Series([-1.2, -3, -2], 
                        index=['four', 'two', 'one']); a

Unnamed: 0,pop,year,state,debt
one,1.5,2000,Ohio,-2.0
two,1.7,2001,Ohio,-3.0
three,3.6,2002,Ohio,
four,2.4,2001,Nevada,-1.2
five,2.9,2002,Nevada,


In [246]:
a.eastern = a.state; a # 이제 이 방식은 안 될 예정이다.

  a.eastern = a.state; a # 이제 이 방식은 안 될 예정이다.


Unnamed: 0,pop,year,state,debt
one,1.5,2000,Ohio,-2.0
two,1.7,2001,Ohio,-3.0
three,3.6,2002,Ohio,
four,2.4,2001,Nevada,-1.2
five,2.9,2002,Nevada,


In [247]:
a['eastern'] = a.state; a # 안전하게 이걸 쓰자!

Unnamed: 0,pop,year,state,debt,eastern
one,1.5,2000,Ohio,-2.0,Ohio
two,1.7,2001,Ohio,-3.0,Ohio
three,3.6,2002,Ohio,,Ohio
four,2.4,2001,Nevada,-1.2,Nevada
five,2.9,2002,Nevada,,Nevada


In [248]:
del a['eastern']; a

Unnamed: 0,pop,year,state,debt
one,1.5,2000,Ohio,-2.0
two,1.7,2001,Ohio,-3.0
three,3.6,2002,Ohio,
four,2.4,2001,Nevada,-1.2
five,2.9,2002,Nevada,


## 연습문제 1

In [249]:
import numpy as np

None 대신 np.nan을 사용해도 된다.

In [250]:
a = pd.DataFrame({'Nevada': [2.4, 2.9, None], 'Ohio':[3.2, 2.1, 1.9]},
                index=[2001, 2003, 2002]); a

Unnamed: 0,Nevada,Ohio
2001,2.4,3.2
2003,2.9,2.1
2002,,1.9


## 연습문제 2

In [251]:
a['Utah'] = [3.3, 3.1, 3.2]; a

Unnamed: 0,Nevada,Ohio,Utah
2001,2.4,3.2,3.3
2003,2.9,2.1,3.1
2002,,1.9,3.2


## 사전 이용 인덱스와 dataframe 생성

- 하나의 컬럼은 하나의 시리즈로 구성된다.
- 따라서 시리즈를 구성할 수 있는 dict를 활용할 수 있다.
- 이때 빈 값은 자동으로 NaN으로 채워진다.
- 순서대로 인덱스가 쌓인다.

In [252]:
pd.DataFrame({'Nevada':{2001:2.4, 2003:2.9},
              'Ohio':{2003:2.1, 2002:1.9, 2001:3.2}})

Unnamed: 0,Nevada,Ohio
2001,2.4,3.2
2003,2.9,2.1
2002,,1.9


## 인덱스 순서 변경

In [253]:
pd.DataFrame(a, index=[2003, 2001, 2002])

Unnamed: 0,Nevada,Ohio,Utah
2003,2.9,2.1,3.1
2001,2.4,3.2,3.3
2002,,1.9,3.2


In [254]:
pd.DataFrame(a, index=[2003, 2002])

Unnamed: 0,Nevada,Ohio,Utah
2003,2.9,2.1,3.1
2002,,1.9,3.2


## 행렬 전환

In [255]:
a.T

Unnamed: 0,2001,2003,2002
Nevada,2.4,2.9,
Ohio,3.2,2.1,1.9
Utah,3.3,3.1,3.2


## index, columns, values

In [256]:
a.index

Index([2001, 2003, 2002], dtype='int64')

In [257]:
type(a.index)

pandas.core.indexes.base.Index

In [258]:
a.columns

Index(['Nevada', 'Ohio', 'Utah'], dtype='object')

In [259]:
type(a.columns)

pandas.core.indexes.base.Index

In [260]:
a.values

array([[2.4, 3.2, 3.3],
       [2.9, 2.1, 3.1],
       [nan, 1.9, 3.2]])

## name

In [261]:
a.index.name = 'year'; a

Unnamed: 0_level_0,Nevada,Ohio,Utah
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2001,2.4,3.2,3.3
2003,2.9,2.1,3.1
2002,,1.9,3.2


In [262]:
a.index.name

'year'

In [263]:
a.columns.name = 'state'; a

state,Nevada,Ohio,Utah
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2001,2.4,3.2,3.3
2003,2.9,2.1,3.1
2002,,1.9,3.2


In [264]:
a.columns.name

'state'

## 연습문제 3

In [273]:
a = pd.DataFrame({'서울':{'인구':'1000만', '여성':'510만'},
                    '부산':{'인구':'1000만'},
                    '경기':{'인구':'1300만', '남성':'650만'}}); a

Unnamed: 0,서울,부산,경기
인구,1000만,1000만,1300만
여성,510만,,
남성,,,650만


## 연습문제 4

In [290]:
a = pd.DataFrame({'서울':{'인구':'1000만', '여성':'510만'},
                    '부산':{'인구':'1000만'},
                    '경기':{'인구':'1300만', '남성':'650만'}}); a

Unnamed: 0,서울,부산,경기
인구,1000만,1000만,1300만
여성,510만,,
남성,,,650만


In [291]:
# 폰 사진 보기

In [292]:
b = a.T
b.index.name = '지역'
b.columns.name = '인구구성'
b = pd.DataFrame(a, index=['여성', '남성', '인구']); b

지역,서울,부산,경기
여성,510만,,
남성,,,650만
인구,1000만,1000만,1300만


In [293]:
a = a.T
a.index.name = '지역'
a.columns.name = '인구구성'
a
# a[['여성', '남성', '인구']] v폰보기


인구구성,인구,여성,남성
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,1000만,510만,
부산,1000만,,
경기,1300만,,650만


## drop: Series

In [294]:
a = pd.Series(np.arange(5.), list('abcde')); a

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [295]:
del a['a']; a

b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [296]:
a.drop('c')

b    1.0
d    3.0
e    4.0
dtype: float64

In [297]:
a.drop(['e', 'd'])

b    1.0
c    2.0
dtype: float64

## drop: DataFrame

## DataFrame: indexing, slicing

## loc

fancy indexing은 차원을 변경하지 못함.
인덱싱은 차원을 바꾸고
슬라이싱은 바꾸지 못한다.

## 기술통계: 수치 척도
IQR(Interquartile range)은 직접 계산해서 써야 한다.

## 기술통계: 명목 척도(문자열/범주형)