In [1]:
# Pandas
# Matlab, R .. => R: Series, DataFrame

In [2]:
import pandas as pd
import numpy as np

In [3]:
# Series
# Numpy 배열의 보강
# data, index 가지고 있다

In [4]:
data = pd.Series([1, 2, 3, 4])

In [5]:
data

0    1
1    2
2    3
3    4
dtype: int64

In [9]:
# Series는 값과 인덱스를 가지고 있고, values, index로 접근 가능
data.values

array([1, 2, 3, 4])

In [10]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [17]:
# numpy와 마찬가지로 인덱스로 접근한다
data[1]

2

In [18]:
# numpy랑 차이는 'index'
data = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])

In [19]:
data

a    1
b    2
c    3
d    4
dtype: int64

In [20]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [23]:
# 인덱스로 접근 가능
data['b']

2

In [24]:
# 한국 일본 중국의 인구수 ( 단위 만명 )
population_dict = {
    'korea': 5000,
    'japan': 12000,
    'china': 140000,
    'usa': 30000,
}

In [25]:
population = pd.Series(population_dict)
population

korea      5000
japan     12000
china    140000
usa       30000
dtype: int64

In [26]:
population['korea']

5000

In [27]:
population['japan':'usa']

japan     12000
china    140000
usa       30000
dtype: int64

In [28]:
population > 10000

korea    False
japan     True
china     True
usa       True
dtype: bool

In [29]:
population[ population > 10000 ]

japan     12000
china    140000
usa       30000
dtype: int64

In [31]:
# DataFrame
# Series가 인덱스를 가지는 1차원 배열, DataFrame 행 인덱스와, 열 인덱스를 가진 2차원 배열
# 국가별 GDP 정보를 추가 ( 단위 조 )

In [32]:
gdp_dict = {
    'korea': 1.6,
    'japan': 5.1,
    'china': 14, 
    'usa': 20.4
}

In [33]:
gdp = pd.Series(gdp_dict)

In [34]:
gdp

korea     1.6
japan     5.1
china    14.0
usa      20.4
dtype: float64

In [35]:
population

korea      5000
japan     12000
china    140000
usa       30000
dtype: int64

In [37]:
# 두 Series 데이터를 묶어서 DataFrame으로 구성한다
country = pd.DataFrame({
    'population': population,
    'gdp': gdp
})

In [38]:
country

Unnamed: 0,population,gdp
korea,5000,1.6
japan,12000,5.1
china,140000,14.0
usa,30000,20.4


In [39]:
# 인덱스 정보
country.index

Index(['korea', 'japan', 'china', 'usa'], dtype='object')

In [40]:
# 열 레이블: column
country.columns

Index(['population', 'gdp'], dtype='object')

In [41]:
country.reindex?

In [44]:
country

Unnamed: 0,population,gdp
korea,5000,1.6
japan,12000,5.1
china,140000,14.0
usa,30000,20.4


In [42]:
# 열을 가지고 오기 위해서
country['gdp']

korea     1.6
japan     5.1
china    14.0
usa      20.4
Name: gdp, dtype: float64

In [45]:
# 인덱싱

In [47]:
data['e'] = 5

In [48]:
data

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [52]:
# 명시적인 인덱스
data['b':'d']  # 최종 인덱스가 포함

b    2
c    3
d    4
dtype: int64

In [54]:
# 암묵적인 인덱스
data[1:4]  # 마지막 인덱스가 빠진다

b    2
c    3
d    4
dtype: int64

In [55]:
# 슬라이싱과 인덱싱의 관례적 표기법이 혼동을 일으킨다
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])

In [56]:
data

1    a
3    b
5    c
dtype: object

In [58]:
data[1]  # 인덱싱시 명시적인 인덱스 사용

'a'

In [60]:
data[1:3]  # 슬라이싱시는 암묵적 인덱스 사용

3    b
5    c
dtype: object

In [61]:
# pandas => indexer 제공

In [62]:
# 1. loc
# 2. iloc

In [63]:
# 1. loc: 항상 명시적인 인데를 참조하는 인덱싱과 슬라이싱을 하게한다

In [65]:
data

1    a
3    b
5    c
dtype: object

In [68]:
data.loc[5]

'c'

In [69]:
data.loc[1:3]

1    a
3    b
dtype: object

In [70]:
# 2. iloc는 항상 암묵적인 파이썬 스타일의 인덱스를 참조한다

In [72]:
data

1    a
3    b
5    c
dtype: object

In [71]:
data.iloc[1]

'b'

In [73]:
data.iloc[1:3]

3    b
5    c
dtype: object

In [78]:
# DataFrame에서 인덱싱
# 1인당 GDP
country['gdp per capita'] = country['gdp'] * 100000000 / country['population']

In [79]:
country

Unnamed: 0,population,gdp,gdp per capita
korea,5000,1.6,32000.0
japan,12000,5.1,42500.0
china,140000,14.0,10000.0
usa,30000,20.4,68000.0


In [82]:
# loc: 명시적 스타일
country.loc['korea':'china', :'gdp']

Unnamed: 0,population,gdp
korea,5000,1.6
japan,12000,5.1
china,140000,14.0


In [83]:
country

Unnamed: 0,population,gdp,gdp per capita
korea,5000,1.6,32000.0
japan,12000,5.1,42500.0
china,140000,14.0,10000.0
usa,30000,20.4,68000.0


In [84]:
# iloc: 암묵적 스타일
country.iloc[2, 1]

14.0

In [87]:
country.iloc[0:3, :2]

Unnamed: 0,population,gdp
korea,5000,1.6
japan,12000,5.1
china,140000,14.0


In [88]:
country['gdp'] * 100000000 / country['population']

korea    32000.0
japan    42500.0
china    10000.0
usa      68000.0
dtype: float64

In [89]:
country.loc['korea']

population         5000.0
gdp                   1.6
gdp per capita    32000.0
Name: korea, dtype: float64

In [90]:
country.to_excel("./country.xlsx")

In [91]:
country = pd.read_excel("./country.xlsx")

In [92]:
country.to_csv("./country.csv")

In [95]:
country = pd.read_csv("./country.csv", index_col=0)

In [96]:
country

Unnamed: 0,population,gdp,gdp per capita
korea,5000,1.6,32000.0
japan,12000,5.1,42500.0
china,140000,14.0,10000.0
usa,30000,20.4,68000.0
