In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

In [2]:
data = {
"2015": [9904312, 3448737, 2890451, 2466052], 
"2010": [9631482, 3393191, 2632035, 2431774], 
"2005": [9762546, 3512547, 2517680, 2456016], 
"2000": [9853972, 3655437, 2466338, 2473990], 
"지역": ["수도권", "경상권", "수도권", "경상권"], 
"2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["수도권", "경상권", "수도권", "경상권"]
df = pd.DataFrame(data,index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
수도권,수도권,9904312,9631482,9762546,9853972,0.0283
경상권,경상권,3448737,3393191,3512547,3655437,0.0163
수도권,수도권,2890451,2632035,2517680,2466338,0.0982
경상권,경상권,2466052,2431774,2456016,2473990,0.0141


In [3]:
data

{'2015': [9904312, 3448737, 2890451, 2466052],
 '2010': [9631482, 3393191, 2632035, 2431774],
 '2005': [9762546, 3512547, 2517680, 2456016],
 '2000': [9853972, 3655437, 2466338, 2473990],
 '지역': ['수도권', '경상권', '수도권', '경상권'],
 '2010-2015 증가율': [0.0283, 0.0163, 0.0982, 0.0141]}

In [4]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [5]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [6]:
df.index

Index(['수도권', '경상권', '수도권', '경상권'], dtype='object')

In [7]:
# 시리즈에서 처럼 열방향 인덱스와 행방향 인덱스에 이름을 붙이는 것
df.index.name = '도시'
df.columns.name = '특성'
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수도권,수도권,9904312,9631482,9762546,9853972,0.0283
경상권,경상권,3448737,3393191,3512547,3655437,0.0163
수도권,수도권,2890451,2632035,2517680,2466338,0.0982
경상권,경상권,2466052,2431774,2456016,2473990,0.0141


In [8]:
# 데이터프레임은 전치(transpose)를 포함하여 넘파이 2차원 배열이 가지는 대부분의 속성이나 메서드를 지원
df.T

도시,수도권,경상권,수도권,경상권
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [9]:
# 열 데이터의 갱신 / 추가 / 삭제
# 데이터프레임은 열 시리즈의 딕셔너리으로 볼 수 있으므로 열 단위로 데이터를 갱신하거나 추가, 삭제할 수 있다.
# "2010-2015 증가율"이라는 이름의 열 추가

In [10]:
# "2010-2015 증가율"이라는 이름의 열 추가
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수도권,수도권,9904312,9631482,9762546,9853972,2.83
경상권,경상권,3448737,3393191,3512547,3655437,1.63
수도권,수도권,2890451,2632035,2517680,2466338,9.82
경상권,경상권,2466052,2431774,2456016,2473990,1.41


In [11]:
# "2005-2010 증가율"이라는 이름의 열 추가
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2) 
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
수도권,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
경상권,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
수도권,수도권,2890451,2632035,2517680,2466338,9.82,4.54
경상권,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [12]:
# "2010-2015 증가율"이라는 이름의 열 삭제 del df["2010-2015 증가율"]
del df["2010-2015 증가율"]
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수도권,수도권,9904312,9631482,9762546,9853972,-1.34
경상권,경상권,3448737,3393191,3512547,3655437,-3.4
수도권,수도권,2890451,2632035,2517680,2466338,4.54
경상권,경상권,2466052,2431774,2456016,2473990,-0.99


In [13]:
# 열 인덱싱
# 데이터프레임은 열 라벨을 키로, 열 시리즈를 값으로 가지는 딕셔너리와 비슷하다고 하였다. 
# 따라서 데이터프레임을 인덱싱을 할 때도 열 라벨(column label)을 키값으로 생각하여 인덱싱을 할 수 있다.
# 인덱스로 라벨 값을 하나만 넣 으면 시리즈 객체가 반환되고 라벨의 배열 
# 또는 리스트를 넣으면 부분적인 데이터프레임이 반환된다.

In [14]:
# 하나의 열만 인덱싱하면 시리즈가 반환된다. 
df["지역"]

도시
수도권    수도권
경상권    경상권
수도권    수도권
경상권    경상권
Name: 지역, dtype: object

In [15]:
# 여러개의 열을 인덱싱하면 부분적인 데이터프레임이 반환된다.
df[["2010","2015"]]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
수도권,9631482,9904312
경상권,3393191,3448737
수도권,2632035,2890451
경상권,2431774,2466052


In [16]:
# 만약 하나의 열만 빼내면서 데이터프레임 자료형을 유지하고 싶다면 
# 원소가 하나인 리스트를 써서 인덱싱하면 된다.

In [17]:
# 2010이라는 열을 반환하면서 데이터프레임 자료형을 유지
df[["2010"]]

특성,2010
도시,Unnamed: 1_level_1
수도권,9631482
경상권,3393191
수도권,2632035
경상권,2431774


In [18]:
type(df[["2010"]])

pandas.core.frame.DataFrame

In [19]:
# 2010이라는 열을 반환하면서 시리즈 자료형으로 변환
df["2010"]

도시
수도권    9631482
경상권    3393191
수도권    2632035
경상권    2431774
Name: 2010, dtype: int64

In [20]:
type(df["2010"])

pandas.core.series.Series

In [21]:
# 데이터프레임의 열 인덱스가 문자열 라벨을 가지고 있는 경우에는 
# 순서를 나타내는 정수 인덱스를 열 인덱싱에 사용 할 수 없다. 
# 정수 인덱싱의 슬라이스는 뒤에서 설명하겠지만 행(row)을 인덱싱할 때 
# 사용하므로 열을 인덱싱할 때는 쓸 수 없다. 
# 정수 인덱스를 넣으면 KeyError 오류가 발생하는 것을 볼 수 있다.

In [22]:
df[0] # 에러 발생
# 다만 원래부터 문자열이 아닌 정수형 열 인덱스를 가지는 경우에는 
# 인덱스 값으로 정수를 사용할 수 있다.

KeyError: 0

In [None]:
df2 = pd.DataFrame(np.arange(12).reshape(3,4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [None]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int64

In [None]:
df

특성,지역,2015,2010,2005,2000,2010-2015 증다율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
수도권,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
경상권,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
수도권,수도권,2890451,2632035,2517680,2466338,9.82,4.54
경상권,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [None]:
df[:1]

특성,지역,2015,2010,2005,2000,2010-2015 증다율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
수도권,수도권,9904312,9631482,9762546,9853972,2.83,-1.34


In [None]:
df[1:2]

특성,지역,2015,2010,2005,2000,2010-2015 증다율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
경상권,경상권,3448737,3393191,3512547,3655437,1.63,-3.4


In [None]:
df[1:3]

특성,지역,2015,2010,2005,2000,2010-2015 증다율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
경상권,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
수도권,수도권,2890451,2632035,2517680,2466338,9.82,4.54


In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [None]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [None]:
df.tail(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [None]:
# 인터넷 상의 데이터 베이스 자료 입력
# pandas_datareader 패키지의 DataReader 을 사용하면 
# 일부 인터넷 사이트의 자료를 바로 pandas로 읽어들일 수 있다. 
# pandas_datareader 패키지는 판다스와 별도로 설치해야 한다. 
# 다음은 pandas_datareader 패키지가 제공 하는 인터넷 사이트의 예이다. 
# 일부 인터넷 사이트는 유료이므로 별도의 가입절차를 거쳐야 한다.

# FRED
# Fama
# French
# World Bank
# OECD
# Eurostat
# EDGAR Index
# TSP Fund Data
# Oanda currency historical rate 
# Nasdaq Trader Symbol Defnitions

# 자세한 내용은 다음 웹사이트를 참조한다
# https://pandas-datareader.readthedocs.io/en/latest/index.html
# 날짜는 datetime 패키지를 사용하여 지정해도 되고 문자열을 바로 사용해도 된다. 
# (이때는 내부적으로 dateutil 패 키지를 사용한다)

In [None]:
import datetime
dt_start = datetime.datetime(2015, 1, 1)
dt_end = "2016, 6, 30"

In [None]:
import pandas_datareader as pdr
gdp = pdr.get_data_fred('GDP', dt_start, dt_end)
gdp.tail()

Unnamed: 0_level_0,GDP
DATE,Unnamed: 1_level_1
2015-04-01,18279.784
2015-07-01,18401.626
2015-10-01,18435.137
2016-01-01,18525.933
2016-04-01,18711.702


In [None]:
# 4.3 데이터프레임 고급 인덱싱

# 데이터프레임에서 특정한 데이터만 골라내는 것을 인덱싱(indexing)이라고 한다.
# 앞 절에서는 라벨, 라벨 리스트, 인덱스데이터(정수) 슬라이스의 3가지 인덱싱 값을 사용하여 
# 인덱싱을 하는 방법을 공부하였다. 

# 그런데 Pandas는 numpy행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 
# 2차원 인덱싱을 지원하기 위해 다음과 같은 특별 한 인덱서(indexer) 속성도 제공한다.


# loc : 라벨값 기반의 2차원 인덱싱
# iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱

In [None]:
# loc 인덱서
# loc 인덱서는 다음처럼 사용한다.


# df.loc[행 인덱싱값]
# 또는
# df.loc[행 인덱싱값, 열 인덱싱값]

# 이 때 인덱싱 값은 다음 중 하나이다. 

# 행 인덱싱값은 정수 또는 행 인덱스데이터이고 열 인덱싱값은 라벨 문자열이다.
# 인덱스데이터
# 인덱스데이터 슬라이스
# 인덱스데이터 리스트
# 같은 행 인덱스를 가지는 불리언 시리즈(행 인덱싱의 경우) 
# 또는 위의 값들을 반환하는 함수

# 다음과 같은 데이터프레임을 예로 들자.

In [None]:
df = pd.DataFrame(np.arange(10,22).reshape(3,4),index = ['a','b','c'],columns = ['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [None]:
# 인덱싱값을 하나만 받는 경우

# 만약 loc 인덱서를 사용하면서 인덱스를 하나만 넣으면 행(row)을 선택한다
# 인덱스데이터가 'a'인 행을 고르면 해당하는 행이 시리즈로 출력된다.
# 시리즈라서 상하로 길게 출력되기는 했지만 행을 가져오고 있다.

df.loc['a']

A    10
B    11
C    12
D    13
Name: a, dtype: int64

In [None]:
df.loc["b":"c"]
# 이 때는 사실loc를 쓰지 않는 경우과 같다.
df['b':'c']

# 인덱스데이터의 리스트도 된다.
df.loc[['b','c']]

# 이 때는 loc를 쓰지 않으면 KeyError 오류가 발생한다.
df[["b", "c"]] # keyError

KeyError: "None of [Index(['b', 'c'], dtype='object')] are in the [columns]"

In [None]:
# 데이터베이스와 같은 인덱스를 가지는 불리언 시리즈도 
# 행을 선택하는 인덱싱값으로 쓸 수 있다.
df.A>15

a    False
b    False
c     True
Name: A, dtype: bool

In [None]:
df.loc[df.A>15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [None]:
# 인덱스 대산 인덱스 값을 반환하는 함수를 사용할 수도 있다.
# 다음 함수는 A열의 값이 12보다 큰 행만 선택한다.
def select_rows(df):
    return df.A>15

select_rows(df)

a    False
b    False
c     True
Name: A, dtype: bool

In [None]:
df.loc[select_rows(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [None]:
# loc 인덱서가 없는 경우에서 
# 사용했던 라벨 인덱싱이나 라벨 리스트 인덱싱은 불가능하다.
df.loc['A'] # keyError

KeyError: 'A'

In [None]:
# 원래(행)인덱스 값이 정수인 경우에는 슬라이싱도 라벨 슬라이싱 방식을 따르게 된다.
# 즉, 슬라이스의 마지막 값이 포함된다.
df2 = pd.DataFrame(np.arange(10,26).reshape(4,4),columns=['A','B','C','D'])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [None]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [None]:
# 인덱싱값을 행과 열 모두 받는 경우
# 인덱싱값을 행과 열 모두 받으려면 df.loc[행 인덱스, 열 인덱스]와 같은 형태로 사용한다.
# 행 인덱스 라벨값이 a, 열 인덱스 라벨값이A인 위치의 값을 구하는 것은 다음과 같다.
df.loc["a","A"]

10

In [None]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [None]:
# 인덱싱 값으로 라벨 데이터의 슬라이싱 또는 리스트를 사용할 수도 있다.
df.loc["b":,"A"]

b    14
c    18
Name: A, dtype: int64

In [None]:
df.loc[["a","b"],["B","D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


In [None]:
df.loc["a",:]

A    10
B    11
C    12
D    13
Name: a, dtype: int64

In [None]:
df.loc[['a','b'],['B','D']]

Unnamed: 0,B,D
a,11,13
b,15,17


In [None]:
# 행 인덱스가 같은 불리언 시리즈나 이러한 불리언 시리즈를 반환하는 함수도 행의 인덱싱값이 될 수 있다.
df.loc[df.A>10,["C","D"]]

Unnamed: 0,C,D
b,16,17
c,20,21


In [None]:
# iloc 인덱서
# iloc 인덱서는 loc 인덱서와 반대로 라벨이 아니라 순서를 나타내는 정수(integer) 인덱스만 받는다. 
# 다른 사항은 loc 인덱서와 같다.
df


Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [None]:
df.iloc[0,1]

11

In [None]:
df.iloc[:2,2]

a    12
b    16
Name: C, dtype: int64

In [None]:
df.iloc[0,-2:]

C    12
D    13
Name: a, dtype: int64

In [None]:
df.iloc[2:3,1:3]

Unnamed: 0,B,C
c,19,20


In [None]:
df.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int64

In [None]:
df.iloc[-1] = df.iloc[-1] * 2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,36,38,40,42


In [None]:
# 4.4 데이터프레임의 데이터 조작
# 판다스는 넘파이 2차원 배열에서 가능한 대부분의 데이터 처리가 가능하며 추가로 데이터 처리 및 변환을 위한 
# 다양 한 함수와 메서드를 제공한다.

# 데이터 갯수 세기
# 가장 간단한 데이터 분석은 데이터의 갯수를 세는 것이다.
# count 메서드를 사용한다. NaN 값은 세지 않는다.

In [None]:
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [None]:
s.count()

9

In [None]:
# 데이터프레임에서는 각 열마다 별도로 데이터 갯수를 센다. 
# 데이터에서 값이 누락된 부분을 찾을 때 유용하다.
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4,4)),dtype=float)
df.iloc[2,3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [None]:
df.count()

0    4
1    4
2    4
3    3
dtype: int64

In [None]:
# 다음 명령으로 타이타닉호의 승객 데이터를 데이터프레임으로 읽어올 수 있다. 
# 이 명령을 실행하려면 seaborn 패키 지가 설치되어 있어야 한다.
import seaborn as sns

In [None]:
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [None]:
# pdf 175부터~