https://datascienceschool.net/view-notebook/ee0a5679dd574b94b55193690992f850/

# Pandas 패키지의 소개

## Pandas 패키지 시리즈 클래스
numpy 의 array 와 비슷하지만 index 를 붙일 수 있다. 

### 시리즈 생성

In [1]:
import pandas as pd

In [2]:
s = pd.Series([9904312, 3448737, 2890451, 2466052], index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [3]:
# 인덱스를 지정하지 않은 경우 0부터 시작하는 숫자 값
pd.Series(range(10,14))

0    10
1    11
2    12
3    13
dtype: int32

In [5]:
print(s.index)
print(s.values)

Index(['서울', '부산', '인천', '대구'], dtype='object')
[9904312 3448737 2890451 2466052]


In [6]:
# 자체적인 이름을 붙일 수 있고 인덱스에도 이름을 붙일 수 있음
s.name = "인구"
s.index.name= "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### 시리즈 연산

In [7]:
# value 의 단위를 변경해도 인덱스에 영향이 가지 않음
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

### 시리즈 인덱싱

In [8]:
# 인덱스 라벨 인덱싱
print(s[1], s["부산"])
print(s[3], s["대구"])

(3448737, 3448737)

In [9]:
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [10]:
print(s[1:3])
print(s["부산":"대구"])

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [13]:
# 라벨이 영문인 경우 점(.) 을 이용해 접근가능
s0 = pd.Series(range(3), index=["a", "b", "c"])
print(s0)
print(s0.a, s0.c)

a    0
b    1
c    2
dtype: int32
0 2


### 시리즈와 사전 자료형

In [14]:
"서울" in s

True

In [15]:
for k, v in s.iteritems():
    print("%s = %d" % (k, v))

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


In [16]:
# 사전 객체를 시리즈로 만들기
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})
s2

대전    1490158
부산    3393191
서울    9631482
인천    2632035
dtype: int64

In [17]:
# 순서를 지정하고 싶을땐 index 를 사용
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158}, 
               index=["부산", "서울", "인천", "대전"])
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

### 인덱스 기반 연산

In [18]:
# 인덱스가 같은 데이터 끼리 연산해줌  계산 결과도 모두 float
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [19]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [20]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [26]:
# 인구 증가률 
rs = (s - s2) / s2 * 100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

### 데이터의 갱신, 추가, 삭제

In [27]:
rs["대구"] = 1.63
rs

부산    1.636984
서울    2.832690
인천    9.818107
대구    1.630000
dtype: float64

In [28]:
del rs["서울"]
rs

부산    1.636984
인천    9.818107
대구    1.630000
dtype: float64

## 데이터프레임 클래스

### 데이터프레임 생성

In [29]:
#  각 열(column)마다 자료형이 다를 수 있음
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [30]:
# 데이터만 접근하려면 values 속성 사용
# 열방향 인덱스와 행방향 인덱스는 각각 columns, index 속성으로 접근
print(df.values)
print(df.columns)
print(df.index)

[['수도권' 9904312 9631482 9762546 9853972 0.0283]
 ['경상권' 3448737 3393191 3512547 3655437 0.0163]
 ['수도권' 2890451 2632035 2517680 2466338 0.0982]
 ['경상권' 2466052 2431774 2456016 2473990 0.0141]]
Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')
Index(['서울', '부산', '인천', '대구'], dtype='object')


In [31]:
# 이름 붙이기
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


### 데이터프레임 열 인덱싱

In [34]:
# 열 라벨(column label)을 키값으로 생각하여 인덱싱

df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [35]:
df[["2010", "2015"]]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [36]:
type(df["2010"])

# 정수 인덱싱 행(row)을 인덱싱할 때 사용하므로 열을 인덱싱할 때는 쓸 수 없음
# ERROR df[0]

pandas.core.series.Series

In [39]:
# 정수 인덱싱 사용 열을 정수로 만듬
import numpy as np
df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [40]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int32

### 열 데이터의 갱신, 추가, 삭제
열 단위로 데이터를 갱신하거나 추가, 삭제

In [41]:
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [42]:
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [43]:
del df["2010-2015 증가율"]
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


### 개별 데이터 인덱싱

In [44]:
df["2015"]["서울"]

9904312

### 행 단위 인덱싱
행 단위로 인덱싱: 슬라이싱(slicing)

In [45]:
df[:1]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [46]:
df[1:2]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [47]:
df["서울":"부산"]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4


# Pandas 데이터 입출력

CSV,
Clipboard,
Excel,
JSON, HTML,
Python Pickling,
Feather, Msgpack
HDF5, 
SAS, 
STATA, 
SQL, 
Google BigQuery

In [17]:
# CSV 파일을 만듬

In [9]:
%%writefile ~/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample1.csv 
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing C:\Users\student/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample1.csv


## CSV 파일 입력

In [3]:
import pandas as pd
pd.read_csv('~/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample1.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three
3,# CSV 파일을 만듬,,


In [14]:
%%writefile ~/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing C:\Users\student/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample2.csv


In [15]:
pd.read_csv('~/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample2.csv', names=['c1', 'c2', 'c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [16]:
pd.read_csv('~/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample1.csv', index_col='c1')

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three
# CSV 파일을 만듬,,


In [19]:
%%writefile ~/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample3.txt
c1        c2        c3        c4 
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Writing C:\Users\student/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample3.txt


In [20]:
pd.read_table('~/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample3.txt', sep='\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


In [21]:
%%writefile ~/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명: 
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing C:\Users\student/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample4.txt


In [22]:
pd.read_csv('~/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample4.txt', skiprows=[0, 1])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [23]:
%%writefile ~/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample5.csv
c1, c2, c3
1, 1.11, one
2,, two
누락, 3.33, three

Writing C:\Users\student/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample5.csv


In [4]:
df = pd.read_csv('~/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample5.csv', na_values=['누락'])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


## CSV 파일 출력

In [5]:
# 데이터프레임 값을 CSV 파일로 출력
df.to_csv('~/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample6.csv')

In [17]:
!more ~/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample6.csv

잘못된 매개 변수입니다 - /Documents


In [6]:
# na_rep 인수로 NA 표시값
df.to_csv('~/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample8.csv', na_rep='누락')

In [7]:
# index, header 인수를 지정하여 인덱스 및 헤더 출력 여부를 지정
df.index = ["a", "b", "c"]
df

Unnamed: 0,c1,c2,c3
a,1.0,1.11,one
b,2.0,,two
c,,3.33,three


In [8]:
df.to_csv('~/Documents/jhfolder/Mulcam/StudyGit/DataAnalytics/dataScienceSchool/data/sample9.csv', index=False, header=False)

## 인터넷 상의 CSV 파일 입력

In [9]:
df = pd.read_csv('http://www.google.com/finance/historical?q=NASDAQ%3AAAPL&output=csv')
df.head(10)

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2-Aug-17,159.28,159.75,156.16,157.14,69936800
1,1-Aug-17,149.1,150.22,148.41,150.05,35368645
2,31-Jul-17,149.9,150.33,148.13,148.73,19845920
3,28-Jul-17,149.89,150.23,149.19,149.5,17213653
4,27-Jul-17,153.75,153.99,147.3,150.56,32476337
5,26-Jul-17,153.35,153.93,153.06,153.46,15780951
6,25-Jul-17,151.8,153.84,151.8,152.74,18853932
7,24-Jul-17,150.58,152.44,149.9,152.09,21493160
8,21-Jul-17,149.99,150.44,148.88,150.27,26252630
9,20-Jul-17,151.5,151.74,150.19,150.34,17243748


## 인터넷 상의 데이터 베이스 자료 입력
pandas_datareader 패키지의 DataReader 을 써서 바로 pandas로 입력

Yahoo! Finance, 
Google Finance, 
Enigma,
FRED,
Fama/French,
World Bank,
OECD,
Eurostat,
EDGAR Index,
TSP Fund Data,
Oanda currency historical rate,
Nasdaq Trader Symbol Definitions

https://pandas-datareader.readthedocs.io/en/latest/index.html

In [18]:
#!pip install pandas_datareader
from pandas_datareader.data import DataReader

In [19]:
import datetime # 내부적으로 dateutil 패키지를 사용
dt_start = datetime.datetime(2015, 1, 1)
dt_end = "2016, 6, 30"

In [21]:
# data_source : 데이터를 읽어올 웹사이트를 지정
# 데이터의 이름을 지정하는 코드는 웹사이트마다 다름
df = DataReader("KRX:005930", 'google', dt_start, dt_end)
df.tail()

Unnamed: 0_level_0,Open,High,Low,Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016-06-24,1445000.0,1445000.0,1360000.0,1400000.0,408920
2016-06-27,1400000.0,1405000.0,1385000.0,1398000.0,236573
2016-06-28,1390000.0,1404000.0,1379000.0,1399000.0,213829
2016-06-29,1408000.0,1412000.0,1391000.0,1396000.0,208090
2016-06-30,1408000.0,1445000.0,1397000.0,1425000.0,272883


FRED 데이터베이스에서 미국 국가총생산(GDP), 모든 항목을 포함한 소비자 가격 지수(CPIAUCSL)
식료품 및 연로를 제외한 소비자 가격 지수(CPILFESL)를 가져오는 예
https://fred.stlouisfed.org/series/GDP <br>
https://fred.stlouisfed.org/series/CPIAUCSL <br>
https://fred.stlouisfed.org/series/CPILFESL <br>

In [23]:
gdp = DataReader("GDP", "fred", dt_start, dt_end)
gdp

Unnamed: 0_level_0,GDP
DATE,Unnamed: 1_level_1
2015-01-01,17874.7
2015-04-01,18093.2
2015-07-01,18227.7
2015-10-01,18287.2
2016-01-01,18325.2
2016-04-01,18538.0


In [25]:
inflation = DataReader(["CPIAUCSL", "CPILFESL"], "fred", dt_start, dt_end)
inflation.head(10)

Unnamed: 0_level_0,CPIAUCSL,CPILFESL
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-01-01,234.913,239.91
2015-02-01,235.489,240.236
2015-03-01,235.989,240.783
2015-04-01,236.201,241.366
2015-05-01,236.891,241.662
2015-06-01,237.419,242.021
2015-07-01,237.876,242.48
2015-08-01,237.811,242.754
2015-09-01,237.467,243.249
2015-10-01,237.792,243.719


# Pandas 인덱서
* loc : 라벨 기반의 복수 인덱싱
* iloc : 숫자 기반의 복수 인덱싱

## loc 인덱서
- 정수 인덱스가 아닌 라벨 값(원래가 정수 인덱스인 경우는 예외)
- 라벨 값의 리스트
- 라벨 값의 슬라이싱
- 불리언 리스트, 1차원 배열, 시리즈 (데이터프레임은 안된다.)
- 또는 데이터프레임을 입력으로 받고 위의 값을 반환하는 함수

In [27]:
import numpy as np
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [30]:
df.loc["a", "A"]

10

In [31]:
df.loc["b":, "A"]

b    14
c    18
Name: A, dtype: int32

In [32]:
df.loc["a", :]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [34]:
df.loc[["a", "b"], ["B", "D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


In [35]:
df.loc[df.A > 10, :]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [36]:
# loc : 하나의 행을 시리즈 자료형으로 뽑음
df.loc["a", :]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [38]:
# loc 인덱서를 사용하지 않으면 슬라이싱을 해야 하는데 
# 이 경우에는 데이터프레임 자료형을 반환
df[:1]  # loc 인덱서를 사용하지 않는 경우

Unnamed: 0,A,B,C,D
a,10,11,12,13


In [41]:
# df.loc[:, df[:1] <= 11]  # 데이터프레임은 loc 인덱서에 넣을 수 없으므로 에러!
df.loc[:, df.loc["a", :] <= 11] # 이렇게 해야 한다.

Unnamed: 0,A,B
a,10,11
b,14,15
c,18,19


In [42]:
def find_rows(df):
    return df.A >12

In [43]:
find_rows(df)

a    False
b     True
c     True
Name: A, dtype: bool

In [44]:
df.loc[find_rows(df), ["C"]]

Unnamed: 0,C
b,16
c,20


In [46]:
df.loc["e"] = [90, 91, 92, 93]
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21
e,90,91,92,93


## iloc 인덱서
iloc 인덱서 정수 인덱스만 가능

In [48]:
df.iloc[0, 1]

11

In [49]:
df.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int64

In [50]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


In [51]:
df.iloc[-1]

A    90
B    91
C    92
D    93
Name: e, dtype: int64

In [52]:
df.iloc[-1] = df.iloc[-1] * 2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21
e,180,182,184,186


# Pandas 데이터 처리
https://pandas.pydata.org/pandas-docs/stable/api.html

## 갯수 세기

In [3]:
import pandas as pd
import numpy as np
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [5]:
s.count()

9

In [7]:
# 랜덤 값으로 만들어 df 만들기 
np.random.seed(1)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)))
df.iloc[2,3] = np.nan
df

Unnamed: 0,0,1,2,3
0,3,4,0,1.0
1,3,0,0,1.0
2,4,4,1,
3,4,2,4,3.0


In [8]:
df.count()

0    4
1    4
2    4
3    3
dtype: int64

## 카테고리 값 세기

In [9]:
# 각각의 값이 나온 횟수 세기
np.random.seed(1)
s = pd.Series(np.random.randint(6, size=100))
s.tail(3)

97    2
98    4
99    3
dtype: int32

In [11]:
s.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

## 행/열 합계

In [17]:
np.random.seed(1)
df = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [19]:
# df.sum(axis=1) 또는 
df["Sum"] = df.sum(axis=1)
df

Unnamed: 0,0,1,2,3,4,5,6,7,Sum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


In [20]:
# df.sum()
df.loc["Total", :] = df.sum()
df

Unnamed: 0,0,1,2,3,4,5,6,7,Sum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
Total,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0


## apply 변환 
반복하여 그 함수에 적용

In [21]:
df = pd.DataFrame({
        'A': [1, 3, 4, 3, 4],
        'B': [2, 3, 1, 2, 3],
        'C': [1, 5, 2, 4, 4]
    })

In [22]:
# 최대값과 최소값의 차이 열에 적용
df.apply(lambda x: x.max() - x.min())

A    3
B    2
C    4
dtype: int64

In [23]:
# 행에 적용
df.apply(lambda x: x.max() - x.min(), axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [24]:
# 행의 고유값이 몇개씩 있는지 보여줌 
df.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [25]:
# na 갑 변경
df.apply(pd.value_counts).fillna(0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


## 실수 값을 카테고리 값으로 변환
* cut: 실수 값의 경계선을 지정하는 경우
* qcut: 갯수가 똑같은 구간으로 나누는 경우

In [30]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32]
bins = [1, 15, 25, 35, 60, 190]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, 미성년자, 미성년자, 청년, 청년, ..., 중년, 노년, 청년, 장년, 중년]
Length: 11
Categories (5, object): [노년 < 미성년자 < 장년 < 중년 < 청년]

In [31]:
type(cats)

pandas.core.categorical.Categorical

In [32]:
cats.categories

Index(['노년', '미성년자', '장년', '중년', '청년'], dtype='object')

In [37]:
cats.codes

array([-1,  1,  1,  4,  4,  2,  3,  0,  4,  2,  3], dtype=int8)

In [36]:
df = pd.DataFrame(ages, columns=["ages"])
df["age_cat"] = pd.cut(df.ages, bins, labels = labels)
df

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,중년
7,61,노년
8,20,청년
9,41,장년


In [39]:
# 1000 개의 데이터를 qcut() 4개의 구간으로 250 개씩 데이터를 가짐 
data = np.random.randn(1000)
cats = pd.qcut(data, 4, labels=['Q1', 'Q2', 'Q3', 'Q4'])
cats

[Q2, Q1, Q2, Q3, Q1, ..., Q1, Q1, Q4, Q4, Q2]
Length: 1000
Categories (4, object): [Q1 < Q2 < Q3 < Q4]

In [40]:
pd.value_counts(cats)

Q4    250
Q3    250
Q2    250
Q1    250
dtype: int64

# Pandas 인덱스 조작

## 데이터프레임 인덱스 설정 및 제거
인덱스와 일반 데이터 열을 교환
* set_index : 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정
* reset_index : 기존의 행 인덱스를 제거하고 인덱스를 마지막 데이터 열로 추가


In [42]:
np.random.seed(0)
df = pd.DataFrame(np.random.randint(1, 10, (10, 4)), 
                  columns=["C1", "C2", "C3", "C4"])
df

Unnamed: 0,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [45]:
# c1 을 인덱스로 지정 (기존인덱스는 없어짐)
df1 = df.set_index("C1")
df1.head(2)

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
6,1,4,4
8,4,6,3


In [46]:
df2 = df1.set_index("C2")
df2.head(2)

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
1,4,4
4,6,3


In [48]:
# reset_index 인텍스 열을 가장선두열로 삽입 (디폴트 인덱스 생성)
df1.reset_index().head(3)

Unnamed: 0,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9


In [49]:
# drop=True 인덱스 열을 삭제
df1.reset_index(drop=True).head(3)

Unnamed: 0,C2,C3,C4
0,1,4,4
1,4,6,3
2,8,7,9


## 다중 인덱스
df 생성시 columns 인수에 리스트의 리스트(행렬) 형태로 인덱스를 넣으면 다중 열 인덱스 생성됨 

In [10]:
np.random.seed(0)
df3 = pd.DataFrame(np.random.randint(1,10, size = (10, 4)), 
                   columns=[["A", "A", "B", "B"], ["C1", "C2", "C3", "C4"]])
df3.head(3)

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9


In [11]:
# 열 인덱스들의 이름 지정
df3.columns.names = ["Cdx1", "Cdx2"]
df3.head(3)

Cdx1,A,A,B,B
Cdx2,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9


In [4]:
# 다중 행 인덱스만들어 이름 붙이기 
np.random.seed(0)
df4 = pd.DataFrame(np.random.randint(1, 10, (8, 4)), 
                  columns=[["A", "A", "B", "B"], ["C", "D", "C", "D"]],
                  index=[["M", "M", "M", "M", "F", "F", "F", "F"], ["ID" + str(i) for i in range(4)] * 2])
df4.columns.names = ["Cdx1", "Cdx2"]
df4.index.names = ["Rdx1", "Rdx2"]
df4

Unnamed: 0_level_0,Cdx1,A,A,B,B
Unnamed: 0_level_1,Cdx2,C,D,C,D
Rdx1,Rdx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,ID0,6,1,4,4
M,ID1,8,4,6,3
M,ID2,5,8,7,9
M,ID3,9,2,7,8
F,ID0,8,9,2,6
F,ID1,9,5,4,1
F,ID2,4,6,1,3
F,ID3,4,9,2,4


## 행 인덱스와 열 인덱스 교환
* stack()
    * 열 인덱스 -> 행 인덱스로 변환 <br>
    열 인덱스가 시계 방향으로 90도 회전한 것과 비슷
* unstack()
    * 행 인덱스 -> 열 인덱스로 변환 <br>
    행 인덱스가 반시계 방향으로 90도 회전한 것과 비슷


In [5]:
df4.stack("Cdx1")

Unnamed: 0_level_0,Unnamed: 1_level_0,Cdx2,C,D
Rdx1,Rdx2,Cdx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,ID0,A,6,1
M,ID0,B,4,4
M,ID1,A,8,4
M,ID1,B,6,3
M,ID2,A,5,8
M,ID2,B,7,9
M,ID3,A,9,2
M,ID3,B,7,8
F,ID0,A,8,9
F,ID0,B,2,6


In [7]:
df4.stack(0)

Unnamed: 0_level_0,Unnamed: 1_level_0,Cdx2,C,D
Rdx1,Rdx2,Cdx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,ID0,A,6,1
M,ID0,B,4,4
M,ID1,A,8,4
M,ID1,B,6,3
M,ID2,A,5,8
M,ID2,B,7,9
M,ID3,A,9,2
M,ID3,B,7,8
F,ID0,A,8,9
F,ID0,B,2,6


In [8]:
df4.unstack("Rdx2")

Cdx1,A,A,A,A,A,A,A,A,B,B,B,B,B,B,B,B
Cdx2,C,C,C,C,D,D,D,D,C,C,C,C,D,D,D,D
Rdx2,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3
Rdx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3
F,8,9,4,4,9,5,6,9,2,4,1,2,6,1,3,4
M,6,8,5,9,1,4,8,2,4,6,7,7,4,3,9,8


In [9]:
df4.unstack(1)

Cdx1,A,A,A,A,A,A,A,A,B,B,B,B,B,B,B,B
Cdx2,C,C,C,C,D,D,D,D,C,C,C,C,D,D,D,D
Rdx2,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3
Rdx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3
F,8,9,4,4,9,5,6,9,2,4,1,2,6,1,3,4
M,6,8,5,9,1,4,8,2,4,6,7,7,4,3,9,8


## 다중 인덱스가 있는 경우의 인덱싱

다중 인덱스는  튜플로() 로 선택되어야 한다. 레벨 값만 넣으면 상위의 값만 지정된다.

In [12]:
df3

Cdx1,A,A,B,B
Cdx2,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [13]:
df3["A"]

Cdx2,C1,C2
0,6,1
1,8,4
2,5,8
3,9,2
4,8,9
5,9,5
6,4,6
7,4,9
8,4,4
9,2,1


In [14]:
df3[("A", "C1")]

0    6
1    8
2    5
3    9
4    8
5    9
6    4
7    4
8    4
9    2
Name: (A, C1), dtype: int32

In [15]:
df3.loc[2, ("A", "C1")]

5

In [16]:
df3.loc[2, ("A", "C1")] = 555

In [17]:
df3

Cdx1,A,A,B,B
Cdx2,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,555,8,7,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [18]:
df4

Unnamed: 0_level_0,Cdx1,A,A,B,B
Unnamed: 0_level_1,Cdx2,C,D,C,D
Rdx1,Rdx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,ID0,6,1,4,4
M,ID1,8,4,6,3
M,ID2,5,8,7,9
M,ID3,9,2,7,8
F,ID0,8,9,2,6
F,ID1,9,5,4,1
F,ID2,4,6,1,3
F,ID3,4,9,2,4


In [19]:
df4.loc[("M", "ID0"), ("A", "C")]

6

In [20]:
df4.loc[:, ("A", "C")]

Rdx1  Rdx2
M     ID0     6
      ID1     8
      ID2     5
      ID3     9
F     ID0     8
      ID1     9
      ID2     4
      ID3     4
Name: (A, C), dtype: int32

In [21]:
df4.loc[("M", "ID0"), :]

Cdx1  Cdx2
A     C       6
      D       1
B     C       4
      D       4
Name: (M, ID0), dtype: int32

In [22]:
df4.loc[("All", "All"), :] = df4.sum()

In [23]:
df4

Unnamed: 0_level_0,Cdx1,A,A,B,B
Unnamed: 0_level_1,Cdx2,C,D,C,D
Rdx1,Rdx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,ID0,6.0,1.0,4.0,4.0
M,ID1,8.0,4.0,6.0,3.0
M,ID2,5.0,8.0,7.0,9.0
M,ID3,9.0,2.0,7.0,8.0
F,ID0,8.0,9.0,2.0,6.0
F,ID1,9.0,5.0,4.0,1.0
F,ID2,4.0,6.0,1.0,3.0
F,ID3,4.0,9.0,2.0,4.0
All,All,53.0,44.0,33.0,38.0


## 다중 인덱스의 인덱스 순서 교환

* swaplevel(i, j, axis) <br>
i와 j는 교환하고자 하는 인덱스 라벨(혹은 인덱스 번호)이고 axis는 0일 때 행 인덱스, 1일 때 열 인덱스

In [24]:
df4.swaplevel("Rdx1", "Rdx2")

Unnamed: 0_level_0,Cdx1,A,A,B,B
Unnamed: 0_level_1,Cdx2,C,D,C,D
Rdx2,Rdx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
ID0,M,6.0,1.0,4.0,4.0
ID1,M,8.0,4.0,6.0,3.0
ID2,M,5.0,8.0,7.0,9.0
ID3,M,9.0,2.0,7.0,8.0
ID0,F,8.0,9.0,2.0,6.0
ID1,F,9.0,5.0,4.0,1.0
ID2,F,4.0,6.0,1.0,3.0
ID3,F,4.0,9.0,2.0,4.0
All,All,53.0,44.0,33.0,38.0


In [25]:
df4.swaplevel("Cdx1", "Cdx2", 1)

Unnamed: 0_level_0,Cdx2,C,D,C,D
Unnamed: 0_level_1,Cdx1,A,A,B,B
Rdx1,Rdx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,ID0,6.0,1.0,4.0,4.0
M,ID1,8.0,4.0,6.0,3.0
M,ID2,5.0,8.0,7.0,9.0
M,ID3,9.0,2.0,7.0,8.0
F,ID0,8.0,9.0,2.0,6.0
F,ID1,9.0,5.0,4.0,1.0
F,ID2,4.0,6.0,1.0,3.0
F,ID3,4.0,9.0,2.0,4.0
All,All,53.0,44.0,33.0,38.0


# Pandas 데이터 합성

두개 이상의 데이터프레임을 하나로 합침

## Merge
테이블 조인(join)


### merge 예제 1

In [26]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
    }, columns=['고객번호', '이름']
)
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [27]:
df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
    }, columns=['고객번호', '금액']
)
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


#### inner join 방식

In [28]:
pd.merge(df1, df2)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


#### outer join 방식

In [29]:
pd.merge(df1, df2, how='outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


#### left 방식은 첫번째 데이터프레임 모두 

In [30]:
pd.merge(df1, df2, how='left')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


#### right 방식은 두번쨰 데이터프레임 모두 

In [31]:
pd.merge(df1, df2, how='right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000
5,1008,,100000


### merge 예제 2 
키 값이 같은 데이터가 여러개 있는 경우: 경우의 수를 따져서 조합을 만듬

In [32]:
df1 = pd.DataFrame({'key': ['setosa', 'setosa', 'virginica', 'versicolor'], 
                    'petal length': [1.4, 1.3, 1.5, 1.3]})
df1

Unnamed: 0,key,petal length
0,setosa,1.4
1,setosa,1.3
2,virginica,1.5
3,versicolor,1.3


In [33]:
df2 = pd.DataFrame({'key': ['setosa', 'virginica', 'virginica', 'versicolor'], 
                    'petal width': [0.4, 0.3, 0.5, 0.3]})
df2

Unnamed: 0,key,petal width
0,setosa,0.4
1,virginica,0.3
2,virginica,0.5
3,versicolor,0.3


In [34]:
pd.merge(df1, df2)

Unnamed: 0,key,petal length,petal width
0,setosa,1.4,0.4
1,setosa,1.3,0.4
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,versicolor,1.3,0.3


### merge 예제 3

In [35]:
df1 = pd.DataFrame({'성별': ['남자', '남자', '여자'], 
                    '연령': ['미성년자', '성인', '미성년자'], 
                    '매출1': [1, 2, 3]})
df1

Unnamed: 0,매출1,성별,연령
0,1,남자,미성년자
1,2,남자,성인
2,3,여자,미성년자


In [36]:
df2 = pd.DataFrame({'성별': ['남자', '남자', '여자', '여자'],
                    '연령': ['미성년자', '미성년자', '미성년자', '성인'],
                    '매출2': [4, 5, 6, 7]})
df2

Unnamed: 0,매출2,성별,연령
0,4,남자,미성년자
1,5,남자,미성년자
2,6,여자,미성년자
3,7,여자,성인


In [38]:
# 이름이 같은 열이 여러개 있는 경우에는 모두 기준 열로 사용
pd.merge(df1, df2, how='outer')

Unnamed: 0,매출1,성별,연령,매출2
0,1.0,남자,미성년자,4.0
1,1.0,남자,미성년자,5.0
2,2.0,남자,성인,
3,3.0,여자,미성년자,6.0
4,,여자,성인,7.0


In [39]:
# 기준 열은 on 인수로도 명시적 설정이 가능
pd.merge(df1, df2, on=['성별', '연령'], how='outer')

Unnamed: 0,매출1,성별,연령,매출2
0,1.0,남자,미성년자,4.0
1,1.0,남자,미성년자,5.0
2,2.0,남자,성인,
3,3.0,여자,미성년자,6.0
4,,여자,성인,7.0


In [41]:
# 기준 열이 아니고 이름이 같은 열은 _x 또는 _y 접미사 붙음
pd.merge(df1, df2, on='성별')

Unnamed: 0,매출1,성별,연령_x,매출2,연령_y
0,1,남자,미성년자,4,미성년자
1,1,남자,미성년자,5,미성년자
2,2,남자,성인,4,미성년자
3,2,남자,성인,5,미성년자
4,3,여자,미성년자,6,미성년자
5,3,여자,미성년자,7,성인
