# 판다스 패키지의 소개
대부분의 데이터는 시계열(series)이나 표(table)의 형태로 나타낼 수 있다.

판다스(Pandas) 패키지는 이러한 데이터를 다루기 위한 시리즈(Series) 클래스와 데이터프레임(DataFrame) 클래스를 제공한다.

## 판다스 패키지 임포트
판다스 패키지를 사용하기 위해 우선 임포트를 해야 한다.

판다스 패키지는 pd라는 별칭으로 임포트하는 것이 관례이므로 여기에서도 해당 관례를 따르도록 한다.

In [1]:
import pandas as pd

In [2]:
s = pd.Series([9904312, 3448737, 2890451, 2466052], index = ['서울', '부산', '인천', '대구'])

s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [3]:
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

In [4]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [5]:
s.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [6]:
s.name = '인구'
s.index.name = '도시'
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [7]:
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [8]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [9]:
s[1]

3448737

In [10]:
s['부산']

3448737

In [11]:
s['대구']

2466052

In [12]:
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [13]:
s[[0, 3, 2]]

도시
서울    9904312
대구    2466052
인천    2890451
Name: 인구, dtype: int64

In [14]:
s[['서울', '대구', '부산']]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [15]:
s[(250e4 < s) & (s < 500e4)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

슬라이싱을 해도 부분적인 시리즈를 반환한다.
이 때 문자열 라벨을 이용한 슬라이싱을 하는 경우에는 숫자 인덱싱과 달리 콜론(:) 기호 뒤에 오는 값도 결과에 포함되므로 주의해야 한다.

In [16]:
s[1:3]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [17]:
s['부산':'대구']

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [18]:
s0 = pd.Series(range(3), index = ['a', 'b', 'c'])
s0

a    0
b    1
c    2
dtype: int64

In [19]:
s0.a

0

In [20]:
s.부산

3448737

# 시리즈와 딕셔너리 자료형
시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 인덱스 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 같다고 볼 수 있다.

따라서 딕셔너리 자료형에서 제공하는 in 연산도 가능하고 items 메서드를 사용하면 for 루프를 통해 각 원소의 키(key)와 값(value)을 접근할 수도 있다.

In [21]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [22]:
'서울' in s

True

In [23]:
'대전' in s

False

In [24]:
for k, v in s.items() :
    print('%s = %d' % (k, v))

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


In [25]:
s2 = pd.Series({'서울' : 9631482, '부산' : 3393191, '인천' : 2632035, '대전' : 1490158}, index = ['부산', '서울', '인천', '대전'])
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

In [26]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [27]:
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

In [28]:
ds = s - s2

In [29]:
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [30]:
s.values - s2.values

array([ 6511121, -6182745,   258416,   975894], dtype=int64)

In [31]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [32]:
rs = ((s - s2) / s2) * 100
rs

대구         NaN
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [33]:
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [34]:
rs['부산'] = 1.63

rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [35]:
rs['대구'] = 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [36]:
del rs['서울']
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

In [37]:
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

# 데이터프레임 클래스
{margin}
`DataFrame`
{margin}
행 인덱스(row index, index)
{margin}
열 인덱스(cplumn index, columns)

시리즈가 1차원 벡터 데이터에 행방향 인덱스(row index)를 붙인 것이라
데이터프레임 DataFrame 클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷하다.

2차원이므로 각각의 행 데이터의 이름이 되는 행 인덱스(row index) 뿐 아니라
각각의 열 데이터의 이름이 되는 열 인덱스(column index)도 붙일 수 있다.

## 데이터프레임 생성

데이터프레임을 만드는 방법은 다양하다. 가장 간단한 방법은 다음과 같다.

우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다.

이 각각의 열에 대한 이름(라벨)을 키로 가지는 딕셔너리를 만든다.

이 데이터를 DataFrame 클래스 생성자에 넣는다. 동시에 열방향 인덱스는 columns 인수로, 행방향 인덱스는 index 인수로 지정한다.

In [38]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"] # 순서 지정
index = ["서울", "부산", "인천", "대구"] # 순서 지정
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [39]:
print(df)

     지역     2015     2010     2005     2000  2010-2015 증가율
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141


In [40]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [41]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [42]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [43]:
df.index.name = '도시'
df.columns.name = '특성'
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [44]:
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [45]:
df['2010-2015 증가율'] * 100

도시
서울    2.83
부산    1.63
인천    9.82
대구    1.41
Name: 2010-2015 증가율, dtype: float64

In [46]:
df['2010-2015 증가율'] = df['2010-2015 증가율'] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [47]:
df['2005-2010 증가율'] = ((df['2010'] - df['2005']) / df['2005'] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [48]:
del df['2010-2015 증가율']
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [49]:
del df['205-2010 증가율']
df

KeyError: '205-2010 증가율'

In [None]:
df['지역']

In [None]:
df['2010', '2015']

In [None]:
df[['2010', '2015']]

In [None]:
df['2010'], type(df['2010'])

In [None]:
df[['2010']], type(df[['2010']])

In [None]:
import numpy as np

df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

In [None]:
df2[2]

In [None]:
df2[[1, 2]]

In [None]:
df2[[2]]

In [None]:
df

In [None]:
df[:1]

In [None]:
df[1:2]

In [None]:
df[1:3]

In [None]:
df['서울':'부산']

In [None]:
df['2015']['서울']

In [None]:
df['서울']['2015']

다음 데이터프레임에서 지정하는 데이터를 뽑아내거나 처리하라.

data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
(1) 모든 학생의 수학 점수를 시리즈로 나타낸다.

(2) 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.

(3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.

(4) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.

(5) 춘향의 점수를 데이터프레임으로 나타낸다.

(6) 향단의 점수를 시리즈로 나타낸다.

In [None]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
df

In [None]:
df['수학']

In [None]:
df[['국어', '영어']]

In [None]:
df['평균'] = round(( df['국어'] + df['영어'] + df['수학'] ) / 3, 2)
df

# df['평균 점수'] = round(df.mean(axis = 1), 2)

In [None]:
df['영어']['방자'] = 80
df['평균'] = round(( df['국어'] + df['영어'] + df['수학'] ) / 3, 2)
df

In [None]:
df[:1]

In [None]:
df.T['향단']

In [None]:
a = np.arange(1, 10).reshape(3, 3)
a

In [None]:
b = np.arange(1, 7).reshape(2, 3)
b

In [None]:
c = np.vstack((a, b))
c

In [None]:
d = np.hstack((a, b))
d

# 데이터 입출력


In [None]:
%%writefile sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

In [None]:
import pandas as pd
pd.read_csv('sample1.csv')


In [None]:
%%writefile sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

In [None]:
pd.read_csv('sample2.csv', names=['c1', 'c2', 'c3'])


In [None]:
pd.read_csv('sample2.csv')


In [None]:
pd.read_csv('sample1.csv', index_col='c1')


In [None]:
%%writefile sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

In [None]:
pd.read_table('sample3.txt', sep='\s+')


In [None]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

In [None]:
pd.read_csv('sample4.txt', skiprows=[0, 1])


In [None]:
%%writefile sample5.csv
c1, c2, c3
1, 1.11, one
2, , two
누락, 3.33, three

In [None]:
df = pd.read_csv('sample5.csv', na_values=['누락'])
df

## CSV 파일 출력

지금까지와 반대로 파이썬의 데이터프레임 값을 CSV 파일로 출력하고 싶으면 to_csv 메서드를 사용한다.

In [None]:
df.to_csv('sample6.csv')


In [None]:
!type sample6.csv


In [None]:
df.to_csv('sample7.txt', sep='|')


In [None]:
!type sample7.txt


In [None]:
df


In [None]:
df.to_csv('sample8.csv', na_rep='누락') # unicode encoding 처리 필요


In [None]:
!type sample8.csv


In [None]:
df.index = ["a", "b", "c"]
df

In [None]:
df.to_csv('sample9.csv', index=False, header=False)


In [None]:
!type sample9.csv


## 인터넷 상의 CSV 파일 입력
웹상에는 다양한 데이터 파일이 CSV 파일 형태로 제공된다.

read_csv 명령 사용시 파일 path 대신 URL을 지정하면 Pandas가 직접 해당 파일을 다운로드하여 읽어들인다.

다음은 저자의 github 웹사이트에 저장되어 있는 데이터 파일을 원격으로 읽는 명령이다.

In [64]:
df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [None]:
df.head()


In [None]:
df.tail(10)


## 인터넷 상의 데이터 베이스 자료 입력
pandas_datareader 패키지의 DataReader 을 사용하면 일부 인터넷 사이트의 자료를 바로 pandas로 읽어들일 수 있다.
pandas_datareader 패키지는 판다스와 별도로 설치해야 한다.
다음은 pandas_datareader 패키지가 제공하는 인터넷 사이트의 예이다. 일부 인터넷 사이트는 유료이므로 별도의 가입절차를 거쳐야 한다.

FRED
Fama/French
World Bank
OECD
Eurostat
EDGAR Index
TSP Fund Data
Oanda currency historical rate
Nasdaq Trader Symbol Definitions
자세한 내용은 다음 웹사이트를 참조한다.

https://pandas-datareader.readthedocs.io/en/latest/index.html
날짜는 datetime 패키지를 사용하여 지정해도 되고 문자열을 바로 사용해도 된다. (이때는 내부적으로 dateutil 패키지를 사용한다.

In [None]:
import datetime
dt_start = datetime.datetime(2015, 1, 1)
dt_end = "2016, 6, 30"

In [None]:
pip install pandas_datareader

In [None]:
import pandas_datareader as pdr


In [None]:
gdp = pdr.get_data_fred('GDP', dt_start, dt_end)
gdp.tail()

In [None]:
inflation = pdr.get_data_fred(["CPIAUCSL", "CPILFESL"], dt_start, dt_end)
inflation.tail()

# 4.3 데이터프레임 고급 인덱싱
데이터프레임에서 특정한 데이터만 골라내는 것을 인덱싱(indexing)이라고 한다.
앞 절에서는 라벨, 라벨 리스트, 인덱스데이터(정수) 슬라이스의 3가지 인덱싱 값을 사용하여 인덱싱을 하는 방법을 공부하였다.
그런데 Pandas는 numpy행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서(indexer) 속성도 제공한다.

loc : 라벨값 기반의 2차원 인덱싱 # 사람관점의 라벨인덱스 기준
iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱 # 컴퓨터관점의 인덱스 기준
loc 인덱서
loc 인덱서는 다음처럼 사용한다.

df.loc[행 인덱싱값]
또는

df.loc[행 인덱싱값, 열 인덱싱값]
이 때 인덱싱 값은 다음 중 하나이다. 행 인덱싱값은 정수 또는 행 인덱스데이터이고 열 인덱싱값은 라벨 문자열이다.

인덱스데이터
인덱스데이터 슬라이스
인덱스데이터 리스트
같은 행 인덱스를 가지는 불리언 시리즈 (행 인덱싱의 경우)
또는 위의 값들을 반환하는 함수
다음과 같은 데이터프레임을 예로 들자.

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

In [None]:
df['A']


In [None]:
df.loc["a"]


In [None]:
df.loc["b":"c"]


In [None]:
df["b":"c"]


In [None]:
df[["b", "c"]] # KeyError


In [None]:
df.A > 15


In [None]:
df.loc[df.A > 15]


In [None]:
def select_rows(df):
    return df.A > 15

In [None]:
select_rows(df)


In [None]:
df.loc[select_rows(df)]


In [None]:
df['A']


In [None]:
df.loc["A"]  # KeyError


In [None]:
df[["A", "B"]] 


In [None]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=["A", "B", "C", "D"])
df2

In [None]:
df2.loc[1:2]

In [None]:
df2[1:3]

# 인덱싱값을 행과 열 모두 받는 경우
인덱싱값을 행과 열 모두 받으려면 df.loc[행 인덱스, 열 인덱스]와 같은 형태로 사용한다.

행 인덱스 라벨값이 a, 열 인덱스 라벨값이 A인 위치의 값을 구하는 것은 다음과 같다.

In [None]:
df


In [None]:
df.loc["a", "A"]


In [None]:
df.loc["b": , "A"]


In [None]:
df.loc["a", :]


In [None]:
df.loc[["a", "b"], ["B", "D"]]


In [None]:
df.loc[df.A > 10, ["C", "D"]]


## iloc 인덱서
iloc 인덱서는 loc 인덱서와 반대로 라벨이 아니라 순서를 나타내는 정수(integer) 인덱스만 받는다. 다른 사항은 loc 인덱서와 같다.

In [None]:
df

In [None]:
df.iloc[0, 1]


In [None]:
df.iloc[:2, 2]


In [None]:
df.iloc[0, -2:]


In [None]:
df.iloc[2:3, 1:3]


In [None]:
df


In [None]:
df.iloc[-1]


In [None]:
df.iloc[-1] = df.iloc[-1] * 2
df

In [66]:
import pandas as pd
import numpy as np
import seaborn as sns

In [None]:
s = pd.Series(range(10))
s

In [None]:
s[3] = np.nan
s

In [None]:
s.count()


In [None]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

In [None]:
df.count()


In [None]:
import seaborn as sns


In [67]:
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [None]:
titanic.count()


In [None]:
len(titanic)

## 카테고리 값 세기
{margin}
`value_counts`
시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 value_counts 메서드로 각각의 값이 나온 횟수를 셀 수 있다.

In [None]:
import pandas as pd
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail()

In [None]:
s2.value_counts()


In [None]:
df[0].value_counts()


## 정렬
{margin}
`sort_index`
{margin}
`sort_values`
데이터를 정렬하려면 sort_index 메서드 sort_values 메서드를 사용한다.
sort_index 메서드는 인덱스 값을 기준으로, sort_values 메서드는 데이터 값을 기준으로 정렬한다.

앞에서 s2 시리즈의 각 데이터 값에 따른 데이터 갯수를 인덱스에 따라 정렬하려면 다음처럼 sort_index를 적용한다.

In [None]:
s2.value_counts().sort_index()

In [None]:
s2.value_counts()

In [None]:
s.sort_values()

In [None]:
s.sort_values(ascending = False)

In [None]:
df

In [None]:
df.sort_values(by = 1)

In [None]:
df.sort_values(by = [1, 2])

In [None]:
titanic[['sex', 'age', 'class', 'alive']]


In [None]:
titanic['sex'].sort_values()


In [None]:
titanic['sex'].sort_values().value_counts()


In [None]:
titanic['sex'].value_counts()

In [None]:
list1 = ['sex', 'age', 'class', 'alive']
for l in list1:
    print(titanic[l].value_counts())
    print('='*10)

## 행/열 합계
{margin}
`sum`
행과 열의 합계를 구할 때는 sum(axis) 메서드를 사용한다. axis 인수에는 합계로 인해 없어지는 방향축(0=행, 1=열)을 지정한다.

In [None]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

In [None]:
df2.sum(axis=1)


In [None]:
df2["RowValSum"] = df2.sum(axis=1)
df2

In [None]:
df2.sum()


In [None]:
df2.loc["ColValTotal"] = df2.sum()
df2

In [None]:
df2.loc["ColTotal", :] = df2.sum()
df2

In [63]:
titanic

NameError: name 'titanic' is not defined

In [None]:
titanic['age mean'] = round(titanic['age'].mean(), 2)
titanic.head()

In [None]:
titanic['sex'] == 'female'

In [None]:
titanic[titanic['sex']=='female']['age'].mean()

In [None]:
titanic[titanic['sex']=='female']

In [None]:
titanic[(titanic['sex']=='female') & (titanic['pclass'] == 1)]['age'].mean()

## apply 변환
행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply 메서드를 사용한다.
인수로 행 또는 열을 받는 함수를 apply 메서드의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용시킨다.

In [57]:
df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [None]:
df3.apply(lambda x: x.max() - x.min(), axis = 0)

In [None]:
df3.apply(lambda x: x.max() - x.min(), axis = 1)

In [None]:
df3

In [None]:
df3.apply(pd.value_counts)

In [None]:
titanic

In [None]:
titanic['adult/child'] = titanic['age'].apply(lambda x: 'adult' if x > 20 else 'child')
titanic.tail(10)

# 12월 20일 시작

In [None]:
titanic['category1'] = titanic.apply(lambda x : x.sex if x.age >= 20 else 'child', axis = 1)

In [None]:
titanic

In [58]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [59]:
df3['A']

0    1
1    3
2    4
3    3
4    4
Name: A, dtype: int64

In [60]:
df3.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [61]:
df3.apply(pd.value_counts).fillna(0.0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [68]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [69]:
titanic['age']

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: age, Length: 891, dtype: float64

In [71]:
round(titanic['age'].mean(), 2)

29.7

In [77]:
titanic['age'].fillna(round(titanic['age'].mean()))

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888    29.7
889    26.0
890    32.0
Name: age, Length: 891, dtype: float64

In [74]:
titanic['age'] = titanic['age'].fillna(round(titanic['age'].mean(), 2))
# titanic['age'].fillna(rount(titanic['age'].mean()), inplace = True)

In [78]:
titanic['age'].isnull().sum()

0

## astype 메서드

In [79]:
df3.apply(pd.value_counts).fillna(0).astype(int)

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


In [80]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [82]:
titanic['sex']

0        male
1      female
2      female
3      female
4        male
        ...  
886      male
887    female
888    female
889      male
890      male
Name: sex, Length: 891, dtype: object

In [83]:
titanic['age']

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888    29.7
889    26.0
890    32.0
Name: age, Length: 891, dtype: float64

In [91]:
titanic['category2'] = titanic['sex'] + titanic['age'].astype(str)

In [86]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category2
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male22.0
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female38.0
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female26.0
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female35.0
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male35.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male27.0
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,female19.0
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,female29.7
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male26.0


In [92]:
titanic.age

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888    29.7
889    26.0
890    32.0
Name: age, Length: 891, dtype: float64

In [94]:
titanic['age']

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888    29.7
889    26.0
890    32.0
Name: age, Length: 891, dtype: float64

In [95]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]


In [96]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

In [97]:
cats = pd.cut(ages, bins, labels = labels)
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '장년', '미성년자', '중년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [98]:
cats = pd.cut(ages, bins)
cats

[NaN, (1.0, 20.0], (1.0, 20.0], (20.0, 30.0], (20.0, 30.0], ..., (50.0, 70.0], (1.0, 20.0], (30.0, 50.0], (30.0, 50.0], NaN]
Length: 12
Categories (5, interval[int64, right]): [(1, 20] < (20, 30] < (30, 50] < (50, 70] < (70, 100]]

In [99]:
pd.cut?

In [100]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [101]:
cats.categories

IntervalIndex([(1, 20], (20, 30], (30, 50], (50, 70], (70, 100]], dtype='interval[int64, right]')

In [102]:
cats.codes

array([-1,  0,  0,  1,  1,  2,  2,  3,  0,  2,  2, -1], dtype=int8)

In [115]:
df4 = pd.DataFrame(ages, columns = ['ages'])
df4

Unnamed: 0,ages
0,0
1,2
2,10
3,21
4,23
5,37
6,31
7,61
8,20
9,41


In [116]:
df4['age_cat'] = pd.cut(df4.ages, bins, labels = labels)
print(bins)
print(labels)
df4

[1, 20, 30, 50, 70, 100]
['미성년자', '청년', '중년', '장년', '노년']


Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,중년
6,31,중년
7,61,장년
8,20,미성년자
9,41,중년


In [117]:
df4['age_cat']

0      NaN
1     미성년자
2     미성년자
3       청년
4       청년
5       중년
6       중년
7       장년
8     미성년자
9       중년
10      중년
11     NaN
Name: age_cat, dtype: category
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [118]:
df4.age_cat.astype(str) + df4.ages.astype(str)

0       nan0
1      미성년자2
2     미성년자10
3       청년21
4       청년23
5       중년37
6       중년31
7       장년61
8     미성년자20
9       중년41
10      중년32
11    nan101
dtype: object

In [111]:
import random

In [112]:
data = np.random.randn(1000)
cats = pd.qcut(data, 4, labels=['Q1', 'Q2', 'Q3', 'Q4'])
cats

['Q3', 'Q1', 'Q4', 'Q3', 'Q4', ..., 'Q3', 'Q1', 'Q2', 'Q4', 'Q1']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [114]:
pd.value_counts(cats)

Q1    250
Q2    250
Q3    250
Q4    250
Name: count, dtype: int64

In [120]:
pd.qcut?

In [121]:
bins = [1, 20, 40, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

In [122]:
titan = pd.cut(titanic['age'], bins, labels = labels)
titan

0        청년
1        청년
2        청년
3        청년
4        청년
       ... 
886      청년
887    미성년자
888      청년
889      청년
890      청년
Name: age, Length: 891, dtype: category
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [127]:
titan.value_counts()

age
청년      562
미성년자    165
중년       86
장년       59
노년        5
Name: count, dtype: int64

In [128]:
titan.value_counts()/ len(titan) * 100    

age
청년      63.075196
미성년자    18.518519
중년       9.652076
장년       6.621773
노년       0.561167
Name: count, dtype: float64

In [129]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category2
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male22.0
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female38.0
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female26.0
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female35.0
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male35.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male27.0
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,female19.0
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,female29.7
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male26.0


In [136]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
sexlabel = ['남성', '여성']

In [133]:
pd.cut(titanic['age'], bins, labels = labels)

0        청년
1        중년
2        청년
3        중년
4        중년
       ... 
886      청년
887    미성년자
888      청년
889      청년
890      중년
Name: age, Length: 891, dtype: category
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [151]:
titanic['category3'] = pd.cut(titanic['age'], bins, labels = labels).astype(str) + titanic['sex'].apply(lambda x : '남성' if x == 'male' else '여성').astype(str)

In [150]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category2,category3
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male22.0,청년남성
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female38.0,중년여성
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female26.0,청년여성
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female35.0,중년여성
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male35.0,중년남성
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male27.0,청년남성
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,female19.0,미성년자여성
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,female29.7,청년여성
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male26.0,청년남성


# 데이터프레임 인덱스 조작
데이터프레임 인덱스 설정 및 제거
때로는 데이터프레임에 인덱스로 들어가 있어야 할 데이터가 일반 데이터 열에 들어가 있거나
반대로 일반 데이터 열이어야 할 것이 인덱스로 되어 있을 수 있다.
이 때는 set_index 명령이나 reset_index 명령으로 인덱스와 일반 데이터 열을 교환할 수 있다.

set_index : 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정
reset_index : 기존의 행 인덱스를 제거하고 인덱스를 데이터 열로 추가

In [152]:
import pandas as pd

In [153]:
np.round(np.random.rand(3, 5), 2)

array([[0.68, 0.35, 0.02, 0.13, 0.68],
       [0.41, 0.07, 0.35, 0.78, 0.72],
       [0.23, 0.9 , 0.48, 0.95, 0.94]])

In [154]:
np.vstack([list('ABCDE'), np.round(np.random.rand(3, 5), 2)])

array([['A', 'B', 'C', 'D', 'E'],
       ['0.9', '0.11', '0.01', '0.64', '0.5'],
       ['0.58', '0.14', '0.84', '0.95', '0.12'],
       ['0.49', '0.13', '0.04', '0.58', '0.1']], dtype='<U32')

In [156]:
np.random.seed(0)
df1 = pd.DataFrame(np.vstack([list('ABCDE'), np.round(np.random.rand(3, 5), 2)]).T, columns = ['C1', 'C2', 'C3', 'C4'])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [157]:
df2 = df1.set_index('C1')
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [159]:
df2.reset_index()

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [160]:
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [161]:
df2.reset_index(drop = True)

Unnamed: 0,C2,C3,C4
0,0.55,0.65,0.79
1,0.72,0.44,0.53
2,0.6,0.89,0.57
3,0.54,0.96,0.93
4,0.42,0.38,0.07


In [162]:
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [163]:
df2.reset_index(drop = False)

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07
