# 판다스(Pandas)

판다스는 데이터분석을 쉽게 하기 위하여 사용하는 파이썬(python) 패키지(package) 입니다. 

쉽게 말해서 엑셀의 파이썬 버전이라고 생각하시면 됩니다.

## 판다스의 특징

### 판다스를 사용하는 이유는 무엇일까요?

#### 1. 엑셀보다 더 많은 데이터를 다룰 수 있다.
 - 엑셀의 경우 컴퓨터 사양에 따라 다르지만 데이터의 크기가 커지면 데이터를 불러오는데 시간이 오래 걸립니다. (버벅거리면서 한참을 기다려야 하는 경험들을 해보셨을거에요)
 - 판다스는 엑셀보다 더 크기가 큰 데이터를 불러오는 데 효율적입니다.
 
#### 2. 데이터를 인덱싱하기 쉽다.
 - '인덱싱' 이라는 용어는 전체 데이터 중에서 내가 원하는 데이터를 특정 조건에 따라 구분해서 가져오는 것을 말합니다.
 - 엑셀에서는 if 함수를 사용해서 특정 데이터를 불러오곤 하죠.
 - 판다스에서는 엑셀보다 훨씬 쉽게 인덱싱이 가능하답니다. (물론 판다스 연습이 필요하겠죠?^^)
 
#### 3. 머신러닝, 인공지능 등과 접목이 쉽다.
 - 머신러닝, 인공지능을 데이터에 적용하기 위해서는 컴퓨터가 효과적으로 분석 및 예측을 하게 하기 위한 데이터 정제 과정이 필요합니다.
 - 판다스는 데이터를 정제하고 머신러닝, 인공지능 모델을 적용하는데 매우 용이합니다.
 - 이것이 판다스를 사용하는 가장 중요한 이유이지요.
 
#### 이제부터 판다스의 다양한 기능들을 하나씩 살펴보도록 하겠습니다. 
 - 이번에 설명드릴 기능외에도 판다스는 수많은 기능들을 보유하고 있습니다. 
 - 더 많은 기능에 대해 알고 싶으신 분들을 위해 '10 minute Pandas' 문서를 링크걸어놓았으니 참고부탁드립니다.
 
 https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html

### 판다스 모듈 불러오기

판다스의 모듈명을 pandas이며 보통 'pd' 용어로 약칭해서 사용합니다

In [2]:
import pandas as pd

### 판다스 자료구조

#### 판다스는 행(row) 과 열(column) 로 데이터를 구조화 합니다.
 - 1차원 구조인 시리즈(Series)와 2차원 구조인 데이터프레임(DataFrame)이 있습니다.
 - 데이터의 형태를 알아보기 위해서 type()을 사용합니다.
 - 행과 열의 갯수를 확인하기 위해서 shape()을 사용합니다.

### 시리즈 (series)

시리즈는 1차원 구조입니다. 

여러 개의 행(row)과 하나의 열(column)로 구조화되어 있습니다.

#### 시리즈 만들기 1)

시리즈는 딕셔너리 형태로 만들수 있습니다. 

딕셔너리의 키(key)가 행이 되고 벨류(value)가 열이 됩니다. 

In [3]:
dt={1:'a', 2:'b', 3:'c', 4:'d'}

In [4]:
sr=pd.Series(dt)
sr

1    a
2    b
3    c
4    d
dtype: object

In [5]:
# type( ) 함수를 활용하면 데이터의 형태를 알 수 있습니다.

type(sr)

pandas.core.series.Series

In [6]:
# shape( ) 함수를 사용하면 데이터의 구조를 알 수 있습니다.
# 시리즈는 하나의 열(column)컬럼으로 구조화되어 있기 때문에 행(row)정보만 나옵니다.

sr.shape

(4,)

In [7]:
# 시리즈의 인덱스 정보를 확인할 수 있습니다.

sr.index

Int64Index([1, 2, 3, 4], dtype='int64')

In [8]:
# 시리즈의 값을 확인할 수 있습니다.

sr.values

array(['a', 'b', 'c', 'd'], dtype=object)

#### 시리즈 만들기 2)

리스트로 시리즈를 만들면 인덱스는 자동으로 0부터 부여하게 됩니다.

In [9]:
dt2=['a', 'b', 'c', 'd']

In [10]:
sr2=pd.Series(dt2)
sr2

0    a
1    b
2    c
3    d
dtype: object

In [11]:
# 시리즈의 인덱스 정보를 확인하면 인덱스의 시작값, 끝나는 값 다음값, 변하는 값을 알 수 있습니다.
# for in range 구문의 range( )와 유사합니다.

sr2.index

RangeIndex(start=0, stop=4, step=1)

In [12]:
# 시리즈의 값을 확인할 수 있습니다.
sr2.values

array(['a', 'b', 'c', 'd'], dtype=object)

#### 시리즈 만들기 3)

리스트로 데이터를 넣고, 시리즈로 변환시 인덱스를 설정할 수 있습니다.

In [13]:
dt3=['a', 'b', 'c', 'd']
sr3=pd.Series(dt3, index=['가', '나', '다','라'])
sr3

가    a
나    b
다    c
라    d
dtype: object

In [14]:
# 시리즈의 0번째 위치한 값을 불러옵니다.

sr3[0]

'a'

In [15]:
# 시리즈의 인덱스 '가'에 위치한 값을 불러옵니다.

sr3['가']

'a'

In [16]:
# 시리즈의 0번째, 2번째 위치한 값을 불러옵니다.
# 두 개이상의 위치를 불러올 때는 리스트로 묶어줍니다.

sr3[[0,2]]

가    a
다    c
dtype: object

In [17]:
# 시리즈의 인덱스 '가', '다'에 위치한 값을 불러옵니다.

sr3[['가','다']]

가    a
다    c
dtype: object

In [18]:
# 시리즈의 0번째에서부터 2번째까지 위치한 값을 불러옵니다.

sr3[0:3]

가    a
나    b
다    c
dtype: object

In [19]:
# 시리즈의 인덱스'가'에서부터 인덱스 '라'까지 위치한 값을 불러옵니다.

sr3['가':'라']

가    a
나    b
다    c
라    d
dtype: object

### 데이터프레임(Dataframe)

데이터프레임은 2차원 구조입니다. 

여러 개의 행(row)과 여러 개의 열(column)로 구조화되어 있습니다.

#### 데이터프레임 만들기

데이터프레임은 딕셔너리 형태로 만들수 있습니다. 

딕셔너리의 키(key)가 열(column)이름이 되고 벨류(value)가 각 열의 데이터가 됩니다. 

In [20]:
dt={'a':['가', '나', '다'], 'b':['고', '노', '도'], 'c':['기','니','디']}

In [21]:
df=pd.DataFrame(dt)
df

Unnamed: 0,a,b,c
0,가,고,기
1,나,노,니
2,다,도,디


In [22]:
# type( ) 함수를 활용하면 데이터의 형태를 알 수 있습니다.

type(df)

pandas.core.frame.DataFrame

In [23]:
# shape( ) 함수를 사용하면 데이터의 구조를 알 수 있습니다.
# 데이터프레임은 여러 개의 행(row)와 여러 개의 열(column)로 구조화되어 있기 때문에 열과 행의 정보를 알 수 있습니다..

df.shape

(3, 3)

#### 인덱스 설정

In [24]:
dt={'a':['가', '나', '다'], 'b':['고', '노', '도'], 'c':['기','니','디']}

In [25]:
# 데이터프레임으로 변환할 때 인덱스 설정을 할 수 있습니다.

df2=pd.DataFrame(dt, index=['ㄱ', 'ㄴ', 'ㄷ'])
df2

Unnamed: 0,a,b,c
ㄱ,가,고,기
ㄴ,나,노,니
ㄷ,다,도,디


#### 컬럼 이름 설정

In [26]:
dt2=[['가', '나', '다'], ['고', '노', '도'], ['기','니','디']]

In [27]:
# 데이터프레임으로 변환할 때 컬럼 설정을 할 수 있습니다.

df3=pd.DataFrame(dt2, columns=['a','b','c'])
df3

Unnamed: 0,a,b,c
0,가,나,다
1,고,노,도
2,기,니,디


#### 인덱스와 컬럼 설정

In [28]:
dt2=[['가', '나', '다'], ['고', '노', '도'], ['기','니','디']]

In [29]:
# 데이터프레임으로 변환할 때 컬럼과 인덱스 설정을 할 수 있습니다.

df4=pd.DataFrame(dt2, columns=['a','b','c'], index=['ㄱ', 'ㄴ', 'ㄷ'])
df4

Unnamed: 0,a,b,c
ㄱ,가,나,다
ㄴ,고,노,도
ㄷ,기,니,디


In [30]:
# 데이터프레임의 인덱스 정보를 확인할 수 있습니다.

df4.index

Index(['ㄱ', 'ㄴ', 'ㄷ'], dtype='object')

In [31]:
# 데이터프레임의 컬럼 정보를 확인할 수 있습니다.

df4.columns

Index(['a', 'b', 'c'], dtype='object')

#### 인덱스, 컬럼 이름 변경하기

In [32]:
df4

Unnamed: 0,a,b,c
ㄱ,가,나,다
ㄴ,고,노,도
ㄷ,기,니,디


In [33]:
# 인덱스를 재설정 할 수 있습니다.

df4.index=[1,2,3]
df4

Unnamed: 0,a,b,c
1,가,나,다
2,고,노,도
3,기,니,디


In [34]:
# 컬럼 이름을 재설정 할 수 있습니다.

df4.columns=['d','e','f']
df4

Unnamed: 0,d,e,f
1,가,나,다
2,고,노,도
3,기,니,디


In [35]:
# 인덱스를 변경 할 수 있습니다.

df4.rename(index={1:'ㄱ', 3:'ㄷ'})

Unnamed: 0,d,e,f
ㄱ,가,나,다
2,고,노,도
ㄷ,기,니,디


In [36]:
# 위에서 변경한 인덱스가 반영이 안되었네요. 

df4

Unnamed: 0,d,e,f
1,가,나,다
2,고,노,도
3,기,니,디


In [37]:
# 변경한 인덱스를 반영하기 위해서는 변경 후 다시 객체에 저장해야 합니다.

df4=df4.rename(index={1:'ㄱ', 3:'ㄷ'})
df4

Unnamed: 0,d,e,f
ㄱ,가,나,다
2,고,노,도
ㄷ,기,니,디


In [38]:
# inplace옵션을 True로 설정하면 변경한 인덱스를 반영할 수 있습니다.

df4.rename(index={1:'ㄱ', 3:'ㄷ'}, inplace=True)
df4

Unnamed: 0,d,e,f
ㄱ,가,나,다
2,고,노,도
ㄷ,기,니,디


In [39]:
# 컬럼명을 변경 할 수 있습니다.

df4.rename(columns={'d':'h', 'f':'j'})

Unnamed: 0,h,e,j
ㄱ,가,나,다
2,고,노,도
ㄷ,기,니,디


In [40]:
df4

Unnamed: 0,d,e,f
ㄱ,가,나,다
2,고,노,도
ㄷ,기,니,디


In [41]:
# 변경한 컬럼명을 반영하기 위해서는 변경 후 다시 객체에 저장해야 합니다.

df4=df4.rename(columns={'d':'h', 'f':'j'})
df4

Unnamed: 0,h,e,j
ㄱ,가,나,다
2,고,노,도
ㄷ,기,니,디


In [42]:
# inplace옵션을 True로 설정하면 변경한 컬럼명을 반영할 수 있습니다.

df4.rename(columns={'d':'h', 'f':'j'}, inplace=True)
df4

Unnamed: 0,h,e,j
ㄱ,가,나,다
2,고,노,도
ㄷ,기,니,디


#### 행(row) 삭제하기

In [43]:
df3

Unnamed: 0,a,b,c
0,가,나,다
1,고,노,도
2,기,니,디


In [44]:
# 1행을 삭제합니다. axis=0 은 행을 의미합니다.

df3.drop(1, axis=0)

Unnamed: 0,a,b,c
0,가,나,다
2,기,니,디


#### 열(column) 삭제하기

In [45]:
# 'b'열을 삭제합니다. axis=1 은 열을 의미합니다.

df3.drop('b', axis=1)

Unnamed: 0,a,c
0,가,다
1,고,도
2,기,디


In [46]:
df3

Unnamed: 0,a,b,c
0,가,나,다
1,고,노,도
2,기,니,디


In [47]:
# 인덱스 삭제를 반영하기 위해서는 삭제 후 다시 객체에 저장해야 합니다.

df3=df3.drop(1, axis=0)
df3

Unnamed: 0,a,b,c
0,가,나,다
2,기,니,디


In [48]:
# 컬럼 삭제를 반영하기 위해서는 삭제 후 다시 객체에 저장해야 합니다.

df3=df3.drop('b', axis=1)
df3

Unnamed: 0,a,c
0,가,다
2,기,디


In [49]:
dt2=[['가', '나', '다'], ['고', '노', '도'], ['기','니','디']]
df3=pd.DataFrame(dt2, columns=['a','b','c'])
df3

Unnamed: 0,a,b,c
0,가,나,다
1,고,노,도
2,기,니,디


In [50]:
# inplace옵션을 True로 설정하면 인덱스 삭제를 반영할 수 있습니다.

df3.drop(1, axis=0, inplace=True)
df3

Unnamed: 0,a,b,c
0,가,나,다
2,기,니,디


In [51]:
# inplace옵션을 True로 설정하면 컬럼 삭제를 반영할 수 있습니다.

df3.drop('b', axis=1, inplace=True)
df3

Unnamed: 0,a,c
0,가,다
2,기,디


In [52]:
dt2=[['가', '나', '다'], ['고', '노', '도'], ['기','니','디']]
df3=pd.DataFrame(dt2, columns=['a','b','c'])
df3

Unnamed: 0,a,b,c
0,가,나,다
1,고,노,도
2,기,니,디


In [53]:
# 0행, 2행을 삭제합니다.
# axis 설정은 0이 디폴트입니다.

df3.drop([0,2])

Unnamed: 0,a,b,c
1,고,노,도


In [54]:
# 컬럼 'a', 'c'를 삭제합니다.

df3.drop(['a','c'], axis=1)

Unnamed: 0,b
0,나
1,노
2,니


### 데이터 불러오기 (필터링, 인덱싱)

In [55]:
dt2=[['가', '고', '거','구'], ['나', '노', '너','누'], ['다','도','더','두'], ['라','로','러','루']]
dt2

[['가', '고', '거', '구'],
 ['나', '노', '너', '누'],
 ['다', '도', '더', '두'],
 ['라', '로', '러', '루']]

In [56]:
df3=pd.DataFrame(dt2, columns=['a','b','c','d'], index=['ㄱ','ㄴ','ㄷ','ㄹ'])
df3

Unnamed: 0,a,b,c,d
ㄱ,가,고,거,구
ㄴ,나,노,너,누
ㄷ,다,도,더,두
ㄹ,라,로,러,루


#### loc를 사용하면 해당 인덱스의 데이터를 불러올 수 있습니다.

In [57]:
# 인덱스 'ㄴ'의 데이터를 불러옵니다.

df3.loc['ㄴ']

a    나
b    노
c    너
d    누
Name: ㄴ, dtype: object

In [58]:
# 인덱스 'ㄱ'와 'ㄷ'의 데이터를 불러옵니다.

df3.loc[['ㄱ','ㄷ']]

Unnamed: 0,a,b,c,d
ㄱ,가,고,거,구
ㄷ,다,도,더,두


In [59]:
# 인덱스 'ㄱ'부터 인덱스'ㄷ'까지의 데이터를 불러옵니다.

df3.loc['ㄱ':'ㄷ']

Unnamed: 0,a,b,c,d
ㄱ,가,고,거,구
ㄴ,나,노,너,누
ㄷ,다,도,더,두


#### iloc를 사용하면 정수 위치 인덱스의 데이터를 불러올 수 있습니다.

In [60]:
# 정수 인덱스 1에 위치한 데이터를 불러옵니다.

df3.iloc[1]

a    나
b    노
c    너
d    누
Name: ㄴ, dtype: object

In [61]:
# 정수 인덱스 1과 인덱스 3에 위치한 데이터를 불러옵니다.

df3.iloc[[1,3]]

Unnamed: 0,a,b,c,d
ㄴ,나,노,너,누
ㄹ,라,로,러,루


In [62]:
# 정수 인덱스 1부터 인덱스 2까지 위치한 데이터를 불러옵니다.

df3.iloc[1:3]

Unnamed: 0,a,b,c,d
ㄴ,나,노,너,누
ㄷ,다,도,더,두


#### 해당 열(column)의 데이터를 불러옵니다.

In [63]:
df3

Unnamed: 0,a,b,c,d
ㄱ,가,고,거,구
ㄴ,나,노,너,누
ㄷ,다,도,더,두
ㄹ,라,로,러,루


In [477]:
# b열의 데이터를 불러옵니다.

df3['b']

ㄱ    고
ㄴ    노
ㄷ    도
ㄹ    로
Name: b, dtype: object

In [66]:
type(df3['b'])

pandas.core.series.Series

In [64]:
# b열의 데이터를 불러옵니다.

df3.b

ㄱ    고
ㄴ    노
ㄷ    도
ㄹ    로
Name: b, dtype: object

In [65]:
# a열과 c열의 데이터를 불러옵니다.
# 두 개 이상의 열을 불러올 때는 리스트를 사용합니다.

df3[['a','c']]

Unnamed: 0,a,c
ㄱ,가,거
ㄴ,나,너
ㄷ,다,더
ㄹ,라,러


In [68]:
type(df3[['a','c']])

pandas.core.frame.DataFrame

In [67]:
# b열의 데이터를 불러옵니다.
# 리스트로 처리하면 데이터프레임 형태로 반환됩니다.

df3[['b']]

Unnamed: 0,b
ㄱ,고
ㄴ,노
ㄷ,도
ㄹ,로


In [69]:
type(df3[['b']])

pandas.core.frame.DataFrame

#### 열과 행에 따라 데이터를 불러올 수 있습니다.

- 인덱스 이름 : 객체.loc[행 인덱스, 열 이름]

- 정수 위치 인덱스 : 객체.iloc[행번호, 열번호]

In [70]:
df3

Unnamed: 0,a,b,c,d
ㄱ,가,고,거,구
ㄴ,나,노,너,누
ㄷ,다,도,더,두
ㄹ,라,로,러,루


In [71]:
# ㄱ행, c열의 데이터를 불러옵니다.

df3.loc['ㄱ','c']

'거'

In [72]:
# ㄱ행, b, c열의 데이터를 불러옵니다.

df3.loc['ㄱ',['b','c']]

b    고
c    거
Name: ㄱ, dtype: object

In [73]:
# ㄱ, ㄷ행, b, c열의 데이터를 불러옵니다.

df3.loc[['ㄱ','ㄷ'],['b','c']]

Unnamed: 0,b,c
ㄱ,고,거
ㄷ,도,더


In [485]:
# 0 위치 인덱스, 2 위치 컬럼의 데이터를 불러옵니다.

df3.iloc[0,2]

'거'

In [74]:
# 0 위치 인덱스, 1위치 컬럼부터 2위치 컬럼까지의 데이터를 불러옵니다.

df3.iloc[0,1:3]

b    고
c    거
Name: ㄱ, dtype: object

In [75]:
# 0 위치 인덱스부터 1위치 인덱스까지, 1위치 컬럼부터 2위치 컬럼까지의 데이터를 불러옵니다.

df3.iloc[0:2,1:3]

Unnamed: 0,b,c
ㄱ,고,거
ㄴ,노,너


In [76]:
# 0 위치 인덱스부터 1위치 인덱스까지, 1위치 컬럼부터 컬럼끝까지의 데이터를 불러옵니다.

df3.iloc[0:2,1:]

Unnamed: 0,b,c,d
ㄱ,고,거,구
ㄴ,노,너,누


In [77]:
# 모든 위치 인덱스, 2위치 컬럼부터 컬럼끝까지의 데이터를 불러옵니다.

df3.iloc[:,2:]

Unnamed: 0,c,d
ㄱ,거,구
ㄴ,너,누
ㄷ,더,두
ㄹ,러,루


In [78]:
# 1 위치 인덱스, 3위치 인덱스, 0위치 컬럼, 2위치 컬럼의 데이터를 불러옵니다.

df3.iloc[[1,3],[0,2]]

Unnamed: 0,a,c
ㄴ,나,너
ㄹ,라,러


#### 데이터 추가 / 변경하기

In [79]:
df3

Unnamed: 0,a,b,c,d
ㄱ,가,고,거,구
ㄴ,나,노,너,누
ㄷ,다,도,더,두
ㄹ,라,로,러,루


In [80]:
# 'e'컬럼을 생성하고 데이터로 '긔'를 넣습니다.

df3['e']='긔'
df3

Unnamed: 0,a,b,c,d,e
ㄱ,가,고,거,구,긔
ㄴ,나,노,너,누,긔
ㄷ,다,도,더,두,긔
ㄹ,라,로,러,루,긔


In [81]:
# 'e'컬럼을 생성하고 데이터로 '긔','늬','듸','릐'를 넣습니다.

df3['e']=['긔','늬','듸','릐']
df3

Unnamed: 0,a,b,c,d,e
ㄱ,가,고,거,구,긔
ㄴ,나,노,너,누,늬
ㄷ,다,도,더,두,듸
ㄹ,라,로,러,루,릐


In [82]:
# 'ㅁ'행을 생성하고 데이터로 '마'를 넣습니다.

df3.loc['ㅁ']='마'
df3

Unnamed: 0,a,b,c,d,e
ㄱ,가,고,거,구,긔
ㄴ,나,노,너,누,늬
ㄷ,다,도,더,두,듸
ㄹ,라,로,러,루,릐
ㅁ,마,마,마,마,마


In [83]:
# 'ㅁ'행을 생성하고 데이터로 '마','모','머','무','믜'를 넣습니다.

df3.loc['ㅁ']=['마','모','머','무','믜']
df3

Unnamed: 0,a,b,c,d,e
ㄱ,가,고,거,구,긔
ㄴ,나,노,너,누,늬
ㄷ,다,도,더,두,듸
ㄹ,라,로,러,루,릐
ㅁ,마,모,머,무,믜


In [84]:
# 컬럼 e의 데이터를 '그'로 변경합니다.

df3['e']='그'
df3

Unnamed: 0,a,b,c,d,e
ㄱ,가,고,거,구,그
ㄴ,나,노,너,누,그
ㄷ,다,도,더,두,그
ㄹ,라,로,러,루,그
ㅁ,마,모,머,무,그


In [85]:
# 컬럼 e의 데이터를 '그','느','드','르','므'로 변경합니다.

df3['e']=['그','느','드','르','므']
df3

Unnamed: 0,a,b,c,d,e
ㄱ,가,고,거,구,그
ㄴ,나,노,너,누,느
ㄷ,다,도,더,두,드
ㄹ,라,로,러,루,르
ㅁ,마,모,머,무,므


In [86]:
# 정수 위치 인덱스 1행, 3열의 데이터를 '후'로 변경합니다.

df3.iloc[1,3]='후'
df3

Unnamed: 0,a,b,c,d,e
ㄱ,가,고,거,구,그
ㄴ,나,노,너,후,느
ㄷ,다,도,더,두,드
ㄹ,라,로,러,루,르
ㅁ,마,모,머,무,므


In [87]:
# 정수 위치 인덱스 2행, 3열의 데이터를 '푸'로 변경합니다.

df3.iloc[2][3]='푸'
df3

Unnamed: 0,a,b,c,d,e
ㄱ,가,고,거,구,그
ㄴ,나,노,너,후,느
ㄷ,다,도,더,푸,드
ㄹ,라,로,러,루,르
ㅁ,마,모,머,무,므


In [500]:
# 인덱스 'ㄴ', 컬럼 'c'의 데이터를 '허'로 변경합니다.

df3.loc['ㄴ','c']='허'
df3

Unnamed: 0,a,b,c,d,e
ㄱ,가,고,거,구,그
ㄴ,나,노,허,후,느
ㄷ,다,도,더,푸,드
ㄹ,라,로,러,루,르
ㅁ,마,모,머,무,므


In [88]:
# 인덱스 'ㄷ', 컬럼 'c'의 데이터를 '퍼'로 변경합니다.

df3.loc['ㄷ']['c']='퍼'
df3

Unnamed: 0,a,b,c,d,e
ㄱ,가,고,거,구,그
ㄴ,나,노,너,후,느
ㄷ,다,도,퍼,푸,드
ㄹ,라,로,러,루,르
ㅁ,마,모,머,무,므


행과 열의 위치 바꾸기

In [89]:
df3

Unnamed: 0,a,b,c,d,e
ㄱ,가,고,거,구,그
ㄴ,나,노,너,후,느
ㄷ,다,도,퍼,푸,드
ㄹ,라,로,러,루,르
ㅁ,마,모,머,무,므


In [91]:
# transpose()함수는 행과 열의 위치를 바꿔줍니다.

df3.transpose()

Unnamed: 0,ㄱ,ㄴ,ㄷ,ㄹ,ㅁ
a,가,나,다,라,마
b,고,노,도,로,모
c,거,너,퍼,러,머
d,구,후,푸,루,무
e,그,느,드,르,므


In [92]:
df3

Unnamed: 0,a,b,c,d,e
ㄱ,가,고,거,구,그
ㄴ,나,노,너,후,느
ㄷ,다,도,퍼,푸,드
ㄹ,라,로,러,루,르
ㅁ,마,모,머,무,므


In [93]:
# 반영을 위해서는 객체에 저장합니다.

df3=df3.transpose()
df3

Unnamed: 0,ㄱ,ㄴ,ㄷ,ㄹ,ㅁ
a,가,나,다,라,마
b,고,노,도,로,모
c,거,너,퍼,러,머
d,구,후,푸,루,무
e,그,느,드,르,므


#### 인덱스 활용

In [94]:
# set_index( ) 함수를 사용하면 특정 열을 인덱스로 설정할 수 있습니다.

df3.set_index(['ㄱ'])

Unnamed: 0_level_0,ㄴ,ㄷ,ㄹ,ㅁ
ㄱ,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
가,나,다,라,마
고,노,도,로,모
거,너,퍼,러,머
구,후,푸,루,무
그,느,드,르,므


In [95]:
df3

Unnamed: 0,ㄱ,ㄴ,ㄷ,ㄹ,ㅁ
a,가,나,다,라,마
b,고,노,도,로,모
c,거,너,퍼,러,머
d,구,후,푸,루,무
e,그,느,드,르,므


In [96]:
# 반영을 위해서는 객체에 저장합니다.

df4=df3.set_index('ㄱ')
df4

Unnamed: 0_level_0,ㄴ,ㄷ,ㄹ,ㅁ
ㄱ,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
가,나,다,라,마
고,노,도,로,모
거,너,퍼,러,머
구,후,푸,루,무
그,느,드,르,므


컬럼과 인덱스를 재배열합니다.

In [97]:
df3

Unnamed: 0,ㄱ,ㄴ,ㄷ,ㄹ,ㅁ
a,가,나,다,라,마
b,고,노,도,로,모
c,거,너,퍼,러,머
d,구,후,푸,루,무
e,그,느,드,르,므


In [98]:
# 인덱스를 재설정할 수 있습니다.

al=['a','b','c']
df3.reindex(al)

Unnamed: 0,ㄱ,ㄴ,ㄷ,ㄹ,ㅁ
a,가,나,다,라,마
b,고,노,도,로,모
c,거,너,퍼,러,머


In [99]:
# 기존보다 인덱스를 더 많이 설정하면 NaN값으로 처리합니다.

al=['a','b','c','d','e','f','g']
df3.reindex(al)

Unnamed: 0,ㄱ,ㄴ,ㄷ,ㄹ,ㅁ
a,가,나,다,라,마
b,고,노,도,로,모
c,거,너,퍼,러,머
d,구,후,푸,루,무
e,그,느,드,르,므
f,,,,,
g,,,,,


NaN 값이란?

- 데이터가 없을 때, 빈 값일 때 판다스에서는 NaN으로 표현
- 결손값, null값이라고도 함

In [102]:
# 기존보다 인덱스를 더 많이 설정하여 NaN값이 발생할때 0으로 채워줍니다.

al=['a','b','c','d','e','f','g']
df3.reindex(al, fill_value=0)

Unnamed: 0,ㄱ,ㄴ,ㄷ,ㄹ,ㅁ
a,가,나,다,라,마
b,고,노,도,로,모
c,거,너,퍼,러,머
d,구,후,푸,루,무
e,그,느,드,르,므
f,0,0,0,0,0
g,0,0,0,0,0


In [103]:
# 새로운 인덱스를 생성합니다.
# 인덱스는 0부터 시작하는 정수입니다. 
# 보통 문자로 인덱스가 설정되어 정수로 인덱스를 재설정하고 싶을 때 사용합니다.

df3.reset_index()

Unnamed: 0,index,ㄱ,ㄴ,ㄷ,ㄹ,ㅁ
0,a,가,나,다,라,마
1,b,고,노,도,로,모
2,c,거,너,퍼,러,머
3,d,구,후,푸,루,무
4,e,그,느,드,르,므


In [104]:
# 인덱스 기준으로 정렬합니다.
# ascending=False로 설정하면 내림차순으로 정렬합니다.

df3.sort_index(ascending=False)

Unnamed: 0,ㄱ,ㄴ,ㄷ,ㄹ,ㅁ
e,그,느,드,르,므
d,구,후,푸,루,무
c,거,너,퍼,러,머
b,고,노,도,로,모
a,가,나,다,라,마


In [105]:
# ascending=True 로 설정하면 오름차순으로 정렬합니다.
# ascending=True 가 디폴트입니다.

df3.sort_index(ascending=True)

Unnamed: 0,ㄱ,ㄴ,ㄷ,ㄹ,ㅁ
a,가,나,다,라,마
b,고,노,도,로,모
c,거,너,퍼,러,머
d,구,후,푸,루,무
e,그,느,드,르,므


In [106]:
df3.sort_index()

Unnamed: 0,ㄱ,ㄴ,ㄷ,ㄹ,ㅁ
a,가,나,다,라,마
b,고,노,도,로,모
c,거,너,퍼,러,머
d,구,후,푸,루,무
e,그,느,드,르,므


In [107]:
df5=df3.reset_index()
df5

Unnamed: 0,index,ㄱ,ㄴ,ㄷ,ㄹ,ㅁ
0,a,가,나,다,라,마
1,b,고,노,도,로,모
2,c,거,너,퍼,러,머
3,d,구,후,푸,루,무
4,e,그,느,드,르,므


In [109]:
df5.sort_index(ascending=False)

Unnamed: 0,index,ㄱ,ㄴ,ㄷ,ㄹ,ㅁ
4,e,그,느,드,르,므
3,d,구,후,푸,루,무
2,c,거,너,퍼,러,머
1,b,고,노,도,로,모
0,a,가,나,다,라,마


In [110]:
df5.sort_index()

Unnamed: 0,index,ㄱ,ㄴ,ㄷ,ㄹ,ㅁ
0,a,가,나,다,라,마
1,b,고,노,도,로,모
2,c,거,너,퍼,러,머
3,d,구,후,푸,루,무
4,e,그,느,드,르,므


In [111]:
# by 옵션을 사용하면 해당 컬럼의 데이터를 기준으로 정렬합니다.

df3.sort_values(by='ㄷ', ascending=True)

Unnamed: 0,ㄱ,ㄴ,ㄷ,ㄹ,ㅁ
a,가,나,다,라,마
b,고,노,도,로,모
e,그,느,드,르,므
c,거,너,퍼,러,머
d,구,후,푸,루,무


In [112]:
# by 옵션을 사용하면 해당 컬럼의 데이터를 기준으로 정렬합니다.
# 내림차순으로 정렬합니다.

df3.sort_values(by='ㄷ', ascending=False)

Unnamed: 0,ㄱ,ㄴ,ㄷ,ㄹ,ㅁ
d,구,후,푸,루,무
c,거,너,퍼,러,머
e,그,느,드,르,므
b,고,노,도,로,모
a,가,나,다,라,마


### 연산

#### 시리즈 연산

In [113]:
dt={'a':1, 'b':2, 'c':3, 'd':4}
sr=pd.Series(dt)
sr

a    1
b    2
c    3
d    4
dtype: int64

In [114]:
# 시리즈의 데이터를 기존 데이터에 10을 더한 값으로 바꿉니다.

sr+10

a    11
b    12
c    13
d    14
dtype: int64

In [115]:
# 시리즈의 데이터를 기존 데이터에서 10으로 나눈 값으로 바꿉니다.

sr/10

a    0.1
b    0.2
c    0.3
d    0.4
dtype: float64

In [116]:
dt2={'b':12, 'c':13, 'a':11, 'd':14}
sr2=pd.Series(dt2)
sr2

b    12
c    13
a    11
d    14
dtype: int64

In [117]:
# sr 시리즈 데이터와 sr2 시리즈 데이터를 뺀 값으로 바꿉니다.

sr-sr2

a   -10
b   -10
c   -10
d   -10
dtype: int64

In [118]:
dt3={'b':12, 'c':13, 'a':11}
sr3=pd.Series(dt3)
sr3

b    12
c    13
a    11
dtype: int64

In [119]:
# sr 시리즈 데이터와 sr3 시리즈 데이터를 곱한 값으로 바꿉니다.
# 데이터의 갯수가 맞지 않아 계산이 불가한 경우 NaN으로 처리합니다.

sr*sr3

a    11.0
b    24.0
c    39.0
d     NaN
dtype: float64

In [120]:
# sr 시리즈 데이터와 sr3 시리즈 데이터를 더한 값으로 바꿉니다.

sr.add(sr3)

a    12.0
b    14.0
c    16.0
d     NaN
dtype: float64

In [121]:
# sr 시리즈 데이터에서 sr3 시리즈 데이터를 뺀 값으로 바꿉니다.

sr.sub(sr3)

a   -10.0
b   -10.0
c   -10.0
d     NaN
dtype: float64

In [122]:
# sr 시리즈 데이터와 sr3 시리즈 데이터를 곱한 값으로 바꿉니다.

sr.mul(sr3)

a    11.0
b    24.0
c    39.0
d     NaN
dtype: float64

In [123]:
# sr 시리즈 데이터에서 sr3 시리즈 데이터를 나눈 값으로 바꿉니다.

sr.div(sr3)

a    0.090909
b    0.166667
c    0.230769
d         NaN
dtype: float64

In [124]:
# sr3 시리즈 NaN값을 1로 채운다

sr.div(sr3, fill_value=1)

a    0.090909
b    0.166667
c    0.230769
d    4.000000
dtype: float64

#### 데이터프레임 연산

In [125]:
dt={'일':[1, 2, 3], '십':[11, 22, 33], '백':[111,222,333]}
df=pd.DataFrame(dt)
df

Unnamed: 0,일,십,백
0,1,11,111
1,2,22,222
2,3,33,333


In [126]:
# 데이터프레임 df에 10을 더합니다.

df+10

Unnamed: 0,일,십,백
0,11,21,121
1,12,32,232
2,13,43,343


In [127]:
# 데이터프레임 df를 10으로 나눕니다.

df/10

Unnamed: 0,일,십,백
0,0.1,1.1,11.1
1,0.2,2.2,22.2
2,0.3,3.3,33.3


In [128]:
dt={'일':[1, 2, 3], '십':[11, 22, 33], '백':[111,222,333]}
df2=pd.DataFrame(dt)
df2

Unnamed: 0,일,십,백
0,1,11,111
1,2,22,222
2,3,33,333


In [129]:
# 데이터프레임 df와 데이터프레임 df2의 데이터를 더합니다.

df+df2

Unnamed: 0,일,십,백
0,2,22,222
1,4,44,444
2,6,66,666


In [130]:
# 데이터프레임 df와 데이터프레임 df2의 데이터를 곱합니다.

df*df2

Unnamed: 0,일,십,백
0,1,121,12321
1,4,484,49284
2,9,1089,110889


In [131]:
# 데이터프레임 df와 데이터프레임 df2의 데이터를 더합니다.

df.add(df2)

Unnamed: 0,일,십,백
0,2,22,222
1,4,44,444
2,6,66,666


In [132]:
# 데이터프레임 df와 데이터프레임 df2의 데이터를 뺍니다.

df.sub(df2)

Unnamed: 0,일,십,백
0,0,0,0
1,0,0,0
2,0,0,0


In [133]:
# 데이터프레임 df와 데이터프레임 df2의 데이터를 곱합니다.

df.mul(df2)

Unnamed: 0,일,십,백
0,1,121,12321
1,4,484,49284
2,9,1089,110889


In [134]:
# 데이터프레임 df와 데이터프레임 df2의 데이터를 나눕니다.

df.div(df2)

Unnamed: 0,일,십,백
0,1.0,1.0,1.0
1,1.0,1.0,1.0
2,1.0,1.0,1.0


## 데이터 입출력

csv파일 읽어오기

In [135]:
# read_csv( ) 함수를 사용하면 csv파일을 불러올 수 있습니다.
# 캐글의 Titanic 과제에서 train데이터를 불러오겠습니다.

tt=pd.read_csv('train.csv')

In [136]:
tt

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [137]:
tt.shape

(891, 12)

In [138]:
# 파일 경로를 설정하여 불러올 수 도 있습니다.

tt=pd.read_csv('data/train.csv')
tt

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [542]:
# 상위 5개의 데이터를 볼 수 있습니다.

tt.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [543]:
# 상위 3개의 데이터를 볼 수 있습니다.

tt.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [544]:
# 하위 5개의 데이터를 볼 수 있습니다.

tt.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [139]:
# 하위 7개의 데이터를 볼 수 있습니다.

tt.tail(7)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [147]:
# header=1 로 설정하면 파일의 1번째 행을 컬럼 이름으로 설정하고 2번째 행부터 데이터로 처리합니다.

tt=pd.read_csv('data/train.csv', header=1)
tt.head()

Unnamed: 0,1,0,3,"Braund, Mr. Owen Harris",male,22,1.1,0.1,A/5 21171,7.25,Unnamed: 10,S
0,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
1,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
2,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
3,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
4,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q


In [151]:
# header=None 로 설정하면 파일의 첫 번째 행부터 데이터로 처리합니다.
# 0부터 시작하는 정수로 컬럼 명을 설정합니다.

tt=pd.read_csv('data/train.csv', header=None)
tt.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
2,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38,1,0,PC 17599,71.2833,C85,C
3,3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7.925,,S
4,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,53.1,C123,S


In [152]:
# header=0 으로 설정하면 파일의 첫 번째 행은 컬럼 이름으로 두 번째 행부터 데이터로 처리합니다.
# header=0 설정이 디폴트입니다.

tt=pd.read_csv('data/train.csv', header=0)
tt.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [153]:
# index_col=False 설정하면 인덱스 컬럼을 지정하지 않습니다.

tt=pd.read_csv('data/train.csv', index_col=False)
tt.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [154]:
# index_col='PassengerId' 설정하면 'PassengerId' 컬럼을 인덱스로 지정합니다.

tt=pd.read_csv('data/train.csv', index_col='PassengerId')
tt.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [156]:
# to_csv 함수를 사용하면 csv 파일로 저장할 수 있습니다.
# 노트북 폴더에 csv파일이 생성됨을 확인할 수 있습니다.

tt.to_csv('data/train_titanic.csv')

##### 공공데이터(csv) 활용시 한글 깨짐 현상 해결 방법
공공데이터를 활용하고자 할 때 한글깨짐 현상이 발생하곤 합니다. 

이를 해결하기 위한 방법을 링크로 걸어놓았습니다. 아래 링크를 참고해주세요~

http://bit.ly/csv_solu

### 데이터의 정보

In [157]:
# tt 데이터프레임의 행열 개수를 확인합니다.

tt.shape

(891, 11)

In [158]:
# tt 데이터프레임의 정보를 확인할 수 있습니다.
# <class 'pandas.core.frame.DataFrame'> : 데이터형태를 확인할 수 있습니다.
# Int64Index: 891 entries, 1 to 891 : 인덱스 정보를 확인할 수 있습니다.
# Column : 데이터프레임의 컬럼 명을 확인 할 수 있습니다.
# Non-Null Count : 데이터의 개수를 확인 할 수 있습니다.
# Dtype : 각 컬럼 별 데이터의 형태를 확인 할 수 있습니다.

tt.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  891 non-null    int64  
 1   Pclass    891 non-null    int64  
 2   Name      891 non-null    object 
 3   Sex       891 non-null    object 
 4   Age       714 non-null    float64
 5   SibSp     891 non-null    int64  
 6   Parch     891 non-null    int64  
 7   Ticket    891 non-null    object 
 8   Fare      891 non-null    float64
 9   Cabin     204 non-null    object 
 10  Embarked  889 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 83.5+ KB


판다스의 데이터 자료형은 다음과 같습니다.

- int64 - 정수형
- float64 - 실수형
- object - 문자열
- datetime64 - 날짜형

In [159]:
# dtypes 를 사용하면 각 컬럼별 데이터의 형태를 확인할 수 있습니다.

tt.dtypes

Survived      int64
Pclass        int64
Name         object
Sex          object
Age         float64
SibSp         int64
Parch         int64
Ticket       object
Fare        float64
Cabin        object
Embarked     object
dtype: object

In [554]:
# describe()를 사용하면 숫자형 데이터를 가진 컬럼의 통계 수치를 확인할 수 있습니다.
# count : 데이터의 개수입니다.
# mean : 평균입니다.
# std : 표준편차입니다.
# min : 최소값입니다.
# 25% : 하위 25%값입니다.
# 50% : 하위 50%값입니다.
# 75% : 하위 75%값입니다.
# max : 최대값입니다.

tt.describe()

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


In [555]:
# include='all' 로 설정하면 숫자형데이터가 아닌 컬럼의 통계수치도 확인할 수 있습니다.

tt.describe(include='all')

Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
count,891.0,891.0,891,891,714.0,891.0,891.0,891.0,891.0,204,889
unique,,,891,2,,,,681.0,,147,3
top,,,"Bowen, Mr. David John ""Dai""",male,,,,347082.0,,C23 C25 C27,S
freq,,,1,577,,,,7.0,,4,644
mean,0.383838,2.308642,,,29.699118,0.523008,0.381594,,32.204208,,
std,0.486592,0.836071,,,14.526497,1.102743,0.806057,,49.693429,,
min,0.0,1.0,,,0.42,0.0,0.0,,0.0,,
25%,0.0,2.0,,,20.125,0.0,0.0,,7.9104,,
50%,0.0,3.0,,,28.0,0.0,0.0,,14.4542,,
75%,1.0,3.0,,,38.0,1.0,0.0,,31.0,,


In [160]:
# 각 컬럼의 데이터 개수를 확인합니다.

tt.count()

Survived    891
Pclass      891
Name        891
Sex         891
Age         714
SibSp       891
Parch       891
Ticket      891
Fare        891
Cabin       204
Embarked    889
dtype: int64

In [161]:
# Embarked' 컬럼의 데이터 별 개수를 확인합니다.

tt['Embarked'].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

In [162]:
# 숫자형 데이터를 가진 컬럼의 평균값을 확인합니다.

tt.mean()

Survived     0.383838
Pclass       2.308642
Age         29.699118
SibSp        0.523008
Parch        0.381594
Fare        32.204208
dtype: float64

In [163]:
# 'Fare' 컬럼의 평균값을 확인합니다.

tt['Fare'].mean()

32.2042079685746

In [164]:
# 'Fare' 컬럼의 중앙값을 확인합니다.

tt['Fare'].median()

14.4542

In [165]:
# 'Fare' 컬럼의 최대값을 확인합니다.

tt['Fare'].max()

512.3292

In [166]:
# 'Fare' 컬럼의 최소값을 확인합니다.

tt['Fare'].min()

0.0

In [167]:
# 'Fare' 컬럼의 표준편차을 확인합니다.

tt['Fare'].std()

49.693428597180905

In [168]:
# 'tt' 데이터프레임의 각 컬럼간 pearson 상관계수를 알려줍니다.

tt.corr()

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare
Survived,1.0,-0.338481,-0.077221,-0.035322,0.081629,0.257307
Pclass,-0.338481,1.0,-0.369226,0.083081,0.018443,-0.5495
Age,-0.077221,-0.369226,1.0,-0.308247,-0.189119,0.096067
SibSp,-0.035322,0.083081,-0.308247,1.0,0.414838,0.159651
Parch,0.081629,0.018443,-0.189119,0.414838,1.0,0.216225
Fare,0.257307,-0.5495,0.096067,0.159651,0.216225,1.0


#### 데이터 간의 상관관계
데이터 간의 상관관계를 표현해주는 가장 대표적인 지수가 피어슨(pearson) 상관계수입니다.

피어슨 상관계수는 두 변수 간 상관 관계를 나타내는데,

상관계수의 크기가 0에 가까울수록 관련성이 낮고, 1에 가까울수록 관련성이 높다고 볼 수 있습니다.

기준을 세분화해보면 0에서 0.1은 관련성이 거의 없습니다. 0.1부터 0.3의 상관계수는 약한 관련성이 있고, 0.3부터 0.7까지는 어느 정도 관련성이 있다고 판단할 수 있습니다. 만일 상관계수가 정도가 0.7부터 1 사이라면, 관련성이 강하다고 볼 수 있습니다.

양수와 음수는 비례와 반비례를 나타냅니다. 만일 변수 X와 Y의 상관계수가 0 이상이라면 양의 상관관계를 보입니다. 즉, X가 증가한다면 Y도 증가합니다. 반면 X와 Y의 상관계수가 0보다 작다면 반비례의 관계를 보이게 됩니다. X가 증가하면, Y는 감소합니다.

In [170]:
# 'Survived' 컬럼의 타 컬럼간 pearson 상관계수를 알려줍니다.

tt.corr()['Survived']

Survived    1.000000
Pclass     -0.338481
Age        -0.077221
SibSp      -0.035322
Parch       0.081629
Fare        0.257307
Name: Survived, dtype: float64

In [171]:
# 'Age' 컬럼과 'Fare' 컬럼의 타 컬럼간 pearson 상관계수를 알려줍니다.

tt.corr()[['Age', 'Fare']]

Unnamed: 0,Age,Fare
Survived,-0.077221,0.257307
Pclass,-0.369226,-0.5495
Age,1.0,0.096067
SibSp,-0.308247,0.159651
Parch,-0.189119,0.216225
Fare,0.096067,1.0


### 결손값

- 데이터가 없는 값, 빈 값을 뜻합니다.
- 판다스에서는 NaN으로 표기합니다.
- null값으로 부르기도 합니다.

In [567]:
# Non-Null Count를 통해 각 컬럼 별 null의 개수를 확인할 수 있습니다.

tt.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  891 non-null    int64  
 1   Pclass    891 non-null    int64  
 2   Name      891 non-null    object 
 3   Sex       891 non-null    object 
 4   Age       714 non-null    float64
 5   SibSp     891 non-null    int64  
 6   Parch     891 non-null    int64  
 7   Ticket    891 non-null    object 
 8   Fare      891 non-null    float64
 9   Cabin     204 non-null    object 
 10  Embarked  889 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 83.5+ KB


In [568]:
# 'Embarked' 컬럼의 데이터 종류 별 개수를 확인합니다.

tt['Embarked'].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

In [569]:
# 'Embarked' 컬럼의 데이터 별 개수와 결손값의 개수를 확인합니다.

tt['Embarked'].value_counts(dropna=False)

S      644
C      168
Q       77
NaN      2
Name: Embarked, dtype: int64

In [570]:
# 'tt' 데이터프레임 데이터의 결손여부를 알려줍니다.
# 결손이면 True, 아니면 False를 반환합니다.
 
tt.isnull()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,False,False,False,False,False,False,False,False,False,True,False
2,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,True,False
4,False,False,False,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...
887,False,False,False,False,False,False,False,False,False,True,False
888,False,False,False,False,False,False,False,False,False,False,False
889,False,False,False,False,True,False,False,False,False,True,False
890,False,False,False,False,False,False,False,False,False,False,False


In [571]:
# 'tt' 데이터프레임 데이터의 결손여부를 알려줍니다.
# 결손이면 False를, 아니면 True를 반환합니다.

tt.notnull()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,True,True,True,True,True,True,True,True,True,False,True
2,True,True,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,True,False,True
4,True,True,True,True,True,True,True,True,True,True,True
5,True,True,True,True,True,True,True,True,True,False,True
...,...,...,...,...,...,...,...,...,...,...,...
887,True,True,True,True,True,True,True,True,True,False,True
888,True,True,True,True,True,True,True,True,True,True,True
889,True,True,True,True,False,True,True,True,True,False,True
890,True,True,True,True,True,True,True,True,True,True,True


In [572]:
# 'Age' 컬럼 데이터의 결손여부를 알려줍니다.

tt['Age'].isnull()

PassengerId
1      False
2      False
3      False
4      False
5      False
       ...  
887    False
888    False
889     True
890    False
891    False
Name: Age, Length: 891, dtype: bool

In [573]:
# 각 컬럼의 결손값 개수의 합을 확인합니다.

tt.isnull().sum()

Survived      0
Pclass        0
Name          0
Sex           0
Age         177
SibSp         0
Parch         0
Ticket        0
Fare          0
Cabin       687
Embarked      2
dtype: int64

In [574]:
# tt 데이터프레임에서 결손값이 없는 행의 데이터를 보여줍니다.

tt.dropna()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...
872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


In [575]:
# axis=1 설정을 하면 tt 데이터프레임에서 결손값이 없는 열의 데이터를 보여줍니다.

tt.dropna(axis=1)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,SibSp,Parch,Ticket,Fare
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,0,3,"Braund, Mr. Owen Harris",male,1,0,A/5 21171,7.2500
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,1,0,PC 17599,71.2833
3,1,3,"Heikkinen, Miss. Laina",female,0,0,STON/O2. 3101282,7.9250
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,1,0,113803,53.1000
5,0,3,"Allen, Mr. William Henry",male,0,0,373450,8.0500
...,...,...,...,...,...,...,...,...
887,0,2,"Montvila, Rev. Juozas",male,0,0,211536,13.0000
888,1,1,"Graham, Miss. Margaret Edith",female,0,0,112053,30.0000
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,1,2,W./C. 6607,23.4500
890,1,1,"Behr, Mr. Karl Howell",male,0,0,111369,30.0000


In [576]:
# 결손값을 500개 이상 갖는 컬럼들을 삭제합니다.

tt.dropna(axis=1, thresh=500)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,S
...,...,...,...,...,...,...,...,...,...,...
887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,S
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,S
890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C


In [577]:
# 'Age' 컬럼의 결손값을 'Age'컬럼의 평균값으로 채웁니다.

tt['Age'].fillna(tt['Age'].mean())

PassengerId
1      22.000000
2      38.000000
3      26.000000
4      35.000000
5      35.000000
         ...    
887    27.000000
888    19.000000
889    29.699118
890    26.000000
891    32.000000
Name: Age, Length: 891, dtype: float64

In [578]:
# 'Embarked' 컬럼의 결손값을 'Embarked'컬럼에서 가장 많은 데이터로 채웁니다.

vc=tt['Embarked'].value_counts(dropna=True).idxmax()
tt['Embarked'].fillna(vc)

PassengerId
1      S
2      C
3      S
4      S
5      S
      ..
887    S
888    S
889    S
890    C
891    Q
Name: Embarked, Length: 891, dtype: object

In [579]:
# 결손값이 있는 행의 직전 행에 있는 값으로 채워줍니다.

tt['Age'].fillna(method='ffill')

PassengerId
1      22.0
2      38.0
3      26.0
4      35.0
5      35.0
       ... 
887    27.0
888    19.0
889    19.0
890    26.0
891    32.0
Name: Age, Length: 891, dtype: float64

In [580]:
# 결손값이 있는 행의 다음 행에 있는 값으로 채워줍니다.

tt['Age'].fillna(method='bfill')

PassengerId
1      22.0
2      38.0
3      26.0
4      35.0
5      35.0
       ... 
887    27.0
888    19.0
889    26.0
890    26.0
891    32.0
Name: Age, Length: 891, dtype: float64

### 데이터 처리 응용

In [581]:
# 'Fare' 컬럼의 데이터를 소수 둘 째 자리까지 표기합니다.
# 소수 셋 째 자리에서 반올림합니다.

tt['Fare'].round(2)

PassengerId
1       7.25
2      71.28
3       7.92
4      53.10
5       8.05
       ...  
887    13.00
888    30.00
889    23.45
890    30.00
891     7.75
Name: Fare, Length: 891, dtype: float64

In [582]:
# 'Family' 컬럼의 생성하여 컬럼'SibSp'과 컬럼 'Parch'와 1을 더한 값을 넣습니다.

tt['Family']=tt['SibSp']+tt['Parch']+1

In [583]:
# 'Family' 컬럼의 데이터의 종류를 확인합니다.
# 주로 범주형 데이터일 때 사용합니다. 

tt['Family'].unique()

array([ 2,  1,  5,  3,  7,  6,  4,  8, 11], dtype=int64)

#### apply 함수와 lambda 표현식

apply 함수와 lambda 표현식은 기존 데이터를 내가 원하는 데이터나 데이터 형태로 변경하고자 할 때 사용합니다.

처음에는 어려울 수 있지만 익혀두면 매우 유용합니다^^

우선 파이썬에서 배운 함수와 lambda 표현식을 복습해봅시다

##### 함수 연습

제곱근(루트)를 구해주는 함수를 만듭니다.

In [584]:
def root(a):
    b=a**(1/2)
    return b

In [585]:
# 8을 인수로 넣으니 2,828.... 이 나오는 것을 확인할 수 있습니다.

print(root(8))

2.8284271247461903


In [586]:
# 9을 인수로 넣으니 3이 나오는 것을 확인할 수 있습니다.

print(root(9))

3.0


##### lambda 표현식

람다표현식은 함수 대신 사용 가능합니다.

아래는 제곱근을 구해주는 람다표현식입니다.

In [587]:
root_lambda = lambda a : a**(1/2)

In [588]:
print(root_lambda(8))

2.8284271247461903


In [589]:
print(root_lambda(9))

3.0


이제 apply 함수와 lambda표현식을 활용해봅시다.

In [590]:
# fsort라는 함수를 만듭니다.

def fsort(a):
    if a==1:
        return 'single'
    elif a>=2 and a<=4:
        return 'nuclear'
    else:
        return 'big'

In [591]:
# 람다표현식의 변수 e에 'Family'컬럼의 데이터가 하나씩 들어가서 fsort()함수의 리턴값으로 반환됩니다.
# 그리고 반환된 값은 'Family_type' 컬럼의 데이터로 들어가게 됩니다.

tt['Family_type']=tt['Family'].apply(lambda e: fsort(e))
tt.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Family,Family_type
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,2,nuclear
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2,nuclear
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1,single
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,2,nuclear
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,1,single


In [592]:
# Family_type 컬럼을 랜덤으로 5개를 샘플링합니다.

tt['Family_type'].sample(5)

PassengerId
647     single
65      single
804    nuclear
20      single
325        big
Name: Family_type, dtype: object

#### 원핫인코딩

※ 원핫인코딩이란..
데이터가 가지고 있는 값들로 컬럼을 생성하고, 해당 컬럼에 값을 가질 경우에는 1로 표기하고 나머지는 모두 0으로 채우는 것을 뜻합니다. 예를들어 Family_type 컬럼의 데이터는 single', 'nuclear', 'big' 이렇게 3개인데요.(1,0,0)는 single, (0,1,0)는 nuclear, (0,0,1)은 big으로 표현하는 것입니다.

In [593]:
# pd.get_dummies 함수는 해당 컬럼을 원핫인코딩해줍니다.
# 결과가 데이터프레임으로 반환됩니다.

Family_encoding=pd.get_dummies(tt['Family_type'])
Family_encoding.head()

Unnamed: 0_level_0,big,nuclear,single
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0,1,0
2,0,1,0
3,0,0,1
4,0,1,0
5,0,0,1


#### 조건에 따라 데이터 불러오기

In [594]:
tt.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Family,Family_type
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,2,nuclear
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2,nuclear
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1,single
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,2,nuclear
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,1,single


In [595]:
# 'Child' 컬럼을 생성하고 Age' 컬럼의 데이터가 10이하인 경우에는 True, 10초과일 경우에는 False를 넣습니다. 

tt['Child']=tt['Age']<=10
tt.head(10)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Family,Family_type,Child
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,2,nuclear,False
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2,nuclear,False
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1,single,False
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,2,nuclear,False
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,1,single,False
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,1,single,False
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S,1,single,False
8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S,5,big,True
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S,3,nuclear,False
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C,2,nuclear,False


In [596]:
# 'Child' 컬럼을 생성하고 Age' 컬럼의 데이터가 10이하인 경우에는 'child'를, 10초과일 경우에는 'Notchild를 넣습니다. 

tt.loc[tt['Age']<=10,'Child']='child'
tt.loc[tt['Age']>10,'Child']='Notchild'
tt.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Family,Family_type,Child
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,2,nuclear,Notchild
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2,nuclear,Notchild
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1,single,Notchild
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,2,nuclear,Notchild
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,1,single,Notchild


In [597]:
# 'Child' 컬럼을 생성하고 Age' 컬럼의 데이터가 10이하인 경우에는 'child'를, 
# 10초과, 60미만일 경우에는 'young'을
# 60이상일 경우에는 'old'를 넣습니다. 
# and 조건일 때는 & 기호를 사용합니다.
# or 조건일 때는 | 기호를 사용합니다.

tt.loc[tt['Age']<=10,'Child']='child'
tt.loc[(tt['Age']>10)& (tt['Age']<60) ,'Child']='young'
tt.loc[tt['Age']>=60,'Child']='old'
tt.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Family,Family_type,Child
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,2,nuclear,young
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2,nuclear,young
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1,single,young
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,2,nuclear,young
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,1,single,young


In [598]:
# 두 개 이상의 조건을 논리연산자로 묶어줄 경우에는 꼭 괄호를 해주어야 합니다.

tt.loc[tt['Age']<=10,'Child']='child'
tt.loc[tt['Age']>10 & tt['Age']<60 ,'Child']='young'
tt.loc[tt['Age']>=60,'Child']='old'
tt.head()

TypeError: Cannot perform 'rand_' with a dtyped [float64] array and scalar of type [bool]

In [599]:
# 조건에 성립하는 데이터만 추출할 수 있습니다.

tt[tt['Age']>=60]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Family,Family_type,Child
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S,1,single,old
55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C,2,nuclear,old
97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C,1,single,old
117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q,1,single,old
171,0,1,"Van der hoef, Mr. Wyckoff",male,61.0,0,0,111240,33.5,B19,S,1,single,old
253,0,1,"Stead, Mr. William Thomas",male,62.0,0,0,113514,26.55,C87,S,1,single,old
276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S,2,nuclear,old
281,0,3,"Duane, Mr. Frank",male,65.0,0,0,336439,7.75,,Q,1,single,old
327,0,3,"Nysveen, Mr. Johan Hansen",male,61.0,0,0,345364,6.2375,,S,1,single,old
367,1,1,"Warren, Mrs. Frank Manley (Anna Sophia Atkinson)",female,60.0,1,0,110813,75.25,D37,C,2,nuclear,old


In [600]:
# 데이터를 추출하여 새로운 데이터프레임을 만들 수 있습니다.

ot=tt[tt['Age']>=60]
print(ot.shape)
ot.head()

(26, 14)


Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Family,Family_type,Child
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S,1,single,old
55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C,2,nuclear,old
97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C,1,single,old
117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q,1,single,old
171,0,1,"Van der hoef, Mr. Wyckoff",male,61.0,0,0,111240,33.5,B19,S,1,single,old


In [601]:
# str.contains 를 사용하면 특정 문자가 포함되어 있는 데이터만 추출할 수 있습니다.

tt[tt['Name'].str.contains('Master')]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Family,Family_type,Child
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S,5,big,child
17,0,3,"Rice, Master. Eugene",male,2.0,4,1,382652,29.125,,Q,6,big,child
51,0,3,"Panula, Master. Juha Niilo",male,7.0,4,1,3101295,39.6875,,S,6,big,child
60,0,3,"Goodwin, Master. William Frederick",male,11.0,5,2,CA 2144,46.9,,S,8,big,young
64,0,3,"Skoog, Master. Harald",male,4.0,3,2,347088,27.9,,S,6,big,child
66,1,3,"Moubarek, Master. Gerios",male,,1,1,2661,15.2458,,C,3,nuclear,False
79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0,,S,3,nuclear,child
126,1,3,"Nicola-Yarred, Master. Elias",male,12.0,1,0,2651,11.2417,,C,2,nuclear,young
160,0,3,"Sage, Master. Thomas Henry",male,,8,2,CA. 2343,69.55,,S,11,big,False
165,0,3,"Panula, Master. Eino Viljami",male,1.0,4,1,3101295,39.6875,,S,6,big,child


In [602]:
# isin을 사용하면 리스트의 요소가 있는 데이터를 추출합니다.

tt[tt['Family'].isin([3,4,5])]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Family,Family_type,Child
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S,5,big,child
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S,3,nuclear,young
11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S,3,nuclear,child
25,0,3,"Palsson, Miss. Torborg Danira",female,8.0,3,1,349909,21.0750,,S,5,big,child
39,0,3,"Vander Planke, Miss. Augusta Maria",female,18.0,2,0,345764,18.0000,,S,3,nuclear,young
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,1,3,"Baclini, Mrs. Solomon (Latifa Qurban)",female,24.0,0,3,2666,19.2583,,C,4,nuclear,young
861,0,3,"Hansen, Mr. Claus Peter",male,41.0,2,0,350026,14.1083,,S,3,nuclear,young
870,1,3,"Johnson, Master. Harold Theodor",male,4.0,1,1,347742,11.1333,,S,3,nuclear,child
872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S,3,nuclear,young


### 데이터 병합하기

#### concat

In [603]:
df1=pd.DataFrame({'a':['a0','a1','a2','a3'],
                  'b':['b0','b1','b2','b3'],
                  'c':['c0','c1','c2','c3']},
                index=[0,1,2,3])
df1

Unnamed: 0,a,b,c
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a3,b3,c3


In [604]:
df2=pd.DataFrame({'a':['a2','a3','a4','a5'],
                  'b':['b2','b3','b4','b5'],
                  'c':['c2','c3','c4','c5'],
                  'd':['d2','d3','d4','d5']},
                index=[2,3,4,5])
df2

Unnamed: 0,a,b,c,d
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5


세로로 합치기

In [605]:
# 데이터프레임을 세로로 합칩니다.

pd.concat([df1,df2])

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5


가로로 합치기

In [606]:
# axis=1 로 설정하면 데이터프레임을 가로로 합칩니다.

pd.concat([df1,df2], axis=1)

Unnamed: 0,a,b,c,a.1,b.1,c.1,d
0,a0,b0,c0,,,,
1,a1,b1,c1,,,,
2,a2,b2,c2,a2,b2,c2,d2
3,a3,b3,c3,a3,b3,c3,d3
4,,,,a4,b4,c4,d4
5,,,,a5,b5,c5,d5


In [607]:
# 두 프레임에서 존재하는 모든 행을 기준으로 합칩니다.
# join='outer'가 default입니다.

pd.concat([df1,df2], join='outer', axis=1)

Unnamed: 0,a,b,c,a.1,b.1,c.1,d
0,a0,b0,c0,,,,
1,a1,b1,c1,,,,
2,a2,b2,c2,a2,b2,c2,d2
3,a3,b3,c3,a3,b3,c3,d3
4,,,,a4,b4,c4,d4
5,,,,a5,b5,c5,d5


In [608]:
# 두 프레임에서 공통으로 존재하는 행을 기준으로 합칩니다.
# join='outer'가 default입니다.

pd.concat([df1,df2], axis=1, join='inner')

Unnamed: 0,a,b,c,a.1,b.1,c.1,d
2,a2,b2,c2,a2,b2,c2,d2
3,a3,b3,c3,a3,b3,c3,d3


#### merge

In [609]:
df3=pd.DataFrame({'A':['A0','A1','A2','A3'],
                  'B':['B0','B1','B2','B3'],
                  'C':['C0','C1','C2','C3'],
                  'D':['D0','D1','D2','D3']})
df3

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [610]:
df4=pd.DataFrame({'A':['A0','A1','A2','A3','A4'],
                  'E':['E0','E1','E2','E3','E4'],
                  'F':['F0','F1','F2','F3','F4']})
df4

Unnamed: 0,A,E,F
0,A0,E0,F0
1,A1,E1,F1
2,A2,E2,F2
3,A3,E3,F3
4,A4,E4,F4


pd.merge(왼쪽에 위치할 데이터프레임, 오른쪽에 위치할 데이터프레임, on=기준이 되는 열(column), how=병합방법)

In [611]:
# A 컬럼을 기준으로 병합합니다.

pd.merge(df3, df4, on='A')

Unnamed: 0,A,B,C,D,E,F
0,A0,B0,C0,D0,E0,F0
1,A1,B1,C1,D1,E1,F1
2,A2,B2,C2,D2,E2,F2
3,A3,B3,C3,D3,E3,F3


In [612]:
# A컬럼을 기준으로 df3과 df4이 공통으로 가지고 있는 열을 병합합니다.

# how='inner'가 defualt입니다.

pd.merge(df3, df4, on='A', how='inner')

Unnamed: 0,A,B,C,D,E,F
0,A0,B0,C0,D0,E0,F0
1,A1,B1,C1,D1,E1,F1
2,A2,B2,C2,D2,E2,F2
3,A3,B3,C3,D3,E3,F3


In [613]:
# A컬럼을 기준으로 df3과 df4의 모든 열을 병합합니다.

pd.merge(df3, df4, on='A', how='outer')

Unnamed: 0,A,B,C,D,E,F
0,A0,B0,C0,D0,E0,F0
1,A1,B1,C1,D1,E1,F1
2,A2,B2,C2,D2,E2,F2
3,A3,B3,C3,D3,E3,F3
4,A4,,,,E4,F4


In [614]:
# A컬럼을 기준으로 왼쪽에 위치할 데이터프레임인 df3의 열(column)데이터에 맞춰서 병합합니다.

# 가장 많이 사용하는 방법입니다.

pd.merge(df3, df4, on='A', how='left')

Unnamed: 0,A,B,C,D,E,F
0,A0,B0,C0,D0,E0,F0
1,A1,B1,C1,D1,E1,F1
2,A2,B2,C2,D2,E2,F2
3,A3,B3,C3,D3,E3,F3


In [615]:
# A컬럼을 기준으로 오른쪽에 위치할 데이터프레임인 df4의 열(column)데이터에 맞춰서 병합합니다.

pd.merge(df3, df4, on='A', how='right')

Unnamed: 0,A,B,C,D,E,F
0,A0,B0,C0,D0,E0,F0
1,A1,B1,C1,D1,E1,F1
2,A2,B2,C2,D2,E2,F2
3,A3,B3,C3,D3,E3,F3
4,A4,,,,E4,F4


In [616]:
# 위에서 원핫인코딩으로 생성된 Family_encoding 데이터프레임과 tt프레임을 병합해볼까요?

tt= pd.concat([tt,Family_encoding], axis=1)
tt.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Family,Family_type,Child,big,nuclear,single
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,2,nuclear,young,0,1,0
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2,nuclear,young,0,1,0
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1,single,young,0,0,1
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,2,nuclear,young,0,1,0
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,1,single,young,0,0,1


-------------------------------------------

### 데이터 분할하기

#### Pivot Table

데이터 중 내가 보고 싶은 데이터만 뽑아서 볼 수 있는 기능을 말합니다.

엑셀의 피벗테이블과 유사합니다.

옵션은 다음과 같습니다.

- index는 행 위치에 들어갈 컬럼

- columns는 열 위치에 들어갈 컬럼

- values는 데이터로 보여줄 컬럼

- aggfunc는 데이터 집계 함수(default는 평균(mean))

In [643]:
# Pclass 컬럼별 Fare 컬럼 데이터의 평균값을 확인하겠습니다.

pd.pivot_table(tt, index='Pclass', values='Fare')

Unnamed: 0_level_0,Fare
Pclass,Unnamed: 1_level_1
1,84.154687
2,20.662183
3,13.67555


In [644]:
# Family 수 별 Pclass 등급의 운임요금(Fare) 중앙값을 확인합니다.

pd.pivot_table(tt, index='Family', columns='Pclass', values='Fare', aggfunc='median')

Pclass,1,2,3
Family,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,31.0,13.0,7.8958
2,76.7292,26.0,14.4542
3,82.5083,26.25,15.7417
4,120.0,39.0,19.2583
5,262.375,23.0,25.4667
6,263.0,18.75,29.125
7,,,31.275
8,,,46.9
11,,,69.55


#### Groupby

특정 컬럼을 기준으로 데이터를 분할하여 데이터를 보는 기능을 말합니다.

그룹바이는 분할한 데이터의 합, 평균, 개수 등의 통계 수치를 보여줍니다.

In [645]:
# Pclass 컬럼의 각 컬럼 데이터의 합을 확인합니다

tt.groupby(by='Pclass').sum()

Unnamed: 0_level_0,Survived,Age,SibSp,Parch,Fare,Family,big,nuclear,single
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,136,7111.42,90,77,18177.4125,383,6.0,101.0,109.0
2,87,5168.83,74,70,3801.8417,328,2.0,78.0,104.0
3,119,8924.92,302,193,6714.6951,986,54.0,113.0,324.0


In [646]:
# Pclass 컬럼의 각 컬럼 데이터의 평균을 확인합니다

tt.groupby(by='Pclass').mean()

Unnamed: 0_level_0,Survived,Age,SibSp,Parch,Fare,Family,big,nuclear,single
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,0.62963,38.233441,0.416667,0.356481,84.154687,1.773148,0.027778,0.467593,0.50463
2,0.472826,29.87763,0.402174,0.380435,20.662183,1.782609,0.01087,0.423913,0.565217
3,0.242363,25.14062,0.615071,0.393075,13.67555,2.008147,0.10998,0.230143,0.659878


In [647]:
# Pclass 컬럼의 각 컬럼 데이터의 개수의 합을 확인합니다

tt.groupby(by='Pclass').count()

Unnamed: 0_level_0,Survived,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Family,Family_type,Child,big,nuclear,single
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
1,216,216,216,186,216,216,216,216,176,214,216,216,216,216,216,216
2,184,184,184,173,184,184,184,184,16,184,184,184,184,184,184,184
3,491,491,491,355,491,491,491,491,12,491,491,491,491,491,491,491


In [648]:
# Pclass와 Survived 컬럼의 각 컬럼 데이터의 평균을 확인합니다

tt.groupby(by=['Pclass','Survived']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Age,SibSp,Parch,Fare,Family,big,nuclear,single
Pclass,Survived,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,0,43.695312,0.2875,0.3,64.684008,1.5875,0.025,0.3375,0.6375
1,1,35.368197,0.492647,0.389706,95.608029,1.882353,0.029412,0.544118,0.426471
2,0,33.544444,0.319588,0.14433,19.412328,1.463918,0.0,0.298969,0.701031
2,1,25.901566,0.494253,0.643678,22.0557,2.137931,0.022989,0.563218,0.413793
3,0,26.555556,0.672043,0.384409,13.669364,2.056452,0.134409,0.180108,0.685484
3,1,20.646118,0.436975,0.420168,13.694887,1.857143,0.033613,0.386555,0.579832


### 자료형 변환

#### 숫자 형태로 변환하기

In [24]:
# 연습용 데이터프레임을 생성합니다.
import pandas as pd
df1=pd.DataFrame({'col_A':['1.1', '2.2' ,'3.3'],
                  'col_B':['4.4','5.5','6.6'],
                  'col_C':['7.7','8.8','-']})

df1.head()

Unnamed: 0,col_A,col_B,col_C
0,1.1,4.4,7.7
1,2.2,5.5,8.8
2,3.3,6.6,-


In [25]:
df1.dtypes

col_A    object
col_B    object
col_C    object
dtype: object

In [26]:
# col_A 컬럼 내 데이터의 형태를 실수형으로 바꿔줍니다.

df1['col_A']=df1['col_A'].astype('float')
df1

Unnamed: 0,col_A,col_B,col_C
0,1.1,4.4,7.7
1,2.2,5.5,8.8
2,3.3,6.6,-


In [27]:
# 컬럼 col_A의 데이터 형태가 float으로 바뀐걸 확인할 수 있습니다.

df1.dtypes

col_A    float64
col_B     object
col_C     object
dtype: object

In [28]:
# col_A 컬럼 내 데이터의 형태를 문자열으로 바꿔서 col_D 컬럼에 넣습니다.

df1['col_D']=df1['col_A'].astype('str')
df1

Unnamed: 0,col_A,col_B,col_C,col_D
0,1.1,4.4,7.7,1.1
1,2.2,5.5,8.8,2.2
2,3.3,6.6,-,3.3


In [29]:
df1.dtypes

col_A    float64
col_B     object
col_C     object
col_D     object
dtype: object

In [30]:
# col_A 컬럼 내 데이터의 형태를 정수형으로 바꿔서 col_C 컬럼에 넣습니다.

df1['col_E']=df1['col_A'].astype('int')
df1

Unnamed: 0,col_A,col_B,col_C,col_D,col_E
0,1.1,4.4,7.7,1.1,1
1,2.2,5.5,8.8,2.2,2
2,3.3,6.6,-,3.3,3


In [31]:
df1.dtypes

col_A    float64
col_B     object
col_C     object
col_D     object
col_E      int32
dtype: object

In [32]:
# col_B 컬럼 내 데이터의 형태를 숫자형으로 바꿔줍니다.

df1['col_B']=pd.to_numeric(df1['col_B'])
df1.head()

Unnamed: 0,col_A,col_B,col_C,col_D,col_E
0,1.1,4.4,7.7,1.1,1
1,2.2,5.5,8.8,2.2,2
2,3.3,6.6,-,3.3,3


In [33]:
df1.dtypes

col_A    float64
col_B    float64
col_C     object
col_D     object
col_E      int32
dtype: object

In [34]:
# 컬럼 col_C의 데이터 중 숫자형태로 바꿔줄 수 가 없는 데이터가 있는 경우 오류가 발생합니다.
# '-'가 있어서 숫자 형태로 변경이 불가능하니 오류가 발생하네요

df1['col_C']=pd.to_numeric(df1['col_C'])
df1.head()

ValueError: Unable to parse string "-" at position 2

In [35]:
# errors='coerce' 설정을 해주면 오류가 발생할 시 NaN값으로 처리해서 변환합니다.

df1['col_C']=pd.to_numeric(df1['col_C'], errors='coerce')
df1.head()

Unnamed: 0,col_A,col_B,col_C,col_D,col_E
0,1.1,4.4,7.7,1.1,1
1,2.2,5.5,8.8,2.2,2
2,3.3,6.6,,3.3,3


In [36]:
df1.dtypes

col_A    float64
col_B    float64
col_C    float64
col_D     object
col_E      int32
dtype: object

In [37]:
# fillna(0) 코드를 추가해서 오류가 발생해서 NaN값으로 처리하는 경우 0으로 채우도록 하였습니다.

df1['col_C']=pd.to_numeric(df1['col_C'], errors='coerce').fillna(df1['col_C'].mean())
df1.head()

Unnamed: 0,col_A,col_B,col_C,col_D,col_E
0,1.1,4.4,7.7,1.1,1
1,2.2,5.5,8.8,2.2,2
2,3.3,6.6,8.25,3.3,3


In [38]:
df1.dtypes

col_A    float64
col_B    float64
col_C    float64
col_D     object
col_E      int32
dtype: object

#### 날짜 형태로 변환하기

In [39]:
dt={'날짜':['2020-1-1', '2020-1-2', '2020-1-3'], '트레이너':['김정욱', '홍길동', '김정욱'], '몸무게':[74.5,73.9,72.2]}

df=pd.DataFrame(dt)
df

Unnamed: 0,날짜,트레이너,몸무게
0,2020-1-1,김정욱,74.5
1,2020-1-2,홍길동,73.9
2,2020-1-3,김정욱,72.2


In [40]:
df.dtypes

날짜       object
트레이너     object
몸무게     float64
dtype: object

In [41]:
# 현재 문자형태인 '날짜' 컬럼의 데이터를 날짜 형태로 변환합니다.

df['날짜']=pd.to_datetime(df['날짜'])
df

Unnamed: 0,날짜,트레이너,몸무게
0,2020-01-01,김정욱,74.5
1,2020-01-02,홍길동,73.9
2,2020-01-03,김정욱,72.2


In [42]:
# datetime64[ns] 으로 바뀐걸 확인할 수 있습니다.

df.dtypes

날짜      datetime64[ns]
트레이너            object
몸무게            float64
dtype: object

In [43]:
# 연도만 불러올 수 있습니다.

df['날짜'].dt.year

0    2020
1    2020
2    2020
Name: 날짜, dtype: int64

In [44]:
# 월만 불러올 수 있습니다.

df['날짜'].dt.month

0    1
1    1
2    1
Name: 날짜, dtype: int64

In [45]:
# 일만 불러올 수 있습니다.

df['날짜'].dt.day

0    1
1    2
2    3
Name: 날짜, dtype: int64

In [46]:
# 시만 불러올 수 있습니다.

df['날짜'].dt.hour

0    0
1    0
2    0
Name: 날짜, dtype: int64

In [47]:
# 분만 불러올 수 있습니다.

df['날짜'].dt.minute

0    0
1    0
2    0
Name: 날짜, dtype: int64

In [48]:
# 초만 불러올 수 있습니다.

df['날짜'].dt.second

0    0
1    0
2    0
Name: 날짜, dtype: int64

In [49]:
# 요일만 불러올 수 있습니다.

df['날짜'].dt.dayofweek

0    2
1    3
2    4
Name: 날짜, dtype: int64

요일 데이터로 반환

- 월요일 : 0
- 화요일 : 1
- 수요일 : 2
- 목요일 : 3
- 금요일 : 4
- 토요일 : 5
- 일요일 : 6

만약 날짜 컬럼의 처음 데이터 값이 'Jan;2020,1'과 같이 저장 되어있다면 날짜 타입으로 어떻게 변경할 수 있을까요?

아래 링크에 방법이 나와있습니다.

https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior

예제와 같이 연습해봅시다

In [50]:
date_1=pd.DataFrame({'날짜':['Jan;2020,1', 'Jan;2020,2', 'Jan;2020,3'],'값':[1,2,3] })
date_1

Unnamed: 0,날짜,값
0,"Jan;2020,1",1
1,"Jan;2020,2",2
2,"Jan;2020,3",3


In [51]:
# 날짜 형태로의 변환은 데이터가 2019-03-22 와 같은 모습으로 저장되어 있어야 바로 변형이 가능합니다.
# 기본 형태가 아니면 다음과 같이 오류가 발생합니다.

date_1['날짜']=pd.to_datetime(date_1['날짜'])
date_1.head()

ParserError: Unknown string format: Jan;2020,1

In [52]:
# 이럴 때는 아래와 같이 format 설정을 하면 변형을 할 수 있습니다.
#'Jan;2020,1'

date_1['날짜']=pd.to_datetime(date_1['날짜'], format='%b;%Y,%d')
date_1.head()

Unnamed: 0,날짜,값
0,2020-01-01,1
1,2020-01-02,2
2,2020-01-03,3


In [53]:
# 날짜 형태로 변환된 것을 확인 할 수 있습니다.

date_1.dtypes

날짜    datetime64[ns]
값              int64
dtype: object