**<font color = "darkred" size="5">ch12. 데이터프레임과 시리즈 (pandas) - I</font>**

# 1. pandas 패키지 
- 1차원 구조를 갖는 Series, 2차원 구조를 갖는 DataFrame 제공 
- 결측치 처리, 크기 변경(열 삽입 및 삭제), 데이터 정렬, 데이터 분할/병합, 데이터프레임 생성, 부분 데이터셋 추출, 피벗과 언피벗, 레이블링, 파일 입출력 등에 용이
- https://pypi.python.org/pypi/pandas (package index)
- http://pandas.pydata.org/pandas-docs/stable/api.html (API reference)

In [1]:
import pandas as pd

data = pd.read_json('data/ch09_member2.json', encoding='utf-8')
data

Unnamed: 0,name,age,email,address
0,홍길동,20,hong@hong.com,서울
1,김길동,30,kim@hong.com,파주
2,윤길동,40,yun@hong.com,인천


# 2. 데이터프레임 만들기

## (1) 딕셔너리를 이용하여 데이터프레임 만들기

In [2]:
d = {'col1':[1,2], 'col2':[3,4]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [4]:
d = [{'col1':1, 'col2':3}, {'col1':2, 'col2':4}]

df = pd.DataFrame(data=d)
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [5]:
# 입력되지 않은 빈자리는 결측치 처리됨
d = [{'col1':1, 'col2':3}, {'col1':2, 'col2':4},{'col1':2}]

df = pd.DataFrame(data=d)
df

Unnamed: 0,col1,col2
0,1,3.0
1,2,4.0
2,2,


## (2) 리스트를 이용하여 데이터프레임 만들기

In [6]:
a = [1, 2, 3, 4, 5]
b = [6, 7, 8, 9, 10]

df = pd.DataFrame({'col1':a, 'col2':b})
df

Unnamed: 0,col1,col2
0,1,6
1,2,7
2,3,8
3,4,9
4,5,10


In [15]:
import numpy as np

a = [1, 2, 3, 4, 5]
b = [6, 7, 8, 9, 10]

df = pd.DataFrame(np.c_[a,b], columns=['col1','col2'])
df

Unnamed: 0,col1,col2
0,1,6
1,2,7
2,3,8
3,4,9
4,5,10


In [16]:
np.c_[a, b]

array([[ 1,  6],
       [ 2,  7],
       [ 3,  8],
       [ 4,  9],
       [ 5, 10]])

In [18]:
np.r_[a, b]

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [19]:
np.c_[[a],[b]]

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10]])

In [20]:
df = pd.DataFrame(np.c_[[a],[b]],
                  columns = ['c1', 'c2', 'c3', 'c4', 'c5',
                             'c6', 'c7', 'c8', 'c9', 'c10'])
df

Unnamed: 0,c1,c2,c3,c4,c5,c6,c7,c8,c9,c10
0,1,2,3,4,5,6,7,8,9,10


In [22]:
np.c_[a,b]

array([[ 1,  6],
       [ 2,  7],
       [ 3,  8],
       [ 4,  9],
       [ 5, 10]])

In [23]:
a = [[1, 2, 3, 4 ,5]]
b = [[6, 7, 8, 9, 10]]

np.r_[a, b]

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [24]:
df = pd.DataFrame(np.r_[a,b])
df

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,5
1,6,7,8,9,10


## (3) read_csv()

In [None]:
df = pd.read_csv("data/상가업소정보_201912_01.csv", sep='|')

# 모든 컬럼이 표시되도록 max_columns의 수 지정 
pd.options.display.max_columns = 39
df.head()

In [28]:
# 1) csv파일 불러오기 
import pandas as pd 

member_df = pd.read_csv('data/ch12_member_data.csv',
                       sep=",", encoding='utf-8')
member_df

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길북,25,north@hong.com,서울시 강북구
4,#홍길중,30,core@hong.com,서울시 종로구


In [26]:
type(member_df)

pandas.core.frame.DataFrame

In [27]:
type(member_df['Name']) # 데이터프레임의 열 하나하나의 타입은 시리즈

pandas.core.series.Series

In [29]:
# 2) 특정 행 제외하기
member_df = pd.read_csv('data/ch12_member_data.csv',
                       sep=',', skiprows=[0,3])
member_df

Unnamed: 0,홍길동,20,east@hong.com,서울시 강동구
0,홍길서,25,west@hong.com,서울시 강서구
1,홍길북,25,north@hong.com,서울시 강북구
2,#홍길중,30,core@hong.com,서울시 종로구


In [30]:
# 3) 주석 행 지정하여 출력에서 제외하기
member_df = pd.read_csv('data/ch12_member_data.csv', comment="#")
member_df

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길북,25,north@hong.com,서울시 강북구


## (4) sklearn.datasets 모듈 데이터를 데이터프레임으로 변환 

In [33]:
from sklearn import datasets
# Scikit-learn 패키지에는 학습을 위한 많은 데이터셋이 제공. 
# Scikit_learn에서 제공하는 데이터셋은 딕셔너리 형식으로 되어 있음.

In [34]:
iris = datasets.load_iris()
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [36]:
# 열이름 출력(5열 제외)
iris['feature_names']
iris.feature_names
[name[:-5] for name in iris.feature_names]

['sepal length', 'sepal width', 'petal length', 'petal width']

In [37]:
# 5열('target')만 출력 
iris['target']
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [38]:
# 5열 값들의 이름 출력 
iris['target_names']
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [39]:
iris['target_names'][iris['target']]

array(['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolo

In [40]:
iris.target_names[iris.target]

array(['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolo

In [42]:
# 5열을 제외한 데이터들만 출력
x = pd.DataFrame(iris.data, columns=iris.feature_names)
x

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [44]:
# 5열의 데이터만출력 
y = pd.DataFrame(iris.target_names[iris.target], columns=['species'])
y

Unnamed: 0,species
0,setosa
1,setosa
2,setosa
3,setosa
4,setosa
...,...
145,virginica
146,virginica
147,virginica
148,virginica


In [47]:
x = pd.DataFrame(iris.data, columns=iris.feature_names)
y = pd.DataFrame(iris['target_names'][iris['target']], columns=['species'])

iris_df = pd.concat([x, y], axis=1) # 열 합치기
iris_df.head(2)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [49]:
iris_df.head(-148)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [52]:
# 열 이름 변경 방법1
iris_df.columns = [col[0:12].strip().replace(' ','_') 
                  for col in iris_df.columns]
iris_df.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')

In [55]:
# 열 이름 변경 방법2
iris_df.columns = ["sepal_length","sepal_width","petal_lenghth",
                  "petal_width","species"]
iris_df.head()

Unnamed: 0,sepal_length,sepal_width,petal_lenghth,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


# 3. 이름 지정하기 

## (1) 열 이름 지정

In [56]:
member_df

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길북,25,north@hong.com,서울시 강북구


In [57]:
member_df.columns = ['이름', '나이', '이메일', '주소']
member_df

Unnamed: 0,이름,나이,이메일,주소
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길북,25,north@hong.com,서울시 강북구


In [58]:
member_df.columns

Index(['이름', '나이', '이메일', '주소'], dtype='object')

## (2) 행 이름 지정

In [60]:
member_df.index # 행 범위 확인 

RangeIndex(start=0, stop=4, step=1)

In [61]:
member_df.index = ['동','서','남','북']
member_df

Unnamed: 0,이름,나이,이메일,주소
동,홍길동,20,east@hong.com,서울시 강동구
서,홍길서,25,west@hong.com,서울시 강서구
남,홍길남,26,south@hong.com,서울시 강남구
북,홍길북,25,north@hong.com,서울시 강북구


## (3) 레벨 이름 지정

In [62]:
member_df = pd.read_csv('data/ch12_member_data.csv', comment="#")
member_df

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길북,25,north@hong.com,서울시 강북구


In [64]:
member_df.loc[1,'Name'] # 1행 'Name'열의 값 출력

'홍길서'

In [65]:
member_df.loc[1:3, ['Name','Age']] 

Unnamed: 0,Name,Age
1,홍길서,25
2,홍길남,26
3,홍길북,25


In [66]:
member_df.columns = [['기본정보', '기본정보', '추가정보', '추가정보'],
                     ['이름', '나이', '이메일', '주소']]
member_df.columns.names = ['대분류', '소분류']
member_df

대분류,기본정보,기본정보,추가정보,추가정보
소분류,이름,나이,이메일,주소
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길북,25,north@hong.com,서울시 강북구


In [67]:
member_df.index = ['동','서','남','북']
member_df.index.names = ['위치구분']
member_df

대분류,기본정보,기본정보,추가정보,추가정보
소분류,이름,나이,이메일,주소
위치구분,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
동,홍길동,20,east@hong.com,서울시 강동구
서,홍길서,25,west@hong.com,서울시 강서구
남,홍길남,26,south@hong.com,서울시 강남구
북,홍길북,25,north@hong.com,서울시 강북구


In [68]:
member_df.loc['동', '기본정보']['나이']

20

In [69]:
member_df.loc[['동','서'], '기본정보']

소분류,이름,나이
위치구분,Unnamed: 1_level_1,Unnamed: 2_level_1
동,홍길동,20
서,홍길서,25


In [71]:
member_df = pd.read_csv('data/ch12_member_data.csv', comment='#')

member_df.columns = [['기본정보','기본정보','추가정보','추가정보'],
                     ['이름', '나이', '이메일', '주소']]
member_df.index = [['좌우','좌우','상하','상하'],
                   ['동','서','남','북']]
member_df

Unnamed: 0_level_0,Unnamed: 1_level_0,기본정보,기본정보,추가정보,추가정보
Unnamed: 0_level_1,Unnamed: 1_level_1,이름,나이,이메일,주소
좌우,동,홍길동,20,east@hong.com,서울시 강동구
좌우,서,홍길서,25,west@hong.com,서울시 강서구
상하,남,홍길남,26,south@hong.com,서울시 강남구
상하,북,홍길북,25,north@hong.com,서울시 강북구


In [72]:
member_df.loc['좌우','기본정보']['나이']['동']

20

# 4. 부분 데이터 조회

In [73]:
member_df = pd.read_csv("data/ch12_member_data.csv", comment="#")
member_df

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길북,25,north@hong.com,서울시 강북구


## (1) 단일 열 조회

In [74]:
member_df.Name

0    홍길동
1    홍길서
2    홍길남
3    홍길북
Name: Name, dtype: object

In [75]:
type(member_df.Name)

pandas.core.series.Series

## (2) loc를 이용한 조회 
- loc[]을 이용하면 행 또는 열 이름으로 부분 데이터셋을 조회할 수 있음

In [76]:
member_df.loc[0:2] # 0~2행 출력

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구


In [78]:
member_df.loc[2] # 단일행은 시리즈로 출력

Name                  홍길남
Age                    26
Email      south@hong.com
Address           서울시 강남구
Name: 2, dtype: object

In [79]:
member_df.loc[5] # 없는 인덱스나 음수 인덱스 실행 불가 

KeyError: 5

In [80]:
member_df.loc['Name':'Email']

Unnamed: 0,Name,Age,Email,Address


In [81]:
member_df.loc[:, 'Name':'Email']

Unnamed: 0,Name,Age,Email
0,홍길동,20,east@hong.com
1,홍길서,25,west@hong.com
2,홍길남,26,south@hong.com
3,홍길북,25,north@hong.com


In [82]:
member_df.loc[0:2, 'Name':'Email']

Unnamed: 0,Name,Age,Email
0,홍길동,20,east@hong.com
1,홍길서,25,west@hong.com
2,홍길남,26,south@hong.com


In [87]:
member_df.loc[[0,2], ['Name','Email']] # 연속된 행과 열이 아닐 떄

Unnamed: 0,Name,Email
0,홍길동,east@hong.com
2,홍길남,south@hong.com


## (3) iloc를 이용한 조회 
- loc[from_index:to_index]는 인덱스를 이용해서 부분 데이터셋을 조회
- from번째부터 to전번째까지
- to_index는 포함되지 않음. 인덱싱 방법은 파이썬 리스트의 인덱싱 방법을 사용
- 음수 인덱스 가능

In [88]:
member_df.iloc[1:3, 1:3]

Unnamed: 0,Age,Email
1,25,west@hong.com
2,26,south@hong.com


In [90]:
member_df.iloc[1, 1:3] # 단일행은 시리즈로 출력

Age                 25
Email    west@hong.com
Name: 1, dtype: object

In [91]:
member_df.iloc[1]

Name                 홍길서
Age                   25
Email      west@hong.com
Address          서울시 강서구
Name: 1, dtype: object

In [92]:
member_df.iloc[-2:, 0:2]

Unnamed: 0,Name,Age
2,홍길남,26
3,홍길북,25


In [93]:
member_df.index = ["동","서","남","북"]
member_df.iloc[0:3, 0:3]

Unnamed: 0,Name,Age,Email
동,홍길동,20,east@hong.com
서,홍길서,25,west@hong.com
남,홍길남,26,south@hong.com


In [94]:
member_df.iloc[::-1] # 순서를 거꾸로 

Unnamed: 0,Name,Age,Email,Address
북,홍길북,25,north@hong.com,서울시 강북구
남,홍길남,26,south@hong.com,서울시 강남구
서,홍길서,25,west@hong.com,서울시 강서구
동,홍길동,20,east@hong.com,서울시 강동구


In [96]:
member_df.iloc[0::2, [1,3]]

Unnamed: 0,Age,Address
동,20,서울시 강동구
남,26,서울시 강남구


## (4) 조건으로 조회하기

In [97]:
from sklearn import datasets
iris = datasets.load_iris()

x = pd.DataFrame(iris.data, columns=iris.feature_names)
y = pd.DataFrame(iris.target_names[iris.target], columns=['species'])

iris_df = pd.concat([x,y], axis=1)
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


- 조건으로 데이터 조회를 설명하기 전에 패키지를 임포트하고 예제로 사용할 데이터를 불러와 데이터프레임을 만든다. 
- iris데이터는 sklearn패키지의 데이터셋에서 불러올 수도 있지만 데이터프레임으로 사용하려면 statsmodels패키지의 데이터 셋에서 불러오는 것이 더 쉽다.

In [98]:
import statsmodels.api as sm

iris = sm.datasets.get_rdataset('iris', package='datasets')
iris

<class 'statsmodels.datasets.utils.Dataset'>

- get_rdataset() 함수로 불러온 데이터들의 속성 
    - package : 데이터를 제공하는 R패키지 이름
    - title : 데이터 이름
    - data : 데이터를 담고 있는 데이터프레임
    - doc : 데이터에 대한 설명 문자열. 이 설명은 R 패키지의 내용을 그대로 가져옴. 예제코드가 R로 되어 있어 파이썬으로 바로 사용불가
- statsmodels 패키지의 get_rdataset() 함수로 불러온 데이터의 data속성은 데이터를 담고 있는 데이터프레임

In [100]:
iris_df = iris.data
iris_df.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [101]:
iris_df = sm.datasets.get_rdataset('iris', package='datasets').data
iris_df.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [102]:
iris_df.iloc[0:5, :-1]

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [103]:
iris_df.loc[iris_df['Species']=='versicolor'].head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
50,7.0,3.2,4.7,1.4,versicolor
51,6.4,3.2,4.5,1.5,versicolor
52,6.9,3.1,4.9,1.5,versicolor
53,5.5,2.3,4.0,1.3,versicolor
54,6.5,2.8,4.6,1.5,versicolor


In [104]:
# 조건만 넣을 때는 인덱스에 조건 가능
iris_df[iris_df['Species']=='versicolor'].head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
50,7.0,3.2,4.7,1.4,versicolor
51,6.4,3.2,4.5,1.5,versicolor
52,6.9,3.1,4.9,1.5,versicolor
53,5.5,2.3,4.0,1.3,versicolor
54,6.5,2.8,4.6,1.5,versicolor


In [105]:
# versicolor종의 꽃받침의 길이 정보 
iris_df.loc[iris_df['Species']=='versicolor', 
           ['Sepal.Length','Species']].head()

Unnamed: 0,Sepal.Length,Species
50,7.0,versicolor
51,6.4,versicolor
52,6.9,versicolor
53,5.5,versicolor
54,6.5,versicolor


In [109]:
# versicolor종 중에서 꽃받침 길이가 6.5보다 큰 데이터만 조회 
iris_df.loc[(iris_df['Species']=='versicolor') &
           (iris_df['Sepal.Length'].astype(float) > 6.5)].head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
50,7.0,3.2,4.7,1.4,versicolor
52,6.9,3.1,4.9,1.5,versicolor
58,6.6,2.9,4.6,1.3,versicolor
65,6.7,3.1,4.4,1.4,versicolor
75,6.6,3.0,4.4,1.4,versicolor


# 5. 데이터 추가 및 삭제 

## (1) 데이터프레임의 요소 삭제

In [110]:
member_df = pd.read_csv('data/ch12_member_data.csv', comment='#')
member_df

# 1) 단일행 삭제하기
member_df = member_df.drop(3) # 3행 삭제 (기본값: axis=0)
member_df

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구


In [111]:
member_df = pd.read_csv('data/ch12_member_data.csv', comment='#')
member_df.columns = ['이름','나이','이메일','주소']
member_df.index = ['동','서','남','북']
member_df

Unnamed: 0,이름,나이,이메일,주소
동,홍길동,20,east@hong.com,서울시 강동구
서,홍길서,25,west@hong.com,서울시 강서구
남,홍길남,26,south@hong.com,서울시 강남구
북,홍길북,25,north@hong.com,서울시 강북구


In [112]:
member_df = member_df.drop('북')
member_df

Unnamed: 0,이름,나이,이메일,주소
동,홍길동,20,east@hong.com,서울시 강동구
서,홍길서,25,west@hong.com,서울시 강서구
남,홍길남,26,south@hong.com,서울시 강남구


In [113]:
member_df.drop('북') # 이미 삭제된 행이므로 에러 발생

KeyError: "['북'] not found in axis"

In [114]:
member_df2 = pd.read_csv("data/ch12_member_data.csv", comment="#")
member_df2.drop(2, axis=0) # 삭제한 결과가 실제 데이터에 반영되진 않는다.

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
3,홍길북,25,north@hong.com,서울시 강북구


In [115]:
member_df2

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길북,25,north@hong.com,서울시 강북구


In [116]:
# 2) 단일 열 삭제하기 
member_df = member_df.drop('주소', axis=1) 
member_df

Unnamed: 0,이름,나이,이메일
동,홍길동,20,east@hong.com
서,홍길서,25,west@hong.com
남,홍길남,26,south@hong.com


In [117]:
member_df = pd.read_csv('data/ch12_member_data.csv', comment='#')
member_df.drop(labels=['Email', 'Address'], axis=1)

Unnamed: 0,Name,Age
0,홍길동,20
1,홍길서,25
2,홍길남,26
3,홍길북,25


In [118]:
member_df.drop(labels=['Email', 'Address'], axis='columns')

Unnamed: 0,Name,Age
0,홍길동,20
1,홍길서,25
2,홍길남,26
3,홍길북,25


In [119]:
# 3) 열 삭제와 재할당
member_df.drop('Address', axis=1)

Unnamed: 0,Name,Age,Email
0,홍길동,20,east@hong.com
1,홍길서,25,west@hong.com
2,홍길남,26,south@hong.com
3,홍길북,25,north@hong.com


In [120]:
# 위에서 삭제한 결과가 실제 데이터엔 반영되지 않는다.
# drop()함수는 결과를 할당받아 저장해야 변경된 내용을 볼 수 있다.
member_df

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길북,25,north@hong.com,서울시 강북구


In [121]:
# 재할당없이 바로 적용하기 원한다면 inplace=True속성 이용
member_df.drop('Address', axis=1, inplace=True)
member_df

Unnamed: 0,Name,Age,Email
0,홍길동,20,east@hong.com
1,홍길서,25,west@hong.com
2,홍길남,26,south@hong.com
3,홍길북,25,north@hong.com


## (2) 데이터프레임의 요소 추가 

In [122]:
# 1) 열 추가 
member_df = pd.read_csv("data/ch12_member_data.csv", comment='#')
member_df

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길북,25,north@hong.com,서울시 강북구


In [123]:
member_df['BirthYear'] = 2000 
member_df

Unnamed: 0,Name,Age,Email,Address,BirthYear
0,홍길동,20,east@hong.com,서울시 강동구,2000
1,홍길서,25,west@hong.com,서울시 강서구,2000
2,홍길남,26,south@hong.com,서울시 강남구,2000
3,홍길북,25,north@hong.com,서울시 강북구,2000


In [124]:
member_df = pd.read_csv("data/ch12_member_data.csv", comment='#')
member_df['BirthYear'] = [2002, 1997, 1996, 1995]
member_df

Unnamed: 0,Name,Age,Email,Address,BirthYear
0,홍길동,20,east@hong.com,서울시 강동구,2002
1,홍길서,25,west@hong.com,서울시 강서구,1997
2,홍길남,26,south@hong.com,서울시 강남구,1996
3,홍길북,25,north@hong.com,서울시 강북구,1995


In [125]:
member_df = pd.read_csv("data/ch12_member_data.csv", comment='#')
member_df["BirthYear"] = [2001, 2002, 2003, None]
member_df

Unnamed: 0,Name,Age,Email,Address,BirthYear
0,홍길동,20,east@hong.com,서울시 강동구,2001.0
1,홍길서,25,west@hong.com,서울시 강서구,2002.0
2,홍길남,26,south@hong.com,서울시 강남구,2003.0
3,홍길북,25,north@hong.com,서울시 강북구,


In [126]:
type(np.NaN)

float

In [128]:
# 2) 시리즈를 이용한 열 추가 
#    (NaN의 타입이 float유형이라 정수 자료형이 모두 실수로 바뀜)
member_df = pd.read_csv("data/ch12_member_data.csv", comment="#")
member_df["BirthYear"] = pd.Series([2002,1997,1996], index=[0,1,3])
member_df

Unnamed: 0,Name,Age,Email,Address,BirthYear
0,홍길동,20,east@hong.com,서울시 강동구,2002.0
1,홍길서,25,west@hong.com,서울시 강서구,1997.0
2,홍길남,26,south@hong.com,서울시 강남구,
3,홍길북,25,north@hong.com,서울시 강북구,1996.0


In [130]:
# 3) 딕셔너리로 행 추가 
member_df = pd.read_csv("data/ch12_member_data.csv", comment="#")
member_df

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길북,25,north@hong.com,서울시 강북구


In [131]:
new_member = {"Name"  : "홍길안",
              "Age"   : 13,
              "Email" : "in@hong.com",
              "Address":"서울시 마포구"}
new_df = member_df.append(new_member, ignore_index=True)
new_df

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길북,25,north@hong.com,서울시 강북구
4,홍길안,13,in@hong.com,서울시 마포구


In [132]:
# 4) 리스트로 행 추가 
new_list = ['홍길중', 30, 'middle', '서울시 종로구']
new_series = pd.Series(new_list, index=member_df.columns)
new_df = member_df.append(new_series, ignore_index=True)
new_df

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길북,25,north@hong.com,서울시 강북구
4,홍길중,30,middle,서울시 종로구


In [133]:
member_df # 위에서 추가한 정보들이 실제 데이터에 반영되지 않음

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길북,25,north@hong.com,서울시 강북구


In [134]:
# 5) 시리즈를 이용한 리스트 데이터의 행 추가 
new_list = ['홍길가', 32, 'edge@hong.com', '인천시 서구']
new_series = pd.Series(new_list, index=member_df.columns)
new_series

Name                 홍길가
Age                   32
Email      edge@hong.com
Address           인천시 서구
dtype: object

In [136]:
new_df = member_df.append(new_series, ignore_index=True)
new_df

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길북,25,north@hong.com,서울시 강북구
4,홍길가,32,edge@hong.com,인천시 서구


In [137]:
new_member = pd.DataFrame([{"Name"  : "이순신",
              "Age"   : 30,
              "Email" : "hong@abc.com",
              "Address":"서울시 마포구"}])
new_member

Unnamed: 0,Name,Age,Email,Address
0,이순신,30,hong@abc.com,서울시 마포구


In [138]:

new_member = pd.DataFrame({"Name"  : ["이순신"],
              "Age"   : [30],
              "Email" : ["hong@abc.com"],
              "Address":["서울시 마포구"]})
new_member

Unnamed: 0,Name,Age,Email,Address
0,이순신,30,hong@abc.com,서울시 마포구


In [139]:
new_df = member_df.append(new_member)
new_df

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길북,25,north@hong.com,서울시 강북구
0,이순신,30,hong@abc.com,서울시 마포구


In [140]:
new_df.index = range(len(new_df))
new_df.index

RangeIndex(start=0, stop=5, step=1)

In [141]:
new_df

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길북,25,north@hong.com,서울시 강북구
4,이순신,30,hong@abc.com,서울시 마포구


In [142]:
member_df

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길북,25,north@hong.com,서울시 강북구


# 6. 정렬

## (1) 행이름으로 정렬

In [143]:
member_df = pd.read_csv("data/ch12_member_data.csv", comment="#")
member_df.index = ["동","서","남","북"]
member_df

Unnamed: 0,Name,Age,Email,Address
동,홍길동,20,east@hong.com,서울시 강동구
서,홍길서,25,west@hong.com,서울시 강서구
남,홍길남,26,south@hong.com,서울시 강남구
북,홍길북,25,north@hong.com,서울시 강북구


In [144]:
member_df.sort_index(axis=0)

Unnamed: 0,Name,Age,Email,Address
남,홍길남,26,south@hong.com,서울시 강남구
동,홍길동,20,east@hong.com,서울시 강동구
북,홍길북,25,north@hong.com,서울시 강북구
서,홍길서,25,west@hong.com,서울시 강서구


## (2) 열 이름으로 순서 바꾸기 

In [145]:
member_df.sort_index(axis=1)

Unnamed: 0,Address,Age,Email,Name
동,서울시 강동구,20,east@hong.com,홍길동
서,서울시 강서구,25,west@hong.com,홍길서
남,서울시 강남구,26,south@hong.com,홍길남
북,서울시 강북구,25,north@hong.com,홍길북


In [146]:
member_df

Unnamed: 0,Name,Age,Email,Address
동,홍길동,20,east@hong.com,서울시 강동구
서,홍길서,25,west@hong.com,서울시 강서구
남,홍길남,26,south@hong.com,서울시 강남구
북,홍길북,25,north@hong.com,서울시 강북구


In [147]:
member_df.sort_index(axis=0, inplace=True)
member_df

Unnamed: 0,Name,Age,Email,Address
남,홍길남,26,south@hong.com,서울시 강남구
동,홍길동,20,east@hong.com,서울시 강동구
북,홍길북,25,north@hong.com,서울시 강북구
서,홍길서,25,west@hong.com,서울시 강서구


## (3) 값으로 정렬 

In [148]:
member_df.sort_values(by=['Email'])

Unnamed: 0,Name,Age,Email,Address
동,홍길동,20,east@hong.com,서울시 강동구
북,홍길북,25,north@hong.com,서울시 강북구
남,홍길남,26,south@hong.com,서울시 강남구
서,홍길서,25,west@hong.com,서울시 강서구


In [149]:
member_df

Unnamed: 0,Name,Age,Email,Address
남,홍길남,26,south@hong.com,서울시 강남구
동,홍길동,20,east@hong.com,서울시 강동구
북,홍길북,25,north@hong.com,서울시 강북구
서,홍길서,25,west@hong.com,서울시 강서구


In [150]:
member_df.sort_values(by='Email', inplace=True)
member_df

Unnamed: 0,Name,Age,Email,Address
동,홍길동,20,east@hong.com,서울시 강동구
북,홍길북,25,north@hong.com,서울시 강북구
남,홍길남,26,south@hong.com,서울시 강남구
서,홍길서,25,west@hong.com,서울시 강서구


In [151]:
new_series = pd.Series(['홍길중', 30, 'middle@hong.com', '서울시 중구'],
                      index=member_df.columns)
member_df = member_df.append(new_series, ignore_index=True)
member_df

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길북,25,north@hong.com,서울시 강북구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길서,25,west@hong.com,서울시 강서구
4,홍길중,30,middle@hong.com,서울시 중구


In [152]:
member_df.index = ["동","서","남","북","중"]
member_df

Unnamed: 0,Name,Age,Email,Address
동,홍길동,20,east@hong.com,서울시 강동구
서,홍길북,25,north@hong.com,서울시 강북구
남,홍길남,26,south@hong.com,서울시 강남구
북,홍길서,25,west@hong.com,서울시 강서구
중,홍길중,30,middle@hong.com,서울시 중구


In [154]:
member_df.sort_values(by=['Email','Age'])

Unnamed: 0,Name,Age,Email,Address
동,홍길동,20,east@hong.com,서울시 강동구
중,홍길중,30,middle@hong.com,서울시 중구
서,홍길북,25,north@hong.com,서울시 강북구
남,홍길남,26,south@hong.com,서울시 강남구
북,홍길서,25,west@hong.com,서울시 강서구


In [155]:
member_df.sort_values(by=["Email", "Age"], ascending=False) # 내림차순

Unnamed: 0,Name,Age,Email,Address
북,홍길서,25,west@hong.com,서울시 강서구
남,홍길남,26,south@hong.com,서울시 강남구
서,홍길북,25,north@hong.com,서울시 강북구
중,홍길중,30,middle@hong.com,서울시 중구
동,홍길동,20,east@hong.com,서울시 강동구


In [156]:
member_df.sort_values(by=["Email", "Age"], inplace=True)
member_df

Unnamed: 0,Name,Age,Email,Address
동,홍길동,20,east@hong.com,서울시 강동구
중,홍길중,30,middle@hong.com,서울시 중구
서,홍길북,25,north@hong.com,서울시 강북구
남,홍길남,26,south@hong.com,서울시 강남구
북,홍길서,25,west@hong.com,서울시 강서구


## (4) 레벨로 정렬 

In [157]:
member_df = pd.read_csv("data/ch12_member_data.csv", comment="#")
member_df.columns = [["기본정보","기본정보","추가정보","추가정보"],
                     ["이름","나이","이메일","주소"]]
member_df.columns.names = ["정보구분","상세정보"]
member_df

정보구분,기본정보,기본정보,추가정보,추가정보
상세정보,이름,나이,이메일,주소
0,홍길동,20,east@hong.com,서울시 강동구
1,홍길서,25,west@hong.com,서울시 강서구
2,홍길남,26,south@hong.com,서울시 강남구
3,홍길북,25,north@hong.com,서울시 강북구


In [158]:
member_df.index=[["좌우","좌우","상하","상하"],
                 ["동","서","남","북"]]
member_df.index.names = ["위치구분","상세위치"]
member_df

Unnamed: 0_level_0,정보구분,기본정보,기본정보,추가정보,추가정보
Unnamed: 0_level_1,상세정보,이름,나이,이메일,주소
위치구분,상세위치,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
좌우,동,홍길동,20,east@hong.com,서울시 강동구
좌우,서,홍길서,25,west@hong.com,서울시 강서구
상하,남,홍길남,26,south@hong.com,서울시 강남구
상하,북,홍길북,25,north@hong.com,서울시 강북구


In [159]:
member_df.sort_index(level=['위치구분'])

Unnamed: 0_level_0,정보구분,기본정보,기본정보,추가정보,추가정보
Unnamed: 0_level_1,상세정보,이름,나이,이메일,주소
위치구분,상세위치,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
상하,남,홍길남,26,south@hong.com,서울시 강남구
상하,북,홍길북,25,north@hong.com,서울시 강북구
좌우,동,홍길동,20,east@hong.com,서울시 강동구
좌우,서,홍길서,25,west@hong.com,서울시 강서구


In [160]:
member_df.sort_index(level=['상세위치'])

Unnamed: 0_level_0,정보구분,기본정보,기본정보,추가정보,추가정보
Unnamed: 0_level_1,상세정보,이름,나이,이메일,주소
위치구분,상세위치,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
상하,남,홍길남,26,south@hong.com,서울시 강남구
좌우,동,홍길동,20,east@hong.com,서울시 강동구
상하,북,홍길북,25,north@hong.com,서울시 강북구
좌우,서,홍길서,25,west@hong.com,서울시 강서구


# 7. 기초 통계 분석 
- count : NA를 제외한 갯수
- min : 최소값
- max : 최대값
- sum : 합
- cumprod : 누적합
- mean : 평균
- median : 중앙값
- quantile : 분위수
- corr : 상관관계
- var : 표본분산
- std : 분산

In [161]:
iris = sm.datasets.get_rdataset("iris", package="datasets")
iris_df = iris.data
iris_df.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [162]:
type(iris_df)

pandas.core.frame.DataFrame

## (1) 최소값, 최대값, 평균, 중위수 

In [163]:
# 최소값
iris_df.min() # shift+tab+tab: 해당함수의 기본값들 확인 가능 

Sepal.Length       4.3
Sepal.Width          2
Petal.Length         1
Petal.Width        0.1
Species         setosa
dtype: object

In [164]:
# 최대값
iris_df.max()

Sepal.Length          7.9
Sepal.Width           4.4
Petal.Length          6.9
Petal.Width           2.5
Species         virginica
dtype: object

In [165]:
# 평균 
iris_df.mean()

Sepal.Length    5.843333
Sepal.Width     3.057333
Petal.Length    3.758000
Petal.Width     1.199333
dtype: float64

In [166]:
# 중위수
iris_df.median()

Sepal.Length    5.80
Sepal.Width     3.00
Petal.Length    4.35
Petal.Width     1.30
dtype: float64

In [167]:
# 분산
iris_df.var()

Sepal.Length    0.685694
Sepal.Width     0.189979
Petal.Length    3.116278
Petal.Width     0.581006
dtype: float64

In [168]:
# 표준편차
iris_df.std()

Sepal.Length    0.828066
Sepal.Width     0.435866
Petal.Length    1.765298
Petal.Width     0.762238
dtype: float64

In [169]:
iris_df.quantile(q=[0.0, 0.25, 0.5, 0.75, 1.0], interpolation='nearest')

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width
0.0,4.3,2.0,1.0,0.1
0.25,5.1,2.8,1.6,0.3
0.5,5.8,3.0,4.3,1.3
0.75,6.4,3.3,5.1,1.8
1.0,7.9,4.4,6.9,2.5


## (2) 요약 통계량

In [170]:
# 1) 기본 요약 통계량
iris_df.describe() # 숫자열에서의 요약 통계량

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [171]:
iris_df.Species.describe() # 숫자열이 없는 개체에서의 요약 통계량

count        150
unique         3
top       setosa
freq          50
Name: Species, dtype: object

In [174]:
iris_df['Sepal.Length'].describe()

count    150.000000
mean       5.843333
std        0.828066
min        4.300000
25%        5.100000
50%        5.800000
75%        6.400000
max        7.900000
Name: Sepal.Length, dtype: float64

In [175]:
iris_df.columns = [col.lower().replace('.','_')
                 for col in iris_df.columns]
iris_df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [176]:
# 2) include / exclude 
df = pd.DataFrame({'a':[1,2]*3,
                   'b':[True, False]*3,
                   'c':[2.0, 4]*3})
df

Unnamed: 0,a,b,c
0,1,True,2.0
1,2,False,4.0
2,1,True,2.0
3,2,False,4.0
4,1,True,2.0
5,2,False,4.0


In [177]:
df.describe() # b열은 논리값이므로 기본 요약 통계량 대상에서 제외됨 

Unnamed: 0,a,c
count,6.0,6.0
mean,1.5,3.0
std,0.547723,1.095445
min,1.0,2.0
25%,1.0,2.0
50%,1.5,3.0
75%,2.0,4.0
max,2.0,4.0


- include 및 exclude 매개변수를 사용하여 DataFrame에서 출력용으로 분석되는 열을 제한할 수 있다.
- Series를 분석할 때는 매개변수는 무시된다


In [178]:
df.describe(include=['int64']) # 정수형 열에 대해서만 요약통계량 출력

Unnamed: 0,a
count,6.0
mean,1.5
std,0.547723
min,1.0
25%,1.0
50%,1.5
75%,2.0
max,2.0


In [179]:
df.describe(include=['bool', 'float64'])

Unnamed: 0,b,c
count,6,6.0
unique,2,
top,True,
freq,3,
mean,,3.0
std,,1.095445
min,,2.0
25%,,2.0
50%,,3.0
75%,,4.0


In [180]:
df.describe(exclude=['bool','float64'])

Unnamed: 0,a
count,6.0
mean,1.5
std,0.547723
min,1.0
25%,1.0
50%,1.5
75%,2.0
max,2.0


In [181]:
df.describe(include='all')

Unnamed: 0,a,b,c
count,6.0,6,6.0
unique,,2,
top,,True,
freq,,3,
mean,1.5,,3.0
std,0.547723,,1.095445
min,1.0,,2.0
25%,1.0,,2.0
50%,1.5,,3.0
75%,2.0,,4.0


In [182]:
df.describe(exclude=['float64'])

Unnamed: 0,a,b
count,6.0,6
unique,,2
top,,True
freq,,3
mean,1.5,
std,0.547723,
min,1.0,
25%,1.0,
50%,1.5,
75%,2.0,


In [183]:
# include와 exclude에 같은 유형을 중복 사용하는 것은 불가능 
df.describe(include=['int64'], exclude=['int64','float64'])

ValueError: include and exclude overlap on frozenset({<class 'numpy.int64'>})

## (3) 분산, 표준편차 

In [185]:
iris_df.var() # 분산 (표준편차 * 표준편차)

sepal_length    0.685694
sepal_width     0.189979
petal_length    3.116278
petal_width     0.581006
dtype: float64

In [186]:
iris_df.std() # 표준편차

sepal_length    0.828066
sepal_width     0.435866
petal_length    1.765298
petal_width     0.762238
dtype: float64

In [187]:
np.sqrt(iris_df.var()) # 분산의 제곱근 = 표준편차

sepal_length    0.828066
sepal_width     0.435866
petal_length    1.765298
petal_width     0.762238
dtype: float64

## (4) 공분산, 상관계수

- http://destrudo.tistory.com/15
- 공분산: Cov(x, y) = E((x-x의 평균)(y-y의 평균))
    - x와 y가 독립이면 공분산은 0
- 분산: Var(x) = E((x-x의 평균)의 제곱)

In [188]:
iris_df.cov()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
sepal_length,0.685694,-0.042434,1.274315,0.516271
sepal_width,-0.042434,0.189979,-0.329656,-0.121639
petal_length,1.274315,-0.329656,3.116278,1.295609
petal_width,0.516271,-0.121639,1.295609,0.581006


In [189]:
iris_df.corr()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
sepal_length,1.0,-0.11757,0.871754,0.817941
sepal_width,-0.11757,1.0,-0.42844,-0.366126
petal_length,0.871754,-0.42844,1.0,0.962865
petal_width,0.817941,-0.366126,0.962865,1.0
