# ch12. 데이터프레임과 시리즈(Pandas)

## 1절. 판다스 패키지
- 데이터분석을 위해 반드시 알아야 할 패키지. 넘파이를 기반으로 하며, 다른 많은 라이브러리와 잘 통합되도록 설계
- 1차원 구조를 갖는 시리즈, 2차원 구조를 갖는 데이터프레임을 제공.
- 판다스가 잘하는 몇 가지의 사항 : 결측치 처리, 크기변경(열삽입, 삭제), 데이터 정렬, 데이터 분할, 병합, 데이터 프레임 생성, 부분 데이터 셋 추출, 피벗과 언피벗, 레이블링, 파일입출력 등에 용이 

* https://pypi.python.org/pypi/pandas (package index)
* http://pandas.pydata.org/pandas-docs/stable/api.html (API reference)

In [264]:
import pandas as pd
pd.__version__

'1.2.4'

In [265]:
data = pd.read_json('data/ch09_member2.json') #cp949 파일이면 encoding='cp949' 해줘야 됨.
data

Unnamed: 0,name,age,email,address
0,홍길동,20,hong@hong.com,서울
1,김김김,25,kim@hong.com,경기
2,박길동,30,park@hong.com,제주


In [266]:
data = pd.read_csv('data/ch09_member5.csv')
data

Unnamed: 0,name,age,email,address,job
0,홍길동,20,hong@hong.com,서울,
1,석길동,23,park@hong.com,부산,팀장
2,신길동,29,shin@hong.com,광주,


In [267]:
data=pd.read_csv('data/ch09_member2.csv')
data

Unnamed: 0,홍길동,20,hong@hong.com,서울
0,마길동,25,ma@hong.com,인천


In [268]:
data=pd.read_csv('data/ch09_member2.csv', header=None, names=['name','age','email','address'])
data

Unnamed: 0,name,age,email,address
0,홍길동,20,hong@hong.com,서울
1,마길동,25,ma@hong.com,인천


In [269]:
iris = pd.read_hdf('data/ch09_iris2.hdf5', key='iris')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


## 2절. 데이터프레임 만들기

### 2.1 딕셔너리를 이용해서 데이터프레임 만들기

In [273]:
# value가 list인 딕셔너리를 데이터프레임으로
d={'kor':[1,2],'eng':[3,4]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,kor,eng
0,1,3
1,2,4


In [274]:
# 딕셔너리 리스트를 데이터프레임으로
d = [{'kor':100,'mat':95},{'kor':90,'mat':99},{'mat':80},{'kor1':85}] 
df=pd.DataFrame(data=d)
df
#결측치가 들어오면 결측치가 있는 열이 float가 됨.

Unnamed: 0,kor,mat,kor1
0,100.0,95.0,
1,90.0,99.0,
2,,80.0,
3,,,85.0


In [272]:
import numpy as np
print(np.nan)
print(type(np.nan))

nan
<class 'float'>


### 2.2 리스트를 이용해 데이터프레임 만들기

In [160]:
kor=[100,90,95,90,65]
mat=[100,99,95,65,92]
df=pd.DataFrame({'kor':kor,'mat':mat})
df

Unnamed: 0,kor,mat
0,100,100
1,90,99
2,95,95
3,90,65
4,65,92


In [161]:
np.c_[kor,mat]

array([[100, 100],
       [ 90,  99],
       [ 95,  95],
       [ 90,  65],
       [ 65,  92]])

In [None]:
df=pd.DataFrame(np.c_[kor,mat], columns=['kor','mat'])
df

### 2.3 read_csv()

In [None]:
df=pd.read_csv('data/상가업소정보_201912_01.csv', encoding='utf-8',sep='|', nrows=30)
df

In [None]:
df=pd.read_csv('D:\Bigdata\download\sharedBigdata\상가업소정보_201912_01.csv',encoding='utf-8', sep='|')
df.head()

In [None]:
#판다스 디스플레이 옵션
pd.options.display.max_columns = 30 #kernel 재시작하면 원상복구
pd.options.display.max_rows = 40
df.head(1).T

In [None]:
# (1) CSV 파일 불러오기
member_df = pd.read_csv('data/ch12_member.csv') #기본값 encoding='utf-8', sep=',' 
member_df

In [None]:
# (2) 특정 행 제외하기
member_df = pd.read_csv('data/ch12_member.csv',skiprows=[1,3])
member_df

In [None]:
# (3) 처음 3행만 가져오기
member_df = pd.read_csv('data/ch12_member.csv', nrows = 3)
member_df

In [None]:
# (4) 주석행 제거하고 가져오기
member_df = pd.read_csv('data/ch12_member.csv', comment='#')
member_df

### 2.4 sklearn.datasets 모듈 데이터를 데이터프레임으로 변환

In [None]:
from sklearn import datasets
#sklearn 패키지는 학습시키기 위한 많은 데이터셋이 제공
#sklearn 패키지에서 제공되는 데이터셋은 딕셔너리 형식으로 되어 있음.
iris = datasets.load_iris()
iris

In [None]:
iris.data

In [None]:
iris.feature_names

In [None]:
[col[:-4].strip().replace(' ','_') for col in iris.feature_names]

In [None]:
iris.target_names

In [None]:
#종속변수
iris.target_names[iris.target]

In [None]:
#독립변수 iris.data
#종속변수 iris.target_names[iris.target]
np.hstack((iris.data, iris.target_names[iris.target].reshape(150,1))) #이러면 iris.data가 문자형식이 된다.

In [None]:
#독립변수, 종속변수 따로 데이터 프레임으로 만들고 concat
x = pd.DataFrame(iris.data,columns=[col[:-4].strip().replace(' ','_') for col in iris.feature_names])
x

In [None]:
y=pd.DataFrame(iris.target_names[iris.target], columns=['species'])
y

In [None]:
iris_df = pd.concat([x, y], axis=1)
iris_df

## 3절. 이름(열,행) 지정하기

### 3.1 열 이름 지정하기

In [162]:
member_df = pd.read_csv('data/ch12_member.csv', comment='#')
member_df

Unnamed: 0,name,age,email,address,job
0,홍길동,20,kil@hong.com,서울,
1,석길동,40,suk@hong.com,인천,팀장
2,마길동,30,ma@hong.com,안양,


In [163]:
member_df.columns = ['이름','나이','이메일','주소','직업']
member_df

Unnamed: 0,이름,나이,이메일,주소,직업
0,홍길동,20,kil@hong.com,서울,
1,석길동,40,suk@hong.com,인천,팀장
2,마길동,30,ma@hong.com,안양,


### 3.2 행이름 지정하기

In [164]:
member_df.index

RangeIndex(start=0, stop=3, step=1)

In [165]:
member_df.index=['아','카','샤']
member_df

Unnamed: 0,이름,나이,이메일,주소,직업
아,홍길동,20,kil@hong.com,서울,
카,석길동,40,suk@hong.com,인천,팀장
샤,마길동,30,ma@hong.com,안양,


In [166]:
#Name을 행이름으로
member = member_df.set_index('이름')
member

Unnamed: 0_level_0,나이,이메일,주소,직업
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
홍길동,20,kil@hong.com,서울,
석길동,40,suk@hong.com,인천,팀장
마길동,30,ma@hong.com,안양,


In [167]:
member.reset_index() #실행한 결과가 출력되는 함수는 member를 수정시키지 않음
                     #inplace =True 추가시 member를 수정시킴, 반환값은 None
member

Unnamed: 0_level_0,나이,이메일,주소,직업
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
홍길동,20,kil@hong.com,서울,
석길동,40,suk@hong.com,인천,팀장
마길동,30,ma@hong.com,안양,


In [168]:
member.reset_index(inplace=True)
member

Unnamed: 0,이름,나이,이메일,주소,직업
0,홍길동,20,kil@hong.com,서울,
1,석길동,40,suk@hong.com,인천,팀장
2,마길동,30,ma@hong.com,안양,


### 3.3 레벨 이름 지정하기

In [169]:
member_df.loc['카','이름']

'석길동'

In [170]:
member_df.columns=[['기본정보','기본정보','추가정보','추가정보','추가정보'],['이름','나이','이메일','주소','직업']]
member_df.columns.names=['대분류','소분류']
member_df

대분류,기본정보,기본정보,추가정보,추가정보,추가정보
소분류,이름,나이,이메일,주소,직업
아,홍길동,20,kil@hong.com,서울,
카,석길동,40,suk@hong.com,인천,팀장
샤,마길동,30,ma@hong.com,안양,


In [172]:
member_df.index = [['어','디','가'],['멤','버','스']]
member_df

Unnamed: 0_level_0,대분류,기본정보,기본정보,추가정보,추가정보,추가정보
Unnamed: 0_level_1,소분류,이름,나이,이메일,주소,직업
어,멤,홍길동,20,kil@hong.com,서울,
디,버,석길동,40,suk@hong.com,인천,팀장
가,스,마길동,30,ma@hong.com,안양,


In [None]:
member_df.loc['어','기본정보']['나이']['멤']

## 4절. 부분 데이터 조회

In [None]:
member_df = pd.read_csv('data/ch12_member.csv', comment='#')
member_df

### 4.1 단일 열조회

In [None]:
member_df.name

In [None]:
member_df.loc[0]

### 4.2 loc을 이용한 조회

In [None]:
# loc[]을 이용하면 열이름, 행이름으로 조회.
# 콜론(:)은 사이의 모든 행이나 열을 선택해 줌
member_df.loc[0:2]

In [None]:
member_df.loc[0:2,['name','address']]

### 4.3 iloc을 이용한 조회

In [None]:
member_df.iloc[2,2]

In [None]:
member_df.iloc[0:2:1,2] #iloc[from:to:by,] from부터 to전까지(to미포함) by씩 증가

In [None]:
member_df.iloc[range(3),2]

In [None]:
member_df.iloc[2]

In [None]:
member_df.iloc[::-1]

### 4.4 조건으로 조회하기

#### iris 데이터 가져오기 1 방법: sklearn
#### iris 데이터 가져오기 2 방법: seaborn
#### iris 데이터 가져오기 3 방법: R

In [212]:
#seaborn
import seaborn as sns
iris_df = sns.load_dataset('iris')
iris_df.sample(1)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
89,5.5,2.5,4.0,1.3,versicolor


In [211]:
#R
import statsmodels.api as sm
iris = sm.datasets.get_rdataset('iris', package='datasets')

<class 'statsmodels.datasets.utils.Dataset'>

- get_rdataset(데이터셋명, 패키지명)함수로 R데이터를 가져올 수 있음
- get_rdataset()함수로 불러온 데이터는 다음 속성을 가지고 있음<br/>
    data : 데이터를 담고 있는 데이터프레임.<br/>
    \_\_doc\_\_: 데이터에 대한 설명 문자열.<br/>
    title : 데이터 이름

In [None]:
iris_df = iris.data
iris_df.head()

In [None]:
iris_df.loc[:10,'Sepal.Length':'Petal.Length']

In [None]:
#Species가 versicolor인 데이터의 모든 열 출력
iai=iris_df['Species']=="versicolor"
iris_df.loc[iai]

In [None]:
iai=(iris_df["Sepal.Length"]>=6.5) & (iris_df['Species']=='versicolor')
iris_df.loc[iai,['Sepal.Length','Sepal.Width']]

In [None]:
member_df=pd.read_csv('data/ch12_member.csv', comment='#')
member_df

In [None]:
#주소에 '울'이 포함된 데이터
member_df.info() #데이터 요약

In [None]:
member_df.isna() #결측치

In [None]:
member_df.isna().sum() # 열별 결측치 개수

In [None]:
member_df.isnull().sum() # 열별 null 개수

In [None]:
msg = "서울시 강서구 화곡동"
msg.find('강동구')

시리즈를 문자 함수로 쓰기 위해서:
http://pandas.pydata.org/pandas-docs/stable/reference/series.html#string-handling

In [None]:
condition=member_df.address.str.find('울')!=-1
member_df[condition]

In [None]:
#강서구에 거주하는 사람의 이름과 나이를 출력
member_df.loc[condition,['name','age','address']]

In [None]:
print(member_df)
print(member_df.info())

In [None]:
member_df.age= member_df.age.astype('float64') # int타입을 float64로 형변환
member_df.info()

## 5절. 데이터 추가 및 삭제

### 5.1 데이터 프레임의 요소 삭제

In [None]:
# 1) 단일 행 삭제
member_df.drop(2, axis=0) #inplace=True 추가시 member_df에 적용

In [None]:
member_df.drop(labels=['name','age'],axis=1)

### 5.2 데이터프레임의 요소 추가

In [None]:
member_df

In [None]:
member_df['birthyear']=[2001,2002,None] #결측치를 입력하면 type이 float가 된다.
member_df

In [None]:
member_df['birthyear']=pd.Series([2001,2012], index=[0,2])
member_df

In [None]:
# 딕셔너리로 행추가
new_member={'name':'도적놈','age':20,'email':'kk@hong.com','address':'한양','job':'백','birthyear':2010}
member_df.append(new_member, ignore_index=True)

In [None]:
#시리즈를 이용한 데이터 행 추가
new_series = pd.Series(['파이선',25,'abc@naver.com','아카','아',2009], index=member_df.columns)
member_df.append(new_series, ignore_index=True)

In [None]:
# 데이터프레임을 이용한 행 추가
new = pd.DataFrame([{'name':'이순신','age':50,'email':'ok@hong.com','address':'거기','job':'왜','birthyear':2019}])


In [None]:
member_df=member_df.append(new)
member_df.index=range(len(member_df)) #이순신 번호 0을 3으로
member_df

## 6절. 정렬 (행이름, 열이름, 값에 의한 정렬)

In [None]:
member_df

### 6.1 행이름으로 정렬

In [None]:
member_df.sort_index(axis=0)
print(member_df.sort_index(axis='rows'))


### 6.2 열이름으로 정렬

In [None]:
member_df.sort_index(axis=1)

### 6.3 값으로 정렬

In [None]:
member_df.sort_values(by=['email'], inplace=True)
member_df

In [None]:
member_df.sort_values(by='email', ascending=False)

## 7절. 기초 통계 분석
- count : NA를 제외한 개수
- min,max,sum,cumsum,cumprod(누적곱),mean,median,std,var,quantile(분위수), corr(상관관계)

In [245]:
from statsmodels.api import datasets
iris_df = datasets.get_rdataset('iris').data
iris_df.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


### 7.1 최소값, 최대값,...

In [246]:
iris_df.mean(axis=0)

Sepal.Length    5.843333
Sepal.Width     3.057333
Petal.Length    3.758000
Petal.Width     1.199333
dtype: float64

In [247]:
iris_df.quantile(q=[0.0,0.25,0.5,0.75,1], interpolation='nearest')

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width
0.0,4.3,2.0,1.0,0.1
0.25,5.1,2.8,1.6,0.3
0.5,5.8,3.0,4.3,1.3
0.75,6.4,3.3,5.1,1.8
1.0,7.9,4.4,6.9,2.5


### 7.2 요약통계량

In [248]:
# 1. 요약 통계량
iris_df.describe() #숫자열에서의 요약 통계량

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [249]:
iris_df.Species.describe() # 문자열에서의 요약통계량

count        150
unique         3
top       setosa
freq          50
Name: Species, dtype: object

In [250]:
iris_df.columns = [col.replace('.','_') for col in iris_df.columns]
iris_df

Unnamed: 0,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


In [251]:
iris_df.Sepal_Length

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
5      5.4
6      4.6
7      5.0
8      4.4
9      4.9
10     5.4
11     4.8
12     4.8
13     4.3
14     5.8
15     5.7
16     5.4
17     5.1
18     5.7
19     5.1
20     5.4
21     5.1
22     4.6
23     5.1
24     4.8
25     5.0
26     5.0
27     5.2
28     5.2
29     4.7
30     4.8
31     5.4
32     5.2
33     5.5
34     4.9
35     5.0
36     5.5
37     4.9
38     4.4
39     5.1
40     5.0
41     4.5
42     4.4
43     5.0
44     5.1
45     4.8
46     5.1
47     4.6
48     5.3
49     5.0
50     7.0
51     6.4
52     6.9
53     5.5
54     6.5
55     5.7
56     6.3
57     4.9
58     6.6
59     5.2
60     5.0
61     5.9
62     6.0
63     6.1
64     5.6
65     6.7
66     5.6
67     5.8
68     6.2
69     5.6
70     5.9
71     6.1
72     6.3
73     6.1
74     6.4
75     6.6
76     6.8
77     6.7
78     6.0
79     5.7
80     5.5
81     5.5
82     5.8
83     6.0
84     5.4
85     6.0
86     6.7
87     6.3
88     5.6
89     5.5
90     5.5

In [252]:
# include와 exclude
import pandas as pd
df = pd.DataFrame({'a':[1,2]*3,
                  'b':[True, False]*3,
                  'c':[2.0,4]*3})
df

Unnamed: 0,a,b,c
0,1,True,2.0
1,2,False,4.0
2,1,True,2.0
3,2,False,4.0
4,1,True,2.0
5,2,False,4.0


In [253]:
df.describe()

Unnamed: 0,a,c
count,6.0,6.0
mean,1.5,3.0
std,0.547723,1.095445
min,1.0,2.0
25%,1.0,2.0
50%,1.5,3.0
75%,2.0,4.0
max,2.0,4.0


In [254]:
df.describe(include=['float64','bool'])

Unnamed: 0,b,c
count,6,6.0
unique,2,
top,False,
freq,3,
mean,,3.0
std,,1.095445
min,,2.0
25%,,2.0
50%,,3.0
75%,,4.0


In [255]:
df.describe(exclude=['float64'])

Unnamed: 0,a,b
count,6.0,6
unique,,2
top,,False
freq,,3
mean,1.5,
std,0.547723,
min,1.0,
25%,1.0,
50%,1.5,
75%,2.0,


In [256]:
# -1 < 상관계수 < 1
iris_df.corr()

Unnamed: 0,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width
Sepal_Length,1.0,-0.11757,0.871754,0.817941
Sepal_Width,-0.11757,1.0,-0.42844,-0.366126
Petal_Length,0.871754,-0.42844,1.0,0.962865
Petal_Width,0.817941,-0.366126,0.962865,1.0


## 8절.  데이터 그룹화 및 집계

### 8.1 Groupby

In [None]:
iris_grouped=iris_df.groupby(iris_df.Species)
iris_grouped

In [None]:
iris_grouped.mean()

In [None]:
iris_df.groupby(iris_df.Species).sum()

In [None]:
# 종별 Sepal.Length의 합계
# iris_df.groupby(['인덱스로 사용할 컬럼명'])['원하는 컬럼명'].연산()
iris_df.groupby(['Species'])['Sepal_Length'].sum() #결과가 시리즈(결과 1개 초과면 데이터프레임)

In [None]:
iris_df.pivot_table(index='Species',
                   values=['Sepal_Length','Sepal_Width']) #결과가 데이터프레임

In [None]:
iris_df.groupby(['Species'])['Sepal_Length','Sepal_Width'].sum()

In [None]:
iris_df.groupby(['Species']).count()

In [None]:
iris_df.loc[1, 'Sepal_Length'] = np.nan
iris_df.groupby(['Species']).count()

In [None]:
iris_df.loc[1, 'Sepal_Length'] = 4.9
iris_df.groupby(['Species']).count()

In [None]:
iris_df['Species'].value_counts()

In [None]:
# 다중 열로 그룹화
r=iris_df.groupby(['Species','Sepal_Length']).sum()
r.loc['setosa']

In [None]:
iris_df.groupby(['Species']).describe().T

In [None]:
g= iris_df.groupby('Species').mean()
g

In [None]:
import matplotlib.pyplot as plt
g.plot(kind='bar', rot=0, figsize=(15,3))
plt.legend(bbox_to_anchor=(1.05, 0.7), loc=2, borderaxespad=0.)
plt.show()

https://stackoverflow.com/questions/30490740/move-legend-outside-figure-in-seaborn-tsplot
범례를 예제 밖으로

In [None]:
#Species, Petal.Width별 mean()
g = iris_df.groupby(['Species','Petal_Width']).mean()
g

In [None]:
#앞에 있는 인덱스만 그대로 두고 끝의 인덱스를 컬럼값 올려
g.unstack()

In [None]:
g.unstack().T

In [None]:
g.plot(kind='box', figsize=(10,5))

In [None]:
g=iris_df.groupby(['Species','Petal_Width'])['Sepal_Length'].mean()
g

In [None]:
g.unstack()

In [None]:
pd.options.display.max_columns = 23

In [None]:
g.unstack().T

### 8.2 그룹간 데이터 처리

In [None]:
iris_group = iris_df.groupby('Species')
iris_group

In [None]:
for idx, grouped in enumerate(iris_group):
    print(idx, '번째 그룹은')
    print(grouped)
    print('---------------------------')

In [None]:
for idx, (speciesname, group) in enumerate(iris_group):
    print(idx, '번째 그룹은 ', speciesname)
    print(group)
    print('---------------------------')

In [None]:
for idx, (speciesname, group) in enumerate(iris_group):
    print(idx, '번째 그룹은 ', speciesname)
    print(group.sample(5).sort_index())
    print('---------------------------')

### 8.3 데이터프레임 그룹 인덱싱

In [None]:
for idx, (speciesname, group) in enumerate(iris_group):
    print(idx, '번째 그룹은',speciesname)
    print(group.iloc[[1,11,21,31]])
    print('===================')

t=iris_df.groupby('Species').take([1,11,21,31])
t

In [None]:
t.loc['setosa']

### 8.4 레이블(원핫인코딩)

In [None]:
iris_df.head()

In [None]:
iris_df.Species.describe()

In [None]:
# 레이블(원핫인코딩)을 지원하는 패키지 이용
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
iris_df['target'] = le.fit_transform(iris_df.Species)
iris_df

멜트 : https://pandas.pydata.org/docs/user_guide/reshaping.html#reshaping-by-melt<br/>
[Tidy Data란?](http://vita.had.co.nz/papers/tidy-data.pdf) 7page

## 9절. 데이터 구조 변경

### 9.1 와이드 포맷 vs 롱 포맷


In [257]:
import statsmodels.api as sm
airquality = sm.datasets.get_rdataset('airquality').data
airquality

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
0,41.0,190.0,7.4,67,5,1
1,36.0,118.0,8.0,72,5,2
2,12.0,149.0,12.6,74,5,3
3,18.0,313.0,11.5,62,5,4
4,,,14.3,56,5,5
...,...,...,...,...,...,...
148,30.0,193.0,6.9,70,9,26
149,,145.0,13.2,77,9,27
150,14.0,191.0,14.3,75,9,28
151,18.0,131.0,8.0,76,9,29


### 9.2 melt를 이용한 언피벗팅(와이드포맷 데이터 -> 롱포맷 데이터)

In [258]:
airquality_melted=airquality.melt(id_vars=['Month','Day'])
airquality_melted

Unnamed: 0,Month,Day,variable,value
0,5,1,Ozone,41.0
1,5,2,Ozone,36.0
2,5,3,Ozone,12.0
3,5,4,Ozone,18.0
4,5,5,Ozone,
...,...,...,...,...
607,9,26,Temp,70.0
608,9,27,Temp,77.0
609,9,28,Temp,75.0
610,9,29,Temp,76.0


In [259]:
airquality.melt(id_vars=['Month','Day'],
                 var_name="변수",
               value_name="값")

Unnamed: 0,Month,Day,변수,값
0,5,1,Ozone,41.0
1,5,2,Ozone,36.0
2,5,3,Ozone,12.0
3,5,4,Ozone,18.0
4,5,5,Ozone,
...,...,...,...,...
607,9,26,Temp,70.0
608,9,27,Temp,77.0
609,9,28,Temp,75.0
610,9,29,Temp,76.0


In [260]:
airquality_melted_sort = airquality_melted.sort_values(by=['Month','Day'])
airquality_melted_sort

Unnamed: 0,Month,Day,variable,value
0,5,1,Ozone,41.0
153,5,1,Solar.R,190.0
306,5,1,Wind,7.4
459,5,1,Temp,67.0
1,5,2,Ozone,36.0
...,...,...,...,...
610,9,29,Temp,76.0
152,9,30,Ozone,20.0
305,9,30,Solar.R,223.0
458,9,30,Wind,11.5


### 9.3 pivot_table을 이용한 피벗팅

In [261]:
# melt된 데이터 프레임 : airquality_melted, airquality_melted_sort
airquality2 = airquality_melted.pivot_table(index=['Month','Day'],
                                           columns=['variable'],
                                           values=['value'])
airquality2

Unnamed: 0_level_0,Unnamed: 1_level_0,value,value,value,value
Unnamed: 0_level_1,variable,Ozone,Solar.R,Temp,Wind
Month,Day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
5,1,41.0,190.0,67.0,7.4
5,2,36.0,118.0,72.0,8.0
5,3,12.0,149.0,74.0,12.6
5,4,18.0,313.0,62.0,11.5
5,5,,,56.0,14.3
...,...,...,...,...,...
9,26,30.0,193.0,70.0,6.9
9,27,,145.0,77.0,13.2
9,28,14.0,191.0,75.0,14.3
9,29,18.0,131.0,76.0,8.0


In [262]:
#행이름을 데이터에 편입
airquality2 = airquality2.reset_index(level=['Month','Day'], col_level=1)
airquality2.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,value,value,value,value
variable,Month,Day,Ozone,Solar.R,Temp,Wind
0,5,1,41.0,190.0,67.0,7.4
1,5,2,36.0,118.0,72.0,8.0
2,5,3,12.0,149.0,74.0,12.6
3,5,4,18.0,313.0,62.0,11.5
4,5,5,,,56.0,14.3


In [263]:
airquality2.columns=airquality2.columns.droplevel(level=0)
airquality2

variable,Month,Day,Ozone,Solar.R,Temp,Wind
0,5,1,41.0,190.0,67.0,7.4
1,5,2,36.0,118.0,72.0,8.0
2,5,3,12.0,149.0,74.0,12.6
3,5,4,18.0,313.0,62.0,11.5
4,5,5,,,56.0,14.3
...,...,...,...,...,...,...
148,9,26,30.0,193.0,70.0,6.9
149,9,27,,145.0,77.0,13.2
150,9,28,14.0,191.0,75.0,14.3
151,9,29,18.0,131.0,76.0,8.0


In [None]:
airquality2.iloc[1]

In [None]:
# 2013부터 2015 : 전국 평균 평당 분양가격(2013년 9월부터 2015년 8월까지).csv
# 2015부터 2021 : 주택도시보증공사_전국 신규 민간아파트 분양가격 동향_20210531.csv
# concat을 2013부터 2015까지의 지역명, 연도월, 평당분양가격으로 합쳐 하나의 DataFrame으로 생성합니다.
# hint : melt, astype, pd.to_numeric(df_last['열이름'], errors='coerce'),df_last의 연도와 월 컬럼을 연결하여 2015년10월
        #dataframe['열이름'].str.find('d')
        #pd.concat([new_first, new_last],axis=?)

In [98]:
import pandas as pd
data1= pd.read_csv('D:\Bigdata\download\sharedBigdata\전국 평균 평당 분양가격(2013년 9월부터 2015년 8월까지).csv', encoding='cp949')
data2= pd.read_csv('D:\Bigdata\download\sharedBigdata\주택도시보증공사_전국 신규 민간아파트 분양가격 동향_20210531.csv', encoding='cp949')

In [99]:
data1=data1.melt(id_vars=['지역'],var_name='날짜',value_name="분양가격")
data1['분양가격(m2)']=data1.분양가격/3.3
data1=data1.drop(['분양가격'],axis=1)
data1

Unnamed: 0,지역,날짜,분양가격(m2)
0,서울,2013년12월,5511.818182
1,부산,2013년12월,2457.878788
2,대구,2013년12월,2448.484848
3,인천,2013년12월,3092.121212
4,광주,2013년12월,1847.878788
...,...,...,...
352,전북,2015년8월,1993.939394
353,전남,2015년8월,1905.757576
354,경북,2015년8월,2132.424242
355,경남,2015년8월,2322.727273


In [100]:
#data2=data2[data2["규모구분"]=='모든면적']
data2=data2[data2.loc[:,"규모구분"]=='모든면적']
data2

Unnamed: 0,지역명,규모구분,연도,월,분양가격(㎡)
0,서울,모든면적,2015,10,5841
5,인천,모든면적,2015,10,3163
10,경기,모든면적,2015,10,3138
15,부산,모든면적,2015,10,3112
20,대구,모든면적,2015,10,2682
...,...,...,...,...,...
5755,전북,모든면적,2021,5,2683
5760,전남,모든면적,2021,5,2927
5765,경북,모든면적,2021,5,3027
5770,경남,모든면적,2021,5,3090


In [101]:
#data2['날짜']=data2.연도.astype('str')+"년"+data2.월.astype('str')+"월"
data2['날짜']=data2['연도'].astype('str')+"년"+data2['월'].astype('str')+"월"
data2=data2.drop(labels=['연도','월','규모구분'], axis=1)
data2.columns=['지역','분양가격(m2)','날짜']
data2

Unnamed: 0,지역,분양가격(m2),날짜
0,서울,5841,2015년10월
5,인천,3163,2015년10월
10,경기,3138,2015년10월
15,부산,3112,2015년10월
20,대구,2682,2015년10월
...,...,...,...
5755,전북,2683,2021년5월
5760,전남,2927,2021년5월
5765,경북,3027,2021년5월
5770,경남,3090,2021년5월


In [102]:
data2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1156 entries, 0 to 5775
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   지역        1156 non-null   object
 1   분양가격(m2)  1141 non-null   object
 2   날짜        1156 non-null   object
dtypes: object(3)
memory usage: 36.1+ KB


In [103]:
data1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 357 entries, 0 to 356
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   지역        357 non-null    object 
 1   날짜        357 non-null    object 
 2   분양가격(m2)  357 non-null    float64
dtypes: float64(1), object(2)
memory usage: 8.5+ KB


In [104]:
data2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1156 entries, 0 to 5775
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   지역        1156 non-null   object
 1   분양가격(m2)  1141 non-null   object
 2   날짜        1156 non-null   object
dtypes: object(3)
memory usage: 36.1+ KB


In [105]:
data2[data2['분양가격(m2)'].str.find(' ')!=-1]

Unnamed: 0,지역,분양가격(m2),날짜
3265,울산,,2018년12월
3350,울산,,2019년1월
3435,울산,,2019년2월
3520,울산,,2019년3월
3605,울산,,2019년4월
3690,울산,,2019년5월
3775,울산,,2019년6월
3860,울산,,2019년7월
3945,울산,,2019년8월
4630,세종,,2020년4월


In [106]:
data2[data2['분양가격(m2)'].str.find(',')!=-1]

Unnamed: 0,지역,분양가격(m2),날짜
2125,서울,6657.0,2017년11월
2130,인천,3300.0,2017년11월
2135,경기,3557.0,2017년11월
2140,부산,3820.0,2017년11월
2145,대구,3658.0,2017년11월
2150,광주,2895.0,2017년11월
2155,대전,2782.0,2017년11월
2160,울산,3374.0,2017년11월
2165,세종,2760.0,2017년11월
2170,강원,2319.0,2017년11월


In [107]:
data2['분양가격(m2)']=data2['분양가격(m2)'].str.replace(',','')

In [108]:
data2['분양가격(m2)']=pd.to_numeric(data2['분양가격(m2)'],errors='coerce')

In [109]:
data=pd.concat([data1,data2],axis=0)
data

Unnamed: 0,지역,날짜,분양가격(m2)
0,서울,2013년12월,5511.818182
1,부산,2013년12월,2457.878788
2,대구,2013년12월,2448.484848
3,인천,2013년12월,3092.121212
4,광주,2013년12월,1847.878788
...,...,...,...
5755,전북,2021년5월,2683.000000
5760,전남,2021년5월,2927.000000
5765,경북,2021년5월,3027.000000
5770,경남,2021년5월,3090.000000


In [None]:
data.isnull().sum()

In [None]:
data.info()

In [None]:
data['분양가격(m2)'].sum()

In [27]:
##pivot_table() pivot()함수의 차이
import pandas as pd
import numpy as np
year = [2020,2020,2020,2021,2021,2021]
mon = [1,2,3]*2
latte = range(400,406)
americano = [500,483,484,470,486,488]
mocha = [350,299,300,301,302,300]
sales = pd.DataFrame(np.c_[year,mon,latte,americano,mocha], columns=['year','mon','latte','americano','mocha'])
sales

Unnamed: 0,year,mon,latte,americano,mocha
0,2020,1,400,500,350
1,2020,2,401,483,299
2,2020,3,402,484,300
3,2021,1,403,470,301
4,2021,2,404,486,302
5,2021,3,405,488,300


In [38]:
t = pd.pivot_table(sales, index='year', values=['latte','americano','mocha'], aggfunc=sum)
t = sales.pivot_table(index='year', values=['latte','americano','mocha'], aggfunc=sum)
t

Unnamed: 0_level_0,americano,latte,mocha
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020,1467,1203,949
2021,1444,1212,903


In [29]:
t.loc[2020]

americano    1467
latte        1203
mocha         949
Name: 2020, dtype: int32

In [30]:
latte_sales = sales.loc[:,'year':'latte']
latte_sales

Unnamed: 0,year,mon,latte
0,2020,1,400
1,2020,2,401
2,2020,3,402
3,2021,1,403
4,2021,2,404
5,2021,3,405


In [40]:
latte_sales.pivot(index='year', columns='mon')

Unnamed: 0_level_0,latte,latte,latte
mon,1,2,3
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
2020,400,401,402
2021,403,404,405


## 10절. 데이터프레임에 함수 적용시키기

### 10.1 apply
- 데이터 프레임이나 시리즈에 각 열 또는 행에 함수를 적용

In [23]:
from statsmodels.api import datasets
iris_df = datasets.get_rdataset('iris').data

In [25]:
X=iris_df.loc[:,'Sepal.Length':'Petal.Length']

In [32]:
X

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length
0,5.1,3.5,1.4
1,4.9,3.0,1.4
2,4.7,3.2,1.3
3,4.6,3.1,1.5
4,5.0,3.6,1.4
...,...,...,...
145,6.7,3.0,5.2
146,6.3,2.5,5.0
147,6.5,3.0,5.2
148,6.2,3.4,5.4


In [33]:
X.apply(np.round)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length
0,5.0,4.0,1.0
1,5.0,3.0,1.0
2,5.0,3.0,1.0
3,5.0,3.0,2.0
4,5.0,4.0,1.0
...,...,...,...
145,7.0,3.0,5.0
146,6.0,2.0,5.0
147,6.0,3.0,5.0
148,6.0,3.0,5.0


In [36]:
X.apply(np.sum,axis=0) #열별 sum

Sepal.Length    876.5
Sepal.Width     458.6
Petal.Length    563.7
dtype: float64

In [37]:
X.apply(np.sum, axis=1) #행별 sum

0      10.0
1       9.3
2       9.2
3       9.2
4      10.0
       ... 
145    14.9
146    13.8
147    14.7
148    15.0
149    14.0
Length: 150, dtype: float64

In [41]:
avg=X.apply(np.average)

In [43]:
X.loc[0]-avg

Sepal.Length   -0.743333
Sepal.Width     0.442667
Petal.Length   -2.358000
dtype: float64

In [44]:
def fun(x):
    return x-avg
fun(X.loc[0])

Sepal.Length   -0.743333
Sepal.Width     0.442667
Petal.Length   -2.358000
dtype: float64

In [45]:
# 각 데이터와 평균과의 거리를 리스트 형태로 출력
X.apply(lambda x :x-avg, axis=1)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length
0,-0.743333,0.442667,-2.358
1,-0.943333,-0.057333,-2.358
2,-1.143333,0.142667,-2.458
3,-1.243333,0.042667,-2.258
4,-0.843333,0.542667,-2.358
...,...,...,...
145,0.856667,-0.057333,1.442
146,0.456667,-0.557333,1.242
147,0.656667,-0.057333,1.442
148,0.356667,0.342667,1.642


### 10.2 applymap
- apply : 행 또는 열 단위로 함수 적용(데이터프레임이나 시리즈 적용 가능)
- applymap : 각 요소 하나하나 별로 적용(데이터프레임에서만 가능)
- map : 각 요소별로 적용(시리즈에서만 가능)

In [47]:
X.applymap(np.round)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length
0,5.0,4.0,1.0
1,5.0,3.0,1.0
2,5.0,3.0,1.0
3,5.0,3.0,2.0
4,5.0,4.0,1.0
...,...,...,...
145,7.0,3.0,5.0
146,6.0,2.0,5.0
147,6.0,3.0,5.0
148,6.0,3.0,5.0


In [50]:
X.applymap(lambda x : x**2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length
0,26.01,12.25,1.96
1,24.01,9.00,1.96
2,22.09,10.24,1.69
3,21.16,9.61,2.25
4,25.00,12.96,1.96
...,...,...,...
145,44.89,9.00,27.04
146,39.69,6.25,25.00
147,42.25,9.00,27.04
148,38.44,11.56,29.16


### 10.3 map
- 시리즈 타입의 벡터만 가능

In [51]:
x= pd.Series(['홍길동',20,'마포구'])
x

0    홍길동
1     20
2    마포구
dtype: object

In [52]:
def my_func(data):
    return data, len(str(data))

In [53]:
x.map(my_func)

0    (홍길동, 3)
1     (20, 2)
2    (마포구, 3)
dtype: object

In [54]:
x.map(lambda data : (data, len(str(data))))

0    (홍길동, 3)
1     (20, 2)
2    (마포구, 3)
dtype: object

In [55]:
s= pd.Series([1,2,3,4,None])

In [56]:
s.map(lambda data : (data, data**2))

0     (1.0, 1.0)
1     (2.0, 4.0)
2     (3.0, 9.0)
3    (4.0, 16.0)
4     (nan, nan)
dtype: object

In [57]:
# 결측치는 연산적용이 안되도록
s.map(lambda x: (x,x**2), na_action='ignore')

0     (1.0, 1.0)
1     (2.0, 4.0)
2     (3.0, 9.0)
3    (4.0, 16.0)
4            NaN
dtype: object

In [110]:
data1

Unnamed: 0,지역,날짜,분양가격(m2)
0,서울,2013년12월,5511.818182
1,부산,2013년12월,2457.878788
2,대구,2013년12월,2448.484848
3,인천,2013년12월,3092.121212
4,광주,2013년12월,1847.878788
...,...,...,...
352,전북,2015년8월,1993.939394
353,전남,2015년8월,1905.757576
354,경북,2015년8월,2132.424242
355,경남,2015년8월,2322.727273


In [116]:
d= "2013년12월"
int(d.split('년')[0])
int(d.split('년')[1].split('월')[0])

12

In [118]:
data1["연도"] = data1["날짜"].apply(lambda x : int(x.split('년')[0]))
data1["월"] = data1["날짜"].apply(lambda x : int(x.split('년')[1].split('월')[0]))
data1

Unnamed: 0,지역,날짜,분양가격(m2),연도,월
0,서울,2013년12월,5511.818182,2013,12
1,부산,2013년12월,2457.878788,2013,12
2,대구,2013년12월,2448.484848,2013,12
3,인천,2013년12월,3092.121212,2013,12
4,광주,2013년12월,1847.878788,2013,12
...,...,...,...,...,...
352,전북,2015년8월,1993.939394,2015,8
353,전남,2015년8월,1905.757576,2015,8
354,경북,2015년8월,2132.424242,2015,8
355,경남,2015년8월,2322.727273,2015,8


## 11절. 일괄변경하기(결측치나 특정값)

### 11.1 fillna(결측치를 어떤 값으로 바꿈)

In [119]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0],[3, 4, np.nan, 1],[np.nan, 3, np.nan, 5],[np.nan, 3, np.nan, 4]], columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,,2,,0
1,3.0,4,,1
2,,3,,5
3,,3,,4


In [122]:
# 모든 결측치를 무조건 0으로 바꿈
df.fillna(0)

Unnamed: 0,A,B,C,D
0,0.0,2,0.0,0
1,3.0,4,0.0,1
2,0.0,3,0.0,5
3,0.0,3,0.0,4


In [124]:
# 결측치를 이전값이나 다음값으로 채움
# method = pad/ffill : 결측치가 이전값으로 대체
# method = backfill/bfill : 결측치를 다음값으로 대체
df.fillna(method='pad')

Unnamed: 0,A,B,C,D
0,,2,,0
1,3.0,4,,1
2,3.0,3,,5
3,3.0,3,,4


In [125]:
#열별 결측치 대체값이 다른 경우
values = {'A':99, 'B':50, 'C':0, 'D':95} #열별 결측치 대체값
df.fillna(value=values)

Unnamed: 0,A,B,C,D
0,99.0,2,0.0,0
1,3.0,4,0.0,1
2,99.0,3,0.0,5
3,99.0,3,0.0,4


In [126]:
df.fillna(value=df.mean()) # 모두 결측치인 C컬럼은 결측치 대체 안 됨

Unnamed: 0,A,B,C,D
0,3.0,2,,0
1,3.0,4,,1
2,3.0,3,,5
3,3.0,3,,4


In [130]:
df.fillna(value=values, limit=3) # 3번째 결측치까지만 대체

Unnamed: 0,A,B,C,D
0,99.0,2,0.0,0
1,3.0,4,0.0,1
2,99.0,3,0.0,5
3,99.0,3,,4


### 11.2 replace(to_value, new_value, inplace=False)
    - to_value를 new_value로 변경
    - inplace=False : 변경하는 내용을 데이터프레임에 적용 여부.
    - 정규표현식을 이용 가능

In [135]:
s=pd.Series([0,1,2,1,4,None])
s.replace(np.nan, 0, inplace=True)
s.replace([0,1], 5) #0과1을 5로 변경

0    5.0
1    5.0
2    2.0
3    5.0
4    4.0
5    5.0
dtype: float64

In [136]:
s= pd.Series([0,1,2,3,4,None])
s.replace(range(3),range(100,103))

0    100.0
1    101.0
2    102.0
3      3.0
4      4.0
5      NaN
dtype: float64

In [138]:
df= pd.DataFrame({'A':['bat','foo','bait'],
                 'B':['abc','bar','xyz']})
df

Unnamed: 0,A,B
0,bat,abc
1,foo,bar
2,bait,xyz


In [139]:
df.replace({'A':'bat','B':'xyz'},'XXX')

Unnamed: 0,A,B
0,XXX,abc
1,foo,bar
2,bait,XXX


In [140]:
# to_value에 값, 정규표현식(regex=True인자 추가)
df.replace(r'^ba.$','NEW',regex=True)

Unnamed: 0,A,B
0,NEW,abc
1,foo,NEW
2,bait,xyz


In [141]:
df.replace(r'^ba.+$','NEW',regex=True)

Unnamed: 0,A,B
0,NEW,abc
1,foo,NEW
2,NEW,xyz


### 11.3 where(조건), mask(조건)
- where : 조건 만족 시 출력, 아니면 결측치로 처리
- mask : where의 반대

In [142]:
s=pd.Series(range(10,15))
s

0    10
1    11
2    12
3    13
4    14
dtype: int64

In [146]:
s.where(s>12, -99)

0   -99
1   -99
2   -99
3    13
4    14
dtype: int64

In [152]:
s.mask(s>12, -s)

0    10
1    11
2    12
3   -13
4   -14
dtype: int64

### 11.4 dropna
    - 결측치가 있는 데이터 누락 시킴

In [154]:
df = pd.DataFrame({'name':['박','김','최',np.nan],
                'age':[np.nan,20,30,np.nan],
                'born':['서울','울산',np.nan,np.nan]})
df

Unnamed: 0,name,age,born
0,박,,서울
1,김,20.0,울산
2,최,30.0,
3,,,


In [155]:
df.dropna() #결측치가 하나라도 있는 행은 제거

Unnamed: 0,name,age,born
1,김,20.0,울산


In [157]:
df.dropna(how='all')

Unnamed: 0,name,age,born
0,박,,서울
1,김,20.0,울산
2,최,30.0,


In [159]:
df.dropna(axis=0) #

Unnamed: 0,name,age,born
1,김,20.0,울산


## 12절. 시리즈(1차원데이터)
    * 데이터프레임(2차원데이터)

In [178]:
s = pd.Series([1000,7000,2000,2500,1500],
             index=['apple','banana','mango','cherry','orange'])
s

apple     1000
banana    7000
mango     2000
cherry    2500
orange    1500
dtype: int64

In [179]:
s['apple':'mango']

apple     1000
banana    7000
mango     2000
dtype: int64

In [180]:
s['watermelon']=10000

In [182]:
s.drop('watermelon', inplace=True)

In [183]:
s.sort_values() # 값을 기준으로 정렬 : 오름차순

apple     1000
orange    1500
mango     2000
cherry    2500
banana    7000
dtype: int64

In [184]:
s.sort_values(ascending=False)

banana    7000
cherry    2500
mango     2000
orange    1500
apple     1000
dtype: int64

In [185]:
s.sort_index()

apple     1000
banana    7000
cherry    2500
mango     2000
orange    1500
dtype: int64

In [187]:
s.to_frame() # 시리즈를 데이터 프레임으로 변환

Unnamed: 0,0
apple,1000
banana,7000
mango,2000
cherry,2500
orange,1500


In [188]:
s.to_frame(name='price')

Unnamed: 0,price
apple,1000
banana,7000
mango,2000
cherry,2500
orange,1500


In [190]:
##연습문제

In [207]:
import random
random.sample(range(10),10)

[9, 1, 6, 2, 7, 0, 3, 5, 4, 8]

In [213]:
import seaborn as sns
iris= sns.load_dataset('iris')

In [217]:
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [222]:
len(iris)

150

In [223]:
iris.shape

(150, 5)

In [216]:
iris.isnull().sum()

sepal_length    0
sepal_width     0
petal_length    0
petal_width     0
species         0
dtype: int64

In [228]:
#열마다 임의의 행에 인위적으로 결측치 할당
for i in range(iris.shape[1]-1):
    iris.iloc[random.sample(range(len(iris)),20),i]=np.nan

In [229]:
pd.options.display.max_rows=151

In [230]:
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,,1.3,0.2,setosa
3,,3.1,1.5,0.2,setosa
4,5.0,,1.4,0.2,setosa
5,5.4,3.9,,0.4,setosa
6,4.6,3.4,1.4,,setosa
7,5.0,3.4,1.5,,setosa
8,4.4,,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


In [233]:
iris.isna().sum()

sepal_length    20
sepal_width     20
petal_length    20
petal_width     20
species          0
dtype: int64

In [241]:
condition=iris.sepal_length.isna()|iris.sepal_width.isna()|iris.petal_length.isna()|iris.petal_width.isna()
iris[condition]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
2,4.7,,1.3,0.2,setosa
3,,3.1,1.5,0.2,setosa
4,5.0,,1.4,0.2,setosa
5,5.4,3.9,,0.4,setosa
6,4.6,3.4,1.4,,setosa
7,5.0,3.4,1.5,,setosa
8,4.4,,1.4,0.2,setosa
13,4.3,3.0,1.1,,setosa
17,5.1,,1.4,0.3,setosa
19,5.1,3.8,,0.3,setosa
