# Python 프로그래밍 Pandas
## 데이터프레임 Dataframe

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

In [31]:
import numpy as np
import pandas as pd

## Dataframe끼리 합치기 - concat

In [32]:
arr1 = np.arange(12).reshape(3,4)
arr2 = np.arange(12, 24).reshape(3,4)
arr3 = np.arange(24, 36).reshape(3,4)

df1 =pd.DataFrame(arr1, columns=list('ABCD'), index=range(3))
df2=pd.DataFrame(arr1, columns=list('ABCD'), index=range(3,6))
df3=pd.DataFrame(arr1, columns=list('ABDF'), index=range(2,5))

df1
df2
df3

Unnamed: 0,A,B,D,F
2,0,1,2,3
3,4,5,6,7
4,8,9,10,11


## 기본은 상하로 합치기

In [33]:
pd.concat([df1, df2])

Unnamed: 0,A,B,C,D
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,0,1,2,3
4,4,5,6,7
5,8,9,10,11


In [34]:
pd.concat([df1, df2], axis=0)

Unnamed: 0,A,B,C,D
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,0,1,2,3
4,4,5,6,7
5,8,9,10,11


## concat --> 상하로 합칠 떄 컬럼이 없으면 nan

In [35]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,0.0,1.0,2.0,3.0,,,,
1,4.0,5.0,6.0,7.0,,,,
2,8.0,9.0,10.0,11.0,,,,
3,,,,,0.0,1.0,2.0,3.0
4,,,,,4.0,5.0,6.0,7.0
5,,,,,8.0,9.0,10.0,11.0


In [36]:
pd.concat([df1, df3], sort=True)
pd.concat([df1, df3], axis=0, sort=True)
pd.concat([df1, df3], axis=1, sort=True)

Unnamed: 0,A,B,C,D,A.1,B.1,D.1,F
0,0.0,1.0,2.0,3.0,,,,
1,4.0,5.0,6.0,7.0,,,,
2,8.0,9.0,10.0,11.0,0.0,1.0,2.0,3.0
3,,,,,4.0,5.0,6.0,7.0
4,,,,,8.0,9.0,10.0,11.0


## 기본은 Outer

In [37]:
pd.concat([df1, df3], sort=True)
pd.concat([df1, df3], keys=['A', 'B', 'C'], sort=True)

Unnamed: 0,Unnamed: 1,A,B,C,D,F
A,0,0,1,2.0,3,
A,1,4,5,6.0,7,
A,2,8,9,10.0,11,
B,2,0,1,,2,3.0
B,3,4,5,,6,7.0
B,4,8,9,,10,11.0


## inner join -> 서로 있는 경우에만

In [38]:
df1
df3
pd.concat([df1, df3], axis=0, join='inner', sort=True)
pd.concat([df1, df3], axis=1, join='inner', sort=True)

Unnamed: 0,A,B,C,D,A.1,B.1,D.1,F
2,8,9,10,11,0,1,2,3


## Dataframe끼리 합치기 - append

In [39]:
pd.concat([df1, df3], sort=True)
df1.append(df3, sort=True)

Unnamed: 0,A,B,C,D,F
0,0,1,2.0,3,
1,4,5,6.0,7,
2,8,9,10.0,11,
2,0,1,,2,3.0
3,4,5,,6,7.0
4,8,9,,10,11.0


## <font color='red'> index 를 새롭게 만들기

In [40]:
pd.concat([df1, df3], sort=True)
pd.concat([df1, df3], ignore_index=True, sort=True)

Unnamed: 0,A,B,C,D,F
0,0,1,2.0,3,
1,4,5,6.0,7,
2,8,9,10.0,11,
3,0,1,,2,3.0
4,4,5,,6,7.0
5,8,9,,10,11.0


In [41]:
df1.append(df3)
df1.append(df3).reset_index()

Unnamed: 0,index,A,B,C,D,F
0,0,0,1,2.0,3,
1,1,4,5,6.0,7,
2,2,8,9,10.0,11,
3,2,0,1,,2,3.0
4,3,4,5,,6,7.0
5,4,8,9,,10,11.0


## Dataframe끼리 합치기 - merge (1:n, n:n, n:1에 따라 merge의 결과 경우의수 생성)
### 행끼리 merge - inner가 default

In [42]:
df1
df3
pd.merge(df1, df3)

Unnamed: 0,A,B,C,D,F


## 특정 컬럽의 값이 동일하면

In [43]:
pd.merge(df1, df3, on =['A'])

Unnamed: 0,A,B_x,C,D_x,B_y,D_y,F
0,0,1,2,3,1,2,3
1,4,5,6,7,5,6,7
2,8,9,10,11,9,10,11


## left outer

In [44]:
pd.merge(df1, df3, how= 'left', on =['A'])

Unnamed: 0,A,B_x,C,D_x,B_y,D_y,F
0,0,1,2,3,1,2,3
1,4,5,6,7,5,6,7
2,8,9,10,11,9,10,11


## join이 어떤 상태인지 row단위로 보여줌

In [45]:
pd.merge(df1, df3, how= 'left', on ='A', indicator=True)

Unnamed: 0,A,B_x,C,D_x,B_y,D_y,F,_merge
0,0,1,2,3,1,2,3,both
1,4,5,6,7,5,6,7,both
2,8,9,10,11,9,10,11,both


## 기타 missing 처리

## isnull, notnull -> sum하면 개수를 알 수 있음

In [46]:
data = pd.read_csv('../data/2016년_교통사망사고정보.csv', encoding='euc-kr')

In [47]:
data.shape
data.isnull().tail(3)
data.notnull().tail(3)
data.isnull().sum()

발생년               0
발생년월일시            0
발생분               0
주야                0
요일                0
사망자수              0
사상자수              0
중상자수              0
경상자수              0
부상신고자수            0
발생지시도             0
발생지시군구            0
사고유형_대분류          0
사고유형_중분류          0
사고유형              0
법규위반_대분류          0
법규위반              0
도로형태_대분류          0
도로형태              0
당사자종별_1당_대분류      0
당사자종별_1당          0
당사자종별_2당_대분류    825
당사자종별_2당        825
발생위치X_UTMK        0
발생위치Y_UTMK        0
경도                0
위도                0
dtype: int64

## dropna,  any: 어느 하나라도, all: 모두 Nan

In [48]:
data.columns

Index(['발생년', '발생년월일시', '발생분', '주야', '요일', '사망자수', '사상자수', '중상자수', '경상자수',
       '부상신고자수', '발생지시도', '발생지시군구', '사고유형_대분류', '사고유형_중분류', '사고유형', '법규위반_대분류',
       '법규위반', '도로형태_대분류', '도로형태', '당사자종별_1당_대분류', '당사자종별_1당', '당사자종별_2당_대분류',
       '당사자종별_2당', '발생위치X_UTMK', '발생위치Y_UTMK', '경도', '위도'],
      dtype='object')

In [49]:
data.shape
data.dropna(how='any').shape
data.dropna(how='all').shape
data.dropna(subset=['당사자종별_1당_대분류', '당사자종별_2당'], how='any').shape

(3294, 27)

## value_counts 때 nan도 count

In [50]:
data['당사자종별_2당'].value_counts(dropna=False)

보행자         1642
NaN          825
소형           465
중형           385
대형           239
경형           195
자전거          148
원동기장치자전거      92
건설기계          62
농기계           54
사발이           10
불명             2
Name: 당사자종별_2당, dtype: int64

## Nan을 다른 값으로 치환

In [51]:
data['당사자종별_2당'] = data['당사자종별_2당'].astype('object')
data['당사자종별_2당'].fillna(value='값 없음', inplace = True)
data['당사자종별_2당'].value_counts(dropna=False)

보행자         1642
값 없음         825
소형           465
중형           385
대형           239
경형           195
자전거          148
원동기장치자전거      92
건설기계          62
농기계           54
사발이           10
불명             2
Name: 당사자종별_2당, dtype: int64

## dup 확인

In [52]:
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

Unnamed: 0,brand,style,rating
0,Yum Yum,cup,4.0
1,Yum Yum,cup,4.0
2,Indomie,cup,3.5
3,Indomie,pack,15.0
4,Indomie,pack,5.0


## 중복항목을 확인

In [53]:
df.duplicated()

0    False
1     True
2    False
3    False
4    False
dtype: bool

In [54]:
df[df.duplicated(keep='last')]
df[df.duplicated(keep='first')]

Unnamed: 0,brand,style,rating
1,Yum Yum,cup,4.0


In [55]:
df.duplicated(subset=['brand'])
df.brand.duplicated()
df.duplicated(subset=['brand', 'rating'])

0    False
1     True
2    False
3    False
4    False
dtype: bool

## 중복개수를 확인

In [56]:
df.duplicated(subset=['brand']).sum()
df.brand.duplicated().sum()
df.duplicated(subset=['brand', 'rating']).sum()

1

## duplicates 처리
### 1. df.duplicated()

In [57]:
df[df.duplicated(subset=['brand'])]
df[df.duplicated(subset=['brand'], keep='first')]
df[df.duplicated(subset=['brand'], keep='last')]

Unnamed: 0,brand,style,rating
0,Yum Yum,cup,4.0
2,Indomie,cup,3.5
3,Indomie,pack,15.0


## 2. df.loc[]

In [58]:
df.loc[df.duplicated(keep='first'), :]
df.loc[df.duplicated(keep='last'), :]

Unnamed: 0,brand,style,rating
0,Yum Yum,cup,4.0


## 3. df.drop_duplicates()

In [59]:
df.drop_duplicates(keep='first').shape
df.drop_duplicates(subset=['brand'], keep='first')

Unnamed: 0,brand,style,rating
0,Yum Yum,cup,4.0
2,Indomie,cup,3.5


In [60]:
df.drop_duplicates(subset=['brand', 'rating'], keep='first')

Unnamed: 0,brand,style,rating
0,Yum Yum,cup,4.0
2,Indomie,cup,3.5
3,Indomie,pack,15.0
4,Indomie,pack,5.0


# End 