# Pandas를 활용한 데이터 분석

1. Basic skills
> 2. Handling skills
3. Summary skills

## Handling skills 실습 목차
1. 데이터 연결 (concat)
- 행 방향 연결
- 열 방향 연결
- keys 값 설정

2. 데이터 병합 (merge)
- inner join
- outer join
- left join
- right join
- left_on, right_on

3. 결측치 처리
- 결측치 확인
- 결측치 채워 넣기 - fillna
- 결측치 채워 넣기 - ffill
- 결측치 채워 넣기 - bfill
- 결측치 제거

4. 중복값 처리
- 중복값 찾기
- 중복값 개수 확인
- 중복값 제거

# 라이브러리

In [1]:
import pandas as pd

# 데이터 연결 (concat)

2개 이상의 데이터프레임을 행 또는 열 기준으로 결합하거나 연결합니다.  

<div style="text-align:center;">
    <img src="https://velog.velcdn.com/images/73syjs/post/64b2a7dd-c600-422c-b5f0-025f73420ca2/image.png">
</div>


**사용법**
```python
pandas.concat(objs, *, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=None)
```

**파라미터**

|Parameters|Input|Explanation|
|:--:|:--:|:--:|
|objs|`Series` 또는 `DataFrame`의 sequence|-|
|axis|`0`: index, `1`: columns|연결할 축의 방향|
|join|`outer`: 합집합, `inner`: 교집합|다른 축의 index를 처리하는 방법|
|ignore_index|`False`: 기존 index 유지, `True`: 기존 index 무시|기존 index를 무시하고 싶을 때|
|keys|sequence, default `None`|계층적 index가 필요할 때|
|names |||



**아래의 데이터프레임을 살펴보아요.**

In [2]:
df1 = pd.read_csv('./concat_1.csv')
df2 = pd.read_csv('./concat_2.csv')
df3 = pd.read_csv('./concat_3.csv')

In [3]:
df1

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2


In [4]:
df2

Unnamed: 0,A,B,C,D
0,a3,b3,c3,d3
1,a4,b4,c4,d4
2,a5,b5,c5,d5


In [5]:
df3

Unnamed: 0,A,B,C,D
0,a6,b6,c6,d6
1,a7,b7,c7,d7
2,a8,b8,c8,d8


## concat - 행 방향 연결 (default 옵션)
* 행 방향으로 데이터 프레임이 결합
* index는 보존
* outer join

**concat 함수를 사용하여 df1, df2, df3을 행방향으로 연결해보세요.**

In [7]:
# 아래에 코드를 작성 후 실행해 보세요
pd.concat([df1, df2, df3], axis=0)
#pd.concat([df1, df2, df3]) 만 해도 됨 

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
0,a3,b3,c3,d3
1,a4,b4,c4,d4
2,a5,b5,c5,d5
0,a6,b6,c6,d6
1,a7,b7,c7,d7
2,a8,b8,c8,d8


## concat - 열 방향 연결
* 같은 열 이름이 있는 데이터프레임에서는 열 이름으로 데이터를 추출하면 해당 열 이름의 데이터를 모두 추출

**1. concat 함수를 사용하여 df1, df2, df3을 열방향으로 연결하여 `col_concat` 로 저장하세요.**

In [9]:
# 아래에 코드를 작성 후 실행해 보세요
col_concat = pd.concat([df1, df2, df3], axis=0)
col_concat

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
0,a3,b3,c3,d3
1,a4,b4,c4,d4
2,a5,b5,c5,d5
0,a6,b6,c6,d6
1,a7,b7,c7,d7
2,a8,b8,c8,d8


**2. `col_concat` 데이터프레임에서 A열에 접근해보세요.**

In [10]:
# 아래에 코드를 작성 후 실행해 보세요
col_concat['A']

0    a0
1    a1
2    a2
0    a3
1    a4
2    a5
0    a6
1    a7
2    a8
Name: A, dtype: object

**3. concat 함수를 사용하여 df1, df2, df3을 열방향으로 연결해보세요. 옵션 ignore_index를 True로 설정해보세요.***

In [11]:
# 아래에 코드를 작성 후 실행해 보세요
pd.concat([df1,df2,df3], axis=1, ignore_index=True)
#행방향 연결

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,a0,b0,c0,d0,a3,b3,c3,d3,a6,b6,c6,d6
1,a1,b1,c1,d1,a4,b4,c4,d4,a7,b7,c7,d7
2,a2,b2,c2,d2,a5,b5,c5,d5,a8,b8,c8,d8


In [13]:
pd.concat([df1,df2,df3], axis=0, ignore_index=True)
#열방향 연결

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5
6,a6,b6,c6,d6
7,a7,b7,c7,d7
8,a8,b8,c8,d8


## concat - keys 값 설정
* 계층적 index가 구성됨
* 설정된 key 값으로 Series 혹은 Dataframe을 불러올 수 있음

**1. concat 함수를 사용하여 df1, df2, df3을 열방향으로 연결하여 `df_keys`로 저장하세요. 옵션 keys를 사용하여 각 데이터프레임마다 이름을 부여해보세요.**

In [15]:
# 아래에 코드를 작성 후 실행해 보세요
df_keys = pd.concat([df1,df2,df3], axis=1, keys=['df1', 'df2', 'df3'])
df_keys

Unnamed: 0_level_0,df1,df1,df1,df1,df2,df2,df2,df2,df3,df3,df3,df3
Unnamed: 0_level_1,A,B,C,D,A,B,C,D,A,B,C,D
0,a0,b0,c0,d0,a3,b3,c3,d3,a6,b6,c6,d6
1,a1,b1,c1,d1,a4,b4,c4,d4,a7,b7,c7,d7
2,a2,b2,c2,d2,a5,b5,c5,d5,a8,b8,c8,d8


**2. df_keys 데이터프레임에서 a 행을 접근해보세요.**

In [17]:
# 아래에 코드를 작성 후 실행해 보세요
df_keys['df1']['A']
#이렇게 하면 데이터 프레임간 충돌도 막을 수 있음 
#df1을 먼저 선택 한 후에 A로 접근 가능.

0    a0
1    a1
2    a2
Name: A, dtype: object

# 데이터 병합 (merge)

두 데이터프레임을 공통된 열(또는 인덱스)을 기준으로 병합니다.  

**특징**  
* merge는 기본적으로 내부 조인  
* merge를 사용한 데이터프레임을 왼쪽, 인자로 사용한 데이터프레임을 오른쪽으로 지정
* left_on과 right_on의 값이 일치하면 왼쪽 데이터프레임을 기준으로 연결

<div style="text-align:center;">
    <img src="https://slidescope.com/wp-content/uploads/2023/03/db_joins-1024x576.jpg">
</div>


```python
DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=None, indicator=False, validate=None)
```

**아래의 데이터프레임을 살펴보아요.**

In [18]:
df1 = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K3'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

df2 = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K4'],
    'C': ['C0', 'C1', 'C2', 'C4'],
    'D': ['D0', 'D1', 'D2', 'D4']
})

In [19]:
df1

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [20]:
df2

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K4,C4,D4


## merge - inner join (default 옵션)

**merge 함수를 사용하여 df1과 df2를 병합하세요.**

In [22]:
# 아래에 코드를 작성 후 실행해 보세요
pd.merge(df1, df2, on='key')
# 디폴트가 inner join이다.
#pd.merge(df1, df2, on='key', how='inner') 해도 같은 결과가 나옴.

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2


## merge - outer join

**merge 함수를 사용하여 df1과 df2를 outer join으로 병합하세요.**

In [23]:
# 아래에 코드를 작성 후 실행해 보세요
pd.merge(df1, df2, on='key', how='outer')
#없는 값은 결측치로 NaN으로 들어옴

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,,
4,K4,,,C4,D4


## merge - left join

**merge 함수를 사용하여 df1과 df2를 left join으로 병합하세요.**

In [24]:
# 아래에 코드를 작성 후 실행해 보세요
pd.merge(df1, df2, on='key', how='left')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,,


## merge - right join

**merge 함수를 사용하여 df1과 df2를 left join으로 병합하세요.**

In [25]:
# 아래에 코드를 작성 후 실행해 보세요
pd.merge(df1, df2, on='key', how='right')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K4,,,C4,D4


## merge - left_on, right_on (키 값이 서로 다른 경우)

In [26]:
site = pd.read_csv('./survey_site.csv')
visited = pd.read_csv('./survey_visited.csv')
survey = pd.read_csv('./survey_survey.csv')
person = pd.read_csv('./survey_person.csv')

**먼저, site와 visited 데이터 프레임이 어떻게 생겼는지 불러와보세요**

In [27]:
# 아래에 코드를 작성 후 실행해 보세요.
site

Unnamed: 0,name,lat,long
0,DR-1,-49.85,-128.57
1,DR-3,-47.15,-126.72
2,MSK-4,-48.87,-123.4


In [28]:
# 아래에 코드를 작성 후 실행해 보세요.
visited

Unnamed: 0,ident,site,dated
0,619,DR-1,1927-02-08
1,622,DR-1,1927-02-10
2,734,DR-3,1939-01-07
3,735,DR-3,1930-01-12
4,751,DR-3,1930-02-26
5,752,DR-3,
6,837,MSK-4,1932-01-14
7,844,DR-1,1932-03-22


In [None]:
# name과 site는 비슷한 특징

**merge 함수를 사용하여 site과 visited를 병합하세요. site의 key값은 name, visited의 key값은 site입니다.**

In [30]:
# 아래에 코드를 작성 후 실행해 보세요.
pd.merge(site, visited, left_on='name', right_on='site')
#기본이 innerjoin

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-1,-49.85,-128.57,622,DR-1,1927-02-10
2,DR-1,-49.85,-128.57,844,DR-1,1932-03-22
3,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
4,DR-3,-47.15,-126.72,735,DR-3,1930-01-12
5,DR-3,-47.15,-126.72,751,DR-3,1930-02-26
6,DR-3,-47.15,-126.72,752,DR-3,
7,MSK-4,-48.87,-123.4,837,MSK-4,1932-01-14


**다음으로 person과 survey 데이터 프레임이 어떻게 생겼는지 불러와보세요**

In [31]:
# 아래에 코드를 작성 후 실행해 보세요.
person

Unnamed: 0,ident,personal,family
0,dyer,William,Dyer
1,pb,Frank,Pabodie
2,lake,Anderson,Lake
3,roe,Valentina,Roerich
4,danforth,Frank,Danforth


In [32]:
# 아래에 코드를 작성 후 실행해 보세요.
survey.head()

Unnamed: 0,taken,person,quant,reading
0,619,dyer,rad,9.82
1,619,dyer,sal,0.13
2,622,dyer,rad,7.8
3,622,dyer,sal,0.09
4,734,pb,rad,8.41


**merge 함수를 사용하여 person과 survey를 병합하세요. person의 key값은 ident, survey를의 key값은 person입니다.**

In [35]:
# 아래에 코드를 작성 후 실행해 보세요.
#pd.merge(site, visited, left_on='name', right_on='site')
pd.merge(person, survey, left_on='ident', right_on='person')

Unnamed: 0,ident,personal,family,taken,person,quant,reading
0,dyer,William,Dyer,619,dyer,rad,9.82
1,dyer,William,Dyer,619,dyer,sal,0.13
2,dyer,William,Dyer,622,dyer,rad,7.8
3,dyer,William,Dyer,622,dyer,sal,0.09
4,pb,Frank,Pabodie,734,pb,rad,8.41
5,pb,Frank,Pabodie,734,pb,temp,-21.5
6,pb,Frank,Pabodie,735,pb,rad,7.22
7,pb,Frank,Pabodie,751,pb,rad,4.35
8,pb,Frank,Pabodie,751,pb,temp,-18.5
9,lake,Anderson,Lake,734,lake,sal,0.05


# 결측치 처리

**결측치에 대해 간단하게 살펴보아요.**

In [36]:
from numpy import nan

In [37]:
nan
#결측치를 의미함.

nan

In [38]:
print(pd.isna(nan))

True


In [39]:
print(pd.isnull(nan))

True


## 결측치 확인

**ebola_df 데이터프레임을 살펴보아요.**

In [40]:
ebola_df = pd.read_csv('./country_timeseries.csv')

In [41]:
ebola_df.head()
#결측치가 많은 데이터

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
0,1/5/2015,289,2776.0,,10030.0,,,,,,1786.0,,2977.0,,,,,
1,1/4/2015,288,2775.0,,9780.0,,,,,,1781.0,,2943.0,,,,,
2,1/3/2015,287,2769.0,8166.0,9722.0,,,,,,1767.0,3496.0,2915.0,,,,,
3,1/2/2015,286,,8157.0,,,,,,,,3496.0,,,,,,
4,12/31/2014,284,2730.0,8115.0,9633.0,,,,,,1739.0,3471.0,2827.0,,,,,


In [42]:
ebola_df.shape
#122개의 행과 18개의 열

(122, 18)

In [43]:
ebola_df.isna().sum()
#각 변수마다 결측치의 개수를 확인

Date                     0
Day                      0
Cases_Guinea            29
Cases_Liberia           39
Cases_SierraLeone       35
Cases_Nigeria           84
Cases_Senegal           97
Cases_UnitedStates     104
Cases_Spain            106
Cases_Mali             110
Deaths_Guinea           30
Deaths_Liberia          41
Deaths_SierraLeone      35
Deaths_Nigeria          84
Deaths_Senegal         100
Deaths_UnitedStates    104
Deaths_Spain           106
Deaths_Mali            110
dtype: int64

In [44]:
ebola_df['Deaths_Mali'].isnull().value_counts()
#결측이 아닌 값은 12개.
#결측은 110개

Deaths_Mali
True     110
False     12
Name: count, dtype: int64

## 결측치 채워 넣기 - fillna

**fillna 함수를 사용하여 ebola_df 데이터프레임에서 결측치를 0으로 채워봅시다.**

In [46]:
# 아래에 코드를 작성 후 실행해 보세요.
ebola_df.fillna(0).head()
#결측치를 다 0으로 채움

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
0,1/5/2015,289,2776.0,0.0,10030.0,0.0,0.0,0.0,0.0,0.0,1786.0,0.0,2977.0,0.0,0.0,0.0,0.0,0.0
1,1/4/2015,288,2775.0,0.0,9780.0,0.0,0.0,0.0,0.0,0.0,1781.0,0.0,2943.0,0.0,0.0,0.0,0.0,0.0
2,1/3/2015,287,2769.0,8166.0,9722.0,0.0,0.0,0.0,0.0,0.0,1767.0,3496.0,2915.0,0.0,0.0,0.0,0.0,0.0
3,1/2/2015,286,0.0,8157.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3496.0,0.0,0.0,0.0,0.0,0.0,0.0
4,12/31/2014,284,2730.0,8115.0,9633.0,0.0,0.0,0.0,0.0,0.0,1739.0,3471.0,2827.0,0.0,0.0,0.0,0.0,0.0


## 결측치 채워 넣기 - ffill

**ffill 함수를 사용하여 ebola_df 데이터프레임에서 결측치를 채워봅시다.**

In [49]:
# 아래에 코드를 작성 후 실행해 보세요.
ebola_df.ffill().head()

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
0,1/5/2015,289,2776.0,,10030.0,,,,,,1786.0,,2977.0,,,,,
1,1/4/2015,288,2775.0,,9780.0,,,,,,1781.0,,2943.0,,,,,
2,1/3/2015,287,2769.0,8166.0,9722.0,,,,,,1767.0,3496.0,2915.0,,,,,
3,1/2/2015,286,2769.0,8157.0,9722.0,,,,,,1767.0,3496.0,2915.0,,,,,
4,12/31/2014,284,2730.0,8115.0,9633.0,,,,,,1739.0,3471.0,2827.0,,,,,


## 결측치 채워 넣기 - bfill

**bfill 함수를 사용하여 ebola_df 데이터프레임에서 결측치를 채워봅시다.**

In [50]:
# 아래에 코드를 작성 후 실행해 보세요.
ebola_df.bfill().head()
#뒤에 있는 값을 땡겨옴

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
0,1/5/2015,289,2776.0,8166.0,10030.0,20.0,1.0,4.0,1.0,7.0,1786.0,3496.0,2977.0,8.0,0.0,1.0,0.0,6.0
1,1/4/2015,288,2775.0,8166.0,9780.0,20.0,1.0,4.0,1.0,7.0,1781.0,3496.0,2943.0,8.0,0.0,1.0,0.0,6.0
2,1/3/2015,287,2769.0,8166.0,9722.0,20.0,1.0,4.0,1.0,7.0,1767.0,3496.0,2915.0,8.0,0.0,1.0,0.0,6.0
3,1/2/2015,286,2730.0,8157.0,9633.0,20.0,1.0,4.0,1.0,7.0,1739.0,3496.0,2827.0,8.0,0.0,1.0,0.0,6.0
4,12/31/2014,284,2730.0,8115.0,9633.0,20.0,1.0,4.0,1.0,7.0,1739.0,3471.0,2827.0,8.0,0.0,1.0,0.0,6.0


## 결측치 제거

**ebola_df 데이터프레임에서 dropna를 사용하여 결측치가 있는 행을 제거해보아요.**

In [116]:
# 아래에 코드를 작성 후 실행해 보세요.


# 중복값 처리

**df 데이터프레임을 살펴보아요.**

In [59]:
data = {
    'col_1': [1, 2, 2, 3, 4, 4, 4, 5],
    'col_2': ['a', 'b', 'b', 'c', 'd', 'd', 'd', 'e']
}
df = pd.DataFrame(data)

df

Unnamed: 0,col_1,col_2
0,1,a
1,2,b
2,2,b
3,3,c
4,4,d
5,4,d
6,4,d
7,5,e


## 중복값 찾기

**duplicated 메서드를 사용하여 df 데이터프레임의 `col_1` 변수 기준으로 중복값을 찾아보아요.**

In [52]:
# 아래에 코드를 작성 후 실행해 보세요.
df.duplicated()
# 2라는 행은 중복이다!
# 5, 6행도 True기에 중복임을 알 수 있음

0    False
1    False
2     True
3    False
4    False
5     True
6     True
7    False
dtype: bool

## 중복값 개수 확인

**value_counts()를 사용하여 중복값 개수를 확인해보아요.**

In [53]:
# 아래에 코드를 작성 후 실행해 보세요.
df.duplicated().value_counts()
#중복인게 3개이구나 -> 제거해야함

False    5
True     3
Name: count, dtype: int64

## 중복값 제거

**drop_duplicates 메서드를 사용하여 중복값을 제거해보아요. 옵션 sebset을 사용해봅시다.**

In [61]:
# 아래에 코드를 작성 후 실행해 보세요.
df.drop_duplicates()
#아까 중복이었던 2, 5, 6행이 사라짐.

Unnamed: 0,col_1,col_2
0,1,a
1,2,b
3,3,c
4,4,d
7,5,e


In [60]:
df.drop_duplicates(subset='col_1')
#이렇게 하나의 열만 지정해서 drop(결측치 제거)할 수 있다. 

Unnamed: 0,col_1,col_2
0,1,a
1,2,b
3,3,c
4,4,d
7,5,e
