<a href="https://colab.research.google.com/github/yebiny/SkillTreePython-DataAnalysis/blob/main/01.%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D%EA%B8%B0%EC%B4%88/08_Pandas_%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%8B%A4%EB%A3%A8%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ch.08 Pandas - 데이터 다루기
---
* 날짜:
* 이름:


## 개념정리
---

```
import pandas as pd
import numpy as np
```

실습을 위해 캘리포니아 데이터셋을 불러옵니다.
```
df = pd.read_csv('/content/sample_data/california_housing_test.csv')
df.head()
```

---
### **(1) 데이터 수정**
---

인덱싱과 슬라이싱을 이용해 원하는 값에 접근하고 변경할 수 있습니다.




#### **| 인덱싱, 슬라이싱 사용**





( `0` 행, `logitude` 열) 의 값을 100으로 바꿔 봅시다.

```
df.loc[0, 'longitude'] = 100
df.head()
```

( `0` 행~`2` 행, `logitude` ~ `latitude` 열) 의 값을 100으로 바꿔 봅시다.

```
df.loc[:2, 'longitude':'latitude'] = 100
df.head()
```

#### **| 컬럼명 변경**



* `df.columns` : 열 네이밍을 바인딩으로 새로 지정할 수 있습니다.

```
df.columns = [ f'A{i}' for i in range(9)]
df.head()
```

* `.rename({before:after}, axis, inplace)`

바꿀 목표와 바꿀 이름을 적어주고, 행인지 열인지 `axis`로 정해줍니다.

```
df.rename({"A0":"B0", "A2":"B2"}, axis = 1)
df.head()
```

#### **| 범주 나누기**

* `pd.cut(열, bins, labels)` : `bins` 범위의 숫자를 `names`로 범주를 나눕니다.

`A2`의 깂들을 범주화 하겠습니다.

```
bins = [0,10,20,30,40,100]
names = ['a','b','c','d','e']
df['A2']=pd.cut(df['A2'], bins=bins, labels=names)
df.head()
```

---
### **(2) 데이터 추가**
---


#### **| 행 추가**

새로운 행을 작성합니다.

```
line = np.zeros(9)
line
```

인덱싱을 이용해 새로운 행을 추가할 수 있습니다.


```
df.loc[3001] = line
df.tail()
```

#### **| 열 추가**



새로운 열 `safety`를 만들어 보겠습니다. 총 5개의 등급으로 이루어져 있습니다.

```
col_list = ['A-a', 'A-b', 'B-a', 'B-b', 'C']
col = np.random.choice(col_list, len(df))
col, col.shape
```

인덱싱을 이용하여 `safety`를 추가합니다.

```
df['safety']=safety
df.head()
```

---
### **(2) 데이터 삭제**
---


#### **| 기본사용**

* `.drop( idx, axis)` : `axis` 방향의 `idx` 데이터 제거

```
df = df.drop(0)
df.head()
```

여러개의 행을 지워 봅시다.

```
df = df.drop([1,2])
df.head()
```

열을 지울 때는 `axis=1`를 추가합니다.

```
df = df.drop(['A7','A8'], axis=1)
df.head()
```

#### **| 결측치 삭제**

데이터에는 결측치가 포함된 경우가 종종 있습니다. 결측치를 삭제하는 방법을 알아봅니다.

이를 위해 데이터에 `nan`값을 추가합니다.

```
df.loc[[3,5],'A0']=float('nan')
df.head()
```
 

* `.dropna(axis)` : 결측값이 포함된 `axis`를 삭제합니다. ( 기본 `axis=0` )


---
### **(3) 마스킹**
---

마스킹이란 넘파이의 불리언 인덱싱과 같은 개념으로 보시면 됩니다. 원하는 조건에 맞는 데이터만 출력할 수 있습니다.

#### **| 인덱싱을 이용한 마스킹**



열 `safety`에서 값이 `A-b`인 마스크를 바인딩 합니다.

```
mask = df['safety'] == 'A-b'
mask
```



마스크를 이용해 해당하는 데이터만 출력합니다.
```
df_masked = df[mask]
df_masked.head()
```

두가지 조건을 다음과 같이 줄 수 있습니다.

```
mask = (df['safety']=='A-b') | (df['safety']=='A-a')
df_masked = df[mask]
df_masked.head()

```

#### **| `isin`을 이용한 마스킹**

* `.isin([val_list])`

열 `safety`에서 값이 `A-b`인 마스크를 바인딩 합니다.

```
mask = df['safety'].isin(['A-b'])
mask
```

마스크를 이용해 해당하는 데이터만 출력합니다.
```
df_masked = df[mask]
df_masked.head()
```

`isin`을 사용하면 여러개의 값을 한번에 찾을 때 유용합니다.
```
mask = df['safety'].isin(['A-b', 'A-a'])
df_masked = df[mask]
df_masked.head()
```

#### **| 마스킹을 이용한 데이터 수정**



우선 `A-a`에 해당하는 마스크를 만듭시다.

```
mask = df['safety']=='A-a'
mask
```

기본적으로 마스크로 인덱싱한 값을 바꾸면 마스크에 속하는 행의 모든 값이 바뀝니다.

```
df[mask]='값수정1'
df
```

마스크에 속하는 행의 특정 열만 바꾸고 싶다면 `loc` 또는 `iloc`을 써서 열을 제한해 줍니다. 

```
df.loc[mask, 'safety']='값수정2'
df
```

---
### **(4) 문자열**
---

데이터의 문자를 인식해서 각종 처리를 할 수 있습니다. 이 때 전체 데이터 프레임이 아닌 열에 대해서만 함수를 사용할 수 있습니다.

```
df['열'].str.함수()
```

`.str`을 이용해 간단한 인덱싱이 가능합니다. `safety`에서 첫번째 문자만 출력해 보겠습니다.

```
df['safety'].str[0]
```

#### **| 글자인식**

글자인식을 통해 해당하는 문자이면 `True , False`로 반환합니다. 따라서 이를 이용해 마스킹을 사용할 수 있습니다.





* `.str.contains(s)` : 문자열 `s`가 포함된 모든 행을 검색합니다.

문자열이 값 안에 포함되어 있는지 검색할 때 유용합니다. 안전등급에 `A`가 포함된 값을 모두 찾아 보겠습니다.

```
 mask = df['safety'].str.contains('A')
 mask
 ```

위에서 만든 마스크를 씌우고 결과를 확인합니다.

```
df_maksed=df[mask]
df_masked.head()
```

문자열이 특정 문자로 시작되거나 끝나는지의 여부도 아래의 함수를 이용해 확인할 수 있습니다.


* `.str.stratswith(s)` : 문자열 `s`로 시작되는지 여부를 반환합니다 (`True/False`)

* `.str.endswith(s)` : 문자열 `s`로 끝나는지 여부를 반환합니다 (`True/False`)

```
mask = df['safety'].str.endswith('b')
df_masked = df[mask]
df_masked.head()
```

#### **| 열 분할**



* `.str.split(s)` : 특정 열을 문자열 기준으로 나눕니다

```
df['safety'].str.split('-', expand = True).head() 
```

#### **| 문자 교체**



* `.str.replace(s1,s2 )` : 문자열 `s1`을 `s2`로 바꿉니다.

```
df['safety'].str.replace('-', ':').head()
```

## 문제풀이
---

**예제 01**

다음과 같이 연도, 월, 날짜가 기입된 데이터프레임을 작성하고 `df01` 로 바인딩하세요.

2001년 1-1일 부터 2001년 2-28일까지 기입되어 있습니다. (31+28= 총 59줄)


| index | 연도 | 날짜 | 
|--|--|--|
|0|2001|1-1|
|1|2001|1-2|
|2|2001|1-3|
||...|

**예제 02**

`df01`의 연도를 모두 2022로 바꾸세요.

**예제 03**

`df01` 에 1월, 2월에 이어서 3월을 추가하세요.

**예제 05**

`df01`의 `날짜` 열에서 하이픈`-` 을 콤마`,`로 바꿔주세요. 

**예제 06**

`df01`에 `요일` 열을 추가하세요. 첫번째 행의 시작은 `토요일` 입니다.

**예제 07**

`목요일`에 해당하는 행을 모두 출력하세요.

**예제 08**

`2`월에 해당하는 행 중 `날짜` 열과 `요일` 열만 출력하세요.

**예제 09**

`날짜`의 데이터를 나눠 `월`과 `일`이라는 새로운 열을 `df01`에 추가하세요. 

**예제 10**

`df01`에서 `날짜` 열을 제거하세요.

---
최종 `df01`을 `ch08_days.csv`로 저장하고 깃허브에 올려주세요.