## 문자열 조작

| 메서드            | 설명                                              | 사용 예                                      |
|-------------------|--------------------------------------------------|---------------------------------------------|
| `str.replace()`   | 특정 문자열을 다른 문자열로 대체합니다.           | `df['Name'].str.replace('김영욱', '김동현')` |
| `str.split()`     | 문자열을 지정된 구분자에 따라 분리합니다.          | `df['Data'].str.split(',')`                 |
| `str.startswith()`| 문자열이 특정 문자열로 시작하는지 검사합니다.      | `df['Name'].str.startswith('서')`            |
| `str.endswith()`  | 문자열이 특정 문자열로 끝나는지 검사합니다.        | `df['File'].str.endswith('.com')`           |
| `str.contains()`  | 문자열에 특정 문자열이 포함되어 있는지 검사합니다. | `df['Email'].str.contains('@')`             |
| `str.upper()`     | 문자열을 대문자로 변환합니다.                      | `df['Name'].str.upper()`                    |
| `str.lower()`     | 문자열을 소문자로 변환합니다.                      | `df['Name'].str.lower()`                    |


In [None]:
import pandas as pd
import numpy as np

# 데이터프레임 생성
data = {
    '이름': ['김지수', '박영희', '이민준', '최예원'],
    '나이': [28, 22, 21, 30],
    '도시': ['서울', '부산', '대구', '광주'],
    '직업': ['의사', '변호사', '회계사', '엔지니어'],
    '날짜': ['2020, Jan', '2021, Feb', '2020, Mar', '2021, Apr'],
    '메일': ['kimjisoo@example.com', 'parkyounghee@example.com', 'leeminjun@example.com', 'kimdonghyun@example.com']
}
df = pd.DataFrame(data)

## 데이터 타입

In [None]:
import pandas as pd
import numpy as np

# 데이터프레임 생성
data = {
    '이름': ['김지수', '박영희', '이민준', '김동현'],
    '나이': [28, 22, 21, 30],
    '도시': ['서울', '부산', '대구', '광주'],
    '직업': ['의사', '변호사', '회계사', '개발자'],
    '날짜': ['2020, Jan', '2021, Feb', '2020, Mar', '2021, Apr'],
    '메일': ['kimjisoo@example.com', 'parkyounghee@example.com', 'leeminjun@example.com', 'kimdonghyun@example.com']
}
df = pd.DataFrame(data)

### 2. 시계열 데이터

#### 1. 날짜와 시간 데이터 변환

In [None]:
data = {
  'date': [
      "2023-01-01", "2023-01-15", "2023-02-01", "2023-02-15", "2023-03-01",
      "2023-03-15", "2023-04-01", "2023-04-15", "2023-05-01", "2023-05-15",
      "2023-06-01", "2023-06-15", "2023-07-01", "2023-07-15"
  ],
  'value': [
      100, 110, 200, 210, 300, 310, 400, 410, 500, 510, 600, 610, 700, 710
  ]
}

df = pd.DataFrame(data)
df

## 데이터 그룹화

In [None]:
import pandas as pd

data = {
    'Category': ['A', 'B', 'A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'C', 'A', 'C', 'B', 'C', 'A', 'B'],
    'Data': [10, 15, 9, 7, 8, 12, 14, 11, 13, 12, 10, 14, 15, 8, 9, 16, 11],
    'SubCategory': ['X', 'Y', 'X', 'Y', 'Z', 'X', 'Y', 'Z', 'X', 'Y', 'Z', 'X', 'Z', 'Y', 'Z', 'X', 'Y']
}
df = pd.DataFrame(data)

# 데이터프레임 출력
df

## 데이터 결합

### 1. concat

In [None]:
import pandas as pd

# 예제 데이터프레임 생성
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2']})

df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'],
                    'B': ['B3', 'B4', 'B5']})


### 2. merge

In [None]:
df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                    'A': ['A0', 'A1', 'A2']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                    'B': ['B0', 'B1', 'B2']})


In [None]:
df1 = pd.DataFrame({
    'key1': ['K0', 'K0', 'K1', 'K2'],
    'key2': ['K0', 'K1', 'K0', 'K1'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

df2 = pd.DataFrame({
    'key1': ['K0', 'K1', 'K1', 'K2'],
    'key2': ['K0', 'K0', 'K0', 'K0'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
})


In [None]:
df1 = pd.DataFrame({'key1': ['K0', 'K1', 'K2'],
                    'A': ['A0', 'A1', 'A2']})

df2 = pd.DataFrame({'key2': ['K0', 'K1', 'K2'],
                    'B': ['B0', 'B1', 'B2']})

| 매개변수 | 설명 |
|----------|------|
| `on` | 두 데이터프레임에서 같은 이름을 가진 컬럼을 기준으로 결합할 때 사용합니다. |
| `left_on` | 왼쪽 데이터프레임에서 결합 기준으로 사용할 컬럼의 이름을 지정합니다. |
| `right_on` | 오른쪽 데이터프레임에서 결합 기준으로 사용할 컬럼의 이름을 지정합니다. |
| `how` | 결합 방식을 지정합니다. 'left', 'right', 'outer', 'inner' 중 하나를 선택할 수 있습니다. |
| `left` | 왼쪽 데이터프레임을 기준으로 결합합니다. 왼쪽 데이터프레임의 키가 모두 포함되며, 오른쪽 데이터프레임의 키는 일치하는 것만 포함됩니다. |
| `right` | 오른쪽 데이터프레임을 기준으로 결합합니다. 오른쪽 데이터프레임의 모든 키를 포함하며, 왼쪽 데이터프레임의 키는 일치하는 것만 포함됩니다. |
| `inner` | 두 데이터프레임에 모두 존재하는 키의 항목만 포함하여 결합합니다. |
| `outer` | 두 데이터프레임의 모든 키를 포함하여 결합하며, 일치하지 않는 부분은 NaN으로 처리됩니다. |

#### merge 실습

merge에 how 매개변수를 사용하여 'left', 'right', 'inner', 'outer' 를 사용해 보세요

In [None]:
import pandas as pd

# 직원 데이터프레임 생성
직원 = pd.DataFrame({
    '직원ID': ['1', '2', '3', '4', '5', '6', '7'],
    '직원이름': ['김영욱', '이조은', '이태훈', '이은호', '김동현', '박재연', '이태형'],
    '부서ID': ['D1', 'D2', 'D1', 'D3', 'D4', 'D1', 'D2']
})

# 부서 데이터프레임 생성
부서 = pd.DataFrame({
    '부서ID': ['D1', 'D2', 'D3', 'D5'],
    '부서이름': ['인사', '공학', '마케팅', '재무']
})

### 3. join

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2']},
                  index=['K0', 'K1', 'K2'])

df2 = pd.DataFrame({'B': ['B0', 'B1', 'B2']},
                  index=['K0', 'K1', 'K2'])


## 데이터 재구조화

### pivot

피벗 기본 구조

```python
pivot = pd.pivot_table(df, 
                       index='index', # 행 위치에 들어갈 열
                       columns='column', # 컬럼 위치에 들어갈 열
                       values='value', # 데이터로 사용할 열
                       aggfunc = 'mean' # 데이터 집계함수
                       )
```

In [None]:
import seaborn as sns
import pandas as pd

# 타이타닉 데이터셋 로드
df = sns.load_dataset('titanic')

# 사용할 컬럼
col = ['survived', 'pclass', 'sex', 'age', 'fare', 'embark_town']

df = df[col]

# 결측치 삭제
df.dropna(subset='age', inplace=True)

df.head()

1. survived, 생존 여부 0이면 사망, 1이면 생존
2. pclass, 객실 등급, 1이면 1등급, 2이면 2등급, 3이면 3등급
3. sex, 성별, male이면 남자, female이면 여자
4. age, 나이
5. fare, 요금
6. embark_town, 탑승지 이름

## apply

#### 실습

In [None]:
import pandas as pd
import seaborn as sns

# 타이타닉 데이터셋 로드
df = sns.load_dataset('titanic')

# 사용할 컬럼
col = ['survived', 'pclass', 'sex', 'age', 'fare', 'embark_town']

df = df[col]

# 결측치 삭제
df.dropna(subset='age', inplace=True)

df.head()