## 문자열 조작

| 메서드            | 설명                                              | 사용 예                                      |
|-------------------|--------------------------------------------------|---------------------------------------------|
| `str.replace()`   | 특정 문자열을 다른 문자열로 대체합니다.           | `df['Name'].str.replace('김영욱', '김동현')` |
| `str.split()`     | 문자열을 지정된 구분자에 따라 분리합니다.          | `df['Data'].str.split(',')`                 |
| `str.startswith()`| 문자열이 특정 문자열로 시작하는지 검사합니다.      | `df['Name'].str.startswith('서')`            |
| `str.endswith()`  | 문자열이 특정 문자열로 끝나는지 검사합니다.        | `df['File'].str.endswith('.com')`           |
| `str.contains()`  | 문자열에 특정 문자열이 포함되어 있는지 검사합니다. | `df['Email'].str.contains('@')`             |
| `str.upper()`     | 문자열을 대문자로 변환합니다.                      | `df['Name'].str.upper()`                    |
| `str.lower()`     | 문자열을 소문자로 변환합니다.                      | `df['Name'].str.lower()`                    |


In [39]:
import pandas as pd
import numpy as np

# 데이터프레임 생성
data = {
    '이름': ['김지수', '박영희', '이민준', '최예원'],
    '나이': [28, 22, 21, 30],
    '도시': ['서울', '부산', '대구', '광주'],
    '직업': ['의사', '변호사', '회계사', '엔지니어'],
    '날짜': ['2020, Jan', '2021, Feb', '2020, Mar', '2021, Apr'],
    '메일': ['kimjisoo@example.com', 'parkyounghee@example.com', 'leeminjun@example.com', 'kimdonghyun@example.com']
}
df = pd.DataFrame(data)

In [40]:
df['직업'] = df['직업'].str.replace('엔지니어', '개발자')
df

Unnamed: 0,이름,나이,도시,직업,날짜,메일
0,김지수,28,서울,의사,"2020, Jan",kimjisoo@example.com
1,박영희,22,부산,변호사,"2021, Feb",parkyounghee@example.com
2,이민준,21,대구,회계사,"2020, Mar",leeminjun@example.com
3,최예원,30,광주,개발자,"2021, Apr",kimdonghyun@example.com


In [41]:
df['이름'] = df['이름'].str.replace('홍길동', '김지수')
df

Unnamed: 0,이름,나이,도시,직업,날짜,메일
0,김지수,28,서울,의사,"2020, Jan",kimjisoo@example.com
1,박영희,22,부산,변호사,"2021, Feb",parkyounghee@example.com
2,이민준,21,대구,회계사,"2020, Mar",leeminjun@example.com
3,최예원,30,광주,개발자,"2021, Apr",kimdonghyun@example.com


In [42]:
df['도시'] = df['도시'].replace({'서울': 'seoul', '부산': 'busan', '대구': 'daegu', '광주': 'gwangju'}, regex=True)
df

Unnamed: 0,이름,나이,도시,직업,날짜,메일
0,김지수,28,seoul,의사,"2020, Jan",kimjisoo@example.com
1,박영희,22,busan,변호사,"2021, Feb",parkyounghee@example.com
2,이민준,21,daegu,회계사,"2020, Mar",leeminjun@example.com
3,최예원,30,gwangju,개발자,"2021, Apr",kimdonghyun@example.com


In [43]:
# split
# 날짜에서 연도 분리
df['연도'] = df['날짜'].str.split(',').str[0]
df

Unnamed: 0,이름,나이,도시,직업,날짜,메일,연도
0,김지수,28,seoul,의사,"2020, Jan",kimjisoo@example.com,2020
1,박영희,22,busan,변호사,"2021, Feb",parkyounghee@example.com,2021
2,이민준,21,daegu,회계사,"2020, Mar",leeminjun@example.com,2020
3,최예원,30,gwangju,개발자,"2021, Apr",kimdonghyun@example.com,2021


In [44]:
# 메일에서 도메인 분리
df['도메인'] = df['메일'].str.split('@').str[1]
df

Unnamed: 0,이름,나이,도시,직업,날짜,메일,연도,도메인
0,김지수,28,seoul,의사,"2020, Jan",kimjisoo@example.com,2020,example.com
1,박영희,22,busan,변호사,"2021, Feb",parkyounghee@example.com,2021,example.com
2,이민준,21,daegu,회계사,"2020, Mar",leeminjun@example.com,2020,example.com
3,최예원,30,gwangju,개발자,"2021, Apr",kimdonghyun@example.com,2021,example.com


In [45]:
# 이메일 도메인 부분을 대문자로 바꿔서 도메인 컬럼에 저장
df['도메인'] = df['도메인'].str.upper()
df

Unnamed: 0,이름,나이,도시,직업,날짜,메일,연도,도메인
0,김지수,28,seoul,의사,"2020, Jan",kimjisoo@example.com,2020,EXAMPLE.COM
1,박영희,22,busan,변호사,"2021, Feb",parkyounghee@example.com,2021,EXAMPLE.COM
2,이민준,21,daegu,회계사,"2020, Mar",leeminjun@example.com,2020,EXAMPLE.COM
3,최예원,30,gwangju,개발자,"2021, Apr",kimdonghyun@example.com,2021,EXAMPLE.COM


In [47]:
# 한줄로 메일에서 도메인 분리하고 + 도메인 부분 대문자로 변경
df['도메인'] = df['도메인'].str.split('@').str[0].str.upper()
df

Unnamed: 0,이름,나이,도시,직업,날짜,메일,연도,도메인
0,김지수,28,seoul,의사,"2020, Jan",kimjisoo@example.com,2020,EXAMPLE.COM
1,박영희,22,busan,변호사,"2021, Feb",parkyounghee@example.com,2021,EXAMPLE.COM
2,이민준,21,daegu,회계사,"2020, Mar",leeminjun@example.com,2020,EXAMPLE.COM
3,최예원,30,gwangju,개발자,"2021, Apr",kimdonghyun@example.com,2021,EXAMPLE.COM


## 데이터 타입

| 데이터 타입 | 설명 |
|-------------|------|
| `object`    | 일반적으로 텍스트를 저장하는 데 사용됩니다. |
| `int64`     | 정수형 데이터를 저장하는 데 사용됩니다. `int32`나 `int16` 등 크기에 따라 다른 정수 타입도 있습니다. |
| `float64`   | 실수형 데이터를 저장하는 데 사용됩니다. `float32`와 같은 다른 크기의 실수 타입도 있습니다. |
| `bool`      | Boolean 값(True 또는 False)을 저장하는 데 사용됩니다. |
| `category`  | 범주형 데이터를 저장하는 데 사용됩니다. 메모리 사용을 최적화하고, 분석 성능을 향상시킬 수 있습니다. |
| `datetime64`| 날짜 및 시간 데이터를 저장하는 데 사용됩니다. |

In [51]:
import pandas as pd
import numpy as np

# 데이터프레임 생성
data = {
    '이름': ['김지수', '박영희', '이민준', '김동현'],
    '나이': [28, 22, 21, 30],
    '도시': ['서울', '부산', '대구', '광주'],
    '직업': ['의사', '변호사', '회계사', '개발자'],
    '날짜': ['2020, Jan', '2021, Feb', '2020, Mar', '2021, Apr'],
    '메일': ['kimjisoo@example.com', 'parkyounghee@example.com', 'leeminjun@example.com', 'kimdonghyun@example.com']
}
df = pd.DataFrame(data)

In [53]:
df['직업'] = df['직업'].astype('category')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   이름      4 non-null      object  
 1   나이      4 non-null      int64   
 2   도시      4 non-null      object  
 3   직업      4 non-null      category
 4   날짜      4 non-null      object  
 5   메일      4 non-null      object  
dtypes: category(1), int64(1), object(4)
memory usage: 496.0+ bytes


### 2. 시계열 데이터

#### 1. 날짜와 시간 데이터 변환

In [54]:
data = {
  'date': [
      "2023-01-01", "2023-01-15", "2023-02-01", "2023-02-15", "2023-03-01",
      "2023-03-15", "2023-04-01", "2023-04-15", "2023-05-01", "2023-05-15",
      "2023-06-01", "2023-06-15", "2023-07-01", "2023-07-15"
  ],
  'value': [
      100, 110, 200, 210, 300, 310, 400, 410, 500, 510, 600, 610, 700, 710
  ]
}

df = pd.DataFrame(data)
df

df['data'] = pd.to_datetime(df['date'])

df.set_index('data', inplace=True)

Unnamed: 0,date,value
0,2023-01-01,100
1,2023-01-15,110
2,2023-02-01,200
3,2023-02-15,210
4,2023-03-01,300
5,2023-03-15,310
6,2023-04-01,400
7,2023-04-15,410
8,2023-05-01,500
9,2023-05-15,510


In [55]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   date    14 non-null     object
 1   value   14 non-null     int64 
dtypes: int64(1), object(1)
memory usage: 352.0+ bytes


In [56]:
df['date'] = pd.to_datetime(df['date'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   date    14 non-null     datetime64[ns]
 1   value   14 non-null     int64         
dtypes: datetime64[ns](1), int64(1)
memory usage: 352.0 bytes


| 포맷 문자 | 설명               | 예시    |
|-----------|--------------------|---------|
| %Y        | 네 자리 연도       | 2022    |
| %y        | 두 자리 연도       | 22      |
| %m        | 두 자리 월         | 01 ~ 12 |
| %d        | 두 자리 일         | 01 ~ 31 |
| %H        | 24시간 형식의 시간 | 00 ~ 23 |
| %I        | 12시간 형식의 시간 | 01 ~ 12 |
| %M        | 두 자리 분         | 00 ~ 59 |
| %S        | 두 자리 초         | 00 ~ 59 |
| %a        | 요일의 약어        | Mon, Tue, ... |
| %A        | 요일의 전체 이름   | Monday, Tuesday, ... |
| %b        | 월의 약어          | Jan, Feb, ... |
| %B        | 월의 전체 이름     | January, February, ... |
| %p        | AM 또는 PM         | AM, PM |


| 포맷 코드 | 설명 |
|-----------|------|
| `%Y`      | 4자리 연도 |
| `%y`      | 2자리 연도 |
| `%m`      | 2자리 월 (01-12) |
| `%d`      | 2자리 일 (01-31) |
| `%H`      | 24시간 기준 2자리 시간 (00-23) |
| `%I`      | 12시간 기준 2자리 시간 (01-12) |
| `%M`      | 2자리 분 (00-59) |
| `%S`      | 2자리 초 (00-59) |
| `%f`      | 마이크로초 (백만분의 일초) |
| `%Z`      | 시간대 이름 (예: 'UTC') |
| `%z`      | UTC 오프셋 (예: +0100) |
| `%A`      | 요일의 전체 이름 (Sunday, Monday, ...) |
| `%a`      | 요일의 짧은 이름 (Sun, Mon, ...) |
| `%B`      | 월의 전체 이름 (January, February, ...) |
| `%b`      | 월의 짧은 이름 (Jan, Feb, ...) |
| `%p`      | AM 또는 PM |

| Rule | 설명 | 예시 |
|------|------|------|
| `min` | 분 단위 리샘플링 | `df.resample('5min').mean()` - 5분 간격 평균 |
| `H`   | 시간 단위 리샘플링 | `df.resample('H').sum()` - 시간당 합계 |
| `D`   | 일 단위 리샘플링 | `df.resample('D').mean()` - 일일 평균 |
| `W`   | 주 단위 리샘플링 | `df.resample('W').sum()` - 주간 합계 |
| `M`   | 월 마지막 날 기준 월 단위 리샘플링 | `df.resample('M').mean()` - 월별 평균 |
| `MS`  | 월 시작일 기준 월 단위 리샘플링 | `df.resample('MS').mean()` - 월 시작일 기준 월별 평균 |
| `Q`   | 분기 마지막 날 기준 분기 단위 리샘플링 | `df.resample('Q').sum()` - 분기별 합계 |
| `QS`  | 분기 시작일 기준 분기 단위 리샘플링 | `df.resample('QS').mean()` - 분기 시작일 기준 분기별 평균 |
| `A`   | 연도 마지막 날 기준 연 단위 리샘플링 | `df.resample('A').mean()` - 연간 평균 |
| `AS`  | 연도 시작일 기준 연 단위 리샘플링 | `df.resample('AS').mean()` - 연 시작일 기준 연간 평균 |
| `B`   | 비즈니스 일 기준 리샘플링 | `df.resample('B').mean()` - 비즈니스 일기준 평균 |

In [61]:
date_str = '120424, fri pm_02:30:00'
date = pd.to_datetime(date_str, format="%d%m%y, %a pm_%I:%M:%S")

date

Timestamp('2024-04-12 02:30:00')

In [62]:
data = {
  'date': [
      "2023-01-01", "2023-01-15", "2023-02-01", "2023-02-15", "2023-03-01",
      "2023-03-15", "2023-04-01", "2023-04-15", "2023-05-01", "2023-05-15",
      "2023-06-01", "2023-06-15", "2023-07-01", "2023-07-15"
  ],
  'value': [
      100, 110, 200, 210, 300, 310, 400, 410, 500, 510, 600, 610, 700, 710
  ]
}

df = pd.DataFrame(data)
df

df['data'] = pd.to_datetime(df['date'])

df.set_index('data', inplace=True)

df['site_value'] = df['value'].shift(1)
df


Unnamed: 0_level_0,date,value,site_value
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2023-01-01,2023-01-01,100,
2023-01-15,2023-01-15,110,100.0
2023-02-01,2023-02-01,200,110.0
2023-02-15,2023-02-15,210,200.0
2023-03-01,2023-03-01,300,210.0
2023-03-15,2023-03-15,310,300.0
2023-04-01,2023-04-01,400,310.0
2023-04-15,2023-04-15,410,400.0
2023-05-01,2023-05-01,500,410.0
2023-05-15,2023-05-15,510,500.0


In [63]:
df['year'] = df['data'].dt.year
df['month'] = df['data'].dt.month
df['day'] = df['data'].dt.day
df['day_of_year'] = df['data'].dt.day_of_year
df['day_name'] = df['data'].dt.day_name

KeyError: 'data'

## 데이터 그룹화

In [None]:
import pandas as pd

data = {
    'Category': ['A', 'B', 'A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'C', 'A', 'C', 'B', 'C', 'A', 'B'],
    'Data': [10, 15, 9, 7, 8, 12, 14, 11, 13, 12, 10, 14, 15, 8, 9, 16, 11],
    'SubCategory': ['X', 'Y', 'X', 'Y', 'Z', 'X', 'Y', 'Z', 'X', 'Y', 'Z', 'X', 'Z', 'Y', 'Z', 'X', 'Y']
}
df = pd.DataFrame(data)

# 데이터프레임 출력
df

## 데이터 결합

### 1. concat

In [None]:
import pandas as pd

# 예제 데이터프레임 생성
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2']})

df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'],
                    'B': ['B3', 'B4', 'B5']})


### 2. merge

In [None]:
df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                    'A': ['A0', 'A1', 'A2']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                    'B': ['B0', 'B1', 'B2']})


In [None]:
df1 = pd.DataFrame({
    'key1': ['K0', 'K0', 'K1', 'K2'],
    'key2': ['K0', 'K1', 'K0', 'K1'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

df2 = pd.DataFrame({
    'key1': ['K0', 'K1', 'K1', 'K2'],
    'key2': ['K0', 'K0', 'K0', 'K0'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
})


In [None]:
df1 = pd.DataFrame({'key1': ['K0', 'K1', 'K2'],
                    'A': ['A0', 'A1', 'A2']})

df2 = pd.DataFrame({'key2': ['K0', 'K1', 'K2'],
                    'B': ['B0', 'B1', 'B2']})

| 매개변수 | 설명 |
|----------|------|
| `on` | 두 데이터프레임에서 같은 이름을 가진 컬럼을 기준으로 결합할 때 사용합니다. |
| `left_on` | 왼쪽 데이터프레임에서 결합 기준으로 사용할 컬럼의 이름을 지정합니다. |
| `right_on` | 오른쪽 데이터프레임에서 결합 기준으로 사용할 컬럼의 이름을 지정합니다. |
| `how` | 결합 방식을 지정합니다. 'left', 'right', 'outer', 'inner' 중 하나를 선택할 수 있습니다. |
| `left` | 왼쪽 데이터프레임을 기준으로 결합합니다. 왼쪽 데이터프레임의 키가 모두 포함되며, 오른쪽 데이터프레임의 키는 일치하는 것만 포함됩니다. |
| `right` | 오른쪽 데이터프레임을 기준으로 결합합니다. 오른쪽 데이터프레임의 모든 키를 포함하며, 왼쪽 데이터프레임의 키는 일치하는 것만 포함됩니다. |
| `inner` | 두 데이터프레임에 모두 존재하는 키의 항목만 포함하여 결합합니다. |
| `outer` | 두 데이터프레임의 모든 키를 포함하여 결합하며, 일치하지 않는 부분은 NaN으로 처리됩니다. |

#### merge 실습

merge에 how 매개변수를 사용하여 'left', 'right', 'inner', 'outer' 를 사용해 보세요

In [None]:
import pandas as pd

# 직원 데이터프레임 생성
직원 = pd.DataFrame({
    '직원ID': ['1', '2', '3', '4', '5', '6', '7'],
    '직원이름': ['김영욱', '이조은', '이태훈', '이은호', '김동현', '박재연', '이태형'],
    '부서ID': ['D1', 'D2', 'D1', 'D3', 'D4', 'D1', 'D2']
})

# 부서 데이터프레임 생성
부서 = pd.DataFrame({
    '부서ID': ['D1', 'D2', 'D3', 'D5'],
    '부서이름': ['인사', '공학', '마케팅', '재무']
})

### 3. join

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2']},
                  index=['K0', 'K1', 'K2'])

df2 = pd.DataFrame({'B': ['B0', 'B1', 'B2']},
                  index=['K0', 'K1', 'K2'])


## 데이터 재구조화

### pivot

피벗 기본 구조

```python
pivot = pd.pivot_table(df, 
                       index='index', # 행 위치에 들어갈 열
                       columns='column', # 컬럼 위치에 들어갈 열
                       values='value', # 데이터로 사용할 열
                       aggfunc = 'mean' # 데이터 집계함수
                       )
```

In [None]:
import seaborn as sns
import pandas as pd

# 타이타닉 데이터셋 로드
df = sns.load_dataset('titanic')

# 사용할 컬럼
col = ['survived', 'pclass', 'sex', 'age', 'fare', 'embark_town']

df = df[col]

# 결측치 삭제
df.dropna(subset='age', inplace=True)

df.head()

1. survived, 생존 여부 0이면 사망, 1이면 생존
2. pclass, 객실 등급, 1이면 1등급, 2이면 2등급, 3이면 3등급
3. sex, 성별, male이면 남자, female이면 여자
4. age, 나이
5. fare, 요금
6. embark_town, 탑승지 이름

## apply

#### 실습

In [None]:
import pandas as pd
import seaborn as sns

# 타이타닉 데이터셋 로드
df = sns.load_dataset('titanic')

# 사용할 컬럼
col = ['survived', 'pclass', 'sex', 'age', 'fare', 'embark_town']

df = df[col]

# 결측치 삭제
df.dropna(subset='age', inplace=True)

df.head()