## 데이터 결합

### 1. concat

데이터프레임을 위/아래 또는 좌/우로 단순히 연결

In [2]:
import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2']})

df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'],
                    'B': ['B3', 'B4', 'B5']})

# result = pd.concat([df1, df2])
result = pd.concat([df1, df2], ignore_index=True) # 인덱스 정렬
print(result)

    A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4
5  A5  B5


In [None]:
# 가로로 데이터프레임 결합
result = pd.concat([df1, df2], axis=1)
print(result)

### 2. merge

두 데이터프레임을 특정 공통 열이나 인덱스를 기준으로 결합

In [None]:
df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                    'A': ['A0', 'A1', 'A2']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                    'B': ['B0', 'B1', 'B2']})

# key 열을 기준으로 merge
result = pd.merge(df1, df2, on='key')
print(result)

In [3]:
# 여러 컬럼
df1 = pd.DataFrame({
    'key1': ['K0', 'K0', 'K1', 'K2'],
    'key2': ['K0', 'K1', 'K0', 'K1'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

df2 = pd.DataFrame({
    'key1': ['K0', 'K1', 'K1', 'K2'],
    'key2': ['K0', 'K0', 'K0', 'K0'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
})

# 'key1'과 'key2'를 기준으로 df1과 df2를 merge
result = pd.merge(df1, df2, on=['key1', 'key2'])
print(result)

  key1 key2   A   B   C   D
0   K0   K0  A0  B0  C0  D0
1   K1   K0  A2  B2  C1  D1
2   K1   K0  A2  B2  C2  D2


In [None]:
df1 = pd.DataFrame({'key1': ['K0', 'K1', 'K2'],
                    'A': ['A0', 'A1', 'A2']})

df2 = pd.DataFrame({'key2': ['K0', 'K1', 'K2'],
                    'B': ['B0', 'B1', 'B2']})

# key 열을 기준으로 merge, 컬럼명은 다르지만 데이터가 같다고 생각될 때
result = pd.merge(df1, df2, left_on='key1', right_on='key2')
print(result)

| 매개변수 | 설명 |
|----------|------|
| `on` | 두 데이터프레임에서 같은 이름을 가진 컬럼을 기준으로 결합할 때 사용합니다. |
| `left_on` | 왼쪽 데이터프레임에서 결합 기준으로 사용할 컬럼의 이름을 지정합니다. |
| `right_on` | 오른쪽 데이터프레임에서 결합 기준으로 사용할 컬럼의 이름을 지정합니다. |
| `how` | 결합 방식을 지정합니다. 'left', 'right', 'outer', 'inner' 중 하나를 선택할 수 있습니다. |
| `left` | 왼쪽 데이터프레임을 기준으로 결합합니다. 왼쪽 데이터프레임의 키가 모두 포함되며, 오른쪽 데이터프레임의 키는 일치하는 것만 포함됩니다. |
| `right` | 오른쪽 데이터프레임을 기준으로 결합합니다. 오른쪽 데이터프레임의 모든 키를 포함하며, 왼쪽 데이터프레임의 키는 일치하는 것만 포함됩니다. |
| `inner` | 두 데이터프레임에 모두 존재하는 키의 항목만 포함하여 결합합니다. |
| `outer` | 두 데이터프레임의 모든 키를 포함하여 결합하며, 일치하지 않는 부분은 NaN으로 처리됩니다. |

#### merge 실습

merge에 how 매개변수를 사용하여 'left', 'right', 'inner', 'outer' 를 사용해 보세요

In [4]:
import pandas as pd

# 직원 데이터프레임 생성
직원 = pd.DataFrame({
    '직원ID': ['1', '2', '3', '4', '5', '6', '7'],
    '직원이름': ['김영욱', '이조은', '이태훈', '이은호', '김동현', '박재연', '이태형'],
    '부서ID': ['D1', 'D2', 'D1', 'D3', 'D4', 'D1', 'D2']
})

# 부서 데이터프레임 생성
부서 = pd.DataFrame({
    '부서ID': ['D1', 'D2', 'D3', 'D5'],
    '부서이름': ['인사', '공학', '마케팅', '재무']
})

print(직원)
print(부서)

  직원ID 직원이름 부서ID
0    1  김영욱   D1
1    2  이조은   D2
2    3  이태훈   D1
3    4  이은호   D3
4    5  김동현   D4
5    6  박재연   D1
6    7  이태형   D2
  부서ID 부서이름
0   D1   인사
1   D2   공학
2   D3  마케팅
3   D5   재무


Left Join

직원 데이터를 기준으로 합침, D4 해당하는 부서 이름이 없음

In [5]:
left_join_result = pd.merge(직원, 부서, how='left', on='부서ID')
left_join_result

Unnamed: 0,직원ID,직원이름,부서ID,부서이름
0,1,김영욱,D1,인사
1,2,이조은,D2,공학
2,3,이태훈,D1,인사
3,4,이은호,D3,마케팅
4,5,김동현,D4,
5,6,박재연,D1,인사
6,7,이태형,D2,공학


Right Join

부서 데이터를 기준으로 합침, D5에 해당하는 직원이 없음

In [6]:
right_join_result = pd.merge(직원, 부서, how='right', on='부서ID')
right_join_result

Unnamed: 0,직원ID,직원이름,부서ID,부서이름
0,1.0,김영욱,D1,인사
1,3.0,이태훈,D1,인사
2,6.0,박재연,D1,인사
3,2.0,이조은,D2,공학
4,7.0,이태형,D2,공학
5,4.0,이은호,D3,마케팅
6,,,D5,재무


Inner Join(기본값)

두 데이터가 모두 있는 값들만 합침

In [7]:
inner_join_result = pd.merge(직원, 부서, how='inner', on='부서ID')
inner_join_result

Unnamed: 0,직원ID,직원이름,부서ID,부서이름
0,1,김영욱,D1,인사
1,2,이조은,D2,공학
2,3,이태훈,D1,인사
3,4,이은호,D3,마케팅
4,6,박재연,D1,인사
5,7,이태형,D2,공학


Outer Join

두 데이터를 모두 합침

In [8]:
outer_join_result = pd.merge(직원, 부서, how='outer', on='부서ID')
outer_join_result

Unnamed: 0,직원ID,직원이름,부서ID,부서이름
0,1.0,김영욱,D1,인사
1,3.0,이태훈,D1,인사
2,6.0,박재연,D1,인사
3,2.0,이조은,D2,공학
4,7.0,이태형,D2,공학
5,4.0,이은호,D3,마케팅
6,5.0,김동현,D4,
7,,,D5,재무


### 3. join

In [16]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2']},
                  index=['K0', 'K1', 'K2'])

df2 = pd.DataFrame({'B': ['B0', 'B1', 'B2']},
                  index=['K0', 'K1', 'K2'])

# 인덱스를 기준으로 df1과 df2를 join
result = df1.join(df2)
print(result)

     A   B
K0  A0  B0
K1  A1  B1
K2  A2  B2


## 데이터 재구조화

### pivot

pivot  
1. 목적: 데이터를 간단히 재배치만 할 때 사용

2. 중복 처리: pivot은 중복된 인덱스-컬럼 조합을 처리할 수 없다. 조합에서 유일한 값만을 요구하며 중복이 발생하면 오류 발생

pivot_table  
1. 목적: pivot_table은 데이터 집계와 함께 데이터를 재배치 (여러 값의 요약 정보를 제공)

2. 중복 처리: pivot_table은 같은 인덱스-컬럼 조합에 대한 중복 값을 집계 함수(aggfunc)를 사용하여 처리할 수 있다 (pivot의 중복 문제를 해결)

3. 기능: 집계 함수를 통해 평균, 합계, 최대, 최소 등 다양한 요약 통계를 계산. (데이터 분석과 데이터셋의 인사이트를 추출)

In [31]:
import pandas as pd

data = {
  '사용자 ID' : ['TANA', 'DM', 'TANA', 'DM'],
  '영화' : ['스타워즈', '스타워즈', '아바타', '아바타'],
  '평점' : ['5', '4.5', '3', '4'],
  '나이' : [25, 30, 25, 30]
  }

df = pd.DataFrame(data)

사용자별로 각 영화에 대한 평가 점수로 재배치

In [34]:
pd.pivot(df, index='사용자 ID', columns='영화', values='평점')

영화,스타워즈,아바타
사용자 ID,Unnamed: 1_level_1,Unnamed: 2_level_1
DM,4.5,4
TANA,5.0,3


### pivot_table

피벗 기본 구조

```python
pivot = pd.pivot_table(df, 
                       index='index', # 행 위치에 들어갈 열
                       columns='column', # 컬럼 위치에 들어갈 열
                       values='value', # 데이터로 사용할 열
                       aggfunc = 'mean' # 데이터 집계함수
                       )
```

In [37]:
import seaborn as sns
import pandas as pd

# 타이타닉 데이터셋 로드
df = sns.load_dataset('titanic')

# 사용할 컬럼
col = ['survived', 'pclass', 'sex', 'age', 'fare', 'embark_town']

df = df[col]

# 결측치 삭제
df.dropna(subset='age', inplace=True)

df.head()

Unnamed: 0,survived,pclass,sex,age,fare,embark_town
0,0,3,male,22.0,7.25,Southampton
1,1,1,female,38.0,71.2833,Cherbourg
2,1,3,female,26.0,7.925,Southampton
3,1,1,female,35.0,53.1,Southampton
4,0,3,male,35.0,8.05,Southampton


1. survived, 생존 여부 0이면 사망, 1이면 생존
2. pclass, 객실 등급, 1이면 1등급, 2이면 2등급, 3이면 3등급
3. sex, 성별, male이면 남자, female이면 여자
4. age, 나이
5. fare, 요금
6. embark_town, 탑승지 이름

객실 등급별 생존율

In [38]:
pd.pivot_table(df, index='pclass', values='survived', aggfunc='mean')

Unnamed: 0_level_0,survived
pclass,Unnamed: 1_level_1
1,0.655914
2,0.479769
3,0.239437


객실 등급별 성별에 따른 생존율

In [None]:
pd.pivot_table(df, index='pclass', columns='sex', values='survived', aggfunc='mean')

객실 등급별 성별에 따른 탑승승객

In [39]:
# count라 value에 결측치가 가장 적은 값을 넣으면 됨
pd.pivot_table(df, index='pclass', columns='sex', values='fare', aggfunc='count')

sex,female,male
pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,85,101
2,74,99
3,102,253


탑승지별 평균 요금과 생존율

In [40]:
pd.pivot_table(df, index='embark_town', values=['fare', 'survived'], aggfunc='mean')

Unnamed: 0_level_0,fare,survived
embark_town,Unnamed: 1_level_1,Unnamed: 2_level_1
Cherbourg,68.296767,0.607692
Queenstown,18.265775,0.285714
Southampton,27.476284,0.362816


성인 남성의 생존율

In [None]:
pd.pivot_table(df, index='sex', values='survived', aggfunc='mean')

클래스와 성별에 따른 평균 나이와 생존율

In [None]:
pd.pivot_table(df, index=['pclass', 'sex'], values='survived', aggfunc='mean')

클래스와 성별에 따른 평균 요금

In [None]:
pd.pivot_table(df, index=['pclass', 'sex'], values='fare', aggfunc='mean')

출발 도시와 성별에 따른 생존율

In [None]:
pd.pivot_table(df, index=['embark_town', 'sex'], values='survived', aggfunc='mean')

출발 도시와 클래스에 따른 성별 생존율

In [None]:
pd.pivot_table(df, index=['embark_town', 'pclass'], columns='sex', values='survived', aggfunc='mean')


출발지와 클래스에 따른 성별 생존율, 탑승자 수

In [None]:
pd.pivot_table(df, index=['embark_town', 'pclass'], columns='sex', values='survived', aggfunc=['mean', 'count'])

멀티 인덱스

In [None]:
df_pi.loc['Queenstown']

In [None]:
df_pi.loc[('Queenstown', 1)] # 튜플

### 실습

In [1]:
import pandas as pd

df = pd.read_csv(r"all_players_stats.csv")

In [2]:
df

Unnamed: 0,Team,JerseyNo,Player,Position,Apearances,Substitutions,Goals,Penalties,YellowCards,RedCards
0,Arsenal,7,Bukayo Saka,Defender/Midfielder,40,3,12,2,6.0,0.0
1,Arsenal,6,Gabriel,Defender,37,1,5,0,7.0,1.0
2,Arsenal,32,Aaron Ramsdale,Goalkeeper,37,0,0,0,1.0,0.0
3,Arsenal,4,Ben White,Defender,37,0,0,0,3.0,0.0
4,Arsenal,8,Martin Odegaard,Midfielder,36,4,7,0,4.0,0.0
...,...,...,...,...,...,...,...,...,...,...
618,Wolverhampton Wanderers,21,John Ruddy,Goalkeeper,5,1,0,0,0.0,0.0
619,Wolverhampton Wanderers,27,Romain Saïss,Defender/Midfielder,32,0,3,0,6.0,0.0
620,Wolverhampton Wanderers,24,Tote Gomes,Defender,5,0,0,0,1.0,0.0
621,Wolverhampton Wanderers,37,Adama Traoré,Midfielder/Forward,11,12,1,0,0.0,0.0


### EPL 경기 데이터
Team: 선수가 속한 팀의 이름  
JerseyNo: 선수의 유니폼 번호  
Player: 선수의 이름  
Position: 선수의 포지션  
Apearances: 선수가 출전한 경기 수  
Substitutions: 선수가 경기 중 교체로 들어가거나 나온 횟수  
Goals: 선수가 득점한 골 수  
Penalties: 선수가 성공시킨 페널티 킥 수  
YellowCards: 선수가 받은 경고 카드 수  
RedCards: 선수가 받은 퇴장 카드 수  

#### 기본 문제
1. 팀별로 출전 횟수의 평균을 계산하세요.
2. 포지션별로 평균 득점 수를 구하세요.
3. 각 팀에서 가장 많이 출전한 선수는 누구인가요?(groupby)
4. 각 팀별로 평균 경고 카드 수를 계산하세요.
5. 포지션별로 평균 교체 횟수를 구하세요.
#### 중급 문제
1. 각 팀별로 득점한 총 골 수를 구하세요.
2. 포지션별로 페널티 골의 평균을 구하세요.
3. 각 팀별로 평균 레드 카드 수를 계산하세요.
4. 팀별, 포지션별로 평균 득점을 계산하세요.
5. 각 팀별로 가장 많이 교체된 선수는 누구인가요?(groupby)
#### 고급 문제
1. 득점을 가장 많이 한 선수의 이름과 그 선수의 팀을 찾으세요.
2. 각 팀별로 선수들의 출전 횟수 중앙값을 구하세요.
3. 각 포지션에서 가장 많은 경고 카드를 받은 선수는 누구인가요?(groupby)

In [3]:
# 1. 팀별로 선수 출전 횟수의 평균
pd.pivot_table(df, index='Team', values='Apearances', aggfunc='mean').sort_values(by='Apearances', ascending=False)

Unnamed: 0_level_0,Apearances
Team,Unnamed: 1_level_1
Chelsea,21.0
Leicester City,20.580645
West Ham United,20.533333
Manchester City,19.333333
Tottenham Hotspur,18.806452
Crystal Palace,18.615385
Burnley,18.48
Liverpool,18.432432
Southampton,18.333333
Arsenal,17.678571


In [4]:
# 2. 포지션별로 평균 득점 수
pd.pivot_table(df, index='Position', values='Goals', aggfunc='mean').sort_values(by='Goals', ascending=False)

Unnamed: 0_level_0,Goals
Position,Unnamed: 1_level_1
Defender/Forward,9.0
Midfielder/Forward,5.987805
Forward,4.17284
Midfielder,1.981132
Defender/Midfielder,1.2
Defender/Midfielder/Forward,1.0
Defender,0.855263
Goalkeeper,0.0


In [7]:
# 3. 각 팀에서 가장 많이 출전한 선수(최대/최소값이 포함된 행/열 (idxmax / idxmin)), 행의 레이블을 반환, loc로 접근)
df.loc[df.groupby('Team')['Apearances'].idxmax()][['Team', 'Player', 'Apearances']].sort_values(by='Apearances', ascending=False, ignore_index=True)

Unnamed: 0,Team,Player,Apearances
0,Chelsea,Antonio Rüdiger,54
1,Liverpool,Alisson Becker,53
2,Leicester City,Kasper Schmeichel,53
3,Manchester City,João Cancelo,51
4,West Ham United,Declan Rice,48
5,Tottenham Hotspur,Harry Kane,47
6,Manchester United,David De Gea,46
7,Crystal Palace,Marc Guehi,42
8,Leeds United,Illan Meslier,42
9,Southampton,James Ward-Prowse,41


In [8]:
# 4. 각 팀별로 평균 경고 카드 수
pd.pivot_table(df, index='Team', values='YellowCards', aggfunc='mean').sort_values(by='YellowCards', ascending=False)

Unnamed: 0_level_0,YellowCards
Team,Unnamed: 1_level_1
Leeds United,3.551724
Burnley,2.88
Chelsea,2.818182
Manchester United,2.771429
Crystal Palace,2.769231
Newcastle United,2.724138
Southampton,2.666667
Leicester City,2.612903
Tottenham Hotspur,2.483871
Arsenal,2.464286


In [10]:
# 5. 포지션별로 평균 교체 횟수
pd.pivot_table(df, index='Position', values='Substitutions', aggfunc='mean').sort_values(by='Substitutions', ascending=False)

Unnamed: 0_level_0,Substitutions
Position,Unnamed: 1_level_1
Defender/Midfielder/Forward,8.0
Midfielder/Forward,7.768293
Forward,7.259259
Defender/Forward,6.0
Midfielder,5.779874
Defender/Midfielder,3.863158
Defender,2.269737
Goalkeeper,0.137255


In [11]:
# 1. 각 팀별로 득점한 총 골 수
pd.pivot_table(df, index='Team', values='Goals', aggfunc='sum').sort_values(by='Goals', ascending=False)

Unnamed: 0_level_0,Goals
Team,Unnamed: 1_level_1
Manchester City,146
Liverpool,145
Chelsea,119
Leicester City,99
Tottenham Hotspur,85
West Ham United,83
Arsenal,76
Manchester United,70
Brentford,62
Crystal Palace,60


In [12]:
# 2. 포지션별로 패널티 골의 평균
pd.pivot_table(df, index='Position', values='Penalties', aggfunc='mean').sort_values(by='Penalties', ascending=False)

Unnamed: 0_level_0,Penalties
Position,Unnamed: 1_level_1
Midfielder/Forward,0.439024
Forward,0.395062
Midfielder,0.201258
Defender/Midfielder,0.052632
Defender,0.0
Defender/Forward,0.0
Defender/Midfielder/Forward,0.0
Goalkeeper,0.0


In [13]:
# 3. 각 팀별로 평균 레드 카드 수
pd.pivot_table(df, index='Team', values='RedCards', aggfunc='mean').sort_values(by='RedCards', ascending=False)

Unnamed: 0_level_0,RedCards
Team,Unnamed: 1_level_1
Arsenal,0.214286
Everton,0.194444
West Ham United,0.166667
Southampton,0.111111
Leeds United,0.103448
Brentford,0.096774
Tottenham Hotspur,0.096774
Watford,0.088235
Manchester United,0.085714
Burnley,0.08


In [14]:
# 4. 팀별, 포지션별로 평균 득점
pd.pivot_table(df, index=['Team', 'Position'], values='Goals', aggfunc='mean')

Unnamed: 0_level_0,Unnamed: 1_level_0,Goals
Team,Position,Unnamed: 2_level_1
Arsenal,Defender,1.333333
Arsenal,Defender/Midfielder,2.500000
Arsenal,Forward,5.800000
Arsenal,Goalkeeper,0.000000
Arsenal,Midfielder,3.000000
...,...,...
Wolverhampton Wanderers,Defender/Midfielder,3.000000
Wolverhampton Wanderers,Forward,3.666667
Wolverhampton Wanderers,Goalkeeper,0.000000
Wolverhampton Wanderers,Midfielder,1.166667


In [16]:
# 5. 각 팀별로 가장 많이 교체된 선수
df.loc[df.groupby('Team')['Substitutions'].idxmax()][['Team', 'Player', 'Substitutions']].sort_values(by='Substitutions', ascending=False, ignore_index=True)

Unnamed: 0,Team,Player,Substitutions
0,Liverpool,James Milner,25
1,West Ham United,Andriy Yarmolenko,24
2,Tottenham Hotspur,Steven Bergwijn,24
3,Chelsea,Ruben Loftus-Cheek,22
4,Leicester City,Kelechi Iheanacho,21
5,Crystal Palace,Christian Benteke,20
6,Newcastle United,Jacob Murphy,20
7,Manchester United,Jesse Lingard,18
8,Brentford,Yoane Wissa,18
9,Burnley,Ashley Barnes,17


In [17]:
# 1. 득점을 가장 많이 한 선수의 이름과 그 선수의 팀
df.loc[df['Goals'].idxmax()][['Player', 'Team']]

Player    Mohamed Salah
Team          Liverpool
Name: 341, dtype: object

In [18]:
# 각 팀별로 선수들의 출전 횟수 중앙값
df.pivot_table(index='Team', values='Apearances', aggfunc='median')

Unnamed: 0_level_0,Apearances
Team,Unnamed: 1_level_1
Arsenal,16.5
Aston Villa,6.5
Brentford,13.0
Brighton and Hove Albion,14.0
Burnley,20.0
Chelsea,22.0
Crystal Palace,16.5
Everton,11.0
Leeds United,18.0
Leicester City,20.0


In [20]:
# 각 포지션에서 가장 많은 경고 카드를 받은 선수
df.loc[df.groupby('Position')['YellowCards'].idxmax()][['Player', 'YellowCards']].sort_values(by='YellowCards', ascending=False, ignore_index=True)

Unnamed: 0,Player,YellowCards
0,James Tarkowski,12.0
1,Conor Gallagher,12.0
2,Declan Rice,11.0
3,Scott McTominay,10.0
4,Rodrigo,9.0
5,Cristiano Ronaldo,9.0
6,Emiliano Martínez,4.0
7,Maxwel Cornet,2.0


## apply, map

#### 1. apply

apply 함수는 데이터프레임의 행이나 열에 함수를 적용할 때 사용(데이터프레임, 시리즈 모두 사용 가능)

In [None]:
import pandas as pd

df = pd.DataFrame({
    'dates': pd.to_datetime(['2021-01-01', '2021-02-15', '2021-03-20']),  # 날짜
    'numbers': [10, 20, 30]  # 숫자
})

df

In [None]:
def extract_year(date):
    return date.year

df['year'] = df['dates'].apply(extract_year)
df

In [None]:
def square(x):
    return x ** 2

df['sq_numbers'] = df['numbers'].apply(square)
df

#### 2. map

map은 데이터프레임의 각 요소(셀)에 함수를 적용(데이터프레임에만 사용 가능)

In [None]:
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})

df

In [None]:
def square(x):
    return x ** 2

sq_df = df.map(square)
sq_df

#### 실습

In [7]:
import pandas as pd
import seaborn as sns

# 타이타닉 데이터셋 로드
df = sns.load_dataset('titanic')

# 사용할 컬럼
col = ['survived', 'pclass', 'sex', 'age', 'fare', 'embark_town']

df = df[col]

# 결측치 삭제
df.dropna(subset='age', inplace=True)

df.head()

Unnamed: 0,survived,pclass,sex,age,fare,embark_town
0,0,3,male,22.0,7.25,Southampton
1,1,1,female,38.0,71.2833,Cherbourg
2,1,3,female,26.0,7.925,Southampton
3,1,1,female,35.0,53.1,Southampton
4,0,3,male,35.0,8.05,Southampton


타이타닉 데이터셋을 이용하여 승객의 나이를 범주화 하고 age_group로 저장해 보세요

19세 이하 미성년자, 60세 미만 성인, 나머지 시니어

In [8]:
def category_age(age):
    if age <= 19:
        return "미성년자"
    elif age < 60:
        return "성인"
    else:
        return "시니어"

df['age_group'] = df['age'].apply(category_age)
df[['age', 'age_group']].head()

Unnamed: 0,age,age_group
0,22.0,성인
1,38.0,성인
2,26.0,성인
3,35.0,성인
4,35.0,성인


승객의 요금을 기준으로 등급을 설정하고 새로운 열에 저장해보세요  

20미만 '저', 50미만 '중', 나머지 '고'

In [9]:
def fare_category(fare):
    if fare < 20:
        return "저"
    elif fare < 50:
        return "중"
    else:
        return "고"

# 'fare' 열에 apply 함수를 사용하여 요금 범주화
df['fare_category'] = df['fare'].apply(fare_category)
df[['fare', 'fare_category']].head()

Unnamed: 0,fare,fare_category
0,7.25,저
1,71.2833,고
2,7.925,저
3,53.1,고
4,8.05,저
