## 데이터 결합

### 1. concat

In [1]:
import pandas as pd

# 예제 데이터프레임 생성
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2']})

df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'],
                    'B': ['B3', 'B4', 'B5']})

In [5]:
pd.concat([df1, df2])
# 인덱스 번호가 그대로 들어온다

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
0,A3,B3
1,A4,B4
2,A5,B5


In [6]:
pd.concat([df1, df2], ignore_index=True)

#인덱스 번호를 무시하여 새로운 인덱스로 정렬되게 한다

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4
5,A5,B5


In [7]:
pd.concat([df1, df2], axis=1)

# 자동으로 인덱스에 맞춰서 옆으로 붙는다

Unnamed: 0,A,B,A.1,B.1
0,A0,B0,A3,B3
1,A1,B1,A4,B4
2,A2,B2,A5,B5


### 2. merge

In [8]:
df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                    'A': ['A0', 'A1', 'A2']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                    'B': ['B0', 'B1', 'B2']})

In [11]:
# 동일한 키 값을 기준으로 합친다

pd.merge(df1, df2)

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2


In [13]:
pd.merge(df1, df2, on='key')

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2


In [14]:
pd.merge(df2, df1, on='key')
# 앞에 순서에 맞춰서 나타낸다

Unnamed: 0,key,B,A
0,K0,B0,A0
1,K1,B1,A1
2,K2,B2,A2


In [15]:
df1 = pd.DataFrame({
    'key1': ['K0', 'K0', 'K1', 'K2'],
    'key2': ['K0', 'K1', 'K0', 'K1'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

df2 = pd.DataFrame({
    'key1': ['K0', 'K1', 'K1', 'K2'],
    'key2': ['K0', 'K0', 'K0', 'K0'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
})

In [17]:
# 두개의 키 기준으로 합칠때는 대괄호
pd.merge(df1, df2, on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


In [18]:
df1 = pd.DataFrame({'key1': ['K0', 'K1', 'K2'],
                    'A': ['A0', 'A1', 'A2']})

df2 = pd.DataFrame({'key2': ['K0', 'K1', 'K2'],
                    'B': ['B0', 'B1', 'B2']})

In [19]:
# df1은 왼쪽 키로, df2는 오른쪽 키로
pd.merge(df1, df2, left_on='key1', right_on='key2')

Unnamed: 0,key1,A,key2,B
0,K0,A0,K0,B0
1,K1,A1,K1,B1
2,K2,A2,K2,B2


| 매개변수 | 설명 |
|----------|------|
| `on` | 두 데이터프레임에서 같은 이름을 가진 컬럼을 기준으로 결합할 때 사용합니다. |
| `left_on` | 왼쪽 데이터프레임에서 결합 기준으로 사용할 컬럼의 이름을 지정합니다. |
| `right_on` | 오른쪽 데이터프레임에서 결합 기준으로 사용할 컬럼의 이름을 지정합니다. |
| `how` | 결합 방식을 지정합니다. 'left', 'right', 'outer', 'inner' 중 하나를 선택할 수 있습니다. |
| `left` | 왼쪽 데이터프레임을 기준으로 결합합니다. 왼쪽 데이터프레임의 키가 모두 포함되며, 오른쪽 데이터프레임의 키는 일치하는 것만 포함됩니다. |
| `right` | 오른쪽 데이터프레임을 기준으로 결합합니다. 오른쪽 데이터프레임의 모든 키를 포함하며, 왼쪽 데이터프레임의 키는 일치하는 것만 포함됩니다. |
| `inner` | 두 데이터프레임에 모두 존재하는 키의 항목만 포함하여 결합합니다. |
| `outer` | 두 데이터프레임의 모든 키를 포함하여 결합하며, 일치하지 않는 부분은 NaN으로 처리됩니다. |

#### merge 실습

merge에 how 매개변수를 사용하여 'left', 'right', 'inner', 'outer' 를 사용해 보세요

In [37]:
import pandas as pd

# 직원 데이터프레임 생성
직원 = pd.DataFrame({
    '직원ID': ['1', '2', '3', '4', '5', '6', '7'],
    '직원이름': ['김영욱', '이조은', '이태훈', '이은호', '김동현', '박재연', '이태형'],
    '부서ID': ['D1', 'D2', 'D1', 'D3', 'D4', 'D1', 'D2']
})

# 부서 데이터프레임 생성
부서 = pd.DataFrame({
    '부서ID': ['D1', 'D2', 'D3', 'D5'],
    '부서이름': ['인사', '공학', '마케팅', '재무']
})

In [38]:
pd.merge(직원, 부서, on='부서ID', how='left')
# 직원데이터를 기준으로 쓰고, 부서에 없는 것도 쓴다

Unnamed: 0,직원ID,직원이름,부서ID,부서이름
0,1,김영욱,D1,인사
1,2,이조은,D2,공학
2,3,이태훈,D1,인사
3,4,이은호,D3,마케팅
4,5,김동현,D4,
5,6,박재연,D1,인사
6,7,이태형,D2,공학


In [39]:
pd.merge(직원, 부서, on='부서ID', how='right')
# 부서를 기준으로 쓰고, 직원에 없는 것도 쓴다

Unnamed: 0,직원ID,직원이름,부서ID,부서이름
0,1.0,김영욱,D1,인사
1,3.0,이태훈,D1,인사
2,6.0,박재연,D1,인사
3,2.0,이조은,D2,공학
4,7.0,이태형,D2,공학
5,4.0,이은호,D3,마케팅
6,,,D5,재무


In [40]:
pd.merge(직원, 부서, on='부서ID', how='outer')
# 모든 값을 다 적는다

Unnamed: 0,직원ID,직원이름,부서ID,부서이름
0,1.0,김영욱,D1,인사
1,3.0,이태훈,D1,인사
2,6.0,박재연,D1,인사
3,2.0,이조은,D2,공학
4,7.0,이태형,D2,공학
5,4.0,이은호,D3,마케팅
6,5.0,김동현,D4,
7,,,D5,재무


In [41]:
pd.merge(직원, 부서, on='부서ID', how='inner')
# how의 기본 값은 inner이다

Unnamed: 0,직원ID,직원이름,부서ID,부서이름
0,1,김영욱,D1,인사
1,2,이조은,D2,공학
2,3,이태훈,D1,인사
3,4,이은호,D3,마케팅
4,6,박재연,D1,인사
5,7,이태형,D2,공학


### 3. join

In [42]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2']},
                  index=['K0', 'K1', 'K2'])

df2 = pd.DataFrame({'B': ['B0', 'B1', 'B2']},
                  index=['K0', 'K1', 'K2'])

In [43]:
df1.join(df2)
# 조인은 인덱스를 기준으로 합친다
# 조인의 내부에서 따로 merge를 부르고 있기에 merge에서의 on 등을 지정가능

# 연관성이 있다면 join과 merge
# 그냥 자료를 붙이고 싶으면 concat

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


## 데이터 재구조화

### pivot

피벗 기본 구조

```python
pivot = pd.pivot_table(df, 
                       index='index', # 행 위치에 들어갈 열
                       columns='column', # 컬럼 위치에 들어갈 열
                       values='value', # 데이터로 사용할 열
                       aggfunc = 'mean' # 데이터 집계함수
                       )
```

In [None]:
# 거대한 데이터에서 인사이트 추출할때 피봇 테이블을 활용하지, Pivot은 잘 사용하지 않는다
# 피봇은 간단한 것에서만 사용한다

In [45]:
pip install seaborn

Note: you may need to restart the kernel to use updated packages.


In [73]:
import seaborn as sns
import pandas as pd

# 타이타닉 데이터셋 로드
df = sns.load_dataset('titanic')

# 사용할 컬럼
col = ['survived', 'pclass', 'sex', 'age', 'fare', 'embark_town']

df = df[col]

# 결측치 삭제
df.dropna(subset='age', inplace=True)

df.head()

Unnamed: 0,survived,pclass,sex,age,fare,embark_town
0,0,3,male,22.0,7.25,Southampton
1,1,1,female,38.0,71.2833,Cherbourg
2,1,3,female,26.0,7.925,Southampton
3,1,1,female,35.0,53.1,Southampton
4,0,3,male,35.0,8.05,Southampton


1. survived, 생존 여부 0이면 사망, 1이면 생존
2. pclass, 객실 등급, 1이면 1등급, 2이면 2등급, 3이면 3등급
3. sex, 성별, male이면 남자, female이면 여자
4. age, 나이
5. fare, 요금
6. embark_town, 탑승지 이름

In [48]:
# 객실 등급별 생존확률
pd.pivot_table(df, index='pclass', values='survived', aggfunc='mean')

Unnamed: 0_level_0,survived
pclass,Unnamed: 1_level_1
1,0.655914
2,0.479769
3,0.239437


In [50]:
# 객실마다의 성별
pd.pivot_table(df, index='pclass', columns='sex', values='survived', aggfunc='mean')

sex,female,male
pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.964706,0.39604
2,0.918919,0.151515
3,0.460784,0.150198


In [51]:
# 승객수
# count는 횟수를 적는 것이기에 아무 값을 넣어도 탑승객 수가 나온다
# 물론 이전에 이미 실손값들을 제외한 상태로 만든 테이블이라 가능하다
pd.pivot_table(df, index='pclass', columns='sex', values='survived', aggfunc='count')

sex,female,male
pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,85,101
2,74,99
3,102,253


In [57]:
# 탑승지 별 요금
# pd.pivot_table(df, index='embark_town', columns='survived', values='fare', aggfunc='mean')
pd.pivot_table(df, index='embark_town', values='fare', aggfunc='mean')

Unnamed: 0_level_0,fare
embark_town,Unnamed: 1_level_1
Cherbourg,68.296767
Queenstown,18.265775
Southampton,27.476284


In [56]:
# 탑승지 평균 요금과 생존율
pd.pivot_table(df, index='embark_town', values=['fare', 'survived'], aggfunc='mean')

Unnamed: 0_level_0,fare,survived
embark_town,Unnamed: 1_level_1,Unnamed: 2_level_1
Cherbourg,68.296767,0.607692
Queenstown,18.265775,0.285714
Southampton,27.476284,0.362816


In [58]:
# 성별에 따른 생존율
pd.pivot_table(df, index='sex', values='survived', aggfunc='mean')

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.754789
male,0.205298


In [59]:
# 클래스에 따른 성별 생존율
pd.pivot_table(df, index=['sex', 'pclass'], values='survived', aggfunc='mean')

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,pclass,Unnamed: 2_level_1
female,1,0.964706
female,2,0.918919
female,3,0.460784
male,1,0.39604
male,2,0.151515
male,3,0.150198


In [74]:
# 성별 별 등급 요금
df_2 = pd.pivot_table(df, index=['sex', 'pclass'], values='fare', aggfunc='mean')
df_2

Unnamed: 0_level_0,Unnamed: 1_level_0,fare
sex,pclass,Unnamed: 2_level_1
female,1,107.946275
female,2,21.95107
female,3,15.875369
male,1,71.142781
male,2,21.113131
male,3,12.162695


In [75]:
df_2.loc[1]

KeyError: 1

In [76]:
# 1등급석의 여성의 평균 요금만 추출
df_2.loc[(1, 'female')]

KeyError: 1

In [78]:
# 출발도시에 따른 생존율
pd.pivot_table(df, index=['embark_town', 'sex'], values='survived', aggfunc='mean')


Unnamed: 0_level_0,Unnamed: 1_level_0,survived
embark_town,sex,Unnamed: 2_level_1
Cherbourg,female,0.901639
Cherbourg,male,0.347826
Queenstown,female,0.583333
Queenstown,male,0.0625
Southampton,female,0.715054
Southampton,male,0.184783


In [85]:
pd.pivot_table(df, index=['embark_town', 'pclass', 'sex'], values=['survived'], aggfunc=['mean', 'count'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,mean,count
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,survived,survived
embark_town,pclass,sex,Unnamed: 3_level_2,Unnamed: 4_level_2
Cherbourg,1,female,0.973684,38
Cherbourg,1,male,0.444444,36
Cherbourg,2,female,1.0,7
Cherbourg,2,male,0.125,8
Cherbourg,3,female,0.6875,16
Cherbourg,3,male,0.28,25
Queenstown,1,female,1.0,1
Queenstown,1,male,0.0,1
Queenstown,2,female,1.0,1
Queenstown,2,male,0.0,1


In [84]:
# 탑승지와 클래스에 따른 성별 생존율, 사람 수

# pd.pivot_table(df, index=['embark_town', 'pclass', 'sex'], values=['survived'], aggfunc=['mean', 'count'])

pd.pivot_table(df, index=['embark_town', 'pclass'], columns='sex', values=['survived'], aggfunc=['mean', 'count'])

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,count,count
Unnamed: 0_level_1,Unnamed: 1_level_1,survived,survived,survived,survived
Unnamed: 0_level_2,sex,female,male,female,male
embark_town,pclass,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3
Cherbourg,1,0.973684,0.444444,38,36
Cherbourg,2,1.0,0.125,7,8
Cherbourg,3,0.6875,0.28,16,25
Queenstown,1,1.0,0.0,1,1
Queenstown,2,1.0,0.0,1,1
Queenstown,3,0.5,0.071429,10,14
Southampton,1,0.954545,0.375,44,64
Southampton,2,0.909091,0.155556,66,90
Southampton,3,0.407895,0.140187,76,214


## apply

#### 실습

In [86]:
import pandas as pd
import seaborn as sns

# 타이타닉 데이터셋 로드
df = sns.load_dataset('titanic')

# 사용할 컬럼
col = ['survived', 'pclass', 'sex', 'age', 'fare', 'embark_town']

df = df[col]

# 결측치 삭제
df.dropna(subset='age', inplace=True)

df.head()

Unnamed: 0,survived,pclass,sex,age,fare,embark_town
0,0,3,male,22.0,7.25,Southampton
1,1,1,female,38.0,71.2833,Cherbourg
2,1,3,female,26.0,7.925,Southampton
3,1,1,female,35.0,53.1,Southampton
4,0,3,male,35.0,8.05,Southampton


#### 기본 문제
1. 팀별로 출전 횟수의 평균을 계산하세요.
2. 포지션별로 평균 득점 수를 구하세요.
3. 각 팀에서 가장 많이 출전한 선수는 누구인가요?
4. 각 팀별로 평균 경고 카드 수를 계산하세요.
5. 포지션별로 평균 교체 횟수를 구하세요.
#### 중급 문제
1. 각 팀별로 득점한 총 골 수를 구하세요.
2. 포지션별로 페널티 골의 평균을 구하세요.
3. 각 팀별로 평균 레드 카드 수를 계산하세요.
4. 팀별, 포지션별로 평균 득점을 계산하세요.
5. 각 팀별로 가장 많이 교체된 선수는 누구인가요?
#### 고급 문제
1. 득점을 가장 많이 한 선수의 이름과 그 선수의 팀을 찾으세요.
2. 각 팀별로 선수들의 출전 횟수 중앙값을 구하세요.
3. 각 포지션에서 가장 많은 경고 카드를 받은 선수는 누구인가요?

In [100]:
# 고급문제1번은 따로 기능이 필요하다
# df['Goals'].idxmax()
# 행 찾는다
# 결과는 341

# 이것은 해당 행을 찾는다
# 341번째 행을 찾아서 가져온다
# df.loc[df['Goals'].idxmax()]

df.loc[df['Goals'].idxmax()][['Player', 'Team']]
#득점을 가장 많이한 선수와 팀을 시리즈 형태로 가져온다

Player    Mohamed Salah
Team          Liverpool
Name: 341, dtype: object

### EPL 경기 데이터
Team: 선수가 속한 팀의 이름  
JerseyNo: 선수의 유니폼 번호  
Player: 선수의 이름  
Position: 선수의 포지션  
Apearances: 선수가 출전한 경기 수  
Substitutions: 선수가 경기 중 교체로 들어가거나 나온 횟수  
Goals: 선수가 득점한 골 수  
Penalties: 선수가 성공시킨 페널티 킥 수  
YellowCards: 선수가 받은 경고 카드 수  
RedCards: 선수가 받은 퇴장 카드 수 

In [103]:
import pandas as pd

df = pd.read_csv('all_players_stats.csv')
df.head(5)

Unnamed: 0,Team,JerseyNo,Player,Position,Apearances,Substitutions,Goals,Penalties,YellowCards,RedCards
0,Arsenal,7,Bukayo Saka,Defender/Midfielder,40,3,12,2,6.0,0.0
1,Arsenal,6,Gabriel,Defender,37,1,5,0,7.0,1.0
2,Arsenal,32,Aaron Ramsdale,Goalkeeper,37,0,0,0,1.0,0.0
3,Arsenal,4,Ben White,Defender,37,0,0,0,3.0,0.0
4,Arsenal,8,Martin Odegaard,Midfielder,36,4,7,0,4.0,0.0


In [91]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 623 entries, 0 to 622
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Team           623 non-null    object 
 1   JerseyNo       623 non-null    int64  
 2   Player         623 non-null    object 
 3   Position       623 non-null    object 
 4   Apearances     623 non-null    int64  
 5   Substitutions  623 non-null    int64  
 6   Goals          623 non-null    int64  
 7   Penalties      623 non-null    int64  
 8   YellowCards    623 non-null    float64
 9   RedCards       623 non-null    float64
dtypes: float64(2), int64(5), object(3)
memory usage: 48.8+ KB


In [92]:
# df['Team'] = df['Team'].astype('category')
# df['Player'] = df['Player'].astype('category')
# df['Position'] = df['Position'].astype('category')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 623 entries, 0 to 622
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype   
---  ------         --------------  -----   
 0   Team           623 non-null    category
 1   JerseyNo       623 non-null    int64   
 2   Player         623 non-null    category
 3   Position       623 non-null    category
 4   Apearances     623 non-null    int64   
 5   Substitutions  623 non-null    int64   
 6   Goals          623 non-null    int64   
 7   Penalties      623 non-null    int64   
 8   YellowCards    623 non-null    float64 
 9   RedCards       623 non-null    float64 
dtypes: category(3), float64(2), int64(5)
memory usage: 58.6 KB


In [104]:
df.describe()

Unnamed: 0,JerseyNo,Apearances,Substitutions,Goals,Penalties,YellowCards,RedCards
count,623.0,623.0,623.0,623.0,623.0,623.0,623.0
mean,22.597111,16.861958,4.630819,2.245586,0.168539,2.457464,0.086677
std,18.71945,13.950425,4.950411,4.072776,0.787057,2.694708,0.303568
min,1.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,9.0,3.0,1.0,0.0,0.0,0.0,0.0
50%,18.0,16.0,3.0,1.0,0.0,2.0,0.0
75%,30.0,27.5,7.0,3.0,0.0,4.0,0.0
max,97.0,54.0,25.0,31.0,9.0,12.0,2.0


### EPL 경기 데이터
Team: 선수가 속한 팀의 이름  
JerseyNo: 선수의 유니폼 번호  
Player: 선수의 이름  
Position: 선수의 포지션  
Apearances: 선수가 출전한 경기 수  
Substitutions: 선수가 경기 중 교체로 들어가거나 나온 횟수  
Goals: 선수가 득점한 골 수  
Penalties: 선수가 성공시킨 페널티 킥 수  
YellowCards: 선수가 받은 경고 카드 수  
RedCards: 선수가 받은 퇴장 카드 수 

#### 기본 문제
1. 팀별로 출전 횟수의 평균을 계산하세요.
2. 포지션별로 평균 득점 수를 구하세요.
3. 각 팀에서 가장 많이 출전한 선수는 누구인가요?
4. 각 팀별로 평균 경고 카드 수를 계산하세요.
5. 포지션별로 평균 교체 횟수를 구하세요.

In [108]:
# 1. 팀별로 출전 횟수의 평균을 계산하세요.
pd.pivot_table(df, index=['Team'], values='Apearances', aggfunc=['mean'])

Unnamed: 0_level_0,mean
Unnamed: 0_level_1,Apearances
Team,Unnamed: 1_level_2
Arsenal,17.678571
Aston Villa,12.527778
Brentford,15.612903
Brighton and Hove Albion,13.514286
Burnley,18.48
Chelsea,21.0
Crystal Palace,18.615385
Everton,13.444444
Leeds United,15.931034
Leicester City,20.580645


In [109]:
# 2. 포지션별로 평균 득점 수를 구하세요.
pd.pivot_table(df, index=['Position'], values='Goals', aggfunc=['mean'])

Unnamed: 0_level_0,mean
Unnamed: 0_level_1,Goals
Position,Unnamed: 1_level_2
Defender,0.855263
Defender/Forward,9.0
Defender/Midfielder,1.2
Defender/Midfielder/Forward,1.0
Forward,4.17284
Goalkeeper,0.0
Midfielder,1.981132
Midfielder/Forward,5.987805


집계함수
idxmax, idxmin

In [201]:
# 3. 각 팀에서 가장 많이 출전한 선수는 누구인가요?

# df_sorted = df.groupby('Team')[['Player','Apearances']].agg(['max'])
# df_sorted.sort_values(by=('Player','max'), ascending=False)

# df_sorted.sort_values(by=('Apearances', 'sum'), ascending=False).head(10)



# df_sorted = pd.pivot_table(df, index=['Team'], values=['Apearances', 'Player'], aggfunc='max')
# df_sorted.sort_values(by=('Apearances'), ascending=False)

# []를 넣어서 aggfunc=['max'] 를 만들면 max 컬럼이 추가되어 늘어난다


# 선생님의 답

# df_sorted = df.loc[df.groupby('Team')['Apearances'].idxmax()]
# df_sorted[['Team','Player','Apearances']]

df.loc[df.groupby('Team')['Apearances'].idxmax()][['Team','Player','Apearances']]

Unnamed: 0,Team,Player,Apearances
0,Arsenal,Bukayo Saka,40
31,Aston Villa,Matty Cash,40
64,Brentford,Pontus Jansson,39
119,Brighton and Hove Albion,Robert Sánchez,38
145,Burnley,Nick Pope,39
178,Chelsea,Antonio Rüdiger,54
199,Crystal Palace,Marc Guehi,42
242,Everton,Jordan Pickford,37
271,Leeds United,Illan Meslier,42
303,Leicester City,Kasper Schmeichel,53


In [166]:
# 4. 각 팀별로 평균 경고 카드 수를 계산하세요.

# df_sorted = df.groupby('Team')['YellowCards'].agg(['sum'])
# df_sorted.sort_values(by=('sum'), ascending=False)

df_sorted = pd.pivot_table(df, index=['Team'], values=['YellowCards'], aggfunc='mean')
df_sorted.sort_values(by=('YellowCards'), ascending=False)


Unnamed: 0_level_0,YellowCards
Team,Unnamed: 1_level_1
Leeds United,3.551724
Burnley,2.88
Chelsea,2.818182
Manchester United,2.771429
Crystal Palace,2.769231
Newcastle United,2.724138
Southampton,2.666667
Leicester City,2.612903
Tottenham Hotspur,2.483871
Arsenal,2.464286


In [172]:
# 5. 포지션별로 평균 교체 횟수를 구하세요.

# df_sorted = df.groupby('Position')['Substitutions'].agg(['mean'])
# df_sorted.sort_values(by=('mean'), ascending=False)

df_sorted = pd.pivot_table(df, index=['Position'], values=['Substitutions'], aggfunc='mean')
df_sorted.sort_values(by=('Substitutions'), ascending=False)


Unnamed: 0_level_0,Substitutions
Position,Unnamed: 1_level_1
Defender/Midfielder/Forward,8.0
Midfielder/Forward,7.768293
Forward,7.259259
Defender/Forward,6.0
Midfielder,5.779874
Defender/Midfielder,3.863158
Defender,2.269737
Goalkeeper,0.137255


### EPL 경기 데이터
Team: 선수가 속한 팀의 이름  
JerseyNo: 선수의 유니폼 번호  
Player: 선수의 이름  
Position: 선수의 포지션  
Apearances: 선수가 출전한 경기 수  
Substitutions: 선수가 경기 중 교체로 들어가거나 나온 횟수  
Goals: 선수가 득점한 골 수  
Penalties: 선수가 성공시킨 페널티 킥 수  
YellowCards: 선수가 받은 경고 카드 수  
RedCards: 선수가 받은 퇴장 카드 수 

#### 중급 문제
1. 각 팀별로 득점한 총 골 수를 구하세요.
2. 포지션별로 페널티 골의 평균을 구하세요.
3. 각 팀별로 평균 레드 카드 수를 계산하세요.
4. 팀별, 포지션별로 평균 득점을 계산하세요.
5. 각 팀별로 가장 많이 교체된 선수는 누구인가요?

In [173]:
# 1. 각 팀별로 득점한 총 골 수를 구하세요.

# df_sorted = df.groupby('Team')['Goals'].agg(['sum'])
# df_sorted.sort_values(by=('sum'), ascending=False)

df_sorted = pd.pivot_table(df, index=['Team'], values=['Goals'], aggfunc='sum')
df_sorted.sort_values(by=('Goals'), ascending=False)

Unnamed: 0_level_0,Goals
Team,Unnamed: 1_level_1
Manchester City,146
Liverpool,145
Chelsea,119
Leicester City,99
Tottenham Hotspur,85
West Ham United,83
Arsenal,76
Manchester United,70
Brentford,62
Crystal Palace,60


In [174]:
# 2. 포지션별로 페널티 골의 평균을 구하세요.

# df_sorted = df.groupby('Position')['Goals'].agg(['mean'])
# df_sorted.sort_values(by=('mean'), ascending=False)

df_sorted = pd.pivot_table(df, index=['Position'], values=['Goals'], aggfunc='mean')
df_sorted.sort_values(by=('Goals'), ascending=False)

Unnamed: 0_level_0,Goals
Position,Unnamed: 1_level_1
Defender/Forward,9.0
Midfielder/Forward,5.987805
Forward,4.17284
Midfielder,1.981132
Defender/Midfielder,1.2
Defender/Midfielder/Forward,1.0
Defender,0.855263
Goalkeeper,0.0


In [175]:
# 3. 각 팀별로 평균 레드 카드 수를 계산하세요.

# df_sorted = df.groupby('Team')['RedCards'].agg(['mean'])
# df_sorted.sort_values(by=('mean'), ascending=False)

df_sorted = pd.pivot_table(df, index=['Team'], values=['RedCards'], aggfunc='mean')
df_sorted.sort_values(by=('RedCards'), ascending=False)

Unnamed: 0_level_0,RedCards
Team,Unnamed: 1_level_1
Arsenal,0.214286
Everton,0.194444
West Ham United,0.166667
Southampton,0.111111
Leeds United,0.103448
Brentford,0.096774
Tottenham Hotspur,0.096774
Watford,0.088235
Manchester United,0.085714
Burnley,0.08


In [176]:
# 4. 팀별, 포지션별로 평균 득점을 계산하세요.

# df_sorted = df.groupby(['Team', 'Position'])['Goals'].agg(['mean'])
# df_sorted.sort_values(by=('mean'), ascending=False)

df_sorted = pd.pivot_table(df, index=['Team', 'Position'], values=['Goals'], aggfunc='mean')
df_sorted.sort_values(by=('Goals'), ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,Goals
Team,Position,Unnamed: 2_level_1
Liverpool,Midfielder/Forward,14.714286
Chelsea,Midfielder/Forward,14.000000
Manchester City,Midfielder/Forward,11.000000
Leicester City,Forward,11.000000
West Ham United,Midfielder/Forward,9.000000
...,...,...
Manchester United,Goalkeeper,0.000000
Brighton and Hove Albion,Goalkeeper,0.000000
Everton,Goalkeeper,0.000000
Norwich City,Goalkeeper,0.000000


In [184]:
# 5. 각 팀별로 가장 많이 교체된 선수는 누구인가요?

# df_sorted = df.groupby(['Team', 'Player'])['Substitutions'].agg(['sum'])
# df_sorted.sort_values(by=('sum'), ascending=False)

df_sorted = pd.pivot_table(df, index=['Team'], values=['Player', 'Substitutions'], aggfunc='max')
df_sorted.sort_values(by=('Substitutions'), ascending=False)


Unnamed: 0_level_0,Player,Substitutions
Team,Unnamed: 1_level_1,Unnamed: 2_level_1
Liverpool,Virgil Van Dijk,25
West Ham United,Łukasz Fabiański,24
Tottenham Hotspur,Tanguy Ndombèlé,24
Chelsea,Xavier Simons,22
Leicester City,Youri Tielemans,21
Crystal Palace,Will Hughes,20
Newcastle United,Sean Longstaff,20
Manchester United,Zidane Iqbal,18
Brentford,Yoane Wissa,18
Burnley,Wout Weghorst,17


### EPL 경기 데이터
Team: 선수가 속한 팀의 이름  
JerseyNo: 선수의 유니폼 번호  
Player: 선수의 이름  
Position: 선수의 포지션  
Apearances: 선수가 출전한 경기 수  
Substitutions: 선수가 경기 중 교체로 들어가거나 나온 횟수  
Goals: 선수가 득점한 골 수  
Penalties: 선수가 성공시킨 페널티 킥 수  
YellowCards: 선수가 받은 경고 카드 수  
RedCards: 선수가 받은 퇴장 카드 수 

#### 고급 문제
1. 득점을 가장 많이 한 선수의 이름과 그 선수의 팀을 찾으세요.
2. 각 팀별로 선수들의 출전 횟수 중앙값을 구하세요.
3. 각 포지션에서 가장 많은 경고 카드를 받은 선수는 누구인가요?

In [240]:
# 고급문제1번은 따로 기능이 필요하다
# df['Goals'].idxmax()
# 행 찾는다
# 결과는 341

# 이것은 해당 행을 찾는다
# 341번째 행을 찾아서 가져온다
# df.loc[df['Goals'].idxmax()]

# df.loc[df['Goals'].idxmax()][['Player', 'Team']]
#득점을 가장 많이한 선수와 팀을 시리즈 형태로 가져온다

# df[['Player', 'Team']].loc[df['Goals'].idxmax()].to_frame().T

df[['Player', 'Team']].loc[df['Goals'].idxmax()].to_frame()

Unnamed: 0,341
Player,Mohamed Salah
Team,Liverpool


In [212]:
# 2. 각 팀별로 선수들의 출전 횟수 중앙값을 구하세요.
df.describe()

Unnamed: 0,JerseyNo,Apearances,Substitutions,Goals,Penalties,YellowCards,RedCards
count,623.0,623.0,623.0,623.0,623.0,623.0,623.0
mean,22.597111,16.861958,4.630819,2.245586,0.168539,2.457464,0.086677
std,18.71945,13.950425,4.950411,4.072776,0.787057,2.694708,0.303568
min,1.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,9.0,3.0,1.0,0.0,0.0,0.0,0.0
50%,18.0,16.0,3.0,1.0,0.0,2.0,0.0
75%,30.0,27.5,7.0,3.0,0.0,4.0,0.0
max,97.0,54.0,25.0,31.0,9.0,12.0,2.0


In [210]:
df_sorted = pd.pivot_table(df, index=['Team'], values=['Apearances', 'Player'], aggfunc='median')
df_sorted.sort_values(by=('Apearances'), ascending=False)

Unnamed: 0_level_0,Apearances
Team,Unnamed: 1_level_1
Chelsea,22.0
Burnley,20.0
Leicester City,20.0
Southampton,18.0
Leeds United,18.0
Manchester City,18.0
West Ham United,17.0
Tottenham Hotspur,17.0
Arsenal,16.5
Crystal Palace,16.5


In [187]:
# 3. 각 포지션에서 가장 많은 경고 카드를 받은 선수는 누구인가요?

df_sorted = pd.pivot_table(df, index=['Position'], values=['Player', 'YellowCards'], aggfunc='max')
df_sorted.sort_values(by=('YellowCards'), ascending=False)

Unnamed: 0_level_0,Player,YellowCards
Position,Unnamed: 1_level_1,Unnamed: 2_level_1
Defender,Yerson Mosquera,12.0
Midfielder,İlkay Gündogan,12.0
Defender/Midfielder,Wilfred Ndidi,11.0
Defender/Midfielder/Forward,Scott McTominay,10.0
Forward,Wout Weghorst,9.0
Midfielder/Forward,Yoane Wissa,9.0
Goalkeeper,Łukasz Fabiański,4.0
Defender/Forward,Maxwel Cornet,2.0


## apply
#### 실습

In [241]:
import pandas as pd

df = pd.DataFrame({
    'dates': pd.to_datetime(['2021-01-01', '2021-02-15', '2021-03-20']),  # 날짜
    'numbers': [10, 20, 30]  # 숫자
})

df

Unnamed: 0,dates,numbers
0,2021-01-01,10
1,2021-02-15,20
2,2021-03-20,30


In [242]:
def ex_year(date):
    return date.year

df['year'] = df['dates'].apply(ex_year)
df

Unnamed: 0,dates,numbers,year
0,2021-01-01,10,2021
1,2021-02-15,20,2021
2,2021-03-20,30,2021


In [247]:
df['year'] = df['dates'].apply(lambda date: date.year)
df

Unnamed: 0,dates,numbers,year,squ_numbers
0,2021-01-01,10,2021,100
1,2021-02-15,20,2021,400
2,2021-03-20,30,2021,900


In [244]:
def squ(num):
    return num ** 2

df['squ_numbers'] = df['numbers'].apply(squ)
df

Unnamed: 0,dates,numbers,year,squ_numbers
0,2021-01-01,10,2021,100
1,2021-02-15,20,2021,400
2,2021-03-20,30,2021,900


In [None]:
# lambda는 각자 사용해 보자


In [248]:
data = {
    'A' : [1, 2, 3],
    'B' : [4, 5, 6]
}

df = pd.DataFrame(data)
df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [249]:
def squ(num):
    return num ** 2

df.map(squ)

# 모든 요소에 제곱을 한다

Unnamed: 0,A,B
0,1,16
1,4,25
2,9,36


# 실습

In [250]:
import pandas as pd
import seaborn as sns

# 타이타닉 데이터셋 로드
df = sns.load_dataset('titanic')

# 사용할 컬럼
col = ['survived', 'pclass', 'sex', 'age', 'fare', 'embark_town']

df = df[col]

# 결측치 삭제
df.dropna(subset='age', inplace=True)

df.head()

Unnamed: 0,survived,pclass,sex,age,fare,embark_town
0,0,3,male,22.0,7.25,Southampton
1,1,1,female,38.0,71.2833,Cherbourg
2,1,3,female,26.0,7.925,Southampton
3,1,1,female,35.0,53.1,Southampton
4,0,3,male,35.0,8.05,Southampton


In [251]:
def age_list_change(age):
    if age <= 19:
        return '미성년자'
    elif age < 60:
        return '성인'
    else:
        return '시니어'

df['나이범주'] = df['age'].apply(age_list_change)

# def ex_year(date):
#     return date.year

# df['year'] = df['dates'].apply(ex_year)
df

Unnamed: 0,survived,pclass,sex,age,fare,embark_town,나이범주
0,0,3,male,22.0,7.2500,Southampton,성인
1,1,1,female,38.0,71.2833,Cherbourg,성인
2,1,3,female,26.0,7.9250,Southampton,성인
3,1,1,female,35.0,53.1000,Southampton,성인
4,0,3,male,35.0,8.0500,Southampton,성인
...,...,...,...,...,...,...,...
885,0,3,female,39.0,29.1250,Queenstown,성인
886,0,2,male,27.0,13.0000,Southampton,성인
887,1,1,female,19.0,30.0000,Southampton,미성년자
889,1,1,male,26.0,30.0000,Cherbourg,성인


In [259]:
def fare_change(fee):
    if fee < 20:
        return '저'
    elif fee < 50:
        return '중'
    else:
        return '고'

df['요금등급'] = df['fare'].apply(fare_change)
df[['fare', '요금등급']].head()
# df

Unnamed: 0,fare,요금등급
0,7.25,저
1,71.2833,고
2,7.925,저
3,53.1,고
4,8.05,저


In [256]:
df[df['age'].values >= 60]

Unnamed: 0,survived,pclass,sex,age,fare,embark_town,나이범주,요금등급
33,0,2,male,66.0,10.5,Southampton,시니어,저
54,0,1,male,65.0,61.9792,Cherbourg,시니어,고
96,0,1,male,71.0,34.6542,Cherbourg,시니어,중
116,0,3,male,70.5,7.75,Queenstown,시니어,저
170,0,1,male,61.0,33.5,Southampton,시니어,중
252,0,1,male,62.0,26.55,Southampton,시니어,중
275,1,1,female,63.0,77.9583,Southampton,시니어,고
280,0,3,male,65.0,7.75,Queenstown,시니어,저
326,0,3,male,61.0,6.2375,Southampton,시니어,저
366,1,1,female,60.0,75.25,Cherbourg,시니어,고
