In [None]:
# 安装必要的模块库
# pip install pandas==2.1.1
# numpy-1.26.0

In [None]:
# 引入模块
import pandas as pd

# 读取数据
df = pd.read_csv('FullData.csv')

In [None]:
# 设置默认显示的行数
pd.set_option('display.max_rows', 10)
# 设置默认显示的列数
pd.set_option('display.max_columns', 10)
# 查看数据
df

In [None]:
# 查看数据的形状
df.shape

In [None]:
# 查看数据的前5行
# df.head()
# 查看数据的后5行
df.tail()
# 随机查看数据的5行
# df.sample(5)

In [None]:
# 查看所有的列名
df.columns

In [None]:
# 设置列名为中文
df.columns = ["姓名","国籍","国家队位置","国家队号码","所在俱乐部","所在俱乐部位置","俱乐部号码","加入俱乐部时间","合同到期时间","评分","身高","体重","擅长左（右）脚","出生日期","年龄","擅长位置","工作效率","非惯用脚使用频率","技术等级","控球技术","盘球（带球）能力","盯人能力","铲球","逼抢能力","攻击能力","反映","攻击性跑位","抢断","视野","镇静","下底传中","短传","长传","加速度","速度","体力","强壮","平衡","敏捷度","跳跃","投球","射门力量","射门","远射","弧线","任意球精准度","点球","凌空能力","门将位置感","扑救能力","门将踢球能力","扑球脱手几率","门将反应度"]

In [None]:
# 查看数据的基本情况
df.info()

### 缺失值处理

In [None]:
# 查看是否有缺失值
# df['所在俱乐部位置'].isnull().any()
df['所在俱乐部位置'].isna().any()

In [None]:
# 显示缺失值的数据
# df[df['所在俱乐部位置'].isnull()]
df[df['所在俱乐部位置'].isna()]

In [None]:
# 没有缺失值的数据
# df2 = df[~df['所在俱乐部位置'].isna()]
# df2 = df[df['所在俱乐部位置'].notna()]
df2 = df[df['所在俱乐部位置'].notnull()]
df2

### 异常值处理

In [None]:
# 发现异常值
df2.describe()

In [None]:
# 模拟创造一个异常值
df2.loc[0,'评分'] = 888
df2['评分']

In [None]:
# 通过条件判断筛选异常值
# df2[df2['评分'] < 0]
df2[df2['评分'] > 100]

In [None]:
# 通过图形化的方式查看异常值,注意：需要安装matplotlib==3.8.0
# 通过箱图查看异常值
df2.boxplot(column='评分')

In [None]:
# 对数据进行修改
df2.loc[0,'评分'] = 94

### 重复值处理

In [None]:
# 查看是否有重复值,默认是所有列都重复才算重复
df2.duplicated().any()

In [None]:
# 查看是否有重复值,指定某些列重复才算重复，使用subset参数
df2.duplicated(subset=['姓名']).any()

In [None]:
# 获取重复值
df2[df2.duplicated(subset=['姓名'])]

In [None]:
# 获取没有重复值的数据,通过数据筛选
# df2[~df2.duplicated(subset=['姓名'])]
# 删除重复值
df3 = df2.drop_duplicates(subset=['姓名'])
df3

In [None]:
# 查看数据的列
df3.columns

### 查看身高和体重相关性

In [None]:
# 查看身高和体重
df3[['身高','体重']].info()

In [None]:
# 去掉身高和体重的单位，通过字符串的替换
# df3['身高'] = df3['身高'].str.replace('cm','').astype('int')
# df3['体重'] = df3['体重'].str.replace('kg','').astype('int')
# df3[['身高','体重']]

In [None]:
# 通过apply方式
def handle_cm(v:str) -> int:
    return int(v.replace('cm',''))

df3['身高'] = df3['身高'].apply(handle_cm)
# 使用匿名函数的方式 lambda
df3['体重'] = df3['体重'].apply(lambda v:int(v.replace('kg','')))

In [None]:
df3[['身高','体重']].info()

In [None]:
# 查看数据的分布情况
# 1. 通过命令的方式 describe
df3[['身高','体重']].describe()

In [None]:
# 2. 通过图形化的方式 直方图、密度图
# 画图的方式 matplotlib\ pandas
# 导入模块
import matplotlib.pyplot as plt
#解决中文乱码
plt.rcParams['font.sans-serif'] = ['KaiTi'] # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题

In [None]:
# 通过matplotlib画直方图
plt.hist(df3['身高'],bins=15)

In [None]:
# 通过pandas画直方图
df3['身高'].hist(bins=15)

In [None]:
df3['体重'].hist(bins=15)

In [None]:
# pip install scipy==1.11.2
# 通过pandas画密度图
# df3['身高'].plot(kind='kde')
df3['体重'].plot(kind='kde')

In [None]:
# 查看数据
df3['擅长左（右）脚'].head()

In [None]:
# 通过value_counts查看数据的情况
df3['擅长左（右）脚'].value_counts()

In [None]:
# 通过能列进行分组，查看数据的情况
dfg = df3.groupby('擅长左（右）脚')
dfg['擅长左（右）脚'].count()

In [None]:
# 通过图形化的方式查看数据的情况
# 统计数量使用 饼图、柱状图
# 通过pandas画饼图
df3['擅长左（右）脚'].value_counts().plot(kind='pie',autopct='%.2f%%',fontsize=15)
# dfg['擅长左（右）脚'].count().plot(kind='pie',autopct='%.2f%%',fontsize=15)

In [None]:
# 通过pandas画柱状图
# df3['擅长左（右）脚'].value_counts().plot(kind='bar',fontsize=15)
df3['擅长左（右）脚'].value_counts().plot(kind='barh',fontsize=15)

### 获取评分前10的运动员

In [None]:
# 获取评分前10的运动员
# df3[['姓名','评分']].sort_values(by='评分',ascending=False).head(10)
df3[['姓名','评分','所在俱乐部']].sort_values(by='评分',ascending=False).head(10)

### 获取前10的 俱乐部，根据球员的评分

In [None]:
# 获取前10的 俱乐部，根据球员的评分
dfg1 = df3.groupby('所在俱乐部')
dfg1['评分'].mean().sort_values(ascending=False).head(10)

In [None]:
# 查看俱乐部的球员人数，球员的平均分
rs1 = dfg1['评分'].agg(['mean','count'])

In [None]:
# 查看俱乐部的球员人数，球员的平均分,过滤掉人数小于25
# rs1['count']>=25
# 查看俱乐部的球员人数，球员的平均分,过滤掉人数小于25,排名前10的俱乐部
rs1[rs1['count']>=25].sort_values(by='mean',ascending=False).head(10)

In [None]:
# 根据排名进行绘制图表
rs1[rs1['count']>=25].sort_values(by='mean',ascending=False).head(10).plot(kind='bar')

### 分析运动员与出生日期是否相关

In [None]:
# 预处理数据
data = df3['出生日期'].str.split('/',expand=True)
# 获取年份
data[2].value_counts()

In [None]:
# 通过图表分析和年份是否相关
data[2].value_counts().plot(kind='bar')

In [None]:
# 通过图表分析和月份是否相关
data[0].value_counts().plot(kind='bar')

In [None]:
# 通过图表分析和日是否相关
data[1].value_counts().plot(kind='bar')

In [None]:
# 获取评分大于80的球员
df4 = df3[df3['评分']>=80]
data2 = df4['出生日期'].str.split('/',expand=True)
data2

In [None]:
# 通过图表分析和年份是否相关
# data2[2].value_counts().plot(kind='bar')
# 通过图表分析和日是否相关
# data2[1].value_counts().plot(kind='bar')
# 通过图表分析和月是否相关
data2[0].value_counts().plot(kind='bar')

### 身高与体重的相关性

In [None]:
# 通过 命令的方式 查看数据的相关性
# 使用 corr()方法 查看数据的相关性，值在-1到1之间，值越大，相关性越强
# df3['身高'].corr(df3['体重'])
# df3['身高'].corr(df3['评分'])
# df3['体重'].corr(df3['评分'])
df3[['身高','体重','评分','技术等级']].corr()

In [None]:
# 通过 图表的方式 查看数据的相关性
# df3.plot(kind='scatter',x='身高',y='体重')
# df3.plot(kind='scatter',x='身高',y='评分')
# df3.plot(kind='scatter',x='体重',y='评分')
df3.plot.scatter(x='体重',y='体重')

In [None]:
# 分析指标数据之间的相关性
df3.select_dtypes(include=['number']).corr()

In [None]:
# 筛选和评分相关性的数据
# df3.select_dtypes(include=['number']).corr()['评分']
# 筛选和评分相关性的数据，比较强的前10个指标
df3.select_dtypes(include=['number']).corr()['评分'].sort_values(ascending=False).head(10)

In [None]:
# 查看评分和年龄的相关性
df3.plot.scatter(x='年龄',y='评分')

In [None]:
# 对年龄进行分组
pd.cut(df3['年龄'],bins=4,labels=['青年','中年','壮年','老年'])

In [None]:
# 将切分好的数据，添加到原来的数据中
df3['age'] = pd.cut(df3['年龄'],bins=4,labels=['青年','中年','壮年','老年'])
df3

In [None]:
# 按照年龄分组，查看评分的情况
df3.groupby('age')['评分'].mean()

In [None]:
 # 通过图表，按照年龄分组，查看评分的情况
 df3.groupby('age')['评分'].mean().plot(kind='line')

In [None]:
# 按照年龄分组，指定分组的边界
pd.cut(df3['年龄'],bins=[10,30,40,50],labels=['青年','中年','壮年'])