In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
player_data = pd.read_csv('player_data.csv')
players = pd.read_csv('Players.csv')
seasons_stats = pd.read_csv('Seasons_Stats.csv')

In [None]:
print(player_data.head())
print(player_data.info())

In [None]:
print(players.head())
print(players.info())

In [None]:
print(seasons_stats.head())
print(seasons_stats.info())

In [None]:
# Названия колонок к одному виду для объединения данных
player_data.rename(columns={'player name': 'Player', 'height': 'Height_in', 'weight': 'Weight_lb'}, inplace=True)
players.rename(columns={'height': 'Height_cm', 'weight': 'Weight_kg', 'born': 'Birth_Date', 'collage': 'College'}, inplace=True)

In [None]:
# Объединение данных
merged_data = pd.merge(player_data, players, on='Player', how='left')
merged_data = pd.merge(merged_data, seasons_stats, on='Player', how='left')

In [None]:
print(merged_data.head())
print(merged_data.info())

In [None]:
# Резюме: График показывает распределение роста игроков, позволяя увидеть наиболее распространенные значения.
plt.figure(figsize=(10, 6))
sns.histplot(merged_data['Height_cm'].dropna(), kde=True)
plt.title('Распределение роста игроков')
plt.xlabel('Рост (см)')
plt.ylabel('Количество')
plt.show()

In [None]:
# Резюме: График показывает распределение веса игроков, позволяя увидеть диапазон веса в выборке.
plt.figure(figsize=(10, 6))
sns.histplot(merged_data['Weight_kg'].dropna(), kde=True)
plt.title('Распределение веса игроков')
plt.xlabel('Вес (кг)')
plt.ylabel('Количество')
plt.show()

In [None]:
# Резюме: График показывает количество игроков в каждой команде.
plt.figure(figsize=(12, 8))
sns.countplot(data=merged_data, y='Tm', order=merged_data['Tm'].value_counts().index)
plt.title('Распределение игроков по командам')
plt.xlabel('Количество игроков')
plt.ylabel('Команда')
plt.show()

In [None]:
# Резюме: График показывает распределение игроков по позициям.
plt.figure(figsize=(10, 6))
sns.countplot(data=merged_data, x='Pos')
plt.title('Распределение игроков по позициям')
plt.xlabel('Позиция')
plt.ylabel('Количество')
plt.show()

In [None]:
# Резюме: График показывает возрастное распределение игроков.
plt.figure(figsize=(10, 6))
sns.histplot(merged_data['Age'].dropna(), kde=True)
plt.title('Распределение возрастов игроков')
plt.xlabel('Возраст')
plt.ylabel('Количество')
plt.show()

In [None]:
# Резюме: График показывает средний True Shooting % для каждой команды.
plt.figure(figsize=(12, 8))
team_ts = merged_data.groupby('Tm')['TS%'].mean().sort_values()
team_ts.plot(kind='barh', figsize=(12, 8))
plt.title('Средний True Shooting % по командам')
plt.xlabel('True Shooting %')
plt.ylabel('Команда')
plt.show()

In [None]:
# Резюме: График показывает, сколько игроков начинали свою карьеру в различные годы.
plt.figure(figsize=(12, 8))
sns.histplot(merged_data['year_start'], bins=range(merged_data['year_start'].min(), merged_data['year_start'].max()+1))
plt.title('Распределение игроков по годам начала карьеры')
plt.xlabel('Год начала карьеры')
plt.ylabel('Количество игроков')
plt.show()

In [None]:
# Резюме: График показывает распределение возраста игроков в зависимости от их игровой позиции.
plt.figure(figsize=(12, 8))
sns.boxplot(data=merged_data, x='Pos', y='Age')
plt.title('Распределение игроков по возрасту и позиции')
plt.xlabel('Позиция')
plt.ylabel('Возраст')
plt.show()

In [None]:
# Резюме: Диаграмма показывает долю игроков из топ-10 штатов США, где они родились.
plt.figure(figsize=(12, 8))
top_states = merged_data['birth_state'].value_counts().head(10)
top_states.plot(kind='pie', autopct='%1.1f%%', startangle=90)
plt.title('Доля игроков из разных штатов')
plt.ylabel('')
plt.show()

In [None]:
# Возрастные группы
bins = [0, 20, 25, 30, 35, 40, 45, 50, 100]
labels = ['<20', '20-24', '25-29', '30-34', '35-39', '40-44', '45-49', '50+']
merged_data['age_group'] = pd.cut(merged_data['Age'], bins=bins, labels=labels, right=False)

In [None]:
# PER (средняя эффективность)
avg_per_by_age = merged_data.groupby('age_group')['PER'].mean()

 Этот график помогает понять, как меняется средняя эффективность игроков в зависимости от их возраста.
 Можно заметить, что средний PER может варьироваться в различных возрастных категориях, что может быть полезным для тренеров и скаутов при оценке игроков.

In [None]:
plt.figure(figsize=(10, 6))
sns.barplot(x=avg_per_by_age.index, y=avg_per_by_age.values, palette='viridis')
plt.title('Средняя эффективность игроков по возрастным группам')
plt.xlabel('Возрастная группа')
plt.ylabel('Средний PER')
plt.xticks(rotation=45)
plt.show()

-------------------------------------
 ФИЧИ

In [None]:
merged_data['BMI'] = merged_data['Weight_kg'] / (merged_data['Height_cm'] / 100) ** 2
merged_data['career_start_age'] = merged_data['year_start'] - pd.to_datetime(merged_data['Birth_Date']).dt.year
merged_data['years_in_league'] = merged_data['year_end'] - merged_data['year_start']
merged_data['MP_per_game'] = merged_data['MP'] / merged_data['G']
merged_data['games_played_percentage'] = merged_data['G'] / merged_data['GS']