In [None]:
import os

import matplotlib.pyplot as plt # visualization
import numpy as np # linear algebra
import pandas as pd # data processing
import plotly.express as px

# Домашнаяя работа: работа с numpy, pandas и matplotlib

В этой домашней работе вам предстоит выполнить EDA (Exploratory Data Analysis) датасета с данными о футболистах FIFA.

Требования к выполнению домашней работы:
- Во всех графиках должны быть подписи через `title`, `legend`, etc.
- Убедитесь, что после сохранения ноутбука графики всё ещё видно, если открыть ноутбук заново. Если не видно - напишите в общий чатик, вам помогут либо преподаватели, либо те, кто уже столкнулся с этой проблемой
- Можно баловаться с цветами, но в меру. Если в итоге работа станет нечитаемой, то задание не будет засчитано
- Если вы сдаете работу в Google Colaboratory, убедитесь, что ваша тетрадка доступна по ссылке. Если в итоге по каким-то причинам тетрадка не будет открываться у преподавателя, задание не будет засчитано

# Работа с датафреймом

Заполните пропуски:

1. В датасете 88 переменных 
2. Из них числовых 43

# Работа с графикой

3. Изучите распределение возрастов с помощью колонки Age [px.histogram](https://plotly.com/python/histograms/)
4. Изучите [более продвинутые методы](https://plotly.com/python/distplot/) визуализации распределений 

In [2]:
df = pd.read_csv('data.csv')

In [58]:
fig_age = px.histogram(df,
                       x="Age",
                       marginal="box")
fig_age.update_layout(
    title="Распределение возрастов игроков",
    title_x = 0.5,
    xaxis_title="Возраст",
    yaxis_title="Количество")

fig_age.write_image("hist_1.png")

**Распределение схоже с нормальным**

5. Найдите колонку, показывающую, является ли футболист левой или правшой
6. Визуализируйте соотношенеие между левшами и правшами (считаем, что признак "левша"/"правша" определяет предпочтительную ногу для ударов

In [4]:
fig_foot = px.histogram(df,
                        x="Preferred Foot")

fig_foot.update_layout(
    title="Отношение правшей и левшей",
    title_x = 0.5,
    xaxis_title="Ведущая нога",
    yaxis_title="Количество игроков")

fig_foot.show()

7. Визуализируйте Международный Рейтинг футболистов (International Reputation)
8. Ассоциирован ли он с национальностью? С футбольным клубом? 

![Игроки](Players.png "Title")

In [5]:
fig_rep = px.histogram(df,
                       x='International Reputation')

fig_rep.update_layout(
    title="Международный рейтинг",
    title_x = 0.5,
    xaxis_title="Межднународный рейтинг",
    yaxis_title="Количество игроков")

fig_rep.show()

In [6]:
df_nat = df.groupby('Nationality', as_index=False).\
    agg({"International Reputation":"median"}).\
sort_values(by="International Reputation", ascending=False)

In [7]:
fig_rep_nat = px.histogram(df_nat,
                           x='Nationality',
                           y='International Reputation')

fig_rep_nat.update_layout(
    title="Зависимость национальности игрока от международного рейтинга",
    title_x = 0.5,
    xaxis_title="Национальность",
    yaxis_title="Общий международный рейтинг данной нации")

fig_rep_nat.show()

**Есть два выброса - Оман и ОАЭ. Остальные все на одном уровне. Шейхи короли футбола.**

In [8]:
df_club = df.groupby('Club', as_index=False).\
    agg({"International Reputation":"median"}).\
    sort_values(by="International Reputation", ascending=False)

In [9]:
fig_rep_fb = px.histogram(df_club,
                          x="Club",
                          y='International Reputation')

fig_rep_fb.update_layout(
    title="Зависимость клуба игрока от Международного рейтинга",
    title_x = 0.5,
    xaxis_title="Клуб",
    yaxis_title="Сумма Международного рейтинга")

fig_rep_fb.show()

### Есть выбросы в некоторых клубах, которые стоит рассматривать отдельно. В большинстве своём нет разницы.

9. Есть ли зависимость между потенциалом (Potential) и Международным Рейтингом футболистов (International Reputation)? Визуализируте её
10. Влияет ли на потенциал игровая нога? Почему так может случиться? (картинка в тему)

![Коазуация или корреляция?](causuation.png "???")

In [10]:
df_rep = df.groupby('Potential', as_index=False).\
    agg({"International Reputation":"median"})

In [11]:
fig_pot_rep = px.histogram(df_rep,
                           x="Potential",
                           y="International Reputation",
                           nbins=70,
                           marginal="box")

fig_pot_rep.update_layout(
    title="Зависимость потенциала игрока от Международного рейтинга",
    title_x = 0.5,
    xaxis_title="Потенциал",
    yaxis_title="Общий международный рейтинг")

fig_pot_rep.show()

**У Потенциала из промежутка [85;95] явно лучше международный рейтинг**

In [12]:
df_foot_median = df.groupby('Preferred Foot', as_index=False).\
    agg({"Potential":"median"})

In [13]:
fig_foot_rep = px.histogram(df_foot_median,
                            x="Preferred Foot",
                            y="Potential")

fig_foot_rep.update_layout(
    title="Зависимость потенциала игрока от его ведущей ноги",
    title_x = 0.5,
    xaxis_title="Ведущая нога",
    yaxis_title="Сумма потенциалов")

fig_foot_rep.show()

**Не влияет**

Теперь пройдёмся по показателям игроков...

11. Есть ли зависимость между **выносливостью** игрока (Stamina) и его **силой** (Strength)? Какая? Точно ли это зависимость? 


In [14]:
df_stam = df.groupby('Stamina', as_index=False).\
    agg({"Strength":"median"})

In [15]:
fig_stam_stren = px.histogram(df_stam,
                              x="Stamina",
                              nbins=200,
                              y="Strength")
fig_stam_stren.update_layout(
    title="Зависимость выносливости игрока и его силы",
    title_x = 0.5,
    xaxis_title="Выносливость",
    yaxis_title="Медианная сила")

fig_stam_stren.show()

**Есть очень заметный выброс. Те, кто не выносливы - бьют очень сильно. Из промежутка выносливости [47;96] можно сказать, что чем больше выносливость, тем игрок сильнее в большинстве своём**

12. Зависит ли **стоимость** игрока (Value) от его "**финтов**" (Skill Moves)?

In [16]:
def get_natural_wage(last_sym, cel, drob=''):
    if last_sym in 'MK':
            if last_sym == 'M':
                return int(cel + drob) * 10**(6 - len(drob))
            else:
                return int(cel + drob) * 10**(3 - len(drob))

In [17]:
def get_wage(value):
    last_sym = value[-1]
    if '.' in value:
        cel, drob = value[1:-1].split('.')
        return get_natural_wage(last_sym, cel, drob)
    else:
        cel = value[1:-1]
        return get_natural_wage(last_sym, cel)

In [18]:
df['Int_Value'] = df['Value'].apply(lambda x: get_wage(x))
df_value = df.groupby('Skill Moves', as_index=False).\
    agg({"Int_Value":"median"})

In [19]:
fig_cost_fint = px.histogram(df_value,
                             x="Skill Moves",
                             y="Int_Value", 
                             nbins=5)

fig_cost_fint.update_layout(
    title="Зависимость зарплаты футболистов от финтов",
    title_x = 0.5,
    xaxis_title="Скилл финтов",
    yaxis_title="Медианная зарплата")

fig_cost_fint.show()

### Здесь заметно, что чем выше скилл игрока - тем больше ему надо платить

13. Покажите распределения основных характеристик игроков: **рост**, **вес**, **возраст** по **позициям** (Position), сделайте выводы

In [20]:
df_age = df.groupby('Position', as_index=False).\
    agg({"Age":"median"}).sort_values(by='Age', ascending=False)

In [21]:
fig_age = px.histogram(df_age,
                       y="Age",
                       x='Position')

fig_age.update_layout(
    title="Зависимость возраста от позиции игроков",
    title_x = 0.5,
    xaxis_title="Позиции игроков",
    yaxis_title="Медианный возраста группы игроков")

fig_age.show()

**Особой зависимости я не вижу. Как говорится, позициям все возрасты покорны!**

In [22]:
df['Int_Weight'] = df['Weight'].fillna(0).apply(lambda x: int(str(x)[:3]))

In [23]:
df_weight = df.groupby('Position', as_index=False).\
    agg({"Int_Weight":"median"}).sort_values(by='Int_Weight', ascending=False)

In [24]:
fig_weight = px.histogram(df_weight,
                          y="Int_Weight",
                          x='Position')

fig_weight.update_layout(
    title="Зависимость веса от позиции игроков",
    title_x = 0.5,
    xaxis_title="Позиции игроков",
    yaxis_title="Средний вес игроков")

fig_weight.show()

**Особой зависимости я не вижу. Как говорится, весу все возрасты покорны!**

In [25]:
df['Float_Height'] = df['Height'].fillna(0).apply(lambda x: float(str(x).replace("'",".")))

In [26]:
df_height = df.groupby('Position', as_index=False).\
    agg({"Float_Height":"median"}).sort_values(by='Float_Height', ascending=False)

In [27]:
fig_height = px.histogram(df_height,
                          y="Float_Height",
                          x='Position')
fig_height.update_layout(
    title="Зависимость роста от позиции игроков",
    title_x = 0.5,
    xaxis_title="Позиции игроков",
    yaxis_title="Медианный рост игроков")

fig_height.show()

*Ну вы поняли..*

14. Есть ли зависимость **скорости** (SprintSpeed) от **веса** и **роста**? От **национальности**?

In [28]:
df_speed_weight =  df.groupby('SprintSpeed', as_index=False).\
    agg({"Int_Weight":"median"})

In [29]:
fig_speed_weight = px.histogram(df_speed_weight,
                          x="SprintSpeed",
                          y='Int_Weight',
                          nbins=100)

fig_speed_weight.update_layout(
    title="Зависимость скорости от веса",
    title_x = 0.5,
    xaxis_title="Скорость игроков",
    yaxis_title="Медианный вес игроков")

fig_speed_weight.show()

**Чем больше вес, тем быстрее люди бегают!**

In [30]:
df_speed_height = df.groupby('SprintSpeed', as_index=False).\
    agg({"Float_Height":"median"})

In [31]:
fig_speed_height = px.histogram(df_speed_height,
                          x="SprintSpeed",
                          y='Float_Height',
                          nbins=100)

fig_speed_height.update_layout(
    title="зависимость скорости от роста",
    title_x = 0.5,
    xaxis_title="Скороcть",
    yaxis_title="Медианный рост игроков")

fig_speed_height.show()

**Не вижу зависимости**

In [32]:
df_speed_nat =df.groupby('Nationality', as_index=False).\
    agg({"SprintSpeed":"median"}).sort_values(by='SprintSpeed', ascending=False)

In [33]:
fig_speed_nat = px.histogram(df_speed_nat,
                          x="Nationality",
                          y='SprintSpeed')

fig_speed_nat.update_layout(
    title="Зависимость скорости от национальности",
    title_x = 0.5,
    xaxis_title="Национальность",
    yaxis_title="Медианная скорость")

fig_speed_nat.show()

**Есть некоторые выбросы, к-ые стоит рассмотреть отдельно. В большинстве своём разницы нет.**

15. Под какими номерами чаще всего играют нападающие? Визуализируйте частотность

In [34]:
df_st_num = df[df.Position == 'ST'].groupby('Jersey Number', as_index=False).agg({'Position':'count'}) \
    .rename(columns={'Position':'Count ST'}) \
    .sort_values(by='Count ST', ascending=False)

In [35]:
fig_st_num = px.histogram(df_st_num,
                          x="Jersey Number",
                          nbins=98,
                          y='Count ST')

fig_st_num.update_layout(
    title="Гистограмма нападающих игроков",
    title_x = 0.5,
    xaxis_title="Номер игрока",
    yaxis_title="Количество надающих")

fig_st_num.show()

**Под 9ым номером чаще всего выступают нападающие!**

16. Есть ли за зависимость **силы удара** (ShotPower) от **ведущей ноги**? от **агрессивности** (Aggression)? 


In [36]:
df_power_foot =df.groupby('Preferred Foot', as_index=False).\
    agg({"ShotPower":"median"})

In [37]:
fig_power_foot = px.histogram(df_power_foot,
                            x="Preferred Foot",
                            y="ShotPower")

fig_power_foot.update_layout(
    title="Зависимость силы удара от его ведущей ноги",
    title_x = 0.5,
    xaxis_title="Ведущая нога",
    yaxis_title="Медианная сила")

fig_power_foot.show()

**Не думаю, что это весомое отличие. Не думаю, что зависимость есть**

In [38]:
df_agr_foot =df.groupby('Aggression', as_index=False).\
    agg({"ShotPower":"median"})

In [39]:
fig_agr_foot = px.histogram(df_agr_foot,
                            x="Aggression",
                            y="ShotPower",
                            nbins=100)

fig_agr_foot.update_layout(
    title="Зависимость силы удара от его агрессивности",
    title_x = 0.5,
    xaxis_title="Агрессивность",
    yaxis_title="Медианная сила удара")

fig_agr_foot.show()

**Более агрессивные люди сильнее бьют по мячу**

17. Найдите суммарную стоимость игроков в каждом клубе
18. Визуализируйте соотношение сумарной стоимости топ 10 клубов

In [40]:
df_club_cost = df.groupby('Club', as_index=False).agg({"Int_Value":"sum"}) \
                 .rename(columns={'Int_Value':'Cost'}).sort_values(by='Cost', ascending=False)
df_club_cost

Unnamed: 0,Club,Cost
470,Real Madrid,874425000.0
212,FC Barcelona,852600000.0
374,Manchester City,786555000.0
326,Juventus,704475000.0
214,FC Bayern München,679025000.0
...,...,...
543,Sligo Rovers,3295000.0
83,Bohemian FC,3195000.0
188,Derry City,2795000.0
361,Limerick FC,2040000.0


In [41]:
fig_club_cost = px.histogram(df_club_cost.head(10),
                            x="Club",
                            y="Cost")

fig_club_cost.update_layout(
    title="Топ-10 клубов по стоимости",
    title_x=0.5,
    xaxis_title="Клубы",
    yaxis_title="Стоимость, €")

fig_club_cost.show()

19. Есть ли зависимость между продолжительностью контракта игрока и его стоимостью? 

In [42]:
df['Joined_year'] = df.Joined.fillna(0).apply(lambda x: int(str(x)[-4:]))
df['Contract Valid Until'] = df['Contract Valid Until'].fillna(0).apply(lambda x: int(str(x)[-4:]))

In [43]:
df['Contract_duration'] = df['Contract Valid Until'][df['Contract Valid Until'] != 0] \
        - df['Joined_year'][df['Joined_year'] != 0]

In [44]:
df_contr_cost =df.groupby('Contract_duration', as_index=False).\
    agg({"Int_Value":"median"})

In [45]:
fig_contr_cost = px.histogram(df_contr_cost,
                            y="Int_Value",
                            x="Contract_duration",
                            nbins=20,
                            marginal="box")

fig_contr_cost.update_layout(
    title="Зависимость длительности контракта от зарплаты",
    title_x=0.5,
    xaxis_title="Длительность контракта, года",
    yaxis_title="Медианная зарплата игрока, €")

fig_contr_cost.show()

**Есть заметные выбросы, к-ые стоит рассмотреть отдельно и прояснить. А так, достаточно нормальное распределение**

20. В какой год будет больше всего свободных игроков на рынке (исходя из этих данных)? Визуализируйте зависимость

In [46]:
df_free_players = df.groupby("Contract Valid Until"). \
    agg({"Contract Valid Until":"count"}). \
    rename(columns={"Contract Valid Until":"count"}).iloc[1:].reset_index()

In [47]:
fig_free_players = px.histogram(df_free_players,
                            x="Contract Valid Until",
                            y="count",
                            nbins=10,
                            marginal="box")

fig_free_players.update_layout(
    title="Количество свободных игроков",
    title_x=0.5,
    xaxis_title="Количество",
    yaxis_title="Год, когда контракт истекает")

fig_free_players.show()

**В 2019 году будет больше всего свободных игроков.**

21. Есть ли зависмость **потенциала** (Potential) игрока от **возраста**?
22. Всегда ли молодые игроки обладают большим потенциалом?

In [48]:
df_pot_age =df.groupby('Age', as_index=False).\
    agg({"Potential":"median"})

In [49]:
fig_pot_age = px.histogram(df_pot_age,
                            x="Age",
                            y="Potential",
                            nbins=50)

fig_pot_age.update_layout(
    title="Проверка зависимости потенциала игрока от возраста",
    title_x = 0.5,
    xaxis_title="Потенциал",
    yaxis_title="Возраст")

fig_pot_age.show()

**Не вижу зависимости потенциала от возраста**

23. Есть ли зависимость **рейтинга** игрока (Overall) от **возраста**?
24. Когда у игроков "пик" карьеры?
25. Игроков какого возраста больше всего с рейтингом 90+?

In [50]:
df_over_age =df.groupby('Age', as_index=False).\
    agg({"Overall":"median"})

In [51]:
fig_over_age = px.histogram(df_over_age,
                            x="Age",
                            y="Overall",
                            nbins=100)

fig_over_age.update_layout(
    title="Зависимость рейтинга игрока от возраста",
    title_x = 0.5,
    xaxis_title="Возраст",
    yaxis_title="Рейтинг")

fig_over_age.show()

**В 30-32 года у игроков пик карьеры, распределение похоже на функцию y=-x^2**

In [52]:
fig_overall_age = px.histogram(df.query("Overall > 90").Age,
                               x="Age",
                               nbins=10)

fig_overall_age.update_layout(
    title="Игроки с рейтингом 90+",
    title_x = 0.5,
    xaxis_title="Возраст игроков",
    yaxis_title="Количество")
fig_overall_age.show()

**Больше всего игроков с рейтингом 90+ с возрастом 27 лет**

26. Насколько средняя зарплата (Wage) игроков с рейтингом (Overall) 90+ больше средней зарплаты с рейтингом [80 - 90]? Визуализируйте возможную зависимость

In [53]:
df_wage80_over = df.query("80 <= Overall <= 90").Int_Value.mean()
df_wage80_over

24410294.11764706

In [54]:
df_wage90_over = df.query("90 < Overall").Int_Value.mean()
df_wage90_over

85666666.66666667

In [55]:
print(int(df_wage90_over - df_wage80_over))

61256372


Я могу визуалировать разницу двух чисел: 2 миллиона и 8 миллионов.