In [1]:
"""🖇️Аналітичний блок:

Цей блок можна виконувати як з використанням pandas та групових операцій в цьому пакеті (group by, order, limit), 
так і завантаживши датафрейм в SQL database та пишучи запити мовою SQL:

1. Топ 100 гравців з найвищим рейтингом. (1 бал)

2. Топ 100 гравців з найвищими зарплатами. Порівняти з п.1 чи відповідають гравці з найвищими рейтингами найвищим зарплатам і навпаки. (1 бал)

3. Топ 30 воротарів з найвищим рейтингом. (1 бал)

4. Топ 30 команд з гравцями найвищого рейтингу в середньому.(1 бал)

5. Топ 30 команд в яких в середньому гравці мають найбільшу швидкість. (1 бал)

6. Топ усіх Ліг в яких зібрані найкращі дриблери. (dribbling) (2 бали)

7. Топ 30 команд з гравцями найвищого рейтингу враховуючи, що команда складається з 11 гравців, 
серед яких обовʼязково 1 воротар, 4 захисники, 4 півзахисники, 2 нападники. (3 бали)
"""

'🖇️Аналітичний блок:\n\nЦей блок можна виконувати як з використанням pandas та групових операцій в цьому пакеті (group by, order, limit), \nтак і завантаживши датафрейм в SQL database та пишучи запити мовою SQL:\n'

In [3]:
# Read dataframe
import pandas as pd
import numpy as np

df = pd.read_csv('../files/fifa_players.csv', low_memory=False)

pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

In [5]:
# 1. Топ 100 гравців з найвищим рейтингом.

def top_players_with_highest_ratings(n=100):
    """
    Top N players with the highest ratings
    :param n: number of top players
    """
    result = df[['short_name', 'overall']].sort_values(by="overall", ascending=False).head(n).reset_index(drop=True)
    return result

top_players_ratings_df = top_players_with_highest_ratings()
top_players_ratings_df

Unnamed: 0,short_name,overall
0,L. Messi,93
1,R. Lewandowski,92
2,Cristiano Ronaldo,91
3,Neymar Jr,91
4,K. De Bruyne,91
5,J. Oblak,91
6,K. Mbappé,91
7,M. Neuer,90
8,M. ter Stegen,90
9,H. Kane,90


In [7]:
# 2. Топ 100 гравців з найвищими зарплатами.

def top_players_with_highest_salary(n: int = 100):
    """
    Top N players with the highest salary
    :param n: number of players with the highest salary
    """
    return df[['short_name', 'wage_eur']].sort_values(
        by="wage_eur", ascending=False
    ).head(n).reset_index(drop=True)


top_salary_players_df = top_players_with_highest_salary()
top_salary_players_df

Unnamed: 0,short_name,wage_eur
0,K. De Bruyne,350000.0
1,K. Benzema,350000.0
2,L. Messi,320000.0
3,Casemiro,310000.0
4,T. Kroos,310000.0
5,R. Sterling,290000.0
6,Cristiano Ronaldo,270000.0
7,Neymar Jr,270000.0
8,R. Lewandowski,270000.0
9,M. Salah,270000.0


In [9]:
#  Порівняти з п.1 чи відповідають гравці з найвищими рейтингами найвищим зарплатам і навпаки

top_players_compared = top_players_ratings_df['short_name'].compare(top_salary_players_df['short_name'])

# Dataframe comparison shows that players with higher ratings do not respond to players with higher salaries.
top_players_compared

Unnamed: 0,self,other
0,L. Messi,K. De Bruyne
1,R. Lewandowski,K. Benzema
2,Cristiano Ronaldo,L. Messi
3,Neymar Jr,Casemiro
4,K. De Bruyne,T. Kroos
5,J. Oblak,R. Sterling
6,K. Mbappé,Cristiano Ronaldo
7,M. Neuer,Neymar Jr
8,M. ter Stegen,R. Lewandowski
9,H. Kane,M. Salah


In [13]:
# 3. Топ 30 воротарів з найвищим рейтингом

def top_goalkeepers_with_highest_ratings(n: int = 100):
    """
    Top N goalkeepers with the highest ratings
    :param n: number of top goalkeepers
    :return dataframe with top goalkeepers with the highest ratings
    """
    filtered_df = df[df["player_positions"].str.contains("GK")].dropna(subset=['overall'])
    
    return filtered_df[["short_name", "overall"]].sort_values(
        by="overall", ascending=False
    ).head(n).reset_index(drop=True)

top_goalkeepers_ratings_df = top_goalkeepers_with_highest_ratings(n=30)
top_goalkeepers_ratings_df

Unnamed: 0,short_name,overall
0,J. Oblak,91
1,M. ter Stegen,90
2,M. Neuer,90
3,T. Courtois,89
4,Ederson,89
5,Alisson,89
6,G. Donnarumma,89
7,K. Navas,88
8,H. Lloris,87
9,W. Szczęsny,87


In [15]:
# 4. Топ 30 воротарів з найвищим рейтингом

def top_goalkeepers_with_highest_ratings(n: int = 100):
    """
    Top N goalkeepers with the highest ratings
    :param n: number of top goalkeepers
    :return dataframe with top goalkeepers with the highest ratings
    """
    filtered_df = df[df["player_positions"].str.contains("GK")].dropna(subset=['overall'])
    
    return filtered_df[["short_name", "overall"]].sort_values(
        by="overall", ascending=False
    ).head(n).reset_index(drop=True)

top_goalkeepers_ratings_df = top_goalkeepers_with_highest_ratings(n=30)
top_goalkeepers_ratings_df

Unnamed: 0,short_name,overall
0,J. Oblak,91
1,M. ter Stegen,90
2,M. Neuer,90
3,T. Courtois,89
4,Ederson,89
5,Alisson,89
6,G. Donnarumma,89
7,K. Navas,88
8,H. Lloris,87
9,W. Szczęsny,87


In [17]:
# 5. Топ 30 команд в яких в середньому гравці мають найбільшу швидкість

def top_clubs_with_fastest_players(n: int = 100):
    """
    Top N clubs with the fastest players
    :param n: number of top clubs
    :return: dataframe with top clubs and mean of players speed
    """
    filtered_df = df[["club_name", "movement_sprint_speed"]].dropna(subset=["movement_sprint_speed"])

    result = filtered_df[["club_name", "movement_sprint_speed"]].groupby(
        by="club_name").agg({"movement_sprint_speed": "mean"})
    return result.sort_values(by="movement_sprint_speed", ascending=False).head(n)


top_clubs_fastest_df = top_clubs_with_fastest_players()
top_clubs_fastest_df

Unnamed: 0_level_0,movement_sprint_speed
club_name,Unnamed: 1_level_1
Juventus,73.153846
FC Red Bull Salzburg,72.75
Manchester City,72.03125
Napoli,72.0
SK Slavia Praha,71.892857
New York Red Bulls,71.88
São Paulo,71.65
Paris Saint-Germain,71.575758
Olympiacos CFP,71.5
FC Porto,71.461538


In [19]:
# 6. Топ усіх Ліг в яких зібрані найкращі дриблери. (dribbling)

def top_leagues_with_best_dribblers(n: int | None = None):
    """
    Top N leagues with the best dribblers
    :param n: number of top leagues
    :return: dataframe with top leagues with the best dribblers
    """
    clear_df = df[["league_name", "player_positions", "dribbling"]].dropna(subset=["dribbling"])

    # I'm removing GK, CB, LWB, RWB positions because these positions mostly don't have good dribbling skills
    # I also keep positions like LB, RB and others. Usually, players in these positions are the best dribblers.
    filtered_df = clear_df[~clear_df["player_positions"].isin(["GK", "CB", "LWB", "RWB"])]
    
    result = filtered_df[["league_name", "dribbling"]].groupby(
        by="league_name").agg(
        {"dribbling": "mean"}
    ).sort_values(by="dribbling", ascending=False)
    return result.head(n) if n else result
    
top_leagues_of_dribblers = top_leagues_with_best_dribblers()
top_leagues_of_dribblers

Unnamed: 0_level_0,dribbling
league_name,Unnamed: 1_level_1
Italian Serie A,71.926714
English Premier League,71.45567
Czech Republic Gambrinus Liga,71.1
Spain Primera Division,71.094378
French Ligue 1,70.400943
Ukrainian Premier League,70.292683
German 1. Bundesliga,70.246479
Greek Super League,69.659091
Croatian Prva HNL,68.45
Portuguese Liga ZON SAGRES,68.421333


In [21]:
# 7. Топ 30 команд з гравцями найвищого рейтингу враховуючи, що команда складається з 11 гравців, 
# серед яких обовʼязково 1 воротар, 4 захисники, 4 півзахисники, 2 нападники. (3 бали)

def top_teams_with_best_players(n: int = 100):
    """
    Top N teams with the best players
    :param n: number of top teams
    :return: dataframe of top teams with the best players
    """
    GOALKEEPERS_POSITION = ["GK"]
    DEFENDERS_POSITIONS = ["CB", "LB", "RB", "RWB", "LWB", "LCB", "RWB"]
    MIDFIELDERS_POSITIONS = ["LAM", "CAM", "RAM", "LCM", "CM", "RCM", "LM", "RM", "LDM", "CDM", "RDM"]
    FORWARDS_POSITIONS = ["LF", "CF", "RF", "LW", "RW", "LS", "ST", "RS"]

    clear_df = df[["club_name", "club_position", "overall"]].dropna(subset=["overall", "club_name", "club_position"])

    def get_best_player_of_club_position(positions: list, number_of_players: int = 1) -> pd.DataFrame:
        all_players = clear_df[clear_df["club_position"].isin(positions)]
        return all_players.groupby("club_name", as_index=False).apply(
            lambda x: x.nlargest(number_of_players, "overall")
        )

    goalkeepers_df = get_best_player_of_club_position(GOALKEEPERS_POSITION)
    defenders_df = get_best_player_of_club_position(DEFENDERS_POSITIONS, number_of_players=4)
    midfielders_df = get_best_player_of_club_position(MIDFIELDERS_POSITIONS, number_of_players=4)
    forwards_df = get_best_player_of_club_position(FORWARDS_POSITIONS, number_of_players=2)

    teams_df = pd.concat([goalkeepers_df, defenders_df, midfielders_df, forwards_df])

    filtered_df = teams_df.groupby(
        by="club_name", as_index=False
    ).agg({"overall": "mean"})

    return filtered_df.sort_values(by="overall", ascending=False).head(n).reset_index(drop=True)

top_teams_best_players = top_teams_with_best_players(n=30)
top_teams_best_players

  return all_players.groupby("club_name", as_index=False).apply(
  return all_players.groupby("club_name", as_index=False).apply(
  return all_players.groupby("club_name", as_index=False).apply(
  return all_players.groupby("club_name", as_index=False).apply(


Unnamed: 0,club_name,overall
0,Liverpool,87.333333
1,Paris Saint-Germain,86.777778
2,Manchester City,86.444444
3,Real Madrid CF,86.333333
4,FC Bayern München,85.888889
5,Manchester United,85.444444
6,Atlético de Madrid,85.333333
7,FC Barcelona,84.666667
8,Chelsea,83.777778
9,Juventus,83.777778
