# Importation

In [12]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression

In [13]:
df_offensive = pd.read_csv('Offensive_Whoscored_Data.csv')
df_passing = pd.read_csv('Passing_Whoscored_Data.csv')
df_summary = pd.read_csv('Summary_Whoscored_Data.csv')
df_defensive = pd.read_csv('Defensive_Whoscored_Data.csv')

# Combined all database

In [15]:
def merge_dataframes(dataframes):
    """
    Fusionne plusieurs dataframes en utilisant les colonnes qui se retrouvent dans chaque dataframe
    en tant que clés de fusion.

    :param dataframes: une liste de dataframes à fusionner.
    :return: le dataframe fusionné.
    """
    df_merged = dataframes[0]

    for i in range(1, len(dataframes)):
        df_merged = pd.merge(df_merged, dataframes[i], on=list(set(df_merged.columns) & set(dataframes[i].columns)), how="outer")

    return df_merged

In [16]:
# Fusionner les dataframes
dataframes = [df_offensive, df_defensive, df_summary, df_passing]
df_merged = merge_dataframes(dataframes)

In [6]:
df_merged

Unnamed: 0,Name,Team,Age,Position,Apps,Minutes,Total goals,Total Assists,Shots per game,Key passes per game,...,Total Goals,Yellow cards,Red cards,Pass success percentage,Aerials won per game,Man of the match,Passes per game,Crosses per game,Long balls per game,Through balls per game
0,Kevin De Bruyne,Man City,31,"M(CLR),FW",25(5),2205,15,8,2.6,2.9,...,15,2,0,82.5,0.4,4,45.3,1.0,2.4,0.3
1,Mohamed Salah,Liverpool,30,"AM(CLR),FW",30(5),2763,23,13,4.0,1.8,...,23,1,0,79.9,0.2,7,30.8,0.2,0.5,0.3
2,Trent Alexander-Arnold,Liverpool,24,"D(R),M(R)",32,2854,2,12,1.6,2.8,...,2,2,0,78.1,0.5,5,67.3,2.6,6.3,0.3
3,Son Heung-Min,Tottenham,30,"M(CLR),FW",35,3021,23,7,2.5,2.1,...,23,2,0,86.6,0.5,6,29.0,1.2,0.5,0.1
4,Harry Kane,Tottenham,29,"AM(C),FW",36(1),3232,17,9,3.6,1.4,...,17,5,0,70.3,2.0,7,23.6,0.2,1.8,0.3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
53338,Simon Sohm,Parma Calcio 1913,21,M(C),8(10),894,,0,,0.2,...,,,,84.5,,,23.3,0.0,0.8,0.0
53339,Eduardo Henrique,Crotone,27,M(C),8(10),921,,0,,0.3,...,,,,82.2,,,21.8,0.0,0.4,0.0
53340,Andrea Rispoli,Crotone,34,"D(R),M(R)",5(14),649,,0,,0.5,...,,,,72.0,,,12.8,0.4,0.4,0.0
53341,Alassane Plea,Borussia M.Gladbach,29,"AM(CLR),FW",19(10),1807,,1,,1.0,...,,,,75.3,,,22.3,0.2,0.6,0.1


In [None]:
df_merged

In [7]:
df_merged = df_merged.loc[:,~df_merged.columns.duplicated()]

In [8]:
# Liste des valeurs manquantes à remplacer
missing_values = ['', ' ', '-', '--', 'NA', 'N/A', 'n/a', 'NaN', 'nan', '.', '..', '...']

# Remplacer les valeurs manquantes par NaN
df_summary_null = df_merged.replace(missing_values, pd.NA)
# Compter le nombre de valeurs nulles pour chaque colonne
null_counts = df_summary_null.isna().sum()

# Afficher le nombre de valeurs nulles pour chaque colonne
print(null_counts)

Name                            0
Team                            0
Age                             0
Position                        0
Apps                            0
Minutes                         0
Total goals                 35547
Total Assists               35084
Shots per game              25735
Key passes per game         26008
Dribble                     48452
Fouled per game             24273
Offsides per game           24440
Dispossessed per game       26147
Bad control per game        27534
Rating                          0
League                          0
Saison                          0
Dribbles per game           32044
Tackles per game            25134
Interceptions per game      25816
Fouls per game              25042
Clearances per game         24912
Dribbled past per game      25741
Outfield blocks per game    32891
Own goals                   47404
Total Goals                 35541
Yellow cards                28640
Red cards                   44684
Pass success p

In [9]:

null_counts = df_merged.isna().sum()

# Afficher le nombre de valeurs nulles pour chaque colonne
print(null_counts)

Name                            0
Team                            0
Age                             0
Position                        0
Apps                            0
Minutes                         0
Total goals                 21257
Total Assists               20529
Shots per game              20893
Key passes per game         20893
Dribble                     48452
Fouled per game             21257
Offsides per game             728
Dispossessed per game       21257
Bad control per game        21257
Rating                          0
League                          0
Saison                          0
Dribbles per game           26148
Tackles per game            21544
Interceptions per game      21544
Fouls per game              21544
Clearances per game         21544
Dribbled past per game      21544
Outfield blocks per game    21544
Own goals                   21544
Total Goals                 21251
Yellow cards                21251
Red cards                   21251
Pass success p

In [10]:
def drop_rows_with_many_nan(df, threshold):
    # Compter le nombre de NaN par ligne
    nan_count = df.isna().sum(axis=1)
    
    # Sélectionner les lignes qui ont moins de NaN que la limite
    index_to_keep = nan_count[nan_count <= threshold].index
    
    # Retourner le dataframe sans les lignes qui ont trop de NaN
    return df.loc[index_to_keep]

In [11]:
# Supprimer les lignes avec plus de 16 NaN, choisis car 8 colonnes sont sure d'être écrite.
# On décide de garder 72,2% des colonnes pleines 
df_merged = drop_rows_with_many_nan(df_merged, threshold=16)

# Brouillon

In [None]:
df_merged['Position'].value_counts()['GK']

In [None]:
# Supprimer la colonne "Own goals" car trop de valeurs vides
df_merged = df_merged.drop("Own goals", axis=1)

In [None]:
def fill_missing_values(df):
    """
    Remplit les valeurs manquantes d'un DataFrame en utilisant la méthode des moindres carrés pour estimer les coefficients d'influence de chaque colonne sur les autres.
    
    Arguments:
    - df: DataFrame avec des colonnes contenant des valeurs manquantes
    
    Returns:
    - DataFrame avec les valeurs manquantes remplies
    """
    # Parcourt chaque colonne du DataFrame
    for column in df.columns:
        # Vérifie si la colonne contient des valeurs manquantes
        if df[column].isnull().sum() > 0:
            # Crée une copie du DataFrame sans la colonne en cours de traitement
            X = df.drop(columns=[column])
            # Supprime toutes les lignes avec des valeurs manquantes
            X = X.dropna()
            # Crée un tableau avec les valeurs de la colonne en cours de traitement, sans les valeurs manquantes
            y = X[[column]].values.reshape(-1, 1)
            # Supprime la colonne en cours de traitement du DataFrame original
            X_test = df.drop(columns=[column])
            # Crée un tableau avec les valeurs de la colonne en cours de traitement à remplir, sans les valeurs manquantes
            y_test = X_test[column].dropna().values.reshape(-1, 1)
            # Supprime les lignes correspondantes dans le DataFrame original
            X_test = X_test.dropna()
            # Crée un modèle de régression linéaire
            model = LinearRegression()
            # Entraîne le modèle sur les données sans les valeurs manquantes
            model.fit(X, y)
            # Estime les coefficients d'influence de chaque colonne sur la colonne en cours de traitement
            coefficients = model.coef_.flatten()
            # Remplit les valeurs manquantes en utilisant la méthode des moindres carrés
            for i, row in X_test.iterrows():
                if np.isnan(df.loc[i, column]):
                    values = row.values
                    values = np.delete(values, np.argwhere(np.isnan(values)))
                    prediction = np.dot(values, coefficients)
                    df.loc[i, column] = prediction
    return df

In [1]:
df_filled = fill_missing_values(df_merged)

NameError: name 'fill_missing_values' is not defined

In [None]:
def drop_rows_with_many_nan(df, threshold):
    # Compter le nombre de NaN par ligne
    nan_count = df.isna().sum(axis=1)
    
    # Sélectionner les lignes qui ont moins de NaN que la limite
    index_to_keep = nan_count[nan_count <= threshold].index
    
    # Retourner le dataframe sans les lignes qui ont trop de NaN
    return df.loc[index_to_keep]

In [None]:
# Supprimer les lignes avec plus de 16 NaN, choisis car 8 colonnes sont sure d'être écrite.
# On décide de garder 72,2% des colonnes pleines 
df_merged = drop_rows_with_many_nan(df_merged, threshold=16)