# Notebook pour le challenge numpy

In [1]:
import numpy as np
import pandas as pd


def prepare_data():
    
    """Pour commencer, il faut préparer les données pour les utiliser dans la régression.
    La dataframe marathon_df comporte les données suivantes :
    - le nombre de secondes du marathon
    - l'année
    - estParis (1 si la ville est Paris, 0 sinon)
    - estBerlin (1 si la ville est Berlin, 0 sinon)"""
    
    marathon_df = pd.read_csv("data/marathon.txt", sep="\t", names=["city", "year", "time", "seconds"])

    estPARIS = []
    estBERLIN = []
    for index, row in marathon_df.iterrows():
        if row[0] == "PARIS": 
            estPARIS.append(1)
            estBERLIN.append(0)
        elif row[0] == "BERLIN": 
            estPARIS.append(0)
            estBERLIN.append(1)
        else: 
            estPARIS.append(0)
            estBERLIN.append(0) 
            
    marathon_df["in Paris"] = estPARIS
    marathon_df["in Berlin"] = estBERLIN
    marathon_df.drop(["city", "time"], axis=1, inplace=True)

    return marathon_df

def compute_coefficients(X, Y):
    
    """Cette fonction calcule et renvoit la matrice A qui contient les coefficients que l'on cherche"""
    
    X = np.mat(X)
    Y = np.mat(Y)
    
    # Cette ligne transforme le vecteur ligne Y en vecteur colonne (nécessaire pour pouvoir calculer X.T * Y)
    Y = Y.T
    A = ((X.T * X).I) * X.T * Y
    
    return A

def perform_regression(dataset):
    
    """Cette fonction répartir les données en deux dataframes x (entrée) et y (sortie)"""
    
    x_df = dataset[["year", "in Paris", "in Berlin"]]
    y_df = dataset["seconds"]
    x_matrix = x_df.to_numpy()
    y_matrix = y_df.to_numpy()
    
    print("Coefficients calculés par la régression linéaire :")
    print(compute_coefficients(x_matrix, y_matrix))
    
    
df = prepare_data()
perform_regression(df)

Coefficients calculés par la régression linéaire :
[[  3.98807104]
 [-13.47591572]
 [-23.91576442]]
