In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import chi2_contingency
import scipy.stats as stats
import numpy as np
from sklearn.model_selection import train_test_split


          # analyse unidimentionelle quantitative
"""
  params: a dataframe 
  return : generating a set of descriptive statistics for a DataFrame or a Series
"""
def statistics_for_numeric_variables(data): 
  return data.describe()

"""
  The function displays the boxplot of a quantitative variable
  params : numeric variable of a dataframe
"""
def display_boxplot(col):
    sns.boxplot(data=col).set(xlabel=col.name)
    mean = col.mean()
    plt.axhline(y=mean, color='r', linestyle='--', label='Mean')
    plt.legend()
    plt.show()

"""
  la fonction affiche l'histogramme d'une variable numerique
  params : numeric variable of a dataframe
"""
def histogramme(numeric_column):
  plt.hist(numeric_column, bins=10)
  plt.title('Distribution de la variable',numeric_column.name)
  plt.xlabel(numeric_column.name)
  plt.ylabel('Fréquence')
  plt.show()



          # analyse unidimensionnelle qualitative:

#Identifier les catégories de la variable qualitative
def identify_categories(column):
  return column.unique()

#Calculer et representation graphique des pourcentages de chaque variable catégorielle
"""
  the function returns a pie plot representing the percentage of each category of a qualitative variable
  params : column of categorical variable 
  return : pie plot
"""
def pie_plot_of_categories(column):
  result=column.value_counts().apply(lambda x: x*column.shape[0]/100).to_dict()
  return plt.pie(result.values(), labels=result.keys(), autopct='%1.1f%%',shadow=True)

def frequency_table():
  return df["color"].value_counts().to_frame()


"""
    the function calculates the frequencies of a categorical variable, sorts the modalities in decreasing order of frequency,
   then calculation of the cumulative frequencies and the percentages of cumulative frequencies to after display a graph 
   representing the cumulative frequencies
   params : column of categorical variable
"""
def pareto_diagram(categorical_column):
  freq = categorical_column.value_counts()
  freq = freq.sort_values(ascending=False)
  cumfreq = freq.cumsum()
  totalfreq = sum(freq)
  percentcumfreq = (cumfreq/totalfreq)*100

  fig, ax1 = plt.subplots()
  ax1.bar(freq.index, freq.values, color='b')
  ax1.set_xlabel('Modalité')
  ax1.set_ylabel('Fréquence', color='b')
  ax1.tick_params(axis='y', labelcolor='b')
  # Création de la ligne de fréquence cumulée
  ax2 = ax1.twinx()
  ax2.plot(freq.index, percentcumfreq, color='r', marker='o')
  ax2.set_ylabel('Pourcentage de fréquence cumulée', color='r')
  ax2.tick_params(axis='y', labelcolor='r')

  plt.title('Diagramme de Pareto')
  plt.show()


              # analyse bidimensionnelle
              # qualitative * qualitative


"""
  The function builds the contingency table from the variables passed as parameters then displays the information returned by the latter in a bar plot
  params : represents columns of the dataframe
"""
def graphic_representation(categorical_variable_1,categorical_variable_2):
  contingency_table = pd.crosstab(categorical_variable_1, categorical_variable_2)

  # Création du diagramme en barres empilées
  contingency_table.plot(kind='bar', stacked=True)
  plt.title('Tableau de contingence entre',categorical_variable_1,' et ',categorical_variable_2)
  plt.xlabel('Variable1')
  plt.ylabel('Nombre d\'observations')
  plt.show()

# analyse bidimensionnelle sur les variables qualitatives

# test du chi-carré  et Le coefficient de contingence sont utiliséq pour 2 variables qualitatives

#Le test du chi-carré : est une méthode statistique utilisée pour évaluer l'indépendance entre deux variables qualitatives. 
#Le test du chi-carré compare les fréquences observées dans un tableau de contingence avec les fréquences attendues si les deux 
#variables étaient indépendantes. Si les fréquences observées sont significativement différentes des fréquences attendues, cela indique 
#une relation entre les variables.

#Le coefficient de contingence  cramer : est une mesure de la force de la relation entre deux variables qualitatives. Le coefficient de contingence
# varie de 0 à 1, où 0 indique l'absence de relation et 1 indique une relation forte.

#Le Khi2 ici nous indique donc qu’il existe une liaison entre les deux variables ; 
# le V de Cramer nous indique que cette liaison est très forte par sa valeur élevée.
# tableau de contingence entre 2 variable categorielles
"""
  The function from the contingency table of the 2 variables passed as a parameter, calculates the test of χ2 which indicates the link between the two quantitative variables
  params : represents columns of the dataframe
  return : the contingency table as well as the value of the χ2 and the p-value
"""
def contingency_table_chi2_contengency_coefficent(categorical_variable_1,categorical_variable_2):

  contingency_table=pd.crosstab(categorical_variable_1, categorical_variable_2)
  chi2, p_value, degres_liberte, _ = chi2_contingency(contingency_table)
  #contengency_coefficent=pg.cramers_v(contingency_table.values)

  return contingency_table, chi2,p_value

# χ2 = 0 si X et Y sont totalement indépendantes 
# χ2 est d’autant plus grand que la liaison entre X et Y est forte
 # ou bien on verifie par rapport à la p-value si p-value <= 5% x a un effet significatif sur Y
 # si p-value > 5% x n'a pas d'effet sur Y


               # qualitative * quantitative

#calculer la moyenne et l'écart-type de la variable quantitative pour chaque catégorie de la variable catégorielle

def mean_and_std_by_categorical_variable(categorical_variable,data):# data est un dataframe avec une 2 colonnes une categorielle et lautre numerique
# categorical_variable c'est le nom de la variable seulement 
  means = df.groupby(categorical_variable).mean()
  means=means.rename(columns={means.columns[0]:"mean"})

  stds = df.groupby(categorical_variable).std()
  stds=stds.rename(columns={stds.columns[0]:"std"})

  return pd.concat([means,stds],axis=1)
  
# data must have the categorical variable and the numeric variable that we want to calculate the fisher indicator
 # lien à utiliser pour (table de distribution): http://www.socr.ucla.edu/Applets.dir/F_Table.html avec df1= df_within et df2=df_within pour alpha=0,05
 #https://towardsdatascience.com/statistics-in-python-using-anova-for-feature-selection-b4dc876ef4f0
 # si l'indicateur de fisher < s5%(k ,n ), on conclura que x(categoriel) n'a pas d'effet significatif sur Y (on accepte l'hypothese nulle) => le x n'est pas inclu dans les features
 # si l'indicateur de fisher > s5%(k ,n ), on conclura que x(categoriel) a un effet significatif sur Y (on rejete l'hypothese nulle) => le x sera inclu dans les features
 # ou bien on verifie par rapport à la p-value si p-value <= 5% x a un effet significatif sur Y
 # si p-value > 5% x n'a pas d'effet sur Y
 
def fisher_indicator(categorical_variable,data,index): # data contient la variable categorielle et quantitative voulu et categorical_variable c'est le nom de la variable catégoriels 
  nb_categories=len(identify_categories(data[categorical_variable]))
  df=data.pivot(columns=categorical_variable, index=index) 
  df_within = df.shape[0] -  df.shape[1]      
  df_between = df.shape[1] - 1 
  fvalue, pvalue = stats.f_oneway( 
      *df.iloc[:,0:nb_categories].T.values)
  return pvalue 


"""
  La fonction affiche un ou plusieurs boxplots representant la distribution de la variable quantitative en fonction des differentes categories d'une variable qualitative 
  params :numeric_variable, categorical_variable : colonnes du dataframe

"""

def box_plot_of_variable_according_to_categorical_variable(numeric_variable,categorical_variable):
 return sns.boxplot(x=categorical_variable, y=numeric_variable, data=data,showmeans=True, meanprops={"color":"green"})


               # quantitative * quantitative

"""
  The function displays a scatter plot of 2 quantitative variables that graphically shows whether there is a correlation between them or not
  params : quantitative variables representing columns of the dataset
"""
def scatter_pot(x,y):
  fig, ax = plt.subplots(figsize=(10, 5))
  plt.plot(x,y,"ob") # ob = type de points "o" ronds, "b" bleus
  plt.title("Titre du graphique")
  plt.show()

"""
  the function displays the heatmap between 2 or more quatitative variables which represents the level of collinearity between the variables
  params : represents the dataframe with the quantitative variables
"""
def heatmap_plot(data):
  colormap = sns.color_palette("Greens")
  graph = sns.heatmap(data.corr(), annot=True, cmap=colormap)
  plt.show(graph.figure)

  # permet de faire la matrice de correlation
#La matrice de corrélation est un outil d'analyse de données qui permet d'analyser les relations linéaires entre deux ou plusieurs variables numériques
#Les coefficients de corrélation varient entre -1 et 1, où -1 indique une corrélation négative parfaite, 0 indique une absence de corrélation et 1 indique 
#une corrélation positive parfaite. Les coefficients de corrélation peuvent être calculés à l'aide de la corrélation de Pearson,
def correlation_matrix(data):
  return data.corr()


def relation_between_variables(p_value,threshold):
  if abs(p_value) <= threshold : # les variables sont dependantes
    return True
  else:
    return False

In [None]:
from sklearn.model_selection import RepeatedStratifiedKFold, KFold
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import RandomizedSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn import tree
import scikitplot as skplt
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
from sklearn.metrics import classification_report

def hyper_params_selection(method,algorithm,params):
  #cv = KFold(n_splits=10, shuffle=True, random_state=42)
  cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=42)
  if method=="GridSearchCV": 
    grid_search = GridSearchCV(estimator=algorithm, param_grid=params, n_jobs=-1, cv=cv, scoring="accuracy",error_score=0)
  elif method=="RandomizedSearchCV":
    grid_search=RandomizedSearchCV(algorithm, params, scoring='accuracy', cv=10)   
  return grid_search
                        

def load_dataset(data,target,test_size):
  input=data.loc[:, data.columns != target.name]
  X_train,X_test,y_train,y_test = train_test_split(input,target,test_size=test_size,random_state=42, stratify=target.values)
  return X_train,X_test,y_train,y_test

def knn_model():
  return KNeighborsClassifier()

def model_with_params(grid_result,algorithm):
  if algorithm == "knn":
    return KNeighborsClassifier(n_neighbors=grid_result.best_params_['n_neighbors'],weights=grid_result.best_params_["weights"],algorithm=grid_result.best_params_["algorithm"],metric=grid_result.best_params_["metric"],p=grid_result.best_params_["p"])
  elif algorithm == "logisticRegression":
    return ""
  elif algorithm == "DecisionTree":
    return ""

def _params(algorithm):
  if algorithm == "knn":
    n_neighbors = range(1, 21, 2)
    weights = ['uniform', 'distance']
    metric = ['euclidean', 'manhattan', 'minkowski']
    algorithm = ['auto','ball_tree','kd_tree','brute']
    p= [1, 2]
    params = dict(n_neighbors=n_neighbors,weights=weights,metric=metric,algorithm=algorithm,p=p)
  if algorithm=="logisticRegression":
    params={'C': [0.1, 1, 10], 
     'penalty': ['l1', 'l2','elasticnet'],
     'solver':['lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga']
     }

  return params

def model_without_params(algorithm):
    if algorithm == "knn":
      return KNeighborsClassifier()
    elif algorithm == "logisticRegression":
      return LogisticRegression()
    elif algorithm == "DecisionTree":
      return tree.DecisionTreeClassifier()

def heuristic_method(train,method_name,X_train,y_train):
  if method_name=="OvO":
    ovo = OneVsOneClassifier(train)
    ovo.fit(X_train, y_train)
    return ovo
  elif method_name=="OvR":
    ovr = OneVsRestClassifier(train)
    ovr.fit(X_train, y_train)
    return ovr
  elif method_name=="":
    fitted_data=train.fit(X_train, y_train)
    return fitted_data

# data represente tout le dataset
# model represente l'appel de l'algorithme dans les parametre
# test_size represente la taille du du test set est c'est 0.89.. qlq chose
# heuristic_method represente la methode à utiliser pour diviser les données de la target 
# target represente la classe output le y 
# selected_algorithm represente le nom de l'algorithme à utiliser 
# hyper_params_method represente la methode utiliser pour faire la bonne selection des hyperparametre

def training(target,selected_algorithm,test_size,hyper_params_method,encoding_method,data):# encoding_method : si on est pas en multiclasse 
                                                                                          # on va mettre une chaine vide

  X_train,X_test,y_train,y_test=load_dataset(data,target,test_size)
  model=model_without_params(selected_algorithm)
  grid=_params(selected_algorithm)
  grid_search=hyper_params_selection(hyper_params_method,model,grid)
  grid_result = grid_search.fit(X_train, y_train)

  train=model_with_params(grid_result,selected_algorithm)
  fitted_data= heuristic_method(train,encoding_method,X_train,y_train)

  return fitted_data,X_test,y_test


def prediction(fitted_data,X_test):# ovr ou ovo + X_test
  y_pred = fitted_data.predict(X_test)
  return y_pred

# Ce score est une mesure de la performance du modèle, qui représente le coefficient de détermination R². Le coefficient de
# détermination R² est une mesure de l'adéquation du modèle aux données
def score(X_test, y_test,fitted_data):
  return fitted_data.score(X_test, y_test)

def comparing_results(X_test,y_test,y_pred):
  df = X_test.copy()
  row_number=df.shape[1]+1
  df.insert(df.shape[1],"Actual",y_test, True)
  df.insert(row_number,"Predicted",y_pred, True)
  return df

def confusion_matrix(y_test,y_pred):
  skplt.metrics.plot_confusion_matrix(y_test,y_pred)

def rocCurve(X_test,y_test):
  #recall = TPR et specificity = FPR
  fpr, tpr, thresholds = roc_curve(y_test, fitted_data.predict_proba(X_test)[:,1])
  print("recall",tpr)
  print("specificity",1 - fpr)
  roc_df = pd.DataFrame({'recall': tpr, 'specificity': 1 - fpr})

  ax = roc_df.plot(x='specificity', y='recall', figsize=(4, 4), legend=False)
  ax.set_ylim(0, 1)
  ax.set_xlim(1, 0)
  # ax.plot((1, 0), (0, 1))
  ax.set_xlabel('specificity')
  ax.set_ylabel('recall')
  ax.fill_between(roc_df.specificity, 0, roc_df.recall, alpha=0.3)
  
  plt.tight_layout()
  plt.show()


# evaluation 

# y a que l'accuracy qui est definie comme metrique pour le binaire et le mutliclasses
def evaluation(y_test,y_pred):
  accuracy=accuracy_score(y_test, y_pred)
  report_f1_recall_precision=classification_report(y_test, y_pred)
  if len(set(y_pred))<=2:
    curve_roc=rocCurve(X_test,y_test)
    recall=recall_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    return accuracy,report_f1_recall_precision,curve_roc,recall,precision
  else:
    #La macro-precision est une métrique utilisée pour évaluer les performances d'un modèle de classification multi-classes. 
    #Elle calcule la précision pour chaque classe individuellement et calcule ensuite la moyenne de ces précisions pour donner une 
    #mesure globale de la performance du modèle.
    # si on a un desiquilibre des classes vaut mieux utiliser micro-precision sinon macro
    # Une valeur de macro-precision élevée indique que le modèle est capable de classer correctement un grand nombre de classes différentes
    precision=precision_score(y_test, y_pred, average="macro") 
    

