# InsightML

## Library

In [None]:
import csv
import itertools
import json
import pandas as pd 

## Magic Format

In [None]:

def about_my_csv(filename):
    # Ouvrir le fichier en mode lecture et détecter le format de délimitation de colonne
    with open(filename, 'r', newline='') as csvfile:
        dialect = csv.Sniffer().sniff(csvfile.read(1024))
    return dialect

def about_my_xls(filename):
    # Lire le fichier Excel en utilisant le module openpyxl et sans en-têtes de colonne
    df_temp = pd.read_excel(filename, engine='openpyxl', header=None)
    # Détecter le format de délimitation de colonne à l'aide de la fonction csv.Sniffer().sniff()
    dialect = csv.Sniffer().sniff(df_temp.to_csv(index=False, header=False))
    return dialect

def about_my_json(filename):
    # Lire le fichier Json pour récuperer la donnée
    with open(filename, 'r') as f:
        data = f.read()
    # Détecter le format du fichier JSON
    try:
        json.loads(data)
        orient = 'records'
    except ValueError:
        orient = 'columns'
    return orient

def about_my_h5(filename):
    # Lire les clés disponibles dans le fichier HDF5
    with pd.HDFStore(filename, mode='r') as store:
        keys = store.keys()

    # Trouver la clé correspondant au plus grand ensemble de données
    max_size = 0
    max_key = None
    for key in keys:
        size = pd.read_hdf(filename, key=key, stop=0).memory_usage(index=True, deep=True).sum()
        if size > max_size:
            max_size = size
            max_key = key
    return max_key


## Importation

In [None]:

path_to_file = 'chemin/vers/fichier.csv'

extention = path_to_file.split('.')[-1]

if extention == 'csv':
    # Infos format about my csv.
    my_dialect = about_my_csv(path_to_file)
    # Make dataframe.
    df = pd.read_csv(path_to_file, dialect=my_dialect)

elif extention in ['xls', 'xlsx','xlsm','xlsb']:
    # Infos format about my excel.
    my_dialect = about_my_csv(path_to_file)
    # Make dataframe.
    df = pd.read_excel(path_to_file, engine='openpyxl', delimiter=my_dialect.delimiter)

elif extention == 'json':
    # Infos format about my json.
    my_orient = about_my_csv(path_to_file)
    # Make dataframe.
    df = pd.read_json(path_to_file, orient=my_orient)

elif extention == 'h5':
    # Infos format about my json.
    my_key = about_my_h5(path_to_file)
    # Make dataframe
    df = pd.read_hdf(path_to_file, key=my_key, mode='r')

else: 
    print('format non pris en charge')
    print('Option à venir : SQL, Parquet, Feather, Pickle, HTML, XML')

## Supp Colonnes

In [None]:
# Calcul du pourcentage de lignes vides pour chaque colonne
pourcentage_lignes_vides = df.isna().sum() / len(df)

# Sélection des colonnes à conserver (celles ayant moins de 30% de lignes vides)
colonnes_a_conserver = pourcentage_lignes_vides[pourcentage_lignes_vides <= 0.3].index

# Création d'un nouveau DataFrame ne contenant que les colonnes à conserver
df = df[colonnes_a_conserver]

## Supp lignes

In [None]:
# Calculer le pourcentage de valeurs manquantes dans chaque ligne
missing_pct = df.isnull().sum(axis=1) / df.shape[1]

# Calculer le seuil de tolérance en nombre de colonnes sans valeurs
threshold = 0.15 * df.shape[1]

# Supprimer les lignes dont le nombre de colonnes sans valeurs est supérieur au seuil de tolérance
df = df.dropna(thresh=df.shape[1]-threshold)

## DateTime

In [None]:
# Identifier les colonnes de type datetime
date_cols = [col for col in df.columns if df[col].dtype == 'datetime64[ns]']

# Vérifier s'il y a au moins deux colonnes de date
if len(date_cols) < 2:
    raise ValueError('Il n\'y a pas assez de colonnes de date pour faire des différences de temps.')
else:
    # Normaliser les dates sur UTC
    for date_col in date_cols:
        df[date_col] = df[date_col].dt.tz_convert('Etc/UTC')

    # Créer toutes les combinaisons de colonnes de date
    list_date_cols = list(itertools.combinations(date_cols, 2))

    # Calculer la différence de temps entre chaque paire de colonnes de date
    for paire_date in list_date_cols:
        first_date = paire_date[0]
        second_date = paire_date[1]

        df[f'{first_date}_x_{second_date}'] = (df[second_date] - df[first_date]).dt.total_seconds()

# Convertion en attribut.
for date_col in date_cols:
    # Ajouter les colonnes pour chaque attribut de date
    df[f'{date_col}_year'] = df[date_col].dt.year
    df[f'{date_col}_day_of_year'] = df[date_col].dt.dayofyear
    df[f'{date_col}_day_of_week'] = df[date_col].dt.dayofweek
    df[f'{date_col}_hour'] = df[date_col].dt.hour
    df[f'{date_col}_minute'] = df[date_col].dt.minute
    df[f'{date_col}_second'] = df[date_col].dt.second
    df[f'{date_col}_microsecond'] = df[date_col].dt.microsecond

    df.drop(date_col, axis=1, inplace=True)


# Extraire : Year, Month, Day, Hour, Minute, Second, Microsecond

#### DateTime
Convertir en UTC pour normaliser la date, 
Puis extraire : Year, Month, Day, Hour, Minute, Second, Microsecond.

#### Int, Float
Gérer comme des données catégoriels si moins de 8 valeurs différentes.
Suppressions valeurs abérantes et loin de l'écart type. 
Supprimer les colonnes contenant trop d'informations manquantes. (% 10)


#### Bool, Str 
Gérer comme des données numériques si que des chiffres.
Remplacer les nulls par une valeur "Manquante"
Réduire les termes à moins de 10 % en catégorie "Autre". 
Si la catégorie "Autre" fait moins de 5 % ou est l'unique catégorie restante, supprime la colonne. 

#### Lignes 
supression valeur aberante
supprimer variables explicative ultra corrélées à + 90 %

#### Par la suite
Détecter format carte bancaire, etc. 
Convertir adresse en format lat.nlong
Convertir les listes en catégories quand c'est possible.
Differences entre les dates.
...

### Regression 

#### Séparation variable explicative et target 
X
Y

#### Séparation en Entrainement & Test
X_train X_test 
!!! Stratify si Y valeur catégoriel 

#### Régler déséquilibre dataset
pour une différence supérieur à 10%, 
à noté par la suite qu'une meilleur approche est de faire attention :
à la précision, le rappel, la F1-score et l'aire sous la courbe ROC. 

In [None]:
from imblearn.under_sampling import RandomUnderSampler

rUs=RandomUnderSampler()
X_ru, y_ru = rUs.fit_resample(X_train,y_train)

#### Pipeline 
numeric_features, categorical_features, preprocessor, StandardScaler....

#### Training Model 
Logistic Regression
Linear Regression
Random Forest Classifier
Random Forest Classifier 

### Result 

#### Qualitatif (Classification)
Accuracy 

#### Quantitatif (Numérique)
R2

#### Grid search : Random Forest Classifier
Accuracy
F1

#### Grid search : Random Forest Regressor 
print('MAE: ', mean_absolute_error(y_test, y_pred))
print('MSE: ', mean_squared_error(y_test, y_pred)) 

## Affichage