**CSI 4506 Introduction à l'Intelligence Artificielle** <br/>
*Devoir 1 : Préparation des Données*

# Identification

Nom : Ken, Chan Thim <br/>
Numéro d'étudiant : 300208086

# Analyse Exploratoire

## Importer les bibliothèques importantes


In [1]:
# Votre code ici
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Lire un de données

Comme indiqué dans la description du devoir, il doit être possible pour les correcteurs d'exécuter votre notebook sans nécessiter de téléchargements.

Pour faciliter l'accès à l'ensemble de données sans nécessiter de téléchargements, utilisez les données fournies dans le dépôt public GitHub et fournissez un lien vers la version brute de l'ensemble de données.

Le lien vers la version brute est le suivant :

*https://raw.githubusercontent.com/NOM_UTILISATEUR_GITHUB/NOM_DÉPÔT/main/NOM_JEU_DONNÉES.csv*

Par exemple :

[https://github.com/turcotte/csi4106-f24/blob/main/assignments-data/a1/01/glass.csv](https://github.com/turcotte/csi4106-f24/blob/main/assignments-data/a1/01/glass.csv)

Maintenant, fournissez le lien vers VOTRE ensemble de données et lisez-le :


In [None]:
url = "https://raw.githubusercontent.com/K-nCh-n/CSI4506/refs/heads/main/Devoir1/datasets/01/glass.csv" # fournissez le lien vers la version brute de l'ensemble de données. Vous devez fournir un lien vers votre propre dépôt GitHub. NE PAS utiliser le lien fourni en exemple.

dataset = pd.read_csv(url)
dataset.head()

## Directives

Les questions suivantes sont pour le Devoir 1. Sous chaque question, nous avons fourni une cellule de code initiale. Vous êtes encouragés à ajouter des cellules de code supplémentaires pour maintenir une séparation logique de votre code. Par exemple, placez la définition d'une fonction dans une cellule et son exécution dans une cellule suivante. Cette approche aidera à préserver la clarté et à améliorer la lisibilité en évitant de placer trop de code dans une seule cellule.

1. **Analyse des valeurs manquantes** : Examinez les jeux de données pour identifier et évaluer les valeurs manquantes dans divers attributs. Les valeurs manquantes peuvent être représentées par des symboles tels que '?', des chaînes vides ou d'autres substituts.

    1.1 Parmi les options listées, quels sont les jeux de données qui contiennent des valeurs manquantes ? Plus précisément, quel attribut ou quels attributs ont des valeurs manquantes ?

    1.2 Décrivez la méthodologie utilisée pour cette investigation, et fournissez le code correspondant.

    1.3 L'imputation des données consiste à remplacer les données manquantes ou incomplètes par des valeurs substituées pour préserver l'intégrité de l'ensemble de données en vue d'analyses ultérieures. Proposez des stratégies d'imputation pour chaque attribut avec des valeurs manquantes.


In [None]:
dataset_directories = ["01/glass.csv", "02/dermatology_database_1.csv", "03/Maternal%20Health%20Risk%20Data%20Set.csv", "04/car.data", "05/WineQT.csv", "06/16P.csv", "07/train.csv"]
for directory in dataset_directories:
    print(f"# Dataset: ${directory}")
    url = "https://raw.githubusercontent.com/K-nCh-n/CSI4506/refs/heads/main/Devoir1/datasets/" + directory
    df = pd.read_csv(url)
    print(df.info())
    print(df.describe())
    print('\n-----\n')

In [4]:
placeholders = ['?', '', '_______', "#F%$D@*&8", "-500"] # list of placeholder values
def find_missing_values(url):
    df = pd.read_csv(url)
    df.replace(placeholders, np.nan, inplace=True) # replace placeholders with NaN 
    missing_values = df.isnull().sum() # count missing values
    if missing_values.any():
        return missing_values[missing_values > 0]
    else: 
        return "No missing values in dataset"

In [None]:
for directory in dataset_directories:
    print(f"# Dataset: ${directory}")
    url = "https://raw.githubusercontent.com/K-nCh-n/CSI4506/refs/heads/main/Devoir1/datasets/" + directory
    print(find_missing_values(url), end="\n-----\n")

### Methodology

#### Code 

> To investigate which attributes have missing values in the dataset, we create a function `find_missing_values` that will perform the following:
> - We define a list of placeholders that are used in the datasets.
> - We first replace missing values placeholders with `np.nan`. 
> - We use `df.isnull().sum()` to find how many missing values there are in each column. `df.isnull()` gives us a dataframe with the same shape, with `True` for missing values and `False` otherwise.
> - We can then return appropriate columns (contain missing values).

#### Exploration of Dataset Sources

Furthermore, if we go to the source of each dataset, we can find a description for each of them. This usually includes if the set contains missing values as well as the placeholder used. 
For instance, we find:

> ##### 1. Glass Identification Data Set
> 
> Missing Attribute Values: None
> 
> ##### 2. Dermatology Dataset (Multi-class classification)
> 
> Missing Attribute Values: 8 (in Age attribute). Distinguished with '?'. This represents about 2% of the values
> 
> ##### 3. Maternal Health Risk
> 
> Has Missing Values? No
> 
> ##### 4. Car Evaluation
> 
> Has Missing Values? No
> 
> ##### 5. Wine Quality Dataset
> 
> No information found about missing values
> 
> ##### 6. Personality classification Data: 16 Personalities
> 
> No information found about missing values
> 
> ##### 7. Credit score classification
>
> - Name: 9985 (10%)
> - Monthly_Inhand_Salary: 15.0k (15%)
> - Type_of_Loan: 11.4k (11%)
> - Num_of_Delayed_Payment: 7002 (7%)
> - Num_Credit_Inquiries: 1965 (2%)
> - Amount_invested_monthly: 4479 (4%)
> - Monthly_Balance: 1200 (1%)
>
> We can also see from the data that different placeholder values are used for each attributes.
> 
> - Name -> 'null'
> - Age -> '-500' (Also contains many abnormal values(>1000) and values that end in _)
> - Num_of_Delayed_Payment -> Contains many outliers, including negative values. Some values end in _
> - SSN -> '#F%$D@*&8'
> - Occupation -> '_______'
> - Num_Bank_Accounts -> '-1' ? (Also contains rows with hundreds or even thousands)


In [None]:
df_2 = pd.read_csv('https://raw.githubusercontent.com/K-nCh-n/CSI4506/refs/heads/main/Devoir1/datasets/02/dermatology_database_1.csv')

df_2.replace(placeholders, np.nan, inplace=True)
df_2.dropna(inplace=True)
df['age'] = df['age'].astype(int)


print(df_2['age'].mean())
print(df_2['age'].median())

sns.boxplot(x='age', data=df_2)
plt.show()

In [None]:
df_7 = pd.read_csv('https://raw.githubusercontent.com/K-nCh-n/CSI4506/refs/heads/main/Devoir1/datasets/07/train.csv')

df_7["Type_of_Loan"] = df_7["Type_of_Loan"].replace("and", "", regex=True).str.split(",") # replace "and" with empty string because there is already a comma
df_7 = df_7.explode("Type_of_Loan") # split Type_of_Loan into multiple rows

df_7["Type_of_Loan"].value_counts().plot(kind='bar')
plt.show()

### Imputation Strategies

#### We could use the following imputation strategies for each attribute:

> 2. Dermatology Dataset (Multi-class classification)
> 
> - Age: Replacement with mean as the data seems to be normally distributed with mean of 36.3 and median 35
>
> 7. Credit score classification
>
> - Drop the "**Name**" attribute since it's not useful for analysis.
> - Use **KNN imputation** for "**Monthly Inhand Salary**," "**Amount Invested Monthly**," and "**Monthly Balance**" because these values can likely be predicted based on other attributes.
> - Replace missing values with the **median** for "**Number of Delayed Payments**" and "**Number of Credit Inquiries**" due to the presence of high outliers.
> - For "**Type of Loan**', we will **not apply any imputation** strategies as people can have multiple loans and there does not seem to be a clear trend or pattern in the data.


2. **Sélectionnez et familiarisez-vous avec une tâche de classification :** Choisissez l'un des jeux de données fournis pour une exploration plus approfondie. Il est conseillé de sélectionner un jeu de données contenant un nombre suffisamment important d'exemples, idéalement environ 1 000, pour garantir des résultats robustes lors de l'application des algorithmes d'apprentissage automatique dans le devoir suivant.

    2.1 Quel est l'objectif de la tâche ? Est-elle destinée à une application spécifique ? Possédez-vous une expertise dans ce domaine d'application particulier ?


> I chose the wine quality dataset (5). The dataset aims at creating a model to predict the quality of a wine based on the various chemicals present in it. This can be considered as a **classification task** since the quality attribute has discrete integer values.

In [None]:
# Votre code ici
chosen = 5
url = "https://raw.githubusercontent.com/K-nCh-n/CSI4506/refs/heads/main/Devoir1/datasets/" + dataset_directories[chosen-1]
df = pd.read_csv(url)
df.head()

In [None]:
df.describe()

3. **Analyse des attributs** : 

    3.1 Déterminez quels attributs manquent d'informativité et devraient être exclus pour améliorer l'efficacité de l'analyse d'apprentissage automatique. Si toutes les caractéristiques sont jugées pertinentes, indiquez explicitement cette conclusion.

    3.2 Examinez la distribution de chaque attribut (colonne) au sein de l'ensemble de données. Utilisez des histogrammes ou des boxplots pour visualiser les distributions, en identifiant les motifs sous-jacents ou les valeurs aberrantes.


In [8]:
# the id attribute can be dropped as it does not provide any useful information
df.drop('Id', axis=1, inplace=True)

In [None]:
# Votre code ici
plt.subplots(4, 3, figsize=(12,12))
for i, attribute in enumerate(df.columns):
    plt.subplot(4, 3, i+1)
    plt.hist(df[attribute])
    plt.title(attribute)

In [None]:
plt.subplots(4, 3, figsize=(12,12))
for i, attribute in enumerate(df.columns):
    plt.subplot(4, 3, i+1)
    plt.boxplot(df[attribute])
    plt.title(attribute)

> | Attribute              | Description                                                             |
> |------------------------|-------------------------------------------------------------------------|
> | Fixed Acidity          | Right skew (positive skew). Some outliers on the higher side.          |
> | Volatile Acidity       | Peaks at lower values, with a few higher outliers.                     |
> | Citric Acid            | Right skew (positive skew), with some outliers on the higher end.      |
> | Residual Sugar         | Mostly low values, with many high outliers.                            |
> | Chlorides              | Mostly low values, with many high outliers.                            |
> | Free Sulfur Dioxide    | Right skew (positive skew), with some high outliers.                   |
> | Total Sulfur Dioxide   | Right skew (positive skew), with many high outliers.                   |
> | Density                | Looks like a narrow normal distribution with outliers on both sides.   |
> | pH                     | Normal distribution with some outliers.                                |
> | Sulphates              | Mostly low, with several high outliers.                                |
> | Alcohol                | Right skew (positive skew), with some high outliers.                   |
> 

In [11]:
def sns_pairplot(df, col):
    df[col] = df[col].astype('category')
    sns.pairplot(df, hue=col)
    plt.suptitle(f"Dataset {chosen} - Pairplot")
    plt.show()
# sns_pairplot(df, "quality")

4. **Analyse de la distribution des classes** : Examinez la distribution des étiquettes de classe au sein jeu de données. Utilisez des diagrammes en barres pour visualiser la fréquence des instances pour chaque classe et évaluez si l'ensemble de données est équilibré ou déséquilibré.


In [None]:
# Votre code ici
plt.hist(df["quality"])

> ### As mentioned in the dataset description, we can see that the set is unbalanced and contains more "average" wines that really good or really bad ones

5. **Prétraitement** : 

    5.1 Pour les attributs numériques, déterminez la meilleure transformation à utiliser. Indiquez la transformation qui semble appropriée et pourquoi. Incluez le code illustrant comment appliquer la transformation. Pour au moins un attribut, montrez la distribution avant et après la transformation. Voir [Prétraitement des données](https://scikit-learn.org/stable/modules/preprocessing.html).

    5.2 Pour les attributs catégoriels, montrez comment appliquer [l'encodage one-hot](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html). Si votre ensemble de données ne contient pas de données catégorielles, montrez comment appliquer l'encodeur one-hot à l'étiquette (variable cible).


In [None]:
# Votre code ici
plt.subplots(1, 2, figsize=(15, 5))

attribute = 'total sulfur dioxide'
plt.subplot(1, 2, 1)
sns.histplot(df[attribute])
plt.title(attribute)

from sklearn import preprocessing
df_after = df.copy()
df_after[attribute] = preprocessing.PowerTransformer().fit_transform(df[[attribute]])

plt.subplot(1, 2, 2)
sns.histplot(df_after[attribute])
plt.title(attribute)


6. **Données d'entraînement et cible** : Définissez la variable Python `X` pour désigner les données et `y` pour désigner la classe cible. Assurez-vous de sélectionner uniquement les caractéristiques informatives.


In [14]:
# Votre code ici
X  = df.drop('quality', axis=1) #id attribute has already been dropped previously
y = df['quality']

7. **Ensembles d'entraînement et de test** : Divisez l'ensemble de données en ensembles d'entraînement et de test. Réservez 20 % des données pour les tests.


In [15]:
# Votre code ici
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

--------------------------------------------------------------------------

# Références

Assurez-vous de fournir des références à TOUTES les sources utilisées (articles, code, algorithmes).

## Transcription AI
**Indice :** Pour partager un lien vers votre notebook Colab, cliquez sur "share" en haut à droite. Ensuite, sous *Accès général*, changez *Restreint* en "Toute personne avec le lien".