<h1 style="text-align:center;">Etape 1: Exploration de données(EDA) </h1>

L'Exploration de Données (EDA), également connue sous le nom de Data Exploration en anglais, est une phase cruciale dans le processus d'analyse de données. Elle consiste à examiner, résumer et visualiser les données pour mieux comprendre leur nature, leur structure, leurs modèles et leurs caractéristiques.

L'EDA est généralement la première étape entreprise par les analystes de données et les scientifiques des données avant de construire des modèles d'apprentissage automatique ou de prendre des décisions basées sur les données.

# Data Description  

Ce projet a pour objectif de mettre en place un système de prédiction des prix de voitures d'occasion en utilisant des critères spécifiques tels que la marque, la transmission, le type de carburant, le nombre d'anciens propriétaires, l'année de fabrication, et bien d'autres. Pour ce faire, nous utilisons des techniques de Machine Learning.

Notre approche consiste à développer un algorithme de Machine Learning capable de prendre en compte ces critères pour estimer de manière précise le prix d'une voiture d'occasion. Cette solution permettra aux utilisateurs d'obtenir une estimation fiable du prix d'une voiture d'occasion en se basant sur des informations clés, facilitant ainsi le processus d'achat ou de vente de véhicules d'occasion.

Le Machine Learning joue un rôle central dans ce projet en nous permettant d'exploiter les données existantes pour créer un modèle prédictif robuste. Grâce à l'analyse des données et à l'entraînement du modèle, nous pourrons fournir des prédictions de prix précises et personnalisées en fonction des caractéristiques spécifiques de chaque véhicule.

voici la signification des noms des colonnes :

    * feature name: Le nom de chaque colonne ou caractéristique dans l'ensemble de données.

    * year: L'année de fabrication ou de mise en circulation du véhicule.

    * selling_price: Le prix de vente du véhicule.

    * km_driven: Le nombre de kilomètres parcourus par le véhicule.

    * fuel: Le type de carburant utilisé par le véhicule (par exemple, essence, diesel, électrique, etc.).

    *  seller_type: Le type de vendeur (par exemple, vendeur individuel, concessionnaire, etc.).

    * transmission: Le type de transmission du véhicule (par exemple, manuelle, automatique).

    * owner: Le nombre de propriétaires précédents du véhicule.

    * mileage: La consommation de carburant du véhicule en termes de kilomètres par litre.

    * engine: La cylindrée du moteur du véhicule.

    * max_power: La puissance maximale du moteur du véhicule.

    * torque: Le couple du moteur du véhicule.

    * seats: Le nombre de places (sièges) dans le véhicule.
    
Les données originales proviennent de Vehicle dataset sur Kaggle URL: https://www.kaggle.com/datasets/nehalbirla/vehicle-dataset-from-cardekho?fbclid=IwAR1mCHhtXoBV8PZESSd6621bkUp7hTrrvmTid6VzgcAuTZJqtgw-zECtAXw


# 1. Importation des packages

In [1]:
import pandas as pd  # Importe la bibliothèque pandas pour la manipulation de données sous forme de dataframes.
import numpy as np   # Importe la bibliothèque numpy pour la manipulation de tableaux (arrays).

import matplotlib.pyplot as plt  # Importe la bibliothèque matplotlib pour la visualisation de données.
import seaborn as sns  # Importe la bibliothèque seaborn pour la visualisation de données basée sur matplotlib.

# 2. charger des données

In [2]:
data=pd.read_csv('./Data_csv/Car.csv') # lire

FileNotFoundError: [Errno 2] No such file or directory: './Data_csv/Car.csv'

# 3. Visualisation de données

In [None]:
data.head() #Affichage des premières lignes des données

In [None]:
# Utilisation de la méthode .shape pour obtenir les dimensions du dataframe Dimensions des données (nombre de lignes et de colonnes
dimensions = data.shape

# Affichage des dimensions
print(dimensions)


In [None]:
data.info() #Informations sur les données :

In [None]:
data.describe()

In [None]:
data.describe(include=object)
#obtenir des statistiques descriptives spécifiques aux colonnes de type objet (chaînes de caractères)

In [None]:
data['seller_type'].value_counts()
 # Comptage des valeurs

In [None]:
data.isna().sum()

In [None]:
data.boxplot()

### Matrice de coleration

La matrice de corrélation indique les valeurs de corrélation, qui mesurent le degré de relation linéaire entre chaque paire de variables.

In [None]:
import seaborn as sns

numeric_data = data.select_dtypes(include=['number'])
# matrice de correlation
correlation_matrix = numeric_data.corr()
#Diagramme de corrélation
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')

In [None]:
import matplotlib.pyplot as plt  # Importe la bibliothèque matplotlib pour la création de graphiques.
import seaborn as sns            # Importe la bibliothèque seaborn pour une visualisation améliorée.

def custom_bar_plot(data, col, figsize=(15, 7), rotation=0):

    plt.figure(figsize=figsize)  # Crée une nouvelle figure avec la taille spécifiée.

    # Crée un graphique à barres (countplot) en utilisant la colonne spécifiée et l'ordre des catégories.
    plot = sns.countplot(x=col, data=data, order=data[col].value_counts().index)

    plt.xticks(rotation=rotation)  # Fait pivoter les étiquettes sur l'axe des x (si rotation est non nul).

    # Ajoute des étiquettes au-dessus de chaque barre pour afficher le nombre de chaque catégorie.
    for p in plot.patches:
        plot.annotate(f'{p.get_height()}',
                      (p.get_x() + p.get_width() / 2.0, p.get_height()),
                      ha='center', va='center', xytext=(0, 5), textcoords='offset points')

    plt.xlabel(col)   # Définit le label de l'axe des x avec le nom de la colonne.
    plt.ylabel('Count')  # Définit le label de l'axe des y comme "Count".
    plt.title(f'Count of {col}')  # Définit le titre du graphique en fonction de la colonne spécifiée.
    plt.show()  # Affiche le graphique.

# Exemple d'utilisation
custom_bar_plot(data, 'fuel', figsize=(12, 6), rotation=45)  # Appelle la fonction .


In [None]:
data['fuel'].hist()

In [None]:
import pygwalker as pyg
walker = pyg.walk(
    data,
    spec="./chart_meta_0.json",    # this json file will save your chart state, you need to click save button in ui mannual when you finish a chart, 'autosave' will be supported in the future.
    use_kernel_calc=True,          # set `use_kernel_calc=True`, pygwalker will use duckdb as computing engine, it support you explore bigger dataset(<=100GB).
)

<h2 style="text-align:right;">Passer à l'étape 2 ...</h2>