## **MediCharge-Predictor**
Un projet de Machine Learning pour prédire les charges d’assurance maladie avec une précision optimale, basé sur des techniques de régression et d’optimisation des modèles.

### **Pandas** :
La bibliothèque <code>Pandas</code> est une bibliothèque open-source de Python spécialisée dans la manipulation et l’analyse de données. Elle fournit des structures de données puissantes et flexibles, principalement les objets Series (vecteurs à une dimension) et DataFrame (tableaux de données à deux dimensions, semblables à des feuilles Excel ou des tables SQL), qui facilitent le traitement, le nettoyage et la transformation des données. Grâce à Pandas, il devient simple de charger, explorer, filtrer, agréger et visualiser des jeux de données provenant de différentes sources (CSV, Excel, bases de données, etc.), ce qui en fait un outil incontournable en data science, machine learning et analyse statistique.

#### **1. Importation des Données :**

In [None]:
import pandas as pd

data = pd.read_csv('../data/raw/data.csv')

#### **2. Vérification des Types et la Structure des Colnnes :**

En Pandas, <code>data.columns</code> sert à afficher ou modifier la liste des noms de colonnes d’un DataFrame.

In [None]:
import pandas as pd

data = pd.read_csv('../data/raw/data.csv')

print(data.columns)

<code>data.info()</code> est une méthode de Pandas qui donne un résumé complet du DataFrame. Elle affiche :

- Le nombre total de lignes et de colonnes.

- Les noms de colonnes.

- Le nombre de valeurs non nulles (non manquantes) par colonne.

- Le type de données (<code>dtypes</code>) de chaque colonne.

In [None]:
import pandas as pd

data = pd.read_csv('../data/raw/data.csv')

print(data.info())

#### **3. Les Types des Données :**

En Pandas, <code>data.dtypes</code> sert à afficher le type de données de chaque colonne d’un DataFrame.

In [None]:
import pandas as pd

data = pd.read_csv('../data/raw/data.csv')

print(data.dtypes)

#### **4. Les Dimensions du Dataset :**

En Pandas, <code>data.shape</code> est une propriété qui donne les dimensions d’un DataFrame sous forme d’un tuple : <code>(nbr_lignes, nbr_colonnes)</code>

In [None]:
import pandas as pd

data = pd.read_csv('../data/raw/data.csv')

print(data.shape)

#### **5. Aperçu du Dataset :**

En Pandas, <code>data.head()</code> sert à afficher les premières lignes d’un DataFrame.
Par défaut, il montre les 5 premières lignes, mais tu peux préciser un nombre entre les parenthèses.

In [None]:
import pandas as pd

data = pd.read_csv('../data/raw/data.csv')

print(data.head())       # par défaut affiche 5 premières lignes
print(data.head(3))      # affiche seulement 3 premières lignes

En Pandas, <code>data.tail()</code> est une méthode qui sert à afficher les dernières lignes d’un DataFrame. Par défaut, elle montre les 5 dernières lignes, mais tu peux préciser un nombre entre les parenthèses.

In [None]:
import pandas as pd

data = pd.read_csv('../data/raw/data.csv')

print(data.tail())       # par défaut affiche 5 premières lignes
print(data.tail(3))      # affiche seulement 3 premières lignes

#### **6. Analyse Descriptive des Données :**

<code>L’analyse descriptive</code> des données (ou <code>statistiques descriptives</code>) est une étape essentielle qui permet de comprendre et résumer un jeu de données avant toute analyse plus complexe ou modélisation.

Elle sert à :

- **Résumer les données :** connaître des mesures comme la <code>moyenne</code>, la <code>médiane</code>, le <code>minimum</code>, le <code>maximum</code>, <code>l’écart-type</code> ou les <code>quartiles</code>.

- **Identifier les tendances et la distribution :** voir si les données sont centrées, dispersées ou biaisées.

- **Détecter les anomalies ou valeurs extrêmes :** repérer des erreurs ou des points aberrants.

- **Faciliter la visualisation et la prise de décision :** avoir une idée rapide des caractéristiques principales du jeu de données.

##### **6.1. Analyse Descriptive Quantitative :**

Porte sur les données numériques (nombres entiers ou décimaux).Elle sert à : 

- Résumer et caractériser ces données avec des mesures statistiques :

- Mesures de tendance centrale : <code>moyenne</code>, <code>médiane</code>, <code>mode</code>.

- Mesures de dispersion : <code>écart-type</code>, <code>variance</code>, étendue (<code>max-min</code>), <code>quartiles</code>.


En Pandas, on utilise souvent la méthode <code>data.describe()</code> pour obtenir rapidement ces statistiques sur les colonnes numériques.

In [None]:
import pandas as pd

data = pd.read_csv('../data/raw/data.csv')

print(data.describe())

##### **6.2. Analyse Descriptive Qualitative:**

Porte sur les données catégorielles ou textuelles (nom, ville, genre, catégorie, etc.).

Elle sert à résumer la fréquence et la répartition des valeurs :

- Nombre de valeurs uniques

- Valeur la plus fréquente (mode)

- Comptage des occurrences

En Pandas, pour faire une analyse descriptive qualitative (catégorielle) avec <code>describe()</code>, il faut spécifier les colonnes catégorielles ou inclure tous les types.

In [None]:
import pandas as pd

data = pd.read_csv('../data/raw/data.csv')

print(data.describe(include=['object']))

#### **7. Identification des Valeurs Manquantes et des Doublons :**

En Pandas, gérer les valeurs manquantes et les doublons est une étape essentielle du nettoyage des données.

Pour vérifier s’il y a des valeurs manquantes dans tout le DataSet, on utilise <code>isnull()</code> :

In [None]:
import pandas as pd

data = pd.read_csv('../data/raw/data.csv')

print(data.isnull())

print(data.isnull().sum()) # Compter le nombre de valeurs manquantes par colonne

Pour vérifier si des lignes sont complètement identiques, on utilise <code>duplicated()</code> :

In [None]:
import pandas as pd

data = pd.read_csv('../data/raw/data.csv')

print(data.duplicated())

print(data.duplicated().sum()) # Compter le nombre de valeurs manquantes par colonne

duplicated_rows = data[data.duplicated(keep=False)] # Afficher les lignes dupliquées

print(duplicated_rows)

Les options de <code>keep</code> :

- <code>keep='first'</code> (par défaut) : La première occurrence d’une ligne dupliquée est conservée (non marquée comme dupliquée). Toutes les occurrences suivantes sont considérées comme dupliquées.

- <code>keep='last'</code> : La dernière occurrence est conservée. Toutes les autres occurrences précédentes sont considérées comme dupliquées.

- <code>keep=False</code> : Toutes les occurrences de la ligne dupliquée sont considérées comme dupliquées.