# 1. Manipulation d'une bibliothèque : [Pandas](https://pandas.pydata.org/)

La bibliothèque pandas est une bibliothèque open-source Python très populaire et puissante utilisée pour la manipulation et l'analyse de données.

<img src='https://www.adictosaltrabajo.com/wp-content/uploads/2020/12/1200px-Pandas_logo.svg_.png' width=500>


Elle offre des structures de données flexibles et performantes pour travailler avec des données tabulaires, telles que des tableaux et des feuilles de calcul, ainsi que des outils pour effectuer des opérations de manipulation, de nettoyage et d'analyse de données.

Voici quelques caractéristiques clés de la bibliothèque pandas :

- Chargement et sauvegarde de données depuis/vers divers formats tels que CSV, Excel, SQL, et plus encore.
- Sélection, filtrage et tri des données.
- Ajout, suppression et modification de colonnes.
- Agrégation et regroupement de données.
- Fusion et concaténation de DataFrames.
- Manipulation de données manquantes (supression, remplacement)
- Calcul des statistiques descriptives.
- Calcul de la corrélation entre les colonnes.
- Intégration avec d'autres bibliothèques de visualisation comme Matplotlib et Seaborn.
- Facilité d'affichage de graphiques et de visualisations à partir de données pandas.

Pandas est construit sur la bibliothèque NumPy, ce qui lui confère une grande performance et une intégration transparente avec d'autres outils scientifiques en Python.

<img src='https://img.freepik.com/free-vector/business-documents-scanning-electronic-online-doc-with-pie-chart-infographics-data-analytics-annual-report-result-checking-man-with-magnifying-glass-concept-illustration_335657-1770.jpg?w=2000' width=500>


> **Notre objectif est de visualiser la répartition de ces données.**

Dans cette partie notre objectifs est d'explorer le jeu de données contenant les informations clients.




**1.1 Installation et import de la bibliothèque `pandas`**


Dans un premier temps nous installons la bibliothèque `pandas` conçue pour la manipulation de données. Pour cela nous executons dans le terminal la commande suivante :

  - **Sur Windows** :
  > `pip install pandas`


  - **Sur macOS** :
  > `pip3 install pandas`


  - **Téléchargement du jeu de données** :
  > Nous téléchargerons le jeu de données à l'adresse [suivante](https://drive.google.com/file/d/13EpnupLYyUBs1Y9iFjBglAvQjh4L5vru/view?usp=sharing).


---




In [8]:
del pandas

In [9]:
%whos

Variable   Type      Data/Info
------------------------------
pd         module    <module 'pandas' from 'C:<...>es\\pandas\\__init__.py'>


In [None]:
# Installation de la bibliothèque
# !pip install pandas

Name: pandas
Version: 2.0.3
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: 
Author: 
Author-email: The Pandas Development Team <pandas-dev@python.org>
License: BSD 3-Clause License

Copyright (c) 2008-2011, AQR Capital Management, LLC, Lambda Foundry, Inc. and PyData Development Team
All rights reserved.

Copyright (c) 2011-2023, Open source contributors.

Redistribution and use in source and binary forms, with or without
modification, are permitted provided that the following conditions are met:

* Redistributions of source code must retain the above copyright notice, this
  list of conditions and the following disclaimer.

* Redistributions in binary form must reproduce the above copyright notice,
  this list of conditions and the following disclaimer in the documentation
  and/or other materials provided with the distribution.

* Neither the name of the copyright holder nor the names of its
  contributors may be used to endorse or promote

In [None]:
# Import de la bibliothèque
import pandas as pd

In [14]:
# Vérification de la verion de la bibliothèque
!pip show pandas
pd.__version__

Name: pandas
Version: 2.0.3
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: 
Author: 
Author-email: The Pandas Development Team <pandas-dev@python.org>
License: BSD 3-Clause License

Copyright (c) 2008-2011, AQR Capital Management, LLC, Lambda Foundry, Inc. and PyData Development Team
All rights reserved.

Copyright (c) 2011-2023, Open source contributors.

Redistribution and use in source and binary forms, with or without
modification, are permitted provided that the following conditions are met:

* Redistributions of source code must retain the above copyright notice, this
  list of conditions and the following disclaimer.

* Redistributions in binary form must reproduce the above copyright notice,
  this list of conditions and the following disclaimer in the documentation
  and/or other materials provided with the distribution.

* Neither the name of the copyright holder nor the names of its
  contributors may be used to endorse or promote

'2.0.3'

In [25]:
df = pd.DataFrame([[1,2,3],[4,5,None]],columns=['col1', 'col2', 'col3'])

In [26]:
df

Unnamed: 0,col1,col2,col3
0,1,2,3.0
1,4,5,


In [29]:
# Création d'un jeu de données
utilisateurs = {
    0: {
        'nom': 'Doe',
        'prenom': 'John',
        'age': 30
    },
    1: {
        'nom': 'Smith',
        'prenom': 'Jane',
        'age': 25
    },
    2: {
        'nom': 'Johnson',
        'prenom': 'Bob',
        'age': 35
    },
    3: {
        'nom': 'Williams',
        'prenom': 'Alice',
        'age': 28
    },
    4: {
        'nom': 'Brown',
        'prenom': 'Chris',
        'age': 40
    }
}

In [34]:
df = pd.DataFrame(utilisateurs).T ## import du dictionaire de dictionaire, T transposé
df

Unnamed: 0,nom,prenom,age
0,Doe,John,30
1,Smith,Jane,25
2,Johnson,Bob,35
3,Williams,Alice,28
4,Brown,Chris,40


In [35]:
df.nom

0         Doe
1       Smith
2     Johnson
3    Williams
4       Brown
Name: nom, dtype: object

In [36]:
df["nom"] # mieux car l'autre marche pas si espace

0         Doe
1       Smith
2     Johnson
3    Williams
4       Brown
Name: nom, dtype: object

In [37]:
df.age

0    30
1    25
2    35
3    28
4    40
Name: age, dtype: object

In [38]:
df.age[2]

35

In [39]:
df.age.values

array([30, 25, 35, 28, 40], dtype=object)

In [40]:
list(df.age)

[30, 25, 35, 28, 40]

In [41]:
dir(df.age.values)

['T',
 '__abs__',
 '__add__',
 '__and__',
 '__array__',
 '__array_finalize__',
 '__array_function__',
 '__array_interface__',
 '__array_prepare__',
 '__array_priority__',
 '__array_struct__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__class_getitem__',
 '__complex__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__divmod__',
 '__dlpack__',
 '__dlpack_device__',
 '__doc__',
 '__eq__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__ilshift__',
 '__imatmul__',
 '__imod__',
 '__imul__',
 '__index__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__irshift__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lshift__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__o

In [43]:
df.age.mean()

31.6

In [44]:
df

Unnamed: 0,nom,prenom,age
0,Doe,John,30
1,Smith,Jane,25
2,Johnson,Bob,35
3,Williams,Alice,28
4,Brown,Chris,40


In [46]:
df[["nom","age"]] # 1er crochet pour dire que l'on crée une liste et deuxième pour les élements

Unnamed: 0,nom,age
0,Doe,30
1,Smith,25
2,Johnson,35
3,Williams,28
4,Brown,40


**1.2 Manipulation du jeu de données**

Voici la liste des modules de la bibliothèque pandas qui seront utilisés dans cette partie.

- `pd.read_csv('chemin_du_fichier')` : Pour importer un jeu de données à partir de son 'nom de fichier',
- `df.head(n)` : Pour afficher les n premières lignes du le jeu de données.

- `df.shape()` : Pour afficher les dimensions du jeu de données (nombre de lignes et nombre de colonnes),
- `df.isna().sum()` : Pour afficher le nombre de valeurs manquantes par colonnes.

- `df.info()` : Pour afficher les informations du jeu de données,
- `df.describe()` : Pour afficher les données statistiques du jeu de données.

Voici la liste des méthodes de pandas qui seront utilisées dans cette partie :
- `.dropna()` : Pour supprimer les lignes contenant des valeurs manquantes dans le jeu de données df. Pour concerver les modifications il faudra réassigner la variable `df`:
      df = df.dropna()

- `.drop(['nom_de_la_colonne'], axis=1)` : Pour supprimer une colonne du jeu de données df. Pour concerver les modifications il faudra réassigner la variable df.

- `df['nom_de_la_colonne'].value_counts()` : Pour afficher la répartition des valeurs de la colonne mentionnée entre crochet.

- `df['nom_de_la_colonne'].apply(lambda x: fonction(x))` : Pour appliquer une fonction sur chacune des valeurs d'une colonne.

- `df.to_csv('fichier.csv')` : Pour sauvegarder le jeu de données.

- `df.groupby('nom_de_la_colonne').max()` : Pour agréger les données à partir d'une colonne.

- `categorical(df, 'nom_de_la_colonne')` : Fonction permettant de remplacer les valeurs qualitatives par des valeurs quantitatives. Pour conserver les modifications il faudra réassigner la variable df ==> df = catégorical(df, 'nom de la colone').

- Fonction permettant de transformer une colonne qualitative en colonne quantitative :

      def catégorical(df, column):
        liste_ = list(df[column].value_counts().index)
        df[column] = df[column].apply(lambda x: liste_.index(x))
        return df

- `df[(df['nom_de_la_colonne1'] == value1) & (df['nom_de_la_colonne2'] == value2)]` : Pour appliquer un filtre sur la colonne1 ainsi que sur la colonne2, les oppérateurs logiques utilisés par pandas sont : `|` pour `ou/or` et `&` pour `and/et`.

In [51]:
# Import du jeu de données
df = pd.read_csv('data.csv', sep = ',') # sep est optionel 
df

Unnamed: 0,ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
0,462809,Male,No,22,No,Healthcare,1.0,Low,4.0,Cat_4,D
1,462643,Female,Yes,38,Yes,Engineer,,Average,3.0,Cat_4,A
2,466315,Female,Yes,67,Yes,Engineer,1.0,Low,1.0,Cat_6,B
3,461735,Male,Yes,67,Yes,Lawyer,0.0,High,2.0,Cat_6,B
4,462669,Female,Yes,40,Yes,Entertainment,,High,6.0,Cat_6,A
...,...,...,...,...,...,...,...,...,...,...,...
8063,464018,Male,No,22,No,,0.0,Low,7.0,Cat_1,D
8064,464685,Male,No,35,No,Executive,3.0,Low,4.0,Cat_4,D
8065,465406,Female,No,33,Yes,Healthcare,1.0,Low,1.0,Cat_6,D
8066,467299,Female,No,27,Yes,Healthcare,1.0,Low,4.0,Cat_6,B


In [52]:
df.head(5)

Unnamed: 0,ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
0,462809,Male,No,22,No,Healthcare,1.0,Low,4.0,Cat_4,D
1,462643,Female,Yes,38,Yes,Engineer,,Average,3.0,Cat_4,A
2,466315,Female,Yes,67,Yes,Engineer,1.0,Low,1.0,Cat_6,B
3,461735,Male,Yes,67,Yes,Lawyer,0.0,High,2.0,Cat_6,B
4,462669,Female,Yes,40,Yes,Entertainment,,High,6.0,Cat_6,A


In [53]:
df.tail(5)

Unnamed: 0,ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
8063,464018,Male,No,22,No,,0.0,Low,7.0,Cat_1,D
8064,464685,Male,No,35,No,Executive,3.0,Low,4.0,Cat_4,D
8065,465406,Female,No,33,Yes,Healthcare,1.0,Low,1.0,Cat_6,D
8066,467299,Female,No,27,Yes,Healthcare,1.0,Low,4.0,Cat_6,B
8067,461879,Male,Yes,37,Yes,Executive,0.0,Average,3.0,Cat_4,B


In [54]:
df.shape

(8068, 11)

In [58]:
df.describe()

Unnamed: 0,ID,Age,Work_Experience,Family_Size
count,8068.0,8068.0,7239.0,7733.0
mean,463479.214551,43.466906,2.641663,2.850123
std,2595.381232,16.711696,3.406763,1.531413
min,458982.0,18.0,0.0,1.0
25%,461240.75,30.0,0.0,2.0
50%,463472.5,40.0,1.0,3.0
75%,465744.25,53.0,4.0,4.0
max,467974.0,89.0,14.0,9.0


In [59]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8068 entries, 0 to 8067
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   ID               8068 non-null   int64  
 1   Gender           8068 non-null   object 
 2   Ever_Married     7928 non-null   object 
 3   Age              8068 non-null   int64  
 4   Graduated        7990 non-null   object 
 5   Profession       7944 non-null   object 
 6   Work_Experience  7239 non-null   float64
 7   Spending_Score   8068 non-null   object 
 8   Family_Size      7733 non-null   float64
 9   Var_1            7992 non-null   object 
 10  Segmentation     8068 non-null   object 
dtypes: float64(2), int64(2), object(7)
memory usage: 693.5+ KB


In [62]:
(df["Gender"] == 'Male').sum()

4417

In [65]:
df["Gender"].value_counts()

Gender
Male      4417
Female    3651
Name: count, dtype: int64

In [75]:
df_mal_graduated = df[(df["Gender"] == 'Male') & (df["Graduated"] == 'Yes')]
df_mal_graduated 

Unnamed: 0,ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
3,461735,Male,Yes,67,Yes,Lawyer,0.0,High,2.0,Cat_6,B
6,460156,Male,No,32,Yes,Healthcare,1.0,Low,3.0,Cat_6,C
18,466772,Male,Yes,58,Yes,Entertainment,1.0,Average,4.0,Cat_6,B
20,466084,Male,Yes,49,Yes,Homemaker,12.0,Low,1.0,Cat_3,A
22,465602,Male,Yes,33,Yes,Artist,13.0,Low,2.0,Cat_3,A
...,...,...,...,...,...,...,...,...,...,...,...
8054,463437,Male,Yes,49,Yes,Artist,1.0,Average,3.0,Cat_6,B
8056,459889,Male,Yes,63,Yes,Homemaker,8.0,Average,3.0,Cat_6,B
8059,460132,Male,No,39,Yes,Healthcare,3.0,Low,2.0,Cat_6,D
8062,463002,Male,Yes,41,Yes,Artist,0.0,High,5.0,Cat_6,B


In [77]:
df_mal_graduated.to_csv("data_mal_graduated.csv", index = False) # pour ne pas conserver l'indexe

In [103]:
df_group_by = df.groupby(["Gender","Ever_Married","Profession"])["Age"].mean()
df_group_by

Gender  Ever_Married  Profession   
Female  No            Artist           39.483627
                      Doctor           32.294798
                      Engineer         34.577778
                      Entertainment    36.035211
                      Executive        30.125000
                      Healthcare       26.905433
                      Homemaker        33.069307
                      Lawyer           64.076923
                      Marketing        31.554545
        Yes           Artist           49.759352
                      Doctor           46.016260
                      Engineer         46.308411
                      Entertainment    44.865385
                      Executive        48.090909
                      Healthcare       34.348837
                      Homemaker        41.666667
                      Lawyer           75.902878
                      Marketing        45.960000
Male    No            Artist           38.139241
                      Doctor     

In [113]:
df_groupe_by_test = pd.DataFrame(df_group_by)
df_groupe_by_test

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Age
Gender,Ever_Married,Profession,Unnamed: 3_level_1
Female,No,Artist,39.483627
Female,No,Doctor,32.294798
Female,No,Engineer,34.577778
Female,No,Entertainment,36.035211
Female,No,Executive,30.125
Female,No,Healthcare,26.905433
Female,No,Homemaker,33.069307
Female,No,Lawyer,64.076923
Female,No,Marketing,31.554545
Female,Yes,Artist,49.759352


In [114]:
df_groupe_by_test.to_csv("data_gender_married_profession_age.csv", index = False) # probleme il devrait exporter tout

**Liste compréhension**

Une liste compréhension est une méthode concise et lisible en Python pour créer des listes à partir d'autres listes. Une liste compréhension est écrite en utilisant une expression simplifiée qui décrit comment les éléments doivent être transformés. Cela permet de générer des listes plus rapidement et avec moins de code qu'en utilisant des boucles classiques.

# 2. Gestion d'une base de données avec la bibliothèque [SQLalchemy](https://docs.sqlalchemy.org/en/14/).

<img src='https://miro.medium.com/v2/resize:fit:1400/0*msfsws06ImMSJYop.jpg'>

SQLAlchemy est une bibliothèque Python très populaire qui facilite l'interaction avec des bases de données relationnelles en utilisant un langage Python. Elle fournit un ensemble d'outils puissants pour travailler avec des bases de données SQL tout en offrant une abstraction flexible qui permet de travailler avec différents types de bases de données.

Voici quelques caractéristiques clés de SQLAlchemy :

**ORM (Object-Relational Mapping)** : SQLAlchemy propose un ORM qui permet de représenter des tables de base de données sous forme d'objets Python. Ces objets peuvent être manipulés comme n'importe quel autre objet Python, offrant ainsi une abstraction plus élevée des opérations sur la base de données.

**Prise en Charge de Diverses Bases de Données** : SQLAlchemy prend en charge plusieurs types de bases de données, y compris MySQL, PostgreSQL, SQLite, Oracle, et d'autres.

**Flexibilité** : Vous pouvez utiliser SQLAlchemy de manière transparente avec un ORM complet, un langage SQL pur, ou une combinaison des deux, en fonction des besoins de votre application.

**Communauté Active** : SQLAlchemy est largement utilisé dans la communauté Python et dispose d'une documentation complète et d'une base d'utilisateurs active.

---


Installation de la bibliothèque : `pip install SQLAlchemy`

In [1]:
# Installation de la bibliothèque SQLAlchemy
!pip install SQLAlchemy



In [2]:
import sqlalchemy as db

class DataBase():
    """
    Retour un objet de type sqlalchemy gérant la connexion à une base de données sqlite.
    name_database : str --> Nom de la base de donnée
    """

    def __init__(self, name_database:str='database'):
        self.name = name_database
        self.url = f"sqlite:///{name_database}.db"
        self.engine = db.create_engine(self.url)
        self.connection = self.engine.connect()
        self.metadata = db.MetaData()
        self.table = self.engine.table_names()


    def create_table(self, name_table:str, **kwargs):
        print(kwargs)
        """
        Crée une Table dans la base de données.
        name_table : str   --> Nom de la base de données
        **kwargs :  nom_de_colonne=db.String, nom_de_colonne=db.Integer
        """

        try:
            colums = [db.Column(k, v, primary_key = True)
            if 'id_' in k else db.Column(k, v)
            for k,v in kwargs.items()]

            db.Table(name_table, self.metadata, *colums)
            self.metadata.create_all(self.engine)
            print(f"Table : '{name_table}' are created succesfully")

        except:
            print(f"La Table{name_table} existe déjà !")


    def read_table(self, name_table:str, return_keys=False):
        """
        Lecture de la base de données, retourne les colonnes et lignes de la base de données.
        name_table : str   --> Nom de la base de données
        """

        table = db.Table(name_table,
                         self.metadata,
                         autoload=True,
                         autoload_with=self.engine)

        if return_keys:table.columns.keys()
        else : return table


    def add_row(self, name_table:str, **kwarrgs):
        """
        Ajout d'une ligne dans la base de données
        name_table : str   --> Nom de la base de données
        **kwarrgs:  nom_de_colonne1 = valeur_à_ajoutée, nom_de_colonne2 = valeur_à_ajoutée
        """

        name_table = self.read_table(name_table)
        stmt = (db.insert(name_table).values(kwarrgs))
        self.connection.execute(stmt)

        print(f'Row added')


    def delete_row_by_id(self, name_table:str, id_:int):
        """
        Supprime du contenu de la base de données
        name_database : str --> Nom de la base de donnée
        id_ : int. --> numéro id de la ligne à supprimer
        """

        table = self.read_table(name_table)
        id = table.c.keys()[0]

        stmt = (db.delete(table).where(table.c[id] == id_))
        self.connection.execute(stmt)
        print(f'Row id {id_} deleted')


    def select_table(self, name_table:str):
        """
        Retourne l'ensemble du contenu de la base de données
        name_database : str --> Nom de la table de la base de donnée
        """
        name_table = self.read_table(name_table)
        stm = db.select([name_table])

        return self.connection.execute(stm).fetchall()

In [3]:
# Création d'une base de données
database = DataBase('data')

  self.table = self.engine.table_names()


In [4]:
# Création d'un Tableau1
database.create_table('Tableau1', id_user=db.Integer, colonne1=db.String, colonne2=db.Integer)

{'id_user': <class 'sqlalchemy.sql.sqltypes.Integer'>, 'colonne1': <class 'sqlalchemy.sql.sqltypes.String'>, 'colonne2': <class 'sqlalchemy.sql.sqltypes.Integer'>}
Table : 'Tableau1' are created succesfully


In [5]:
# Création d'un Tableau2
database.create_table('Tableau2', id_shop=db.Integer, id_colonne1=db.String, colonne2=db.Integer)

{'id_shop': <class 'sqlalchemy.sql.sqltypes.Integer'>, 'id_colonne1': <class 'sqlalchemy.sql.sqltypes.String'>, 'colonne2': <class 'sqlalchemy.sql.sqltypes.Integer'>}
Table : 'Tableau2' are created succesfully


In [11]:
# Ajouter une ligne à la base de données
database.add_row('Tableau2', id_shop=3086, id_colonne1='Iphone')

IntegrityError: (sqlite3.IntegrityError) UNIQUE constraint failed: Tableau2.id_shop, Tableau2.id_colonne1
[SQL: INSERT INTO "Tableau2" (id_shop, id_colonne1) VALUES (?, ?)]
[parameters: (3086, 'Iphone')]
(Background on this error at: https://sqlalche.me/e/14/gkpj)

In [12]:
# Ajouter plusieurs lignes à la base de données
for i in range(10):
    database.add_row('Tableau2',id_shop=i, id_colonne1='Iphone'*(i+1), colonne2=99*i)

database.select_table('Tableau2')

IntegrityError: (sqlite3.IntegrityError) UNIQUE constraint failed: Tableau2.id_shop, Tableau2.id_colonne1
[SQL: INSERT INTO "Tableau2" (id_shop, id_colonne1, colonne2) VALUES (?, ?, ?)]
[parameters: (0, 'Iphone', 0)]
(Background on this error at: https://sqlalche.me/e/14/gkpj)

In [None]:
# Afficher le Tableau1
database.select_table('Tableau2')

---

# **Exercice**

Utilisez la classe `DataBase` pour créer une base de données, créez ensuite une table pouvant contenir les données du jeu de données utilisé dans la partie 1 puis ajoutez l'ensemble des données présentes dans le fichier [suivant](https://drive.google.com/file/d/13EpnupLYyUBs1Y9iFjBglAvQjh4L5vru/view?usp=sharing) dans votre base de données.