# 1. Manipulation d'une bibliothèque : [Pandas](https://pandas.pydata.org/)

La bibliothèque pandas est une bibliothèque open-source Python très populaire et puissante utilisée pour la manipulation et l'analyse de données.

<img src='https://www.adictosaltrabajo.com/wp-content/uploads/2020/12/1200px-Pandas_logo.svg_.png' width=500>


Elle offre des structures de données flexibles et performantes pour travailler avec des données tabulaires, telles que des tableaux et des feuilles de calcul, ainsi que des outils pour effectuer des opérations de manipulation, de nettoyage et d'analyse de données.

Voici quelques caractéristiques clés de la bibliothèque pandas :

- Chargement et sauvegarde de données depuis/vers divers formats tels que CSV, Excel, SQL, et plus encore.
- Sélection, filtrage et tri des données.
- Ajout, suppression et modification de colonnes.
- Agrégation et regroupement de données.
- Fusion et concaténation de DataFrames.
- Manipulation de données manquantes (supression, remplacement)
- Calcul des statistiques descriptives.
- Calcul de la corrélation entre les colonnes.
- Intégration avec d'autres bibliothèques de visualisation comme Matplotlib et Seaborn.
- Facilité d'affichage de graphiques et de visualisations à partir de données pandas.

Pandas est construit sur la bibliothèque NumPy, ce qui lui confère une grande performance et une intégration transparente avec d'autres outils scientifiques en Python.

<img src='https://img.freepik.com/free-vector/business-documents-scanning-electronic-online-doc-with-pie-chart-infographics-data-analytics-annual-report-result-checking-man-with-magnifying-glass-concept-illustration_335657-1770.jpg?w=2000' width=500>


> **Notre objectif est de visualiser la répartition de ces données.**

Dans cette partie notre objectifs est d'explorer le jeu de données contenant les informations clients.




**1.1 Installation et import de la bibliothèque `pandas`**


Dans un premier temps nous installons la bibliothèque `pandas` conçue pour la manipulation de données. Pour cela nous executons dans le terminal la commande suivante :

  - **Sur Windows** :
  > `pip install pandas`


  - **Sur macOS** :
  > `pip3 install pandas`


  - **Téléchargement du jeu de données** :
  > Nous téléchargerons le jeu de données à l'adresse [suivante](https://drive.google.com/file/d/13EpnupLYyUBs1Y9iFjBglAvQjh4L5vru/view?usp=sharing).


---




In [None]:
# Installation de la bibliothèque
!pip install pandas

In [None]:
# Import de la bibliothèque


In [None]:
# Vérification de la verion de la bibliothèque


In [None]:
# Création d'un jeu de données
utilisateurs = {
    0: {
        'nom': 'Doe',
        'prenom': 'John',
        'age': 30
    },
    1: {
        'nom': 'Smith',
        'prenom': 'Jane',
        'age': 25
    },
    2: {
        'nom': 'Johnson',
        'prenom': 'Bob',
        'age': 35
    },
    3: {
        'nom': 'Williams',
        'prenom': 'Alice',
        'age': 28
    },
    4: {
        'nom': 'Brown',
        'prenom': 'Chris',
        'age': 40
    }
}

In [2]:
!ls

1. Introduction au langage Python.ipynb
2. Programmation Orientée Objet.ipynb
3. Gestion d'une base de données (POO).ipynb
[34m4. Application web Streamlit[m[m
[34m5. Application Programming Interface[m[m
app.py


In [1]:
!streamlit run app.py

Traceback (most recent call last):
  File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/numpy/core/__init__.py", line 23, in <module>
    from . import multiarray
  File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/numpy/core/multiarray.py", line 10, in <module>
    from . import overrides
  File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/numpy/core/overrides.py", line 6, in <module>
    from numpy.core._multiarray_umath import (
ImportError: dlopen(/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/numpy/core/_multiarray_umath.cpython-310-darwin.so, 0x0002): tried: '/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/numpy/core/_multiarray_umath.cpython-310-darwin.so' (mach-o file, but is an incompatible architecture (have 'arm64', need 'x86_64')), '/System/Volumes/Preboot/Cryptexes/OS/Library/Frameworks/Python.fra

**1.2 Manipulation du jeu de données**

Voici la liste des modules de la bibliothèque pandas qui seront utilisés dans cette partie.

- `pd.read_csv('chemin_du_fichier')` : Pour importer un jeu de données à partir de son 'nom de fichier',
- `df.head(n)` : Pour afficher les n premières lignes du le jeu de données.

- `df.shape()` : Pour afficher les dimensions du jeu de données (nombre de lignes et nombre de colonnes),
- `df.isna().sum()` : Pour afficher le nombre de valeurs manquantes par colonnes.

- `df.info()` : Pour afficher les informations du jeu de données,
- `df.describe()` : Pour afficher les données statistiques du jeu de données.

Voici la liste des méthodes de pandas qui seront utilisées dans cette partie :
- `.dropna()` : Pour supprimer les lignes contenant des valeurs manquantes dans le jeu de données df. Pour concerver les modifications il faudra réassigner la variable `df`:
      df = df.dropna()

- `.drop(['nom_de_la_colonne'], axis=1)` : Pour supprimer une colonne du jeu de données df. Pour concerver les modifications il faudra réassigner la variable df.

- `df['nom_de_la_colonne'].value_counts()` : Pour afficher la répartition des valeurs de la colonne mentionnée entre crochet.

- `df['nom_de_la_colonne'].apply(lambda x: fonction(x))` : Pour appliquer une fonction sur chacune des valeurs d'une colonne.

- `df.to_csv('fichier.csv')` : Pour sauvegarder le jeu de données.

- `df.groupby('nom_de_la_colonne').max()` : Pour agréger les données à partir d'une colonne.

- `categorical(df, 'nom_de_la_colonne')` : Fonction permettant de remplacer les valeurs qualitatives par des valeurs quantitatives. Pour conserver les modifications il faudra réassigner la variable df ==> df = catégorical(df, 'nom de la colone').

- Fonction permettant de transformer une colonne qualitative en colonne quantitative :

      def catégorical(df, column):
        liste_ = list(df[column].value_counts().index)
        df[column] = df[column].apply(lambda x: liste_.index(x))
        return df

- `df[(df['nom_de_la_colonne1'] == value1) & (df['nom_de_la_colonne2'] == value2)]` : Pour appliquer un filtre sur la colonne1 ainsi que sur la colonne2, les oppérateurs logiques utilisés par pandas sont : `|` pour `ou/or` et `&` pour `and/et`.

In [None]:
# Import du jeu de données


**Liste compréhension**

Une liste compréhension est une méthode concise et lisible en Python pour créer des listes à partir d'autres listes. Une liste compréhension est écrite en utilisant une expression simplifiée qui décrit comment les éléments doivent être transformés. Cela permet de générer des listes plus rapidement et avec moins de code qu'en utilisant des boucles classiques.

# 2. Gestion d'une base de données avec la bibliothèque [SQLalchemy](https://docs.sqlalchemy.org/en/14/).

<img src='https://miro.medium.com/v2/resize:fit:1400/0*msfsws06ImMSJYop.jpg'>

SQLAlchemy est une bibliothèque Python très populaire qui facilite l'interaction avec des bases de données relationnelles en utilisant un langage Python. Elle fournit un ensemble d'outils puissants pour travailler avec des bases de données SQL tout en offrant une abstraction flexible qui permet de travailler avec différents types de bases de données.

Voici quelques caractéristiques clés de SQLAlchemy :

**ORM (Object-Relational Mapping)** : SQLAlchemy propose un ORM qui permet de représenter des tables de base de données sous forme d'objets Python. Ces objets peuvent être manipulés comme n'importe quel autre objet Python, offrant ainsi une abstraction plus élevée des opérations sur la base de données.

**Prise en Charge de Diverses Bases de Données** : SQLAlchemy prend en charge plusieurs types de bases de données, y compris MySQL, PostgreSQL, SQLite, Oracle, et d'autres.

**Flexibilité** : Vous pouvez utiliser SQLAlchemy de manière transparente avec un ORM complet, un langage SQL pur, ou une combinaison des deux, en fonction des besoins de votre application.

**Communauté Active** : SQLAlchemy est largement utilisé dans la communauté Python et dispose d'une documentation complète et d'une base d'utilisateurs active.

---


Installation de la bibliothèque : `pip install SQLAlchemy`

In [None]:
# Installation de la bibliothèque SQLAlchemy
!pip install SQLAlchemy

In [None]:
import sqlalchemy as db

class DataBase():
    """
    Retour un objet de type sqlalchemy gérant la connexion à une base de données sqlite.
    name_database : str --> Nom de la base de donnée
    """

    def __init__(self, name_database:str='database'):
        self.name = name_database
        self.url = f"sqlite:///{name_database}.db"
        self.engine = db.create_engine(self.url)
        self.connection = self.engine.connect()
        self.metadata = db.MetaData()
        self.table = self.engine.table_names()


    def create_table(self, name_table:str, **kwargs):
        print(kwargs)
        """
        Crée une Table dans la base de données.
        name_table : str   --> Nom de la base de données
        **kwargs :  nom_de_colonne=db.String, nom_de_colonne=db.Integer
        """

        try:
            colums = [db.Column(k, v, primary_key = True)
            if 'id_' in k else db.Column(k, v)
            for k,v in kwargs.items()]

            db.Table(name_table, self.metadata, *colums)
            self.metadata.create_all(self.engine)
            print(f"Table : '{name_table}' are created succesfully")

        except:
            print(f"La Table{name_table} existe déjà !")


    def read_table(self, name_table:str, return_keys=False):
        """
        Lecture de la base de données, retourne les colonnes et lignes de la base de données.
        name_table : str   --> Nom de la base de données
        """

        table = db.Table(name_table,
                         self.metadata,
                         autoload=True,
                         autoload_with=self.engine)

        if return_keys:table.columns.keys()
        else : return table


    def add_row(self, name_table:str, **kwarrgs):
        """
        Ajout d'une ligne dans la base de données
        name_table : str   --> Nom de la base de données
        **kwarrgs:  nom_de_colonne1 = valeur_à_ajoutée, nom_de_colonne2 = valeur_à_ajoutée
        """

        name_table = self.read_table(name_table)
        stmt = (db.insert(name_table).values(kwarrgs))
        self.connection.execute(stmt)

        print(f'Row added')


    def delete_row_by_id(self, name_table:str, id_:int):
        """
        Supprime du contenu de la base de données
        name_database : str --> Nom de la base de donnée
        id_ : int. --> numéro id de la ligne à supprimer
        """

        table = self.read_table(name_table)
        id = table.c.keys()[0]

        stmt = (db.delete(table).where(table.c[id] == id_))
        self.connection.execute(stmt)
        print(f'Row id {id_} deleted')


    def select_table(self, name_table:str):
        """
        Retourne l'ensemble du contenu de la base de données
        name_database : str --> Nom de la table de la base de donnée
        """
        name_table = self.read_table(name_table)
        stm = db.select([name_table])

        return self.connection.execute(stm).fetchall()

In [None]:
# Création d'une base de données
database = DataBase('data')

In [None]:
# Création d'un Tableau1
database.create_table('Tableau1', id_user=db.Integer, colonne1=db.String, colonne2=db.Integer)

In [None]:
# Création d'un Tableau2
database.create_table('Tableau2', id_shop=db.Integer, id_colonne1=db.String, colonne2=db.Integer)

In [None]:
# Ajouter une ligne à la base de données
database.add_row('Tableau2', id_shop=3086, id_colonne1='Iphone')

In [None]:
# Ajouter plusieurs lignes à la base de données
for i in range(10):
    database.add_row('Tableau2',id_shop=i, id_colonne1='Iphone'*(i+1), colonne2=99*i)

database.select_table('Tableau2')

In [None]:
# Afficher le Tableau1
database.select_table('Tableau2')

---

# **Exercice**

Utilisez la classe `DataBase` pour créer une base de données, créez ensuite une table pouvant contenir les données du jeu de données utilisé dans la partie 1 puis ajoutez l'ensemble des données présentes dans le fichier [suivant](https://drive.google.com/file/d/13EpnupLYyUBs1Y9iFjBglAvQjh4L5vru/view?usp=sharing) dans votre base de données.