<center>
    <img src="https://www.simplon.ma/images/Simplon_Maghreb_Rouge.png" width="300" alt="cognitiveclass.ai logo">
</center>

# Atelier pratique : Charger des données avec Pandas


## Objectifs

Après avoir terminé cet atelier, vous serez capable de :

*   Utiliser Pandas pour accéder et visualiser des données


<h2>Tableau des matières</h2>
<div class="alert alert-block alert-info" style="margin-top: 20px">
    <ul>
        <li><a href="#About-the-Dataset">À propos du jeu de données</a></li>
        <li><a href="#Introduction-of-Pandas">Introduction à <code>Pandas</code></a></li>
        <li><a href="#Viewing-Data-and-Accessing-Data">Visualisation et accès aux données</a></li>
        <li><a href="#Quiz-on-DataFrame">Quiz sur les DataFrames</a></li>
    </ul>

</div>

<hr>


## À propos du jeu de données


Le tableau comporte une ligne pour chaque produit et plusieurs colonnes.

<ul>
    <li><b>OrderID</b> : Un identifiant unique pour chaque commande</li>
    <li><b>Product</b> : Le nom du produit acheté</li>
    <li><b>Category</b> : La catégorie à laquelle appartient le produit (par exemple, Électronique, Mobilier, Papeterie)</li>
    <li><b>Quantity</b> : Le nombre d'unités achetées pour ce produit</li>
    <li><b>Price</b> : Le prix unitaire du produit</li>
    <li><b>Total</b> : Le coût total pour le produit (calculé comme Quantité × Prix)</li>
    <li><b>OrderDate</b> : La date à laquelle la commande a été passée</li>
    <li><b>CustomerCity</b> : La ville où réside le client</li>
    
</ul>

Vous pouvez voir le jeu de données ici :

<font size="1">
<table style="font-size:medium; border:1px solid black; border-collapse:collapse;">
  <tr>
    <th>OrderID</th>
    <th>Produit</th>
    <th>Catégorie</th>
    <th>Quantité</th>
    <th>Prix</th>
    <th>Total</th>
    <th>DateCommande</th>
    <th>VilleClient</th>
  </tr>
  <tr>
    <td>1</td>
    <td>Ordinateur portable</td>
    <td>Électronique</td>
    <td>2</td>
    <td>800</td>
    <td>1600</td>
    <td>2022-01-10</td>
    <td>New York</td>
  </tr>
  <tr>
    <td>2</td>
    <td>Smartphone</td>
    <td>Électronique</td>
    <td>3</td>
    <td>600</td>
    <td>1800</td>
    <td>2022-02-15</td>
    <td>Los Angeles</td>
  </tr>
  <tr>
    <td>3</td>
    <td>Chaise de bureau</td>
    <td>Mobilier</td>
    <td>5</td>
    <td>150</td>
    <td>750</td>
    <td>2022-03-12</td>
    <td>Chicago</td>
  </tr>
  <tr>
    <td>4</td>
    <td>Cahier</td>
    <td>Papeterie</td>
    <td>10</td>
    <td>2</td>
    <td>20</td>
    <td>2022-04-05</td>
    <td>Houston</td>
  </tr>
  <tr>
    <td>5</td>
    <td>Écran</td>
    <td>Électronique</td>
    <td>1</td>
    <td>300</td>
    <td>300</td>
    <td>2022-05-21</td>
    <td>Miami</td>
  </tr>
</table>
</font>


<hr>


## Introduction à <code>Pandas</code>


In [None]:
# Dépendance nécessaire pour installer le fichier 

%pip install xlrd openpyxl

In [None]:
# Importer la bibliothèque requise

import pandas as pd

Après la commande d'importation, nous avons maintenant accès à un grand nombre de classes et de fonctions prédéfinies. Cela suppose que la bibliothèque est installée ; dans notre environnement d'atelier, toutes les bibliothèques nécessaires sont installées. Une des façons dont Pandas permet de travailler avec les données est le DataFrame. Passons en revue le processus pour passer d'un fichier de valeurs séparées par des virgules (<b>.csv</b>) à un DataFrame. La variable <code>csv_path</code> stocke le chemin du fichier <b>.csv</b>, qui est utilisé comme argument pour la fonction <code>read_csv</code>. Le résultat est stocké dans l'objet <code>df</code>, qui est une abréviation courante utilisée pour une variable faisant référence à un DataFrame Pandas.


In [None]:
# Lire les données à partir d'un fichier CSV

csv_path = 'https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/LXjSAttmoxJfEG6il1Bqfw/Product-sales.csv'
df = pd.read_csv(csv_path)

Nous pouvons utiliser la méthode <code>head()</code> pour examiner les cinq premières lignes d'un DataFrame :


In [None]:
# Afficher les cinq premières lignes du DataFrame

df.head()

Nous utilisons le chemin du fichier Excel et la fonction <code>read_excel</code>. Le résultat est un DataFrame comme précédemment :


In [None]:
xlsx_path = 'https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/n9LOuKI9SlUa1b5zkaCMeg/Product-sales.xlsx'
df = pd.read_excel(xlsx_path)
df.head()

Nous pouvons accéder à la colonne <b>Quantité</b> et l'assigner à un nouveau DataFrame <b>x</b> :


In [None]:
# Accéder à la colonne Quantité

x = df[['Quantity']]
x

Le processus est illustré dans la figure :


<img src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/CHIJ1eh6tYUzFsmgQIuCSA/1.PNG" width="1150">


<hr>


## Visualisation et accès aux données


Vous pouvez également obtenir une colonne sous forme de série. Vous pouvez considérer une série Pandas comme un DataFrame à une dimension. Utilisez simplement un seul crochet :


In [None]:
# Obtenir la colonne sous forme de série

x = df['Product']
x

Vous pouvez également obtenir une colonne sous forme de DataFrame. Par exemple, nous pouvons assigner la colonne <b>Quantité</b> :


In [None]:
# Obtenir la colonne sous forme de DataFrame

x = df[['Quantity']]
type(x)

Vous pouvez faire la même chose pour plusieurs colonnes ; il suffit de mettre le nom du DataFrame, dans ce cas, <code>df</code>, et les noms des en-têtes de plusieurs colonnes entre doubles crochets. Le résultat est un nouveau DataFrame constitué des colonnes spécifiées :


In [None]:
# Accéder à plusieurs colonnes

y = df[['Product','Category', 'Quantity']]
y

Le processus est illustré dans la figure :


<img src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/BiDzVOrMQbianIz9DMum7A/2.PNG" width="1100">


Une façon d'accéder à des éléments uniques est la méthode <code>iloc</code>, où vous pouvez accéder à la première ligne et à la première colonne comme suit :


In [None]:
# Accéder à la valeur de la première ligne et de la première colonne

df.iloc[0, 0]

Vous pouvez accéder à la deuxième ligne et à la première colonne comme suit :


In [None]:
# Accéder à la valeur de la deuxième ligne et de la première colonne

df.iloc[1,0]

Vous pouvez accéder à la première ligne et à la troisième colonne comme suit :


In [None]:
# Accéder à la valeur de la première ligne et de la troisième colonne

df.iloc[0,2]

In [None]:
# Accéder à la valeur de la deuxième ligne et de la troisième colonne
df.iloc[1,2]

Ceci est illustré dans l'image suivante


<img src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/npw0rMu2hutg8MdOz4t_Kw/3.PNG" width="750">


Vous pouvez également accéder à la colonne en utilisant son nom, les opérations suivantes sont équivalentes à celles ci-dessus :


In [None]:
# Accéder à la colonne en utilisant le nom

df.loc[0, 'Product']

In [None]:
# Accéder à la colonne en utilisant le nom

df.loc[1, 'Product']

In [None]:
# Accéder à la colonne en utilisant le nom

df.loc[1, 'CustomerCity']

In [None]:
# Accéder à la colonne en utilisant le nom

df.loc[1, 'Total']

<img src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/TR4-yEJdBj9NyQa5rlL6mg/4.PNG" width="750">


Vous pouvez effectuer un découpage (slicing) en utilisant à la fois l'index et le nom de la colonne :


In [None]:
# Découper le DataFrame

df.iloc[0:2, 0:3]

<img src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/iyo_KV6ejpqgDxCcd3M1wg/5.PNG" width="950">


In [None]:
# Découper le DataFrame en utilisant le nom

df.loc[0:2, 'OrderID':'Category']

<img src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/88vCcZQ8N4W_R7WyKoqoAA/6.PNG" width="750">


<hr>


## Quiz sur les DataFrames


Utilisez une variable <code>q</code> pour stocker la colonne <b>Prix</b> sous forme de DataFrame


In [None]:
# Écrivez votre code ci-dessous et appuyez sur Shift+Enter pour exécuter


Assignez la variable <code>q</code> au DataFrame constitué des colonnes <b>Produit</b> et <b>Catégorie</b> :


In [None]:
# Écrivez votre code ci-dessous et appuyez sur Shift+Enter pour exécuter

 

Accédez à la deuxième ligne et à la troisième colonne de <code>df</code> :


In [None]:
# Écrivez votre code ci-dessous et appuyez sur Shift+Enter pour exécuter


Utilisez la liste suivante pour convertir l'index du DataFrame <code>df</code> en caractères et assignez-le à <code>df_new</code> ; trouvez l'élément correspondant à l'index de ligne <code>a</code> et à la colonne <code>VilleClient</code>. Ensuite, sélectionnez les lignes de <code>a</code> à <code>d</code> pour la colonne <code>VilleClient</code>


In [None]:
new_index=['a','b','c','d','e']



<hr>
<p>Félicitations ! Vous avez terminé la leçon ainsi que l’atelier pratique sur la manipulation de données avec Pandas.
<hr>
