## Démo de l'utilisation de Pandas sur un dataset particulier

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

#### *Numpy est une bibliothèque pour langage de programmation Python, destinée à manipuler des matrices ou tableaux multidimensionnels ainsi que des fonctions mathématiques opérant sur ces tableaux. C'est la base de SciPy, regroupement de bibliothèques Python autour du calcul scientifique.*

#### *Matplotlib est une bibliothèque du langage de programmation Python destinée à tracer et visualiser des données sous formes de graphiques5. Elle peut être combinée avec les bibliothèques python de calcul scientifique NumPy et SciPy.*

#### *Pandas est une bibliothèque écrite pour le langage de programmation Python permettant la manipulation et l'analyse des données. Elle propose en particulier des structures de données et des opérations de manipulation de tableaux numériques et de séries temporelles.*

[Source](#https://www.wikipedia.fr)

---

### Lecture d'un fichier au format Excel

In [None]:
pd.read_excel("./data/cds.xls")

In [None]:
data = pd.read_excel("./data/cds.xls")

In [None]:
w_data = data.to_excel("./data/cds.xls")

---

### Nombre de lignes et colonnes

In [None]:
data.shape

---

### Affichage des infos principales du dataframe

In [None]:
data.info()

---

### Affichage du nom des colonnes

In [None]:
data.columns

---

### Abandon de certaines colonnes

In [None]:
data = data.drop(["Format", "Live", "Durée", "Morceaux", "Etats (USA)"], axis=1)
# ou data[['Groupe','Album', 'Année', 'Label', 'Pays', 'Genre']] peut être utilisé
# si l'on préfère spécifier les colonnes à garder plutôt que celles à retirer

---

### Axis ?

In [None]:
from IPython.display import Image
Image("./Snaps/01.jpg")

---

### Vérification de la commande précédente

In [None]:
data.head()

In [None]:
data.shape

---

### Count des valeurs les plus présentes dans "Groupe"

In [None]:
data["Groupe"].value_counts()

---

### Combiné avec MatPlotLib

In [None]:
data["Pays"].value_counts().plot.bar()

---

### Affichage de valeurs par leurs positions

In [None]:
data.iloc[125:145]

---

### Affichage d'une valeur précise

In [None]:
data.loc[[12]]

---

### Affichage d'une donnée dans une colonne

In [None]:
data[data['Groupe'].isin(['The Beatles'])]

---

### Affichage d'une donnée précise dans une colonne

In [None]:
data[data["Année"] == 2020]

---

### Tri par condition (albums sortis avant 1980)

In [None]:
data[data['Année'] < 1980]

---

### Classement des données par ascendance

In [None]:
data.sort_values('Année', ascending=True)

---

### Affichage d'un échantillon des données (0.05% par exemple)

In [None]:
data.sample(frac=0.05)

---

### Affichage d'une colonne en liste

In [None]:
data['Groupe'].tolist()
data['Groupe']
# Deuxième ligne permet une présentation plus propre

---

### Description rapide du jeu de données (utile si données = numériques seulement)

In [None]:
data.describe()

In [None]:
from IPython.display import Image
Image("./Snaps/03.jpg")

---

### Fonction groupby (utile si données = numériques seulement)

In [None]:
from IPython.display import Image
Image("./Snaps/02.jpg")

---

### Eliminer les lignes vides

In [None]:
from IPython.display import Image
Image("./Snaps/04.jpg")

---

### Ajout de données

In [None]:
new_data = [{'Groupe':'The Weeknd','Album':'After Hours','Année':'2019','Label':'Republic Records','Pays':'Canada','Genre':'Rap'}]

In [None]:
add_data = data.append(new_data,ignore_index=True,sort=False)

In [None]:
add_data.to_excel('./data/cds_modified.xls')
# Si vous souhaitez sauvegarder le fichier "original"
# mettre son chemin directement

In [None]:
add_data.shape

In [None]:
add_data.tail()

---

### Ajout de plusieurs lignes de données

In [None]:
more_new_data = [ ('Cult of Luna', 'A Dawn to Fear', '2019', 'Metal Blade Records', 'Suède', 'Metal') ,
             ('Anathema', 'Universal', '2013', 'Kscope', 'Angleterre', 'Rock') ,
             ('Monkey3', 'Sphere', '2019', 'Napalm Records', 'Suisse', 'Metal')  ]

In [None]:
add_multiple_data = pd.DataFrame(more_new_data, columns = ['Groupe' , 'Album', 'Année' , 'Label' , 'Pays' , 'Genre'], index=['432', '433', '434'])

In [None]:
add_data_2 = add_data.append(add_multiple_data, ignore_index=False, verify_integrity=False, sort=None)

In [None]:
add_data_2.to_excel('./data/cds_modified.xls')
# Si vous souhaitez sauvegarder le fichier "original"
# mettre son chemin directement

In [None]:
add_data_2.shape

In [None]:
add_data_2.tail()

---

### Export du dataframe en CSV

In [None]:
add_data_2.to_csv('list_cds.csv', sep=',', encoding='utf-8')

---