# Manipulation des ensembles de données
Maintenant que nous avons une base en python, nous pouvons explorer la manipulation des données avant de commencer l'apprentissage de l'apprentissage machine.

Le reste de l'exercice se fera sous la forme d'une exploration de données.

Cependant, avant de rentrer dans le vif du sujet, vaut mieux avoir une connaissance de base de la manipulation des matrices!

En premier, voyons numpy.

Avant de commencer le code, notre environnement ne contient pas tous les paquets dont nous avons besoin. Dans une fenètre d'Anaconda prompt, activez votre environnement :

`conda activate demo_python`

Puis installez le paquet manquant :

`pip install numpy`

Une fois cette installation terminé, vous pouvez procéder à la prochaine cellule.

In [None]:
import numpy as np

In [None]:
# Lors de l'apprentissage avec la démonstration de base de python, nous avons vu les listes, 
# bien qu'elles soient de bonne représentation d'une liste de chiffre, elles s'y pretent mal pour gérer les opérations mathématiques

liste_nombre = [1,2,3,4,5] # C'est une liste bien ordinaire
liste_numpy_nombre = np.array(liste_nombre) # On transforme la liste en un array de numpy
print(f"Somme : {liste_numpy_nombre.sum()}")
print(f"Moyenne : {liste_numpy_nombre.mean()}")
print(f"Maximum : {liste_numpy_nombre.max()}")
print(f"Minimum : {liste_numpy_nombre.min()}")

# De plus, numpy est optimisé pour faire des opérations matricielles.
# Je vous invite à consulter le site de numpy pour avoir une liste de toutes les opérations matricielles de numpy.

In [None]:
# Nous pouvons créer des matrices facilement
# np.ones crée une matrice ne contenant que des 1, alors que np.zeros crée une matrice ne contenant que des 0.
matrice_carre = np.ones((3,3))
print(matrice_carre)
print(type(matrice_carre))
print(matrice_carre.shape)
# On peut créer une matrice de taille n x m
matrice_rectangle = np.zeros((3,4))
print(matrice_rectangle)
print(type(matrice_rectangle))
print(matrice_rectangle.shape)
matrice = np.array([[1,2,3],[4,5,6]])
print(matrice)
print(type(matrice))
print(matrice.shape)


In [None]:
# De plus, numpy est optimisé pour faire des opérations matricielles.

# Pour le prouver, complétez la fonction pour calculer la multiplication de deux matrices.
# Pour vous aider, voici comment calculer deux matrices : https://www.alloprof.qc.ca/fr/eleves/bv/mathematiques/les-operations-sur-les-matrices-m1467
def multiplication_matrice(matrice_1, matrice_2):
    # fonction à compléter
    return 0 # Le résultat de votre multiplication matricielle devrait vous retourner 3.

# Ne modifiez pas le reste du code de cette cellule.
import timeit
matrice = np.ones(3) # Création d'une matrice 3x3 ne contenant que des 1.

start = timeit.default_timer()
resultat = np.dot(matrice, matrice)
stop = timeit.default_timer()
print(f"Temps pour l'opération : {stop - start}")
print(resultat)

liste_de_liste = [] # Fausse matrice
for i in range(3):
    liste_de_liste.append([1,1,1])
print(liste_de_liste)
start = timeit.default_timer()
resultat = multiplication_matrice(liste_de_liste, liste_de_liste)
stop = timeit.default_timer()
print(f"Temps pour l'opération : {stop - start}")
print(resultat)



In [None]:
# Nous pourrions continuer longtemps avec numpy, mais nous allons utiliser pandas pour plus de facilité dans les opérations sur les matrices.
# Ce qu'il faut savoir avec pandas, il utilise des objets numpy pour gérer les opérations sur les matrices.
# Retournons dans le prompt d'Anaconda pour installer pandas. J'imagine que vous avez une idée de comment faire... ;)
import pandas as pd

In [None]:
# Sans plus tarder, nous allons utiliser pandas pour manipuler les matrices.
# Les séries de pandas sont des objets qui contiennent des données.
animals = ['Tiger', 'Bear', 'Moose']
pd.Series(animals)

In [None]:
numbers = [1, 2, 3]
pd.Series(numbers)

In [None]:
animals = ['Tiger', 'Bear', None]
pd.Series(animals)

In [None]:
sports = {'Archery': 'Bhutan',
          'Golf': 'Scotland',
          'Sumo': 'Japan',
          'Taekwondo': 'South Korea'}
s = pd.Series(sports)
s

In [None]:
# Chaque instance de pandas contient des données et des informations sur les données.
# Dont les index sont des noms qui sont utilisés pour identifier les données.
s.index

In [None]:
# Il est possible de renommer les index.
s = pd.Series(['Tiger', 'Bear', 'Moose'], index=['India', 'America', 'Canada'])
s

In [None]:
sports = {'Archery': 'Bhutan',
          'Golf': 'Scotland',
          'Sumo': 'Japan',
          'Taekwondo': 'South Korea'}
s = pd.Series(sports, index=['Golf', 'Sumo', 'Hockey'])
s

# Séries

In [None]:
sports = {'Archery': 'Bhutan',
          'Golf': 'Scotland',
          'Sumo': 'Japan',
          'Taekwondo': 'South Korea'}
s = pd.Series(sports)
s

In [None]:
# Nous pouvons accéder aux données de la série avec la méthode "iloc". Ils accèdent de la même manière aux données d'une liste.
s.iloc[3]

In [None]:
# Nous pouvons aussi y arriver en utilisant les indices.
s.loc['Golf']

In [None]:
# Ou les indices numériques.
s[3]

In [None]:
# Pour plus de commodité, il est plus aisé d'utiliser le nom de l'index directement.
s['Golf']

In [71]:
# Voyons voir avec des indices numériques.
sports = {99: 'Bhutan',
          100: 'Scotland',
          101: 'Japan',
          102: 'South Korea'}
s = pd.Series(sports)

In [72]:
# Cette ligne va retourner une erreur, pourquoi?
s[0]

KeyError: 0

In [None]:
# Disons que nous voudrions calculer la somme des valeurs de la série.
s = pd.Series([100.00, 120.00, 101.00, 3.00])

# Quelle méthode pensez vous qui serait la plus rapide?
# Vérifiez le avec un import de timeit...
total = 0
for item in s:
    total+=item
print(total)

total = np.sum(s)
print(total)

print(s.sum())

In [None]:
# Afin d'avoir un apperçut de la série, nous allons utiliser la méthode "describe".
s.describe()

In [None]:
# Et pour avoir une visualisation des données, nous allons utiliser la méthode head.
s.head()

# Dataframes

In [None]:
purchase_1 = pd.Series({'Name': 'Chris',
                        'Item Purchased': 'Dog Food',
                        'Cost': 22.50})
purchase_2 = pd.Series({'Name': 'Kevyn',
                        'Item Purchased': 'Kitty Litter',
                        'Cost': 2.50})
purchase_3 = pd.Series({'Name': 'Vinod',
                        'Item Purchased': 'Bird Seed',
                        'Cost': 5.00})
df = pd.DataFrame([purchase_1, purchase_2, purchase_3], index=['Store 1', 'Store 1', 'Store 2'])
df.head()

In [None]:
# Pour consulter la colonne "Store 2", nous allons utiliser la méthode "loc".
df.loc['Store 2']

In [None]:
type(df.loc['Store 2'])

In [None]:
# Et pour trouver les données se trouvant sous la colonne "Cost" et qui contient l'index "Store 1" :
df.loc['Store 1', 'Cost']

In [None]:
# Évidemment, comme nous avons vu avec les Séries, nous pouvons utiliser les même façons de faire.
df["Cost"]

In [None]:
# Pour ouvrir un fichier csv, un des contenants de données que j'ai le plus souvent vu.
df = pd.read_csv('books.csv')

In [None]:
df.head()

In [None]:
df.describe()
# Pourquoi pensez vous que seulement certaines colonnes ne sont pas affichées?