# <center>**Introductions aux Structures d'Analyse de Données**</center>
## <center>***Python ~ NumPy ~ Pandas***</center>



### Table of Contents

* [Python & l'Analyse de Données](#chapter1)
    * [L'Analyse de Données](#section1_1)
    * [L'Intérêt de Python](#section1_2)
* [Les Structures Natives de Python](#chapter2)
    * [Les Tuples](#section2_1)
    * [Les Listes](#section2_2)
    * [Les Dictionnaires](#section2_3)
    * [Les Ensembles](#section2_4)
* [*NumPy*](#chapter3)
    * [*ndarray* : Les Objets Multidimentionnels](#section3_1)
    * [Les Fonctions Universelles Numpy](#section3_2)
    * [Programmation orientée tableaux](#section3_3)
* [Introduction aux Structures *Pandas*](#chapter4)
    * [Les Séries](#section4_1)
    * [Les DataFrame(s)](#section4_2)
    * [Fonctionnalités principales](#section4_3)
* [Bibliographie](#chapter6)


<a class="anchor" id="chapter1"></a>
### I - **Python & l'Analyse de Données**

<a class="anchor" id="section1_1"></a>
#### I.a - **L'Analyse de Données**

L'objectif de l'analyse de données a pour objectif de traiter des donnnées brutes afin de trouver rapidement et clairement des informations.


<i><center>Chaque seconde, 29.000Go d'informations sont publiées dans le monde.</center></i>

La manipulation et l'organisation de ces informations est un enjeu essentiel à l'essor de l'informatique et nous voulons faire une introduction à cette discipline aujourdhui.

<a class="anchor" id="section1_2"></a>
#### I.b - **L'Intérêt de Python**

Python est un langage interprété qui s'est démarqué depuis son apparition en 1991 sur 2 domaines :

- La constructions de sites webs, grâce à ses nombreux frameworks (Django pour n'en citer qu'un).
- L'analyse de donnée grâce à la création de bibliothèques de gestion de données très rapides (NumPy, Pandas, Scikitlearn, ...).

En l'occurence, ces dernières permettent de manipuler plusieurs sortes de jeux de données :

- Des données tabulaires (données stockées dans des bases de données ou des .csv)
- Des tableaux multidimentionnels
- Des dictionnaires
- Des séries chronologiques
- A peu près n'importe quelle structure de données complexes & organisables


<a class="anchor" id="chapter2"></a>
### II - **Les Structures Natives de Python**

Dans cette partie, nous allons faire un rappel rapide sur les structures de données déjà présentes nativement sur Python avant de nous intéresser à celles proposées par les bibliothèques NumPy & Pandas.

<a class="anchor" id="section2_1"></a>
#### II.a - **Les Tuples**

Les tuples sont des structures qui permettent de stocker *des collections ordonnées de plusieurs éléments*. Le type de ces éléments peut varier mais la tille et l'organisation interne du tuple est invariable.

```
tuple0 = (1, 'a')
tuple1 = (1, [2, 4, 6], "hello", 7.1)
```

<a class="anchor" id="section2_2"></a>
#### II.b - **Les Listes**

Les listes, au contraire, ont des longueurs variables. Elles permettent de générer des itérateurs et possèdent un jeu important de méthodes associées.

```
tab = [0, 2, True, "hello", 7.1]
```

<a class="anchor" id="section2_3"></a>
#### II.c - **Les Dictionnaires**

Le dictionnaire est une structure de collection de paires *clé-valeur*, ce qui permet d'organiser qualitativement les données associées.

```
dic = { 'a':"valeur",
        'b': 1,
        'c': [1, 2, 3]  }        
```

<a class="anchor" id="section2_4"></a>
#### II.d - **Les Ensembles**

Les ensembles sont des collections de données **uniques**. Ces données ne sont pas organisées mais ne peuvent pas se répeter, ainsi on  peut définir un jeu de valeurs attendues par exemple, de la manière la plus succincte possible.

```
ens = {1, 7, 10, 'a'}
```

<a class="anchor" id="chapter3"></a>
### III - ***NumPy***

NumPy ou Numerical Python est un package très important de Python. Il fournit entre autre :

- *ndarray* : un tableau multidimentionnel optimisé dans les opérations arythmétiques
- Des fonctions mathématiques & des opérations sur tableaux optimisées

```
import numpy as np
```

In [None]:
import numpy as np

<a class="anchor" id="section3_1"></a>
#### III.a - ***ndarray* : Les Objets Multidimentionnels**


*Multidimentionnel* signifie que ndarray est optimisé pour créer et manipuler des tableaux de N-Dimensions.
Les données contenues dans ndarray doivent être d'un type homogène cependant, l'intérêt de NumPy est principalement de gérer des jeux de données très important ce qui permet de faire des opérations sur des blocs entiers en un rien de temps.

```
data = [[1, 2, 3], [1, 2, 3]]
arr0 = np.array(data)

arr1 = np.arrange(10)

arr2 = np.zeros((2, 3))
arr3 = np.empty((2, 3, 2))
```

In [None]:
"""
EXERCICE - Créer une ndarray :

Sans utiliser de boucles 'while' ou 'for'

->  Créez une ndarray "arr0" de dimension 1 où :
    - contient 60 éléments
    - tous les éléments sont des floats
    - tous les éléments sont égaux à (arr[i] = 2 * i)

->  Créez une ndarray "arr1" en 2 dimensions avec :
    - 4 colonnes
    - 9 lignes
    - tous les éléments égaux à (float) 0.

->  Créez une ndarray "arr2" de dimension 5 où :
    - toutes les dimensions sont longues de 5 éléments
    - tous les éléments sont égaux à 1.
    
    /!\ Exécutez l'import de numpy (ci-dessus) avant de tester vos réponses.
"""

arr0 = 

arr1 =

arr2 =

<a class="anchor" id="section3_2"></a>
#### III.b - **Les Fonctions Universelles Numpy**

Les fonctions universelles ou *ufunc* permettent de faire des opérations mathématihiques élément par élément sur des tableaux ndarray.

Le but est toujours d'optimiser le temps de calcul sur des tableaux.
On appelle ces opérations qui ne nécéssitent pas de boucle une *vectorisation*. Généralement on considère que ces opérations sont plus rapides de 2 ordres de grandeur.

Numpy propose 2 types de fonctions universelles : 
- les fonctions unaires qui font des opérations sur tous les éléments d'une array 
- les fonctions binaires qui font des opérations d'une array sur l'autre


```
np.ufunc(arr1)
np.ufunc(arr1, arr2)
```

In [None]:
"""
EXERCICE - Sélectionner un bloc dans une ndarray :

-> Modifiez toutes les valeurs de arr1 de la ligne d'index 3 à la ligne d'index 6, de 0 à 1.

-> Modifiez toutes les valeurs de arr1 des colonnes d'index 0 & 1, de 0 à 1.

-> Modifiez les valeurs de arr1 des lignes 7 à 9 aux colonnes 3 & 4, de 0 à 1.
"""

In [None]:
"""
EXERCICE - Redimensionner une ndarray :

-> Redimensionnez l'array arr0 en une array 2D de forme (4 * 15) (4 lignes, 15 colonnes)
"""

In [None]:
"""
EXERCICE - Utiliser des 'ufunc' unaires : 

-> Divisez tous les éléments de arr0 par 2.3

-> Passez au carré tous les éléments de arr0

-> Utilisez la fonction numpy qui permet de séparer la partie fractionnaire des éléments de arr0
de leur partie entière et stockez ces données dans les ndarrays "reste" & "entier"
"""

In [None]:
"""
EXERCICE - Utiliser des 'ufunc' binaires :


-> Elevez les éléments de "arr0" à la puissance de l'élément respectif de ["entier" / 10]

-> Créez une ndarray "arr15" de même dimension que "arr0" dont tous les éléments sont de valeur 15

-> Divisez à la valeur planché "arr0" par "arr15" et stockez la ndarray dans "arr3"

-> Stockez la valeur max des ndarray "arr3" & "entier" dans la variable "ndmax" 
"""

arr15 =

arr3 =

ndmax =

<a class="anchor" id="chapter4"></a>
### IV - **Introduction aux Structures *Pandas***

En général, Pandas est utilisée en tandem avec des outils de calcul numérique comme NumPy. Sa fonction est principalement de manipuler et nettoyer des jeux de données importants et de type hétérogènes.

```
import pandas as pnd
from pandas import Series, DataFrame
```

In [None]:
import pandas as pnd
from pandas import Series, DataFrame

<a class="anchor" id="section4_1"></a>
#### IV.a  - **Les Séries**

Une Série est un tableau unidimensionnel qui attribue à chaque valeur un index (numérique par défaut) mais qui peut également être qualitatif à la manière d'un dictionnaire.

```
s1 = pnd.Series([12, 30, 7, 22])
s2 = pnd.Series([4, 8, -7], index=['c', 'z', 'x'])
```

In [None]:
"""
EXERCICE - Créer une Série :

-> Créez une Série :
    - nommée "Vente du 18_01_2021"
    - ayant pour index ["pomme", "poire", "pêche"]
    - ayant comme valeur [12, 24, 36]
"""



<a class="anchor" id="section4_2"></a>
#### IV.b - **Les DataFrame(s)**

Un DataFrame suit le même concept. C'est un tableau rectangulaire qui organise des colonnes de types différents et attribue à chaque ligne un index ou une clé. 

```
data = {
    'fruit': ['pomme', 'citron', 'banane', 'tomate', 'pomme'],
    'gout': ['sucré', 'acide', 'sucré', 'acide', 'acide'],
    'couleur': ['rouge', 'jaune', 'jaune', 'rouge', 'vert'],
    'prix': [0.30, 0.80, 0.50, 2., 0.40]                     }

frame0 = pnd.DataFrame(data)
frame1 = pnd.DataFrame(
                    data,
                    columns=['fruit', 'gout', 'couleur', 'prix'])
frame1 = pnd.DataFrame(
                    data,
                    columns=['fruit', 'gout', 'couleur', 'prix'],
                    index=['a','b','c', 'd', 'e'])
```

In [None]:
"""
EXERCICE - Créer une DataFrame :

-> Recréez la DataFrame "SupermanRocks" suivante :

                      "Tom"               "Bob"               "Lise"                "Omar"

    "Batman"   |  "I can beat him" | "I like the suit" | "The cave is creepy" | "I want his car!"
    "Superman" |    "I like him"   |   "Too flashy"    |  "I want his dog!"   | "I can beat him"
"""

SupermanRocks =

<a class="anchor" id="section4_3"></a>
#### IV.c - **Fonctionnalités principales**

Le but de cette partie est de comprendre les principales opérations proposées par Pandas concernant la manipulation des structures Series & DataFrame.

In [None]:
"""
EXERCICE - Importer un fichier.csv et le stocker dans une DataFrame :

-> Stockez les valeurs de NZ_Death_Birth_2010-2021.csv dans un DataFrame "nz"
    (Pensez à indexer si nécessaire)

-> Affichez les 10 premières valeurs de la DataFrame
"""

nz = 

In [None]:
"""
EXERCICE - Indexation :

-> Stockez la valeur du nombre de nourissons "Infants", garçons, en 2010 depuis le DataFrame dans "v2010g"
"""

v2010g = 

In [None]:
"""
EXERCICE - ILOC & LOC :

-> Stockez dans "nzEnfants" les 4 premières lignes de "nz"

-> Stockez dans "nzCount" les colonnes d'année, de genre et de compte complètes de "nz"

-> Stockez dans "nzEUX" les lignes 462 à 484 des colonnes d'année et de compte de "nz"
"""

nzEnfants = 

nzCount =

nzEUX =

In [None]:
"""
EXERCICE - MAP & APPLY :

-> Stockez dans une nouvelle colonne "nzIsTotal" les valeurs "True" ou "False" si l'élément la colonne "Sexe" de "nz"
contient respectivement le mot "Total" ou non.

-> Stockez dans la nouvelle DataFrame "nzTotal" exclusivement les éléments contenant le mot "Total"

-> LES MEDIAS NOUS MENTENT!!! LA Covid-19 est en fait apparu en 2016 et a fini de décimer
toute la population Néo-Zélandaise en 2018.
Réparez les erreurs de l'humanité en soustrayant les tous comptes de "nz" de 50 (sauf les totaux)
de 2016 à 2018 (exclu).
Puis changez en 0 les comptes à partir de 2018 (inclu).
"""

nzTotal = 

<a class="anchor" id="chapter6"></a>
### V - **Bibliographie**

Ce Workshop est fortement inspiré d' *Analyse de données avec Python* de **Wes McKinney** et des documentations proposées par *numpy.org*, *pydata.org* & les cours disponibles sur *kaggle.com*. 