# Création d’un objet Series grâce à un dictionnaire
## Nous pouvons créer une série à partir d’un dictionnaire. L’index de cette série aura automatiquement les étiquettes correspondant aux clés du dictionnaire

## Voyons par exemple la création d’un objet Series représentant la note obtenue d’un élève pour trois matières dans le code qui suit :

In [22]:
import pandas as pd
import numpy as np

In [23]:
notes = {"Mathématiques": 19, "Français": 12, "Dessin": 15}
ser = pd.Series(notes)
print(ser)

Mathématiques    19
Français         12
Dessin           15
dtype: int64


In [24]:
print (ser.index) #affiche l'index de la série
print (ser.array) #affiche la data de la série

Index(['Mathématiques', 'Français', 'Dessin'], dtype='object')
<PandasArray>
[19, 12, 15]
Length: 3, dtype: int64


In [25]:
print(f"Meilleure note {ser['Mathématiques']}")

Meilleure note 19


In [26]:
#vérifie si l'étiquette Sciences Physiques est présente dans l'index 
a = "Sciences Physiques" in ser 

print(a)

False


## Une série crée à partir d’un dictionnaire peut voir un index de taille différente de la taille du dictionnaire. Génial non ?

In [27]:
ser = pd.Series(notes, index=["Mathématiques", "Français", "Sciences Physiques", "Dessin" ])
ser

Mathématiques         19.0
Français              12.0
Sciences Physiques     NaN
Dessin                15.0
dtype: float64

## Création d’un objet Series grâce à un ndarray
### Si data est un ndarray, l’index passé en paramètre doit être de la même longueur que data. Si aucun index n’est passé, un index sera créé avec les valeurs [0, …, len(data) – 1].

### Prenons un autre exemple en créant un objet Series représentant le nombre d’habitants de trois pays :

In [28]:
population = np.array([67060000, 83020000, 328200000])
pays = ["France", "Allemagne", "Etats-Unis"]
ser_pp = pd.Series(population, index=pays)
ser_pp

France         67060000
Allemagne      83020000
Etats-Unis    328200000
dtype: int64

# Création d’un objet Series grâce à une valeur scalaire
## Si le paramètre data est une valeur scalaire, un index doit être fourni. La valeur sera répétée pour correspondre à la longueur de l’index.

In [29]:
ser_sc = pd.Series(5.0, index=["a", "b", "c", "d"])
ser_sc

a    5.0
b    5.0
c    5.0
d    5.0
dtype: float64

## L’attribut name d’un objet Series
### Par défaut, une série ne possède pas de nom mais il possible de la nommer grâce à l’attribut name. Voyons cela tout de suite :

In [30]:
ser_pp = pd.Series(population, index=pays, name="Série nombre d'habitants")
ser_pp

France         67060000
Allemagne      83020000
Etats-Unis    328200000
Name: Série nombre d'habitants, dtype: int64

## Vous vous demandez peut-être comment modifier le nom de la série. C’est simple ! On utilise juste la méthode rename()

In [31]:
ser_pp2 = ser_pp.rename("Nb habitants") #ser et ser2 sont deux objets différents
ser_pp2

France         67060000
Allemagne      83020000
Etats-Unis    328200000
Name: Nb habitants, dtype: int64

# La Dataframe : la structure de données la plus puissante de Pandas
### La Dataframe est une structure de données qui organise les données en lignes et en colonnes, ce qui en fait une structure de données bidimensionnelle. Vous pouvez l’imaginer comme une feuille de calcul ou une table SQL, ou encore un dictionnaire d’objets Series. C’est généralement l’objet pandas le plus utilisé. Comme une série, un Dataframe peut être construit à partir de nombreux types différents :

 ### Un dict de ndarrays 1D, listes, dicts, ou Series ;
 ### Un numpy.ndarray bidimensionnelle ;
 ###   Un ndarray strucuré ;
 ###   Une série ;
 ###   Ou encore un autre Dataframe.
 
 ###    La méthode de base pour créer une Dataframe est la suivante :
 #### df= pd.Dataframe(data,  index=index, columns=columns)
 
 #### Ici, l’index représente l’ensemble des étiquettes de lignes et columns l’ensemble des étiquettes de colonnes.

## Alors qu’est-ce qui fait vraiment la puissance de cette structure ?
## La Dataframe Pandas est puissante car :

### Elle peut facilement charger des données provenant de différentes sources de données et de différents formats de données ;
### Elle vous permet de réaliser facilement des statistiques et répondre à des questions sur les données, telles que : Quelle est la moyenne, la médiane, le maximum ou le minimum de chaque colonne ?  Y a-t-il une corrélation entre la colonne A et la colonne B ? À quoi ressemble la distribution des données de la colonne C ? ;
### Elle facilite également le nettoyage les données en supprimant les valeurs manquantes et en filtrant les lignes ou les colonnes selon certains critères
### Elle permet de visualiser les données avec l’aide de Matplotlib. Tracez des barres, des lignes, des histogrammes, des bulles, etc. ;
### Elle permet de stocker les données nettoyées et transformées dans un CSV, un autre fichier ou une base de données.
### Vous pouvez définir vos propres fonctions Python pour certaines tâches de calcul et les appliquez aux données de vos Dataframes.

# Création d’une Dataframe à partir d’un dictionnaire de séries
## L’index du Dataframe résultant sera l’union des index des différentes Series.  Voyons cela avec l’exemple suivant :

In [34]:
notes = {
         "Mathématiques": pd.Series([18.0, 20.0, 17.0], index=["Sylvie", "Gilles", "Sylvain"]),
         "Sciences Physiques": pd.Series([15.0, 7.0, 10.0,20.0],index=["Sylvie", "Gilles", "Sylvain", "Thomas"]),
    }

df = pd.DataFrame(notes)
df
# print(dir(pd))


Unnamed: 0,Mathématiques,Sciences Physiques
Gilles,20.0,7.0
Sylvain,17.0,10.0
Sylvie,18.0,15.0
Thomas,,20.0


### Les étiquettes des lignes et des colonnes sont accessibles respectivement en accédant aux attributs index et columns de la façon suivante :

In [35]:
print(df.index)
print(df.columns)

Index(['Gilles', 'Sylvain', 'Sylvie', 'Thomas'], dtype='object')
Index(['Mathématiques', 'Sciences Physiques'], dtype='object')


# Création d’une Dataframe à partir d’un dictionnaire de ndarray ou de liste
## Les ndarrays doivent tous être de la même longueur. Si un index est passé, il doit aussi être de la même longueur que les tableaux. Si aucun index n’est passé, le résultat sera range(n), où n est la longueur du tableau.

In [37]:
data = {"Prenom": ["Sylvie", "Gilles", "Sylvain", "Thomas"], "Age": [18.0, 23.0, 25.0, 40.0]}
df = pd.DataFrame(data)
df

Unnamed: 0,Prenom,Age
0,Sylvie,18.0
1,Gilles,23.0
2,Sylvain,25.0
3,Thomas,40.0


# Sélection des données

## 1. Accès aux données d’un objet Series
### Il existe principalement trois méthodes d’accès spécifiques à Pandas :

### L’opérateur d’indexation [] ;
### Les méthodes fournis par Pandas .loc() et .iloc() ;
### Utiliser l’opérateur d’indexation.

### Rappelons qu’une série possède deux indices :

    Un index positionnel ou implicite, qui est toujours un RangeIndex ;
    Un index explicite, qui peut contenir n’importe quel objet hachable.
### Vous pouvez accéder facilement aux valeurs d’un objet Series à l’aide des étiquettes et des indices de position, comme ceci :

In [39]:
notes = {"Mathématiques": 19, "Français": 12, "Dessin": 15, "Sciences Physiques": 18, "Biologie": 17}
ser = pd.Series(notes)
print(ser["Mathématiques"])
print(ser[2])

19
15


In [40]:
fleurs = pd.Series(["rose", "tournesol", "muguet", "tulipe", "violette"], index=[1, 2, 3, 5, 8])

### La bonne nouvelle, c’est que vous n’avez pas à vous poser ces questions ! En effet, pour éviter toute confusion, la bibliothèque Python Pandas fournit deux méthodes d’accès aux données :

### loc() fait référence  l’étiquette.
### iloc() fait référence à l’indice de position.
### Si nous reprenons l’objet Series définit ci-dessus, les instructions suivantes :

In [41]:
print(fleurs.loc[1])
print(fleurs.iloc[1])

rose
tournesol


## 2 Accès aux données d’un Dataframe

### Vous pouvez utiliser les mêmes outils d’accès aux éléments d’un objet Series avec un Dataframe car un Dataframe n’est qu’un ensemble d’objets Series. La différence essentielle réside dans la dimension supplémentaire du Dataframe. Vous utiliserez l’opérateur d’indexation pour les colonnes et les méthodes d’accès .loc() et .iloc() pour les lignes.

## Utilisation de l’opérateur d’indexation
### Si vous considérez un Dataframe comme un dictionnaire dont les valeurs sont des séries, il est logique que vous puissiez accéder à ses colonnes avec l’opérateur d’indexation comme ceci :


In [43]:
notes = pd.DataFrame({
         "Mathématiques": pd.Series([18.0, 20.0, 17.0], index=["Sylvie", "Gilles", "Sylvain"]),
         "Sciences Physiques": pd.Series([15.0, 7.0, 10.0,20.0],index=["Sylvie", "Gilles", "Sylvain", "Thomas"]),
    })
notes

Unnamed: 0,Mathématiques,Sciences Physiques
Gilles,20.0,7.0
Sylvain,17.0,10.0
Sylvie,18.0,15.0
Thomas,,20.0


In [44]:
notes["Mathématiques"]

Gilles     20.0
Sylvain    17.0
Sylvie     18.0
Thomas      NaN
Name: Mathématiques, dtype: float64

In [46]:
# print(notes)
print("*********************")
print(notes.loc["Gilles"])
print("*********************")
print(notes.iloc[1])

*********************
Mathématiques         20.0
Sciences Physiques     7.0
Name: Gilles, dtype: float64
*********************
Mathématiques         17.0
Sciences Physiques    10.0
Name: Sylvain, dtype: float64


# Les opérations possibles sur un Dataframe
## Les opérations de statistique (sum, mean, median, etc.)

### L’objectif principal visé lorsqu’on utilise la bibliothèque pandas est d’effectuer une analyse statistique sur un ensemble de données.

     L’analyse statistique peut être utilisée pour :

    Faire ressortir les points clés d’un ensemble de données
    Résumer les informations.
    Calculer des mesures de cohérence, de pertinence ou de diversité dans les données.
    Faire des prédictions futures basées sur des données enregistrées précédemment.

In [47]:
df_notes = pd.DataFrame({
         "Introduction au Big data":  pd.Series([11.0, 15.0, 10.0,10.0],index=["Sylvie", "Gilles", "Sylvain", "Thomas"]),
         "Hadoop": pd.Series([18.0, 20.0, 17.0,18.0], index=["Sylvie", "Gilles", "Sylvain", "Thomas"]),
         "Spark": pd.Series([15.0, 7.0, 10.0,20.0],index=["Sylvie", "Gilles", "Sylvain", "Thomas"]),
         "Java": pd.Series([18.0, 20.0, 10.0,8.0],index=["Sylvie", "Gilles", "Sylvain", "Thomas"]),
    })
df_notes

Unnamed: 0,Introduction au Big data,Hadoop,Spark,Java
Sylvie,11.0,18.0,15.0,18.0
Gilles,15.0,20.0,7.0,20.0
Sylvain,10.0,17.0,10.0,10.0
Thomas,10.0,18.0,20.0,8.0


In [48]:
df_notes.sum(axis=1)

Sylvie     62.0
Gilles     62.0
Sylvain    47.0
Thomas     56.0
dtype: float64

In [49]:
df_notes.mean(axis=1)

Sylvie     15.50
Gilles     15.50
Sylvain    11.75
Thomas     14.00
dtype: float64

In [50]:
df_notes.max(axis=0)

Introduction au Big data    15.0
Hadoop                      20.0
Spark                       20.0
Java                        20.0
dtype: float64

In [51]:
print(df_notes.describe())

       Introduction au Big data     Hadoop      Spark       Java
count                  4.000000   4.000000   4.000000   4.000000
mean                  11.500000  18.250000  13.000000  14.000000
std                    2.380476   1.258306   5.715476   5.887841
min                   10.000000  17.000000   7.000000   8.000000
25%                   10.000000  17.750000   9.250000   9.500000
50%                   10.500000  18.000000  12.500000  14.000000
75%                   12.000000  18.500000  16.250000  18.500000
max                   15.000000  20.000000  20.000000  20.000000


# Les opérations de filtrage, groupage et de concaténation
### L’opération de filtrage
#### Les Dataframe Pandas permettent l’indexation booléenne, qui est un moyen assez efficace de filtrer un dataframe pour plusieurs conditions. Dans l’indexation booléenne, les vecteurs booléens générés en fonction des conditions sont utilisés pour filtrer les données. Les conditions multiples impliquant les opérateurs | (pour l’opérateur ou), & (pour l’opérateur et), et ~ (pour l’opération non) peuvent être regroupées à l’aide de parenthèses ().



In [52]:
resultat = df_notes[(df_notes['Java']>=15)]
print(resultat.Java)

Sylvie    18.0
Gilles    20.0
Name: Java, dtype: float64


In [53]:
resultat = df_notes[(df_notes['Java']>=15)&(df_notes['Spark']>=10)]
print(resultat[["Spark", "Java"]])

        Spark  Java
Sylvie   15.0  18.0


## L’opération de groupage

In [54]:
notes = {'Région': ['Nouvelle-Aquitaine','Normandie','Normandie',
                   'Ile-de-France','Ile-de-France','Grand Est','Grand Est','Grand Est'], 
          'Université': ['Université de Poitiers','Université de Rouen','Université de Rouen',
                     'Université de Paris','Université de Paris','Université de Reims','Université de Reims','Université de Reims'],             
          'Nom': ['Gilles','Laura','Sylvain', 
                   'Thomas','Sylvie','luc','Marc','Hugo'], 
          'Spark': [14,14.5, 15,7.5,18,20,19,14],
          'Scala': [15,10,11,9,10.5,18.5,16,16]}

df = pd.DataFrame(notes, columns = 
                  ['Région', 'Université', 'Nom', 
                   'Spark', 'Scala'])
df

Unnamed: 0,Région,Université,Nom,Spark,Scala
0,Nouvelle-Aquitaine,Université de Poitiers,Gilles,14.0,15.0
1,Normandie,Université de Rouen,Laura,14.5,10.0
2,Normandie,Université de Rouen,Sylvain,15.0,11.0
3,Ile-de-France,Université de Paris,Thomas,7.5,9.0
4,Ile-de-France,Université de Paris,Sylvie,18.0,10.5
5,Grand Est,Université de Reims,luc,20.0,18.5
6,Grand Est,Université de Reims,Marc,19.0,16.0
7,Grand Est,Université de Reims,Hugo,14.0,16.0


In [56]:
gp = df.groupby('Région')

for region, group in gp:
    print(region)
    print("**********************")
    print(group)
    print()

Grand Est
**********************
      Région           Université   Nom  Spark  Scala
5  Grand Est  Université de Reims   luc   20.0   18.5
6  Grand Est  Université de Reims  Marc   19.0   16.0
7  Grand Est  Université de Reims  Hugo   14.0   16.0

Ile-de-France
**********************
          Région           Université     Nom  Spark  Scala
3  Ile-de-France  Université de Paris  Thomas    7.5    9.0
4  Ile-de-France  Université de Paris  Sylvie   18.0   10.5

Normandie
**********************
      Région           Université      Nom  Spark  Scala
1  Normandie  Université de Rouen    Laura   14.5   10.0
2  Normandie  Université de Rouen  Sylvain   15.0   11.0

Nouvelle-Aquitaine
**********************
               Région              Université     Nom  Spark  Scala
0  Nouvelle-Aquitaine  Université de Poitiers  Gilles   14.0   15.0



In [57]:
df.groupby(['Région', 'Université']).mean()

  df.groupby(['Région', 'Université']).mean()


Unnamed: 0_level_0,Unnamed: 1_level_0,Spark,Scala
Région,Université,Unnamed: 2_level_1,Unnamed: 3_level_1
Grand Est,Université de Reims,17.666667,16.833333
Ile-de-France,Université de Paris,12.75,9.75
Normandie,Université de Rouen,14.75,10.5
Nouvelle-Aquitaine,Université de Poitiers,14.0,15.0


# Lire les fichiers avec pandas
