In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# Manipuler des données

En analyse de données, la première étape porte sur la collecte et l'accessibilité aux données.

Dans notre étude, nous allons travailler sur les caractéristiques analytiques du vin.

Notre échantillon comprends 178 individus et 13 critères. Cet échantillon est disponible dans le répertoire "data".

A ce stade notre objectif consiste à :
* Lire un fichier de données de type csv
* Assigner des noms de colonnes explicites
* Sélectionner un sous ensemble à partir de notations matricielles
* Sélectionner un sous ensemble des mesures à partir de conditions prédéfinies.
* Aggréger des individus suivant des régles définies


# Librairie Pandas 

__Pandas est une librairie python qui permet de manipuler facilement des données à analyser :__
* manipuler des tableaux de données avec des étiquettes de variables (colonnes) et d'individus (lignes).
* ces tableaux sont appelés DataFrames.
* on peut facilement lire et écrire ces dataframes à partir ou vers un fichier tabulé.
* on peut facilement tracer des graphes à partir de ces DataFrames grâce à matplotlib (autre librairie à voir par la suite).

In [3]:
# Importer la librairie pandas sous le nom pd
import pandas as pd

### Créer un DataFrame

In [4]:
# On le crée 
df1 = pd.DataFrame({"Name": ["Braund, Mr. Owen Harris","Allen, Mr. William Henry","Bonnell, Miss. Elizabeth",],
                   "Age": [22, 35, 58],
                   "Sex": ["male", "male", "female"],})
#On l'affiche
df1

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


In [5]:
# Utiliser les données d'une seule variable
# Quand on sélectionne une seule colonne d'un DataFrame sur Pandas, le résultat est un Pandas Series
df1["Age"]

0    22
1    35
2    58
Name: Age, dtype: int64

In [6]:
# On peut aussi créer un pandas Series
ages = pd.Series([22, 35, 58], name="Age")
ages

0    22
1    35
2    58
Name: Age, dtype: int64

### Créer un DataFrame à partir d'un fichier Excel / CSV


In [7]:
# Lire un fichier excel 
#variable= pd.read_excel("chemin du fichier.xlsx", sheet_name="nom_du_sheet"))

In [8]:
# Lire un fichier CSV
data = pd.read_csv("/content/drive/MyDrive/MT15-local/TP1/data/WineDataSet.csv") 

In [9]:
# Afficher des informations sur le jeu de données
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Column1   178 non-null    int64  
 1   Column2   178 non-null    float64
 2   Column3   178 non-null    float64
 3   Column4   178 non-null    float64
 4   Column5   178 non-null    float64
 5   Column6   178 non-null    int64  
 6   Column7   178 non-null    float64
 7   Column8   178 non-null    float64
 8   Column9   178 non-null    float64
 9   Column10  178 non-null    float64
 10  Column11  178 non-null    float64
 11  Column12  178 non-null    float64
 12  Column13  178 non-null    float64
 13  Column14  178 non-null    int64  
dtypes: float64(11), int64(3)
memory usage: 19.6 KB


### Manipulation des données

In [10]:
# Afficher un nombre limité d'individus (lignes)
data.head(3)

Unnamed: 0,Column1,Column2,Column3,Column4,Column5,Column6,Column7,Column8,Column9,Column10,Column11,Column12,Column13,Column14
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185


#### Assignation des noms de colonnes
- Column1 => Class
- Column2 => Alcohol
- Column3 => Malic_Acid
- Column4 => Ash
- Column5 => Ash_Alcalinity
- Column6 => Magnesium
- Column7 => Total_Phenols
- Column8 => Flavanoids
- Column9 => Nonflavanoid_Phenols
- Column10 => Proanthocyanins
- Column11 => Colour_Intensity
- Column12 => Hue
- Column13 => OD280/OD315_of_diluted_wines
- Column14 => Proline

In [37]:
df = data.rename(
    columns=({
    'Column1':'Class',
    'Column2':'Alcohol',
    'Column3':'Malic_Acid',
    'Column4':'Ash',
    'Column5':'Ash_Alcalinity',
    'Column6':'Magnesium',
    'Column7':'Total_Phenols',
    'Column8':'Flavanoids',
    'Column9':'Nonflavanoid_Phenols',
    'Column10':'Proanthocyanins',
    'Column11':'Colour_Intensity',
    'Column12':'Hue',
    'Column13':'OD280/OD315_of_diluted_wines',
    'Column14':'Proline' })
)

In [12]:
# Utilisons une seule colonne
C_alcohol=df["Alcohol"]
# Affichons les deux premières lignes de cette variable
C_alcohol.head(2)
# Affichons l'attribut dimension de la colonne
C_alcohol.shape

(178,)

In [13]:
# Nous souhaitons utiliser deux colonnes (variables)
C_AlcMg=df[["Alcohol", "Magnesium"]]
C_AlcMg.head(2)


Unnamed: 0,Alcohol,Magnesium
0,14.23,127
1,13.2,100


#### Sélectionner un sous ensemble à partir de notations matricielles

#### Pour les lignes (individus)

In [23]:
# Lecture des individus de 1 à 3
C_AlcMg[:3]
#...............................
#...............................

Unnamed: 0,Alcohol,Magnesium
0,14.23,127
1,13.2,100
2,13.16,101


In [15]:
# Lecture des individus de 10 à 20
C_AlcMg[9:20]
#...............................
#...............................

In [16]:
# Lecture des individus moins les 20 derniers
C_AlcMg[:-20]
#...............................
#...............................

In [24]:
# Lecture des 5 derniers individus
C_AlcMg[-5:]
#...............................
#...............................

Unnamed: 0,Alcohol,Magnesium
173,13.71,95
174,13.4,102
175,13.27,120
176,13.17,120
177,14.13,96


In [27]:
C_AlcMg.iloc[-5:,:]

Unnamed: 0,Alcohol,Magnesium
173,13.71,95
174,13.4,102
175,13.27,120
176,13.17,120
177,14.13,96


#### Pour les colonnes (variables)

In [19]:
# Lecture du croisement deux premières colonnes et deux première lignes
df.iloc[:,0:2].head(2)

Unnamed: 0,Class,Alcohol
0,1,14.23
1,1,13.2


In [22]:
# Lecture du croisement colonnes 8, 9 et des quatre premières lignes
#...............................
#...............................
df.iloc[:4,7:9]

Unnamed: 0,Flavanoids,Nonflavanoid_Phenols
0,3.06,0.28
1,2.76,0.26
2,3.24,0.3
3,3.49,0.24


In [20]:
# Lecture du croisement des colonnes 6, 8, 11 et des deux premières lignes
# Remardez l'usage de loc, qui contrainrement à iloc, utilise les noms de colonnes comme indices

# Sans rechercher le nom des colonnes
df.loc[0:1,[df.columns[5],df.columns[7],df.columns[10]]]

# En utilisant le nom des colonnes

df.loc[0:1,['Magnesium', 'Flavanoids', 'Colour_Intensity']]

Unnamed: 0,Magnesium,Flavanoids,Colour_Intensity
0,127,3.06,5.64
1,100,2.76,4.38


#### Utile: différence entre la fonction iloc et la fonction loc

https://www.quora.com/What-is-the-difference-between-iloc-and-loc-in-Pandas


### Sélection des mesures à partir de conditions prédéfinies

A ce stade, l'objectif est d'extraire les individus qui répondent à un ou plusieurs critères tels que :
* Alcohol > 14
* Malic_Acid > 3.5
* Magnesium > 100

In [38]:
# Vue statistique sur l'ensemble des matrices
df.describe()

Unnamed: 0,Class,Alcohol,Malic_Acid,Ash,Ash_Alcalinity,Magnesium,Total_Phenols,Flavanoids,Nonflavanoid_Phenols,Proanthocyanins,Colour_Intensity,Hue,OD280/OD315_of_diluted_wines,Proline
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,1.938202,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258
std,0.775035,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474
min,1.0,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0
25%,1.0,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5
50%,2.0,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5
75%,3.0,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0
max,3.0,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0


In [None]:
#Vue statistique de la variable Alcohol
df.Alcohol.describe()

In [None]:
# On s'interesse aux individus dont le taux Alcohol est supérieur à 14
df[df.Alcohol > 14]
# Pareil ! df[df["Alcohol"] > 14]

In [None]:
# On s'interesse aux individus dont le taux Alcohol est supérieur à 14 et le taux de Malic_Acid supérieur à 3.5
df[(df.Alcohol > 14) & (df.Malic_Acid > 3.5)]
# Avec le 'ou' logique: df[(df.Alcohol > 14) | (df.Malic_Acid > 3.5)]

In [28]:
# On s'interesse aux individus dont le taux Alcohol est supérieur à 14, le taux de Malic_Acid supérieur à 3.5 et le taux de Magnesium supérieur à 100 
df[(df.Alcohol >= 14) & (df.Malic_Acid >= 3.5) & (df.Magnesium >= 100)]
#...............................
#...............................

Unnamed: 0,Class,Alcohol,Malic_Acid,Ash,Ash_Alcalinity,Magnesium,Total_Phenols,Flavanoids,Nonflavanoid_Phenols,Proanthocyanins,Colour_Intensity,Hue,OD280/OD315_of_diluted_wines,Proline
39,1,14.22,3.99,2.51,13.2,128,3.0,3.04,0.2,2.08,5.1,0.89,3.53,760
45,1,14.21,4.04,2.44,18.9,111,2.85,2.65,0.3,1.25,5.24,0.87,3.33,1080
46,1,14.38,3.59,2.28,16.0,102,3.25,3.17,0.27,2.19,4.9,1.04,3.44,1065


In [None]:
# On s'intéresse aux individus des classes 1 et 3 uniquement
df[df.Class.isin([1,3])]
# Pareil:  df[df["Class"].isin([1,3])]
# Ou encore: 
# df[(df['Class'] == 1) | (df['Class'] == 3)]
# df[(df.Class == 1) | (df.Class == 3)]

### Suppression d'un colonne

In [29]:
df = df.drop('Magnesium', axis=1, inplace=True)
df

In [49]:
# Suppression de la ligne 177
df
df.drop([177])
#...............................
#...............................

Unnamed: 0,Class,Alcohol,Malic_Acid,Ash,Ash_Alcalinity,Magnesium,Total_Phenols,Flavanoids,Nonflavanoid_Phenols,Proanthocyanins,Colour_Intensity,Hue,OD280/OD315_of_diluted_wines,Proline
0,1,14.23,1.71,2.43,15.6,127,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.20,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050
2,1,13.16,2.36,2.67,18.6,101,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.50,16.8,113,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
172,3,14.16,2.51,2.48,20.0,91,1.68,0.70,0.44,1.24,9.70,0.62,1.71,660
173,3,13.71,5.65,2.45,20.5,95,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740
174,3,13.40,3.91,2.48,23.0,102,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750
175,3,13.27,4.28,2.26,20.0,120,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835


In [50]:
print(df)

     Class  Alcohol  Malic_Acid   Ash  Ash_Alcalinity  Magnesium  \
0        1    14.23        1.71  2.43            15.6        127   
1        1    13.20        1.78  2.14            11.2        100   
2        1    13.16        2.36  2.67            18.6        101   
3        1    14.37        1.95  2.50            16.8        113   
4        1    13.24        2.59  2.87            21.0        118   
..     ...      ...         ...   ...             ...        ...   
173      3    13.71        5.65  2.45            20.5         95   
174      3    13.40        3.91  2.48            23.0        102   
175      3    13.27        4.28  2.26            20.0        120   
176      3    13.17        2.59  2.37            20.0        120   
177      3    14.13        4.10  2.74            24.5         96   

     Total_Phenols  Flavanoids  Nonflavanoid_Phenols  Proanthocyanins  \
0             2.80        3.06                  0.28             2.29   
1             2.65        2.76       

## Application

In [56]:
# Créer un dataframe df2 composé de nom, age, et sex de 4 individus en respectant la mise en forme (labels) du dataframe df1 (définit en haut)
df2=pd.DataFrame({
    "Name":["Anne","Ben","Cathy","Kim"],
    "Age":[15,12,13,14],
    "Sex":["female","male","female","female"]
    })
df2
#...............................
#...............................

Unnamed: 0,Name,Age,Sex
0,Anne,15,female
1,Ben,12,male
2,Cathy,13,female
3,Kim,14,female


In [57]:
# On voudrais concatener ce DataFrame df2 avec df1 (définit en haut)
data_base=pd.concat([df1,df2], axis=0,ignore_index=True)
data_base

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female
3,Anne,15,female
4,Ben,12,male
5,Cathy,13,female
6,Kim,14,female


In [62]:
# Extraire les individus de sexe masculin de moins de 40 ans
data_base[(data_base.Age<40)&(data_base.Sex=="male")]
#...............................
#...............................

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
4,Ben,12,male


In [70]:
# Ajouter une colonne qui contient la couleur des yeux de tout les individus
data_base["Eye"]=["Marron","Bleu","Rouge","Gris","Vert","Noir","Marron"]
data_base
#...............................
#...............................

Unnamed: 0,Name,Age,Sex,Eye
0,"Braund, Mr. Owen Harris",22,male,Marron
1,"Allen, Mr. William Henry",35,male,Bleu
2,"Bonnell, Miss. Elizabeth",58,female,Rouge
3,Anne,15,female,Gris
4,Ben,12,male,Vert
5,Cathy,13,female,Noir
6,Kim,14,female,Marron


In [71]:
# Supprimer la colonne Age
data_base.drop(columns="Age")
#...............................
#...............................

Unnamed: 0,Name,Sex,Eye
0,"Braund, Mr. Owen Harris",male,Marron
1,"Allen, Mr. William Henry",male,Bleu
2,"Bonnell, Miss. Elizabeth",female,Rouge
3,Anne,female,Gris
4,Ben,male,Vert
5,Cathy,female,Noir
6,Kim,female,Marron


In [78]:
# Supprimer les individus dont la couleur des yeux est marron 
data_base.loc[data_base['Eye'] != 'Marron']
#...............................
#...............................

Unnamed: 0,Name,Age,Sex,Eye
1,"Allen, Mr. William Henry",35,male,Bleu
2,"Bonnell, Miss. Elizabeth",58,female,Rouge
3,Anne,15,female,Gris
4,Ben,12,male,Vert
5,Cathy,13,female,Noir
