# <font color="#8333ff">Fiche d'aide à l'analyse des données


## <font color="#8333ff">Introduction à la librairie Pandas

In [None]:
# importation des librairies nécessaires à la tranformation des données

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime  as dt

In [None]:
# lire des données en format csv
df=pd.read_csv("data.csv",sep=";",decimal=".",header=True,index_col=0)

# lire des données en format excel
X = pandas.read_excel("data.xlsx",sheet_name=0,header=0,index_col=0)

# reccupérer les données d'un DF
df.to_csv("df.csv",sep=";")

# Sauvgarder une image
# Ne pas oublier d'importer matplotlib.pyplot
plt.savefig('heatmap.png')

# Télécharger d'un autre dossier
df = pd.read_csv("C:\\Users\\fbbou\\Notebook Jupyter\\DATA\\arbres.csv",sep=";")

In [None]:
# Changer de dossier de ref
import os

os.chdir("C:\Users\fbbou\Notebook Jupyter\Lisa")

In [None]:
# Affiche uniquement 2 chiffres après la virgule pour les floatants
pd.set_option('display.float_format', '{:.2f}'.format)

# Style des graphes seaborn
sns.set_theme(style="whitegrid")

## Structure du DF

In [None]:
# Renvoie un df constitué uniquement des float
df.select_dtypes(include='float')

# Créer un DF à partir d'un objet numpy (tab)
df = pd.DataFrame(tab.np,index=['a1','a2'],columns=['X1','X2'])

# vérifie le type de df
type(df)  

# donne le nombre de ligne et colonne                        
df.shape 
                         
# donne les premières lignes du jeu de donnée
df.head() 

# donne les noms des colonnes                         
df.columns 
                        
# donne le type de chaque colonne
df.types   
                        
# donne des informations sur les données
df.info()                          

# donne des informations sur les données
df.describe(include="all") 

# Renvoie un Pandas serie avec pour chaque colonne le nombre de valeur null        
df.isnull().sum()

# Renvoie le nombre de valeur null du DF
df.isnull().sum().sum()

# Renvoie le pourcentage de valeur null du DF
df.isnull().sum().sum() / df.shape[0]*df.shape[1]

# supprime le df
del(df)    

# renvoie le nombre de valeur unique de X1                    
len(df['X1'].unique())          

# renomer une colonne
df = df.rename (columns = {'ancien_X' : 'nouv_X', 'ancien_y' : 'nouv_y'} ) 

## Manipulation des variables


### Accès aux varibles

In [None]:
# renvoie une serie pandas qui a pour valeur X1
df['X1']  ou df.X1   

# renvoie un DF constitué des colonnes X1 et X2
df[['X1','X2']] 

# renvoie les premières valeurs de X1
df['X1'].head()                   

# renvoie les dernières valeurs de X1
df['X1'].tail() 

# décrit X1
df['X1'].describe()               

# donne la moyenne de X1
df['X1'].mean()                   

# donne le nombre d'apparition de chaque valeur
df['X1'].value_counts()            

# renvoie une serie composé de X1 trié par ordre croissant (ascending=False)
df['X1'].sort_values    

# Renvoit le df trié par ordre décroissant selon la colonne corr_1 (double index de colonne)
df.sort_values([("CORRELATION",'CORR_1')],ascending=False)

# renvoie une serie pandas composé des indices des valeurs triées
df['X1'].argsort                  

# renvoie les 4 premières valeurs de X1
df['X1'][0:3]  <==> df.X1[0:3]    


# trie df selon les valeurs de X1
df.sort_values(by='X1')           

# éfface la colonne X1 de DF
df=df.drop(columns=['X1'])     

# Remove two columns name is 'C' and 'D'
df.drop(['C', 'D'], axis=1)
  
df.drop(columns =['C', 'D'])

### Accès indicé aux données d'un DF

In [None]:
# renvoie la valeur située en (0,0)
df.iloc[0,0]                      

# renvoie la valeur de la dernière ligne, première colonne
df.iloc[-1,0]                      

# renvoie la valeur de la dernière ligne, première colonne
df.iloc[df.shape[0]-1,0]           

# renvoie la valeur de la première ligne, dernière colonne
df.iloc[0,df.shape[1]]           

# renvoie un DF constitué des 5 premières lignes et de toutes les colonnes
df.iloc[0:5 , : ]                  

# renvoie un DF constitué des 5 dernières lignes et de toutes les colonnes
df.iloc[-5: , : ]                  

# renvoie un DF constitué des 5 premières lignes et des colonnes 0 2 et 4
df.iloc[0:5 , [0,2,4]]             

# renvoie un DF constitué des 5 premières lignes, des 5 premières colonnes avec un pas de 2
df.iloc[0:5 , 0:5:2] 

# renvoie un DF constitué des lignes selectionnées
df.loc[['a','c','e']]

# Renvoit un DF constitué des colonnes selectionnées sous forme de liste
df.loc[:,list_col]

# supprime les lignes a , e et c
df.drop(['a','c','e'])

## Restrictions avec conditions: Les Requètes

In [None]:
# renvoie un DF constitué de toutes les colonnes et selectionne les lignes dont la colonne X1=A
df.loc [df["X1"] == "A", : ]       

# renvoie un vecteur booleen
df["X1"] == "A"                    

# renvoie un DF constitué de toutes les colonnes et selectionne les lignes dont la colonne X1 est =A ou =B
# on utilise cette technique dès qu'il y a plusieurs conditions
df.loc [df["X1"].isin (['A','B']), : ]  


# renvoit un df qui repond au 2 critères
df.loc[(df['X1']=='A') & (df['X2']=='B'), : ]   

# renvoie un DF: les col 1,3 et 6 et selectionne les lignes pour X1 < 27 et X2 diff de B
colonnes=['X1','X3','X6']
df.loc [ (df['X1']<27) | (df['X2']!='B') , colonnes]

# filtre avec double conditions
df = df[(df.aielpr00 == 1) & (df.aielpr01 ==1) ]   

# Renvoie un DF avec liste de colonnes et une liste de modalité de la col X1
liste_col=['X1','X2']
liste_mod=['a1','a2','a3']
df[df['X1'].isin(list_mod)][liste_col]

# Selectionner uniquement les colonnes numeriques
df_num = df.select_dtypes('number')

## Pivot - Croisement des variables

In [None]:
# Tableau de contingence

# renvoie un DF constitué des fréquences des modalités de X1 par rapport aux modalité de X2
pd.crosstab (df["X1"] , df["X2"]) 

# renvoie un DF constitué des fréquences des modalités de X1 
# par rapport aux modalité de X2 données en pourcentage
pd.crosstab (df["X1"],df["X2"] , normalyze="index")

# renvoie un DF : en ligne les modalités de X1, en col les modalités de X2,
# et remplis les champs avec les valeurs de x3
pd.crosstab (df["X1"],df["X2"] , values=df["X3"], aggfunc=pd.Series.mean)

# renvoie le même resultat qu'haut dessus
df.pivot_table(index["X1"],columns=['X2'], values=df["X3"], aggfunc=pd.Series.mean)

## Utilisation de groupby()

In [None]:
# renvoie un objet Pandas de type groupby: sission des données selon les modalités de X1
g=df.groupby('X1')                   

# calcul la dimension du sous-DF
g.get_group('A').shape              

# donne la valeur moyenne de X2 avec le filtre X1=='A'
g.get_group('A')['X2'].mean()       

# pour chaque modalité de X1 on calcul la moyenne et l'écart type de X2 et X3
g[['X2' , 'X3']].agg([pd.Series.mean , pd.Series.std])

## Construction de variables calculées


In [None]:
# création d'un vecteur à partir d'un DF
Xn=df['X1']*numpy.log(df["X2"])      

# nouveau DF on ajoute le vecteur Xn à df en tant que colonne "axis=1"
new_df=pd.concat([df,Xn],axis=1 )  

# Création d'une indicatrice pour codé la variable sex
code =pd.Series(np.zeros(df.shape[0]))
code[df['sex']=='masculin']=1

# Création d'une colonne en fonction d'une autre
df["date_recession"] = [1 if s >= 400 else 0 for s in  df["Volume"]]

# Donne le même resultat avec where
df["date_recession"] = np.where (df['Volume'] >= 400, 1, 0)

# Création d'une constante(2)
df = df.assign(X1 = 2)

# On remplace les valeurs manquantes de la variable X1 par une liste ou df...
df.loc[df["X1"].isnull(), 'X1'] = data

# Création d'une variable à partir des 2 modalités(oui et non) de 2 autres variables
# renvoit oui si oui sinon non
# l'ordre à une importantance
conditionlist = [
    (df['Définition détaillée: 1'] == 'oui') ,
    (df['Définition détaillée: 2']=='oui')]
choicelist = ['oui', 'oui']
df['Définition détaillée par téléphone'] = np.select(conditionlist, choicelist, default='non')

# Autres exemple
conditionlist = [
    (df['aielpr00'] == 1) &  (df['aielpr01']==1) & (df['aielpr02']==1)]
choicelist = ['oui']
df['Eligibilité PR'] = np.select(conditionlist, choicelist, default='non')

# Modifie la modalité 'ne repond pas' en 'Injoignable' de la variable 'état du dossier'
df['Etat du dossier'] = df['Etat du dossier'].apply(lambda x: 'Injoignable' if x == 'Injoignable ' else x)

## Les graphique de Pandas

Pandas propose des commandes simples qui encapsulent l'appel à des procédures.      
Il faut toutefois importer matplotlib pour que l'ensemble fonctionne correctement.

In [None]:
%matplotlib inline 
#implique que l'on veut voir apparaître les graphiques dans le notebook

# histogramme de la variable âge
df.hist(column='age')             

# density plot
df['X1'].plot.kde()                

 #crée autant d'histogramme que X2 a de modalité
df.hist(column='age',by = 'X2')    

# crée 2 histogramme (sex) pr la variable 'age'
df.boxplot(column='age', by="sex" )    

## Index

In [None]:
# tranformer la colonne index en colonne normale
df['index']=df.index

# réinitialisation de l'index
df.reset_index

# Redemmarer des index à partir de 0
df = df.reset_index() 
df = df.drop(columns=['index'])

## Liste isin

In [None]:
# Renvoie un booleen dit si chaque index est dans la liste de pays
df.index.isin(liste_pays) 

## Données manquantes

In [None]:
# Remplace toutes les données manquantes par 0*
df =df.fillna(0)