# Python, "les fondamentaux"

## Sommaire
- [1. Python base](#sect1)
    - [1.1. Manipulation des types natifs (focus séquences)](#sect11)
        - [1.1.1. Les chaines de caractères](#sect111) 
        - [1.1.2. Les listes](#sect112)
        - [1.1.3. Les tuples](#sect113)
        - [1.1.4. Les ranges](#sect114)
        - [1.1.5. Les dictionnaires](#sect115)
        - [1.1.6. Les ensembles](#sect116)
    - [1.2. Manipulation des tests et boucles](#sect12)
    - [1.3. Création de fonctions](#sect13)
- [2. Python fondamentaux data](#sect2)
    - [2.1. Import packages et données](#sect21)
        - [2.1.1. Import des packages](#sect211)
        - [2.1.2. Chargement des données](#sect212)
        - [2.1.3. Manipulation d'un dataframe](#sect213)
    - [2.2. Mise en forme des données](#sect22)
        - [2.2.1. Fusion des données](#sect221)
        - [2.2.2. Audit des données](#sect222)
        - [2.2.3. Nettoyage des données](#sect223)
    - [2.3. Analyses statistiques](#sect23)
        - [2.3.1. Statistiques descriptives univariées](#sect231)
        - [2.3.2. Statistiques descriptives bivariées](#sect232)
        - [2.3.3. Profilage](#sect233)


## <a name="sect1"></a> 1. Python base
L'objectif de cette partie est de manipuler l'ensemble des notions vues dans le ppt : objet, attribut, méthode, fonction, type, ...
### <a name="sect11"></a>1.1 Manipulation des types natifs (focus séquences)
Python dispose de base d'un certain nombre de type de données. Il s'agit ici de manipuler ceux les plus spécifiques à savoir les séquences : les chaines de caractères, les listes, les tuples, les ranges, les dictionnaires et les ensemble.

#### <a name="sect111"></a> 1.1.1. Les chaines de caractères
##### Accès aux éléments de la chaine
Les caractères de la chaine sont numérotés, on dit qu'ils ont un indice.

Si ch est une chaine, ch[i] renverra le caractère de la chaine dont l'index est i

In [None]:
# On définit une chaine de caractère :
x = "premier cours de python"

In [None]:
# Afficher le type de x avec la fonction type :
...

In [None]:
# Afficher la chaine de caractère x grâce à la fonction print :
...

In [None]:
# Sélectionner le "y" contenu dans x en utilisant les index :
# 1ère méthode : avec un index positif
...
# 2ème méthode : avec un index négatif
...

In [None]:
# Afficher la longueur de la chaine de caractère avec la fonction len :
...

In [None]:
# Sélectionner le 23ème éléments de la chaine de caractère :
...

A partir d'une chaine, on peut également extraire une sous-chaine de caractère. Si ch est une chaine, ch[n:p] revoie la sous chaine de ch comprise entre les indices n (inclus) et p (exclus). Si n est manquant, la valeur sera 0; si p est manquant, la valeur sera -1

In [None]:
# Extraire le mot "cours" de x :
...

Les chaines de caractères sont des objets dits "immutables". Cela signifie que l'on ne peut pas les modifier tels quels. Il sera nécessaire de passer par un autre objet si besoin.  

In [None]:
# Essayer de remplacer le 1er caractère par un 'P'
...

In [None]:
# Créer un nouvel objet 'new_x' qui commence par un 'P' puis la chaine x à partir de 1
...

##### Formatage de chaines
On peut "fabriquer" de nouvelles chaines en insérant des variables. Dans la chaine que l'on veut fabriquer, on met {} à chaque position où on voudrait qu'il y ait une variable. Puis, on termine par .format(variable1, variable2).



In [None]:
# Afficher "Ceci est mon premier cours de python à Soft" en utilisant la variable x :
...

On peut également définir chaque élément par un nom. Dans ce cas, on insère {nom} dans la chaine puis on termine par .format(nom=variable1)

In [None]:
# Recommencer en utilisant la version avec un nom :
...

##### Quelques méthodes et fonctions utiles
Les chaines de caractères étant immutables, aucune de ses méthodes ne modifie l'objet d'origine mais elles renvoient toutes un nouvel objet, qui est la chaîne modifiée.

In [None]:
# Afficher l'ensemble des méthodes disponibles pour les chaines de caractères en utilisant la fonction help :
...

In [None]:
# Rechercher dans x la sous-chaine de caractères "de" : utiliser la méthode find()
...

In [None]:
# Rechercher dans x la sous-chaine de caractères "un" :
...

In [None]:
# Tester si la chaine x est un entier : utiliser la méthode isalnum()
...

In [None]:
# Convertir la chaine x en majuscule :
...

In [None]:
# Splitter la chaine x en utilisant le séparateur ' ' puis l'affecter à un nouvel objet y :
...

In [None]:
# Afficher le type de y avec la fonction type :
...

#### <a name="sect112"></a> 1.1.2. Les listes

##### Accès aux éléments de la liste
On accède aux éléments d'une liste de la même façon qu'on accède aux caractères d'une chaîne de caractères : on indique entre crochets l'indice de l'élément qui nous intéresse.

In [None]:
# Sélectionner le 1ère élément de la liste y :
...

In [None]:
# Sélectionner le dernier élément de la liste y :
...

In [None]:
# Afficher le nombre d'éléments de la liste y en utilisant la fonction len :
...

##### Quelques méthodes et fonctions utiles
Contrairement à la classe str, la classe list permet de remplacer un élément par un autre. Les listes sont en effet des types mutables.

In [None]:
# Afficher l'ensemble des méthodes disponibles pour les listes :
...

In [None]:
# Ajouter 'fondamentaux' à la fin de la liste y : méthode append()
...

In [None]:
# Ajouter 'DE' en 5ème position de la liste : méthode insert()
...

In [None]:
# Supprimer l'élément 'DE' de la liste y : méthode remove()
...

Les listes sont des objets qui peuvent en contenir d'autres. Ce sont donc des séquences, comme les chaînes de caractères, mais au lieu de contenir des caractères, elles peuvent contenir n'importe quel objet (str, int, list, etc.)

In [None]:
# Ajouter la sous-liste [1,2,3] à la liste y :
...

In [None]:
# Accéder au chiffre 2 (second élément) de la sous liste de y :
...

##### Parcourir des listes
Il existe 4 façons de parcourir une liste :
- une boucle while sur les index
- une boucle for sur les éléments
- la fonction enumerate
- liste active : on construit une liste à partir du parcours d'une liste

In [None]:
# Afficher 1 à 1 les éléments de y avec une boucle while :
...

In [None]:
# Afficher 1 à 1 les éléments de y avec une boucle for :
...

In [None]:
# Afficher 1 à 1 les éléments de y avec leur index : fonction enumerate
...

##### Modification des listes
Il est possible de concaténer ensemble plusieurs listes, de faire une modification similaire à l'ensemble des éléments d'une liste ou bien de supprimer un élément.

In [None]:
# Créer une nouvelle liste z qui contient les éléments 1,2,3,4 :
...

In [None]:
# Multiplier par 3 l'ensemble des éléments multiples de 2, en utilisant la syntaxe d'une boucle for :
# modulo de la division de nb par 2 : nb%2
...

In [None]:
# Concaténer les listes y et z : méthode extend ou opérateur +
...

In [None]:
# Supprimer le 3ème élément de la liste y : fonction del
...

#### <a name="sect113"></a> 1.1.3. Les tuples
Les tuples sont des séquences, assez semblables aux listes, sauf qu'on ne peut modifier un tuple après qu'il ait été créé. Cela signifie qu'on définit le contenu d'un tuple (les objets qu'il doit contenir) lors de sa création, mais qu'on ne peut en ajouter ou en retirer par la suite.

Contrairement aux listes qui utilisent des crochets pour être définies, les tuples utilisent des parenthèses.

In [None]:
# Créer un tuple 'mon_tuple' contenant les éléments 1, 'Bonjour' :
...

In [None]:
# Afficher l'ensemble des méthodes associées aux tuples :
...

##### Accès aux éléments d'un tuple
Cette partie fonctionne de la même façon que les chaines de caractères et les listes. En effet, les tuples sont indexés.

In [None]:
# Accèder à l'élément 'Bonjour' de 'mon_tuple' :
...

In [None]:
# modifier le tuple
...

#### <a name="sect114"></a> 1.1.4. Les ranges
Afin de créer des listes contenant une suite de nombres, on utilise la classe range.

Pour instancier un objet de cette classe, 3 paramètres sont à renseigner :
- la valeur de départ (incluse), qui vaut 1 si non renseignée
- la valeur finale (excluse), obligatoire
- le pas, qui vaut 1 si non renseigné

In [None]:
# Créer un range 'mon_range' comprenant l'ensemble des nombres pairs dans l'intervalle [0-10]
...

In [None]:
# Afficher l'ensemble des méthodes associées aux ranges 
...

In [None]:
# Afficher le nombre de valeur contenue dans mon_range
...

In [None]:
# Visualiser l'ensemble des valeurs de mon range
...

#### <a name="sect115"></a> 1.1.5. Les dictionnaires
Les dictionnaires sont des objets pouvant en contenir d'autres, à l'instar des listes. Cependant, au lieu d'héberger des informations dans un ordre précis, ils associent chaque objet contenu (= une valeur) à une clé (la plupart du temps, une chaîne de caractères). Par exemple, un dictionnaire peut contenir un carnet d'adresses et on accède à chaque contact en précisant son nom.

##### Création de dictionnaire
De la même façon que les crochets délimitent les listes, les parenthéses délimitent les tuples, les dictionnaires sont délimités par les accolades.

In [None]:
# Créer 'mon_dico', un dictionnaire vide : méthode .dict()
...

In [None]:
# Afficher l'ensemble des méthodes d'un dictionnaire :
...

Les dictionnaires n'étant pas ordonnés, on ne peut pas utiliser d'index pour les manipuler, ajouter des éléments ou en supprimer. A la place, on utilise des clés qui peuvent être de types distincts

In [None]:
# Créer une première association clé - valeur avec comme clé, 'ma_cle', et comme valeur, 'ma_valeur' :
# syntaxe dictionnaire['cle']='val'
...

In [None]:
# Afficher le dictionnaire :
...

In [None]:
# Ajouter une nouvelle association avec comme clé, 'ma_cle' et comme valeur, 'autre_valeur' :
...

In [None]:
# Réafficher le dictionnaire :
...

Il est également de créer un dictionnaire directement avec des valeurs.

In [None]:
# Remplacer le dictionnaire existant par un nouveau avec les associations clés-valeurs suivantes : 
# login - [1,2,3] et pw - ['azerty','qwerty','motdepasse']
...

In [None]:
# Afficher le dictionnaire
...

##### Parcours des dictionnaires
Les dictionnaires peuvent être parcourus de 3 façons :
- en parcourant les clés avec la méthode keys
- en parcourant les valeurs avec la méthode values
- en parcourant l'association clé-valeur avec la méthode items

In [None]:
# Afficher 1 à 1 les clés de mon_dico :
...

In [None]:
# Afficher 1 à 1 les valeurs de mon_dico :
...

In [None]:
# Afficher 1 à 1 les associations clé-valeur de mon_dico :
...

In [None]:
# Ecrire le dictionnaire sur le disque dur (Sérialisation avec JSON)
# utiliser la librarie json  et la fonction open en écriture
...

#### <a name="sect116"></a> 1.1.6. Les ensembles
Les ensembles sont des objets entre les listes et les dictionnaires :
- ils ont le même délimiteur que les dictionnaires (des accolades) mais ne possédes que de clés (donc impossible d'avoir 2 fois la même valeur dans un ensemble)
- ils ne sont ni indexés, ni ordonnés, comme les dictionnaires
- ils ont des méthodes communes avec les listes : add, pop, remove, etc.

In [None]:
# Créer un ensemble 'mon_set' composer des éléments 'a' et 'b' :
...

In [None]:
# Afficher l'ensemble des méthodes d'un ensemble :
...

In [None]:
# Ajouter l'élément 'a' dans mon_set : méthode add()
...

In [None]:
# Afficher 'mon_set'
...

### <a name="sect12"></a>  1.2. Manipulation des tests et des boucles
Seront abordés dans cette section :
- les tests if
- les boucles while
- les boucles for

##### Structures conditionnelles
La forme complète d'un test utilise les mots-clés suivant : if, elif et else.

Vous pouvez mettre autant de elif que vous voulez après une condition en if. Tout comme le else, cette instruction est facultative et, quand bien même vous construiriez une instruction en if,elif, vous n'êtes pas du tout obligé de prévoir un else après. En revanche, l'instruction else ne peut figurer qu'une fois, clôturant le bloc de la condition.







<u>Exercice</u> : Déterminer si une année saisie par l'utilisateur est bissextile

Pour cela on utilise la règle suivante :
"une année est dite bissextile si c'est un multiple de 4, sauf si c'est un multiple de 100. Toutefois, elle est considérée comme bissextile si c'est un multiple de 400"
    
A noter que la demande d'une valeur à l'utilisateur se fait par la fonction input.

In [None]:
...

##### La boucle while
Elle permet de réexécuter un bloc d'instruction tant qu'une condition est vrai.

Refaire l'exercice précédent en vérifiant que l'utilisateur a bien saisi une année (i.e. un nombre). Si ce n'est pas, demander lui de recommencer jusqu'à ce que cela soit le cas.

In [None]:
...

##### Les boucles for
Elles sont spécialisées dans le parcours des séquences (i.e. l'ensemble des types vus ci-dessus : chaine de caractères, liste, tuple, range, dictionnaire et ensemble).

Des exemples de son utilisation ont déjà été fait plus haut pour les listes et les dictionnaires.
On va donc voir ici une utilisation avec les chaines de caractères.

<u>Exercice</u> : Afficher 1 à 1 les voyelles en minuscules contenues dans la chaine x

In [None]:
# pour les voyelles se baser sur une liste 'AEIOUYaeiouy'
...

### <a name="sect13"></a> 1.3. Création de fonctions
Une fonction est un ensemble de commandes regroupées sous un seul nom unique.

Il existe 2 méthodes pour définir une fonction :
- avec def ma_fonction(mes_paramtres) :
- avec lambda

##### Utilisation du mot-clé def

In [None]:
# Créer une fonction qui prend en paramètre une chaine de caractère
# et qui renvoie un dictionnaire avec pour chaque mot en clé, un boolean indiquant si c'est un palindrome
# Puis l'appliquer à la chaine x
# chaine[::-1] : écrit la chaine à l'envers
# chaine.split() : tokenize la chaine en mots
...

In [None]:
# Appliquer la fonction est palindrome sur la phrase 'python est mieux que sas'
...

In [None]:
# créons un vecteur de données numérique en objet array numpy
# syntaxe : numpy.array()
...

In [None]:
# créons une fonction qui standardise une colonne (1darray) : centrer et réduire (soustraire la moyenne et diviser par l'écart type)
...

In [None]:
# appliquons la fonction standardisation, attention aux types des données
...

In [None]:
# si on applique la fonction sur un array non float il y a un erreur
...

In [None]:
# Introduire une gestion d'exception dans la fonction => try except
...

##### Utilisation du mot-clé lambda

In [None]:
# appliquons une lambda fonction pour mettre au carré les valeurs du vecteur numérique : utiliser map (lambda x : ..., vecteur)
...

In [None]:
# fonction qui teste si un element vaut 1
...

In [None]:
# Créer une fonction qui retourne l'aire d'un triangle et l'appliquer pour un triangle de base 2 et de hauteur 3
...

## <a name="sect2"></a> 2. Python fondamentaux data
Un exercice pratique est proposé ici pour se rapprocher de ce qui pourra être fait lors d'un projet.

<u>Contexte</u> : <br>
Notre équipe de Data Scientists est sollicitée pour un projet de grande ampleur qui nécessite de staffer 6 personnes qu’il s’agit de déterminer. Avant de faire l’étude de scoring, nous commençons par une analyse exploratoire des données dont nous disposons.

<u>Description des fichiers</u> :
<ol>
    <li> « RH_Jouet.csv » :
    <ul>
        <li><i>ID</i> : numéro d’identifiant
        <li><i>Prenom</i> : prénom
        <li><i>Genre</i> : sexe (G= Garçon, F= Fille)
        <li><i>SEG.VALEUR</i> : information donnée par les services RH sous forme de lettres
        <li><i>AGE</i> : l’âge
        <li><i>CODE_DPT</i> : département d'habitation
        <li><i>Dat_ARRIVEE</i> : date d’arrivée dans l’entreprise
        <li><i>PRIMe</i> : montant de la dernière prime
    </ul>
    <li>« COMPETENCE_Jouet.csv » :
    <ul>
        <li><i>ID</i> : numéro d’identifiant
        <li><i>REPORTING</i> : note de compétence en reporting
        <li><i>SAS</i> : note de compétence en SAS
        <li><i>TEXTM</i> : note de compétence en Text Mining
        <li><i>MARKET</i> : note de compétence en marketing
        <li><i>CADRAGE</i> : note de compétence en cadrage de projet
        <li><i>NPROJET</i> : nombre de missions similaires menées dans le passé
        <li><i>ML</i> : note de compétence en Machine Learning
        <li><i>TOP</i> : variable cible (pour le score)
    </ul>
</ol>	


### <a name="sect21"></a> 2.1. Import des packages et des données
#### <a name="sect211"></a> 2.1.1. Import des packages

In [None]:
import os

# traitement des données
import pandas as pd
import numpy as np
import scipy.stats as sp
import datetime as dt

# Graphiques
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

pd.options.mode.chained_assignment = None

#### <a name="sect212"></a> 2.1.2. Chargement des données
##### En utilisant le package <u><i>os</i></u> et ses fonctions <i>getcwd()</i> et <i>chdir()</i>, on va se placer dans le répertoire où sont situé les données

In [None]:
# Etape 1 : identifier dans quel répertoire l'on se trouve actuellement
...

In [None]:
# Etape 2 : créer une variable 'repertoire' dans lequel sera contenu le futur chemin d'accés (../Python/Data)
...

In [None]:
# Etape 3 : on se place dans le répertoire
...

In [None]:
# Etape 4 : on vérifie que le changement a bien été fait (idem étape 1)
...

#### En utilisant le package <u><i>panda</i></u> et sa fonction <i>read_csv()</i>, importer les fichiers "RH_Jouer.csv" et "COMPETENCE_Jouet.csv"

Pour information, les caractéristiques des fichiers sont les suivantes :
<ol>
    <li> « RH_Jouet.csv » :
    <ul>
        <li><i>Délimiteur</i> : point-virgule
        <li><i>Décimal</i> : point
        <li><i>Encodage</i> : 'iso-8859-1'
    </ul>
    <li>« COMPETENCE_Jouet.csv » :
    <ul>
        <li><i>Délimiteur</i> : point-virgule
        <li><i>Décimal</i> : virgule
        <li><i>Encodage</i> : 'iso-8859-1'
    </ul>
</ol>	

In [None]:
# Etape 1 : créer une variable 'don1' contenant le fichier "RH_Jouet.csv"
...

In [None]:
# Etape 2 : créer une variable 'don2' contenant le fichier "COMPETENCE_Jouet.csv"
...

#### <a name="sect213"></a> 2.1.3. Manipulation d'un dataframe
On vérifie tout d'abord que les données ont correctement été chargées.

In [None]:
# Etape 1 : regarder la dimension de 'don1' en utilisant son attribut shape :
...

In [None]:
# Etape 2 : afficher le nom des colonnes de 'don1' en utilisant son attribut columns :
...

In [None]:
# Etape 3 : afficher le nom des index (i.e. lignes) en utilisant son attribut index :
...

In [None]:
# Etape 4 : afficher le type de 'don1' en utilisant la fonction type :
...

In [None]:
# Etape 5 : afficher le types de chaque colonnes de 'don1' en utilisant son attribut dtypes
...

In [None]:
# Etape 6 : regarder la forme de 'don1' en affichant les 5 premières lignes
...

In [None]:
# Etape 7 : Afficher les 5 dernières lignes de 'don2' avec la méthode tail
...

In [None]:
# Etape 8 : Séléctionner uniquement la Serie 'GENRE' et afficher son type
...

In [None]:
# Etape 9 : Sélectionner de la 2ème à la 4ème colonnes de 'don1' avec l'attribut iloc
...

In [None]:
# Etape 9 : même chose avec les noms des col (loc)
...

In [None]:
# Etape 10 : Sélectionner de la 3ème à la 15ème lignes de 'don1' avec l'attribut iloc
...

In [None]:
# Etape 11 : Sélectionner de la 2ème à la 4ème colonnes et de la 3ème à la 15ème lignes de 'don1' avec l'attibut iloc
...

### <a name="sect22"></a> 2.2. Mise en forme des données
#### <a name="sect232"></a> 2.3.2. Fusion des données
Le premier constat à faire, après avoir affiché les données, est que les colonnes ne sont pas nommées de la même façon. Avant de les fusionner, il va falloir homogénéïser les noms.

##### Pour cela, l'attribut <i>columns</i> et les méthodes <i>str.replace()</i> et <i>str.upper()</i> pourront être utilisées.

In [None]:
# Etape 1 : supprimer le préfixe "fich." des colonnes de 'don1'
...

In [None]:
# Etape 2 : mettre les noms des colonnes de 'don1' en majuscule
...

In [None]:
# Etape 3 : vérifier que les colonnes de 'don1' et 'don2' ont bien la bonne forme
...

#### En utilisant le package <u><i>panda</i></u> et sa fonction <i>merge()</i>, créer un nouveau DataFrame 'don' contenant l'intersection de 'don1' et 'don2' selon le numéro d'identifiant.
#### Puis regarder quelques informations sur ces données en utilisant les méthodes <i>shape</i> et <i>dtypes</i> et la fonction <i>type()</i>

In [None]:
# Etape 4 : réunir les données 'don1' et 'don2' dans un nouvel objet 'don'
...

In [None]:
# Etape 5 : vérifier que 'don' est bien du type DataFrame
...

In [None]:
# Etape 6 : regarder les dimensions de 'don'
...

In [None]:
# Etape 7 : vérifier que le type est désormais le bon
...

#### <a name="sect222"></a> 2.2.2. Audit des données
Utiliser les méthodes info et descibe ainsi que l'attribut dtypes pour avoir un audit rapide des données

In [None]:
# Etape 1 : afficher l'ensemble des informations pour chaque variable avec la méthode info :
...

In [None]:
# Etape 2 : affihcher quelques statistiques descriptives pour chaque variable avec la méthode describe :
...

In [None]:
# Etape 3 : afficher le type de chaque colonne en utilisant l'attribut dtypes
...

In [None]:
# Changer de format pour ID
...

#### <a name="sect223"></a> 2.2.3. Nettoyage des données
On va maintenant préparer les données afin qu'elles soient prêtes pour l'utilisation d'analyses statistiques

In [None]:
# Etape 1 : Mettre la colonne ID en format category en utilisant la méthode astype
...

In [None]:
# Etape 2 : convertir la colonne DAT_ARRIVEE en date en utilisant la fonction to_datetime du package pandas
...

Dans le cas d'une segmentation ou d'un score, une variable au format date est peu intéressante. On va donc créer une nouvelle variable 'ANCIENNETE' qui contiendra le nombre de jours depuis son arrivée.

In [None]:
# Etape 3 : créer une variable 'J0' contenant la date du jour en utilisant la fonction date.today du package datetime
...

In [None]:
# Etape 4 : ajouter une nouvelle colonne 'ANCIENNETE' dans le DataFrame 'don' contenant la différence entre 'J0' et 'DAT.ARRIVEE'. On aura alors le nombre de jours d'ancienneté
...

<p style="color:#FF0000";> Afin d'avoir l'ancienneté en mois, on utilise le code suivant : </p>

In [None]:
# Etape 5 : convertir 'ANCIENNETE' en mois
don['ANCIENNETE'] = don['ANCIENNETE'] / np.timedelta64(1, 'M')

On convertit également le variable 'AGE' en float.

In [None]:
...

In [None]:
# Etape 6 : Vérifier que la variable GENRE ne contient que 2 modalités en utilisant la méthode nunique
...

In [None]:
# Etape 7 : Afficher les modalités de la variable GENRE en utilisant la méthode unique
...

In [None]:
# Etape 8 : Supprimer la variable PRIME qui contient trop de valeurs manquantes avec la méthode drop
...

In [None]:
# Etape 9 : Supprimer les lignes avec prénom manquant en utilisant la fonction isnull du package pandas
...

In [None]:
# Etape 10 : Remplacer les valeurs manquantes de l'AGE par sa moyenne
...

In [None]:
# Etape 11 : Trier les données par ordre décroissant des prénoms et croissant des ages en utilisant la méthode sort_values
...

In [None]:
# Etape 12 : Supprimer les doublons de PRENOM en utilisant la méthode drop_duplicates
...

SERIALISATION AVEC PICKLE
On souhaite sauvegarder l'état du fichier pour pouvoir le recharger à une prochaine session

In [None]:
# utiliser pickle et sauvegarder
import pickle
...

In [None]:
# recharger le fichier 
...

### <a name="sect23"></a> 2.3. Analyses statistiques
#### <a name="sect231"></a> 2.3.1. Statistiques descriptives univariées
##### Variables qualitatives

In [None]:
# Etape 1 : créer une variable x avec la colonne GENRE
...

In [None]:
# Etape 2 : Utiliser la méthode describe pour obtenir des premières statistiques sur la variable x
...

In [None]:
# Etape 3 : Afficher la répartition de la variable selon les modalités avec la méthode value_counts
...

In [None]:
# Etape 4 : Afficher un camembert pour montrer la répartition des modalités en utilisant la fonction pie du package matplotlib
...

In [None]:
# Etape 5 : Aficher un diagramme en barre pour montrer la répartition des modalités en utilisant la fonction countplot du package seaborn
...

##### Variables quantitatives 

In [None]:
# Etape 1 : Créer une variable x avec la colonne AGE
...

In [None]:
# Etape 2 : Utiliser la méthode describe pour obtenir des premières statistiques sur la variable x
...

In [None]:
# Etape 3 : Afficher les déciles en utilisant la fonction nanpercentile du package numpy
...

In [None]:
# Etape 4 : Afficher un boxplot en utilisant la fonction boxplot du package seaborn
...

In [None]:
# Etape 5 : Afficher un histogramme en utilisant la méthode hist
...

In [None]:
# Etape 6 : Afficher la courbe de densité en utilisant la fonction kdeplot du package seaborn
...

In [None]:
# Etape 7 : Réaliser un test de normalité en utilisant la fonction shapiro du package scipy.stats
...

In [None]:
# Etape 8 : Discrétiser la variable en 2 classes en coupant à la moyenne avec la fonction cut du package panda
...

#### <a name="sect232"></a> 2.3.2. Stastistiques descriptives bivariée
##### Variables quantitatives

In [None]:
# Etape 1 : Créer un nuage de points avec les variables ANCIENNETE et AGE en utilisant la fonction lmplot du package seaborn
...

In [None]:
# Etape 2 : Faire un nuage de point entre REPORTING et SAS et en mettrant chaque segment SEG.VALEUR dans une couleur
# Pour cela utiliser le paramètre hue
...

In [None]:
# Etape 3 : Tracer les courbes de densité des variables REPORTING et MARKET sur le même graphe
# Pour cela, utiliser la fonction kdeplot du package seaborn
...

In [None]:
# Etape 4 : Afficher le résultat du test de Kolgomorrof Smirnov entre la variable REPORTING et MARKET
# Pour cela, utiliser la fonction ks_2samp du package scipy.stats
...

In [None]:
# Etape 5 : Afficher le résultat du test de Student entre la variable REPORTING et MARKET
# Pour cela, utiliser la fonction ttest_ind du package scipy.stats
...

In [None]:
# Etape 6 : Afficher la correlation entre les variable REPORTING et MARKET
# Pour cela, utiliser la fonction corrcoef du package numpy
...

##### Variables qualitatives

In [None]:
# Etape 1 : Afficher le table de contingence entre les variable TOP et SEG.VALEUR
# Pour cela, utiliser la fonction crosstab du package pandas
...

In [None]:
# Etape 2 : Afficher les résultats du test du Chi2
# Pour cela, utiliser la fonction chi2_contingency du package scipy.stats
...

##### Variables quantitative et qualitative

In [None]:
# Afficher un boxplot de l'ANCIENNETE pour chaque segement de SEG.VALEUR
# Pour cela, utiliser la fonction boxplot du package seaborn
...

#### <a name="sect233"></a> 2.3.3. Profilage
##### Etude de profil selon la moyenne

In [None]:
# Etape 1 : Créer un nouvel objet VarKeep contenant la liste des variables à étudier :
# "AGE","TOP","ANCIENNETE","REPORTING","SAS","TEXTM", "MARKET","CADRAGE","NPROJET","ML"
...

In [None]:
# Etape 2 : Créer un dataframe m qui contient la moyenne de chaque variable pour chaque segment (SEG.VALEUR)
...

In [None]:
# Afficher m
...

##### Etude de profil selon les effectifs

In [None]:
# Etape 3 : Créer un dataframe eff qui contient la taille de chaque segment (SEG.VALEUR)
...

In [None]:
# Etape 4 : Renommer la variable ID en Eff
...

In [None]:
# Afficher eff

##### Regroupement des moyennes et de l'effectif

In [None]:
# Etape 1 : Faire une jointure entre m et eff
...

On aurait également pu faire tout ça en une seule fois sans faire de merge. Pour cela, on utilise la méthode agg 

In [None]:
moy = don.groupby('SEG.VALEUR',as_index=False) \
.agg({'ID': 'count' \
      ,'AGE':['mean','min','max'] \
      ,"TOP" :'mean' \
      ,"ANCIENNETE" :'mean' \
      ,"REPORTING" :'mean' \
      ,"SAS":'mean' \
      ,"TEXTM" :'mean' \
      , "MARKET" :'mean' \
      ,"CADRAGE" :'mean' \
      ,"NPROJET" :'mean' \
      ,"ML" :'mean'}) \
.rename(columns = {'ID' : 'Eff'})
moy