 # **Analyse univariée non-graphique**

**Objectifs d'apprentissage :**
  * Introduction à l'analyse univariée non-graphique
  * Importer les modules Python pour l'analyse de données
  * Charger les données et les sauvegarder dans un *DataFrame*
  * Afficher les statistiques sommaires

  ## **Introduction à l'analyse univariée non-graphique**
 L'analyse univariée s'intéresse à la description et la distribution des données par rapport à une seule variable à la fois. Les techniques d'analyse univariée non-graphique sont multiples et se basent principalement sur les statistiques descriptives telles que la moyenne, le mode, l'écart type, etc. Le choix d'une technique ou d'une autre dépend essentiellement du type de la variable à l'étude.

 ### **Étapes d'analyse univariée non-graphique en Python**

Pour entamer une une analyse descriptive en Python, il s'agit de:
1. Importer les modules Python necessaires
2. Charger les données et les sauvegarder dans un *DataFrame*
3. Afficher des statistiques sommaires




 ## **Importer les modules Python pour l'analyse de données**

Pour l'analyse univariéé non-graphique, le module *pandas* est essentielle. Il dispose des *DataFrames* qui représentent des structure de données puissantes pour repésenter les données en tableaux relationnels avec des lignes et des colonnes. L'importation du module *pandas* se fait comme suit:

In [3]:
import pandas as pd

En plus du module *pandas*, *Scikit-learn* est un autre module important pour l'analyse des données et surtout pour l'apprentissage automatique, il dispose d'un ensemble d'algorithmes et de données qui peuvent être utilisées pour toute sorte d'analyse potentielle. La ligne de code suivante permet d'importer des données sur le cancer du sein disponible dans le module *Scikit-learn*:

In [4]:
from sklearn.datasets import load_breast_cancer

 ## **Charger les données et les sauvegarder dans un *DataFrame***

Afin de pouvoir effectuer une analyse univariée sur *Python*, il est necéssaire de charger les données et les sauvegarder dans un *DataFrame*. Par exemple pour les données du cancer du sein de Scikit-learn, on peut charger les données dans un *DataFrame* en exécutant la cellule suivante:

In [5]:
cancerData = load_breast_cancer()
cancer = pd.DataFrame(cancerData.data, columns=cancerData.feature_names)

## **Afficher des statistiques sommaires**

La fonction *describe()* du module *pandas* de *Python* permet d’afficher les statistiques descriptives dans un tableau sommaire.

 ## **Exercice**

L'une des méthodes qui permettent de réaliser une analyse univariée non-graphique est la fonction *describe()* en *Python*. Utiliser la fonction *describe()* du *DataFrame* pour afficher des statistiques sommaires sur les variables indépendantes dans les données du cancer de sein.

In [None]:
# Your code here

 ### **Solution**

Cliquez ci-dessous pour afficher la solution. Exécuter la cellule suivante pour afficher le résultat de l'analyse univariée non-graphique.

In [6]:
cancer.describe()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
count,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,...,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0
mean,14.127292,19.289649,91.969033,654.889104,0.09636,0.104341,0.088799,0.048919,0.181162,0.062798,...,16.26919,25.677223,107.261213,880.583128,0.132369,0.254265,0.272188,0.114606,0.290076,0.083946
std,3.524049,4.301036,24.298981,351.914129,0.014064,0.052813,0.07972,0.038803,0.027414,0.00706,...,4.833242,6.146258,33.602542,569.356993,0.022832,0.157336,0.208624,0.065732,0.061867,0.018061
min,6.981,9.71,43.79,143.5,0.05263,0.01938,0.0,0.0,0.106,0.04996,...,7.93,12.02,50.41,185.2,0.07117,0.02729,0.0,0.0,0.1565,0.05504
25%,11.7,16.17,75.17,420.3,0.08637,0.06492,0.02956,0.02031,0.1619,0.0577,...,13.01,21.08,84.11,515.3,0.1166,0.1472,0.1145,0.06493,0.2504,0.07146
50%,13.37,18.84,86.24,551.1,0.09587,0.09263,0.06154,0.0335,0.1792,0.06154,...,14.97,25.41,97.66,686.5,0.1313,0.2119,0.2267,0.09993,0.2822,0.08004
75%,15.78,21.8,104.1,782.7,0.1053,0.1304,0.1307,0.074,0.1957,0.06612,...,18.79,29.72,125.4,1084.0,0.146,0.3391,0.3829,0.1614,0.3179,0.09208
max,28.11,39.28,188.5,2501.0,0.1634,0.3454,0.4268,0.2012,0.304,0.09744,...,36.04,49.54,251.2,4254.0,0.2226,1.058,1.252,0.291,0.6638,0.2075
