# Chargement et analyse des données

# 1) Chargement et lecture des données 

## 1.1) Charger les données

In [None]:
%matplotlib inline

Je commence par ouvrir les fichiers nécessaires. Les fichiers à ouvrir sont au format csv et txt.  

In [None]:
import pandas as pd 

import tkinter as tk
from tkinter import filedialog as fd

def select_file_csv():
    
    init = "C:\\Users\\Stanislas Brusselle\\OneDrive\\Documents\\Projet ML sklearn\\des-fichiers-complementaires-3-049-ko\\Telechargement\\data"
    
    file_type = (('csv file', '*.csv'), ('All file', '*.*'))
    file_name = fd.askopenfilename(initialdir = init, title='Fichiers', filetypes = file_type)
    
    return file_name

def select_file_txt():
    
    init = "C:\\Users\\Stanislas Brusselle\\OneDrive\\Documents\\Projet ML sklearn\\des-fichiers-complementaires-3-049-ko\\Telechargement\\data"
    
    file_type = (('csv file', '*.txt'), ('All file', '*.*'))
    file_name = fd.askopenfilename(initialdir = init, title='Fichiers', filetypes = file_type)
    
    return file_name

def cvs_to_dataFrame():
    
    root=tk.Tk()  
    root.overrideredirect(1)

    path=select_file_csv()

    root.destroy()
    
    print("path : " + path)
    
    with open(path, mode='r') as file : 
        fichier = pd.read_csv(file)
        
    return fichier

def txt_to_dataFrame(nom_colonnes, skip_rows):
    
    root=tk.Tk()  
    root.overrideredirect(1)

    path=select_file_txt()

    root.destroy()
    
    print("path : " + path)
    
    with open(path, mode='r') as file : 
        fichier = pd.read_fwf(file, skip_rows=skip_rows, header=None, names=nom_colonnes)

    return fichier



In [None]:
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']

iris_df = cvs_to_dataFrame()

titanic_df = cvs_to_dataFrame()

boston_df = txt_to_dataFrame(names, 22)
boston_df.head()

## 1.2) Carte id data

Cette étape est important car elle va indiquer toutes les informations globales sur les données qui seront ensuite utilisées pour le processus. Elle comprend : 
- le nom du dataset
- sa provenance 
- sa taille 
- son formatage 
- la description métier des données

La plupart des informations sont déjà connues, car les données ont été au préalable importées et formatées en dataFrame.

Pour la taille du dataset : 

In [None]:
iris_df.shape

Soit 150 lignes et 5 colonnes 

## 1.3) Description des champs

Il faut ensuite pouvoir décrire les données, c'est-à-dire, donner un sens à leur valeurs pour une compréhension totale du dataset. Il faut donner pour chacunes des données : 
- son nom
- son type
- son format
- sa description 
- son unité 
- la présence ou non de données manquantes
- ses limites attendues
- toute autre information utile si besoin

Pandas permet d'obtenir certaines de ces informations : le type et s'il y a des informations manquantes. 

Pour déterminer le type : 

In [None]:
iris_df.dtypes

In [None]:
iris_df['class']= iris_df['class'].astype('category')
iris_df.dtypes

Remarque : il est possible d'accéder aux champs soit à la façon d'un dictionnaire "df['colonnes']", soit en écriture pointée "df.colonne"

In [None]:
titanic_df.dtypes

On peut ensuite modifier le types des champs : 

In [None]:
titanic_df = titanic_df.set_index('PassengerId')
#Ici PassengerId est utilisé comme identifiant unique. Cette colonne est alors supprimée des caractèristiques. 
#Elle remplace le numéro de ligne utilisé par défaut comme index.  

titanic_df['Pclass'] = titanic_df['Pclass'].astype('category')
titanic_df['Survived'] = titanic_df['Pclass'].astype('bool')
titanic_df['Sex'] = titanic_df['Pclass'].astype('category')
titanic_df['Embarked'] = titanic_df['Embarked'].astype('category')

titanic_df.dtypes

Il faut à présent pouvoir détecter s'il y a des données qui sont manquantes dans le dataset. 

In [None]:
iris_df.count()

A ne pas confondre avec la commande : 

In [None]:
iris_df.count

In [None]:
titanic_df.count()

On peut voir qu'il y a des données manquantes dans le dataset titanic_train, en effet : 

In [None]:
titanic_df.shape

# 2) Statistiques descriptives sur les champs : analyse des données

Les données sont définies en quatres types : 
- variables catégorielles

 => Nominales 
 
 => Ordinales
 
- variables numériques 

 => Continues 
 
 => Discrètes
 
Pour chaque type d'information il faut produire deux informations : 
- une analyse statique 
- une visualisation des données 

## 2.1) Analyse  des données numériques 

Pour du ML, il est important que les données numériques suivent le plus possible un profil de gaussienne avec un écart type "faible"
Une fois les données chargée, on peut appliquer les commandes suivantes pour accéder à toutes les informations requises : 

In [None]:
#indicateurs de tendance centrale
iris_df['sepal_length'].mean()
iris_df['sepal_length'].median()

iris_df['sepal_length'].min()
iris_df['sepal_length'].max()

iris_df['sepal_length'].var()#la variance
iris_df['sepal_length'].std()#l'écart type 

iris_df['sepal_length'].quantile(0.25)#le premier quartile 

#On peut également utiliser la commande suivante pour avoir accès à toutes les informations en une seule fois. 
#Cette commande s'applique aussi sur un dataFrame

iris_df['sepal_length'].describe()

In [None]:
iris_df.describe()

Pour mieux se représenter les données il est toujours utile de tracer leur graphique associé. 

## 2.2) Représentation graphique des données numériques

Je commence par l'histogramme "hist" : 

=> bins : nombre de subdivisions

=> figsize : taille de la figure*

=> by : indication du champ catégoriel qui sera utilisé pour décomposer l'histogramme. 

In [None]:
iris_df['petal_length'].hist(bins=20)

In [None]:
iris_df['petal_length'].hist(by = iris_df['class'], figsize=(12,7))

In [None]:
iris_df.hist()
iris_df.plot(kind='hist')
iris_df.plot.hist()
#Ces méthodes sont presque équivalentes à quelques paramètres près. 

De la même manière on peut tracer un nuage de point : 

In [None]:
iris_df.plot(kind='scatter', x = 'petal_length', y = 'petal_width')

In [None]:
import seaborn as sns
sns.pairplot(iris_df, x_vars=['petal_length'], y_vars=['petal_width'], height = 5, hue ='class', markers = ['o', 'v', 's'])

Une dernière alternative serait l'utilisation des boites comme représentées ci-dessous : 

In [None]:
iris_df['sepal_width'].plot.box()

In [None]:
iris_df.boxplot(column='petal_width', by='class')

## 2.3) Analyse des données catégorielles 

Il existe deux méthode pour décrire ce type de données : 


In [None]:
titanic_df['Embarked'].describe()

In [None]:
titanic_df['Embarked'].value_counts()

## 2.4) Représentation graphique des données catégorielles

In [None]:
titanic_df['Embarked'].value_counts().plot(kind='bar')

In [None]:
titanic_df['Embarked'].value_counts().plot(kind='pie')

# 3) Analyse croisée des données 

Il est souvent utile d'analyser les liens entre les données, pour voir si certaines ont un impact sur d'autres. 

## 3.1) Corrélation entre données numériques 

Pour déterminer le lien entre les variables numériques ont utilisera un coéfficient de corrélation. Pour cela, il existe deux méthodes : 

- corrwith : pour obtenir tous les liens de corrélation des catégorie par rapport à une catégorie choisie 
- corr : calcule les coéfficients de corrélation entre les variables deux à deux et les présente dans un dataFrame

In [None]:
iris_df.corrwith(iris_df['sepal_length']).abs()

In [None]:
iris_df.corr()

## 3.2) Corrélation entre variables numériques et variables catégorielles 

Pour cela on utilisera la méthode group by qui permet de regrouper les données avant d'y appliquer la méthode describe 

In [None]:
iris_df.groupby('class')['sepal_length'].describe().transpose()

## 3.3) Corrélation entre variables catégorielles 

In [None]:
titanic_df.groupby('Survived')['Embarked'].value_counts()

Calculer le pourcentage sera plus visuel : 

In [None]:
titanic_df.groupby('Survived')['Embarked'].value_counts(normalize=True)