# Analyse des donnees 

L'analyse des données consiste à appliquer des méthodes mathématiques et stattistiques aux données afin de découvrir des informations cachées (insights) en vue de prendre des décisions éclairées. Cette tâche au sein d'une entreprise est celle du data analyst. Durant cette formation, nous aborderons ensemble les concepts clés pour faire de vous des data analysts en python ou du moins vous mettre sur la voie du métier de data analyst. Nous avons deja abordees les principaux concepts de la programmation en python. Nous allons dans cette deuxieme etape realiser l'analyse des donnees en parcourant ensemble les etapes importantes pour effectuer une analyse en bonne et due forme.

- Réaliser une analyse exploratoire des données ou EDA (Exploratory Data Analysis)
- Nettoyer des données
- Appliquer des méthodes statistiques et les interpréter
- Faire de la visualisation de données et les interpréter

Si comme moi, vous êtes impatient de commencer, allons-y !!!


- Numpy
- Pandas
- Scipy
- Matplotlib
- Seaborn

### Qu'est-ce que Pandas ?

Pandas est une bibliothèque Python utilisée pour travailler avec des ensembles de données.

Il dispose de fonctions d'analyse, de nettoyage, d'exploration et de manipulation des données.

Le nom « Pandas » fait référence à la fois à « Panel Data » et à « Python Data Analysis » et a été créé par Wes McKinney en 2008.

### Pourquoi utiliser Pandas ?

Pandas nous permet d’analyser le big data et de tirer des conclusions basées sur des théories statistiques.

Les pandas peuvent nettoyer des ensembles de données en désordre et les rendre lisibles et pertinents.

Les données pertinentes sont très importantes en science des données.

- Note : La Science des données (Data Science) est une branche de l'informatique où nous étudions comment stocker, utiliser et analyser les données pour en tirer des informations.

# EDA : Exploratory Data Analysis

### Charger les librairies

In [1]:
!pip install pandas



In [2]:
# importer pandas
import pandas as pd

### Charger les donnees 

In [5]:
# charger les donnees 
df = pd.read_csv("data/titanic.csv")
df

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,1,0,3,Male,22.0,1,0,7.2500,3
1,2,1,1,female,38.0,1,0,71.2833,1
2,3,1,3,female,26.0,0,0,7.9250,3
3,4,1,1,female,35.0,1,0,53.1000,3
4,5,0,3,Male,35.0,0,0,8.0500,3
...,...,...,...,...,...,...,...,...,...
884,887,0,2,Male,27.0,0,0,13.0000,3
885,888,1,1,female,19.0,0,0,30.0000,3
886,889,0,3,female,60.0,1,2,23.4500,3
887,890,1,1,Male,26.0,0,0,30.0000,1


### Data Comprehension

In [6]:
# la liste de toutes les colonnes
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch',
       'Fare', 'Embarked'],
      dtype='object')

Le dataset contient les colonnes suivantes :

- PassengerId: Identifieant unique pour chaque passager
- Survived: Statut de survie des passagers (0 = Pas Survecu, 1 = Survecu).
- Pclass: La classe du passager (1 = First class, 2 = Second class, 3 = Third class).
- Sex: Genre du passager.
- Age: Age du passager.
- SibSp: Nombre de frères et sœurs/conjoints (siblings/spouses) à bord du Titanic.
- Parch: Nombre de parents/enfants (parents/children) à bord du Titanic.
- Fare: Tarif payé par le passager.
- Embarked: Port d'Embarquation (1 = Cherbourg, 2 = Queenstown, 3 = Southampton).

### Exploration

In [7]:
# dimensions et taille du dataset
df.shape

(889, 9)

In [11]:
# Les premieres lignes
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,1,0,3,Male,22.0,1,0,7.25,3
1,2,1,1,female,38.0,1,0,71.2833,1
2,3,1,3,female,26.0,0,0,7.925,3
3,4,1,1,female,35.0,1,0,53.1,3
4,5,0,3,Male,35.0,0,0,8.05,3


In [14]:
# Les dernieres lignes
df.tail(10)

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
879,882,0,3,Male,33.0,0,0,7.8958,3
880,883,0,3,female,22.0,0,0,10.5167,3
881,884,0,2,Male,28.0,0,0,10.5,3
882,885,0,3,Male,25.0,0,0,7.05,3
883,886,0,3,female,39.0,0,5,29.125,2
884,887,0,2,Male,27.0,0,0,13.0,3
885,888,1,1,female,19.0,0,0,30.0,3
886,889,0,3,female,60.0,1,2,23.45,3
887,890,1,1,Male,26.0,0,0,30.0,1
888,891,0,3,Male,32.0,0,0,7.75,2


In [15]:
# Quelques lignes au hasard
df.sample(5)

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
644,646,1,1,Male,48.0,1,0,76.7292,1
230,232,0,3,Male,29.0,0,0,7.775,3
177,179,0,2,Male,30.0,0,0,13.0,3
31,32,1,1,female,60.0,1,0,146.5208,1
140,142,1,3,female,22.0,0,0,7.75,3


In [16]:
# Types de donnees pour chaque colonne
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Sex             object
Age            float64
SibSp            int64
Parch            int64
Fare           float64
Embarked         int64
dtype: object

In [21]:
# Informations generales sur votre dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 889 entries, 0 to 888
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  889 non-null    int64  
 1   Survived     889 non-null    int64  
 2   Pclass       889 non-null    int64  
 3   Sex          889 non-null    object 
 4   Age          889 non-null    float64
 5   SibSp        889 non-null    int64  
 6   Parch        889 non-null    int64  
 7   Fare         889 non-null    float64
 8   Embarked     889 non-null    int64  
dtypes: float64(2), int64(6), object(1)
memory usage: 62.6+ KB


In [22]:
# Statistiques Descriptives sur votre dataset
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare,Embarked
count,889.0,889.0,889.0,889.0,889.0,889.0,889.0,889.0
mean,446.0,0.382452,2.311586,35.686355,0.524184,0.382452,32.096681,2.535433
std,256.998173,0.48626,0.8347,17.756733,1.103705,0.806761,49.697504,0.792088
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0,1.0
25%,224.0,0.0,2.0,22.0,0.0,0.0,7.8958,2.0
50%,446.0,0.0,3.0,32.0,0.0,0.0,14.4542,3.0
75%,668.0,1.0,3.0,54.0,1.0,0.0,31.0,3.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292,3.0


# Nettoyage

In [None]:
# Renommer des colonnes

In [None]:
# Selectionner des colonnes 

In [None]:
# Changer le type

In [None]:
# Imputer des valeurs manquantes 

# Analyses

### Analyses Simples

### Analyses Graphiques