# PANDAS VALUE_COUNT()

In [26]:
# Importing necessary libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

# Autoriser l'affichage de tous les enregistrements d'un dataset
pd.set_option('display.max_rows', None)

In [27]:
# Reading in the data
train = pd.read_csv("data/titanic/train.csv")

In [28]:
# See the head
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [29]:
# Dataset dimension
train.shape

(891, 12)

In [30]:
# Describe the dataset
train.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [31]:
# Visualisation des colonnes ayant des valeurs nulles
train.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

#### Conclusion: les colonnes Age, Cabin et Embarked ont des valeurs nulles.

### 1. value_counts() -> sans argument (valeur par défaut)

In [32]:
train['Survived'].value_counts()

0    549
1    342
Name: Survived, dtype: int64

In [33]:
# La fonction renvoie le compte de toutes les valeurs uniques dans l'indice donné en ordre décroissant sans aucune valeur nulle.

#### CONCLUSION
##### 549 personnes n'ont pas survecu selon le dataset
##### 342 personnes ont servecu selon le dataset

### 2. value_counts() -> avec argument

##### 1 - Obtenir le précédent résultat en pourcentage

In [34]:
train['Survived'].value_counts(normalize=True)

0    0.616162
1    0.383838
Name: Survived, dtype: float64

In [35]:
# En réglant normalize=True, l'objet renvoyé contiendra les fréquences relatives des valeurs uniques.

#### CONCLUSION
##### 61% n'ont pas survecu
##### 38% ont servecu

##### 2 - Obtenir le précédent résultat en ordre décroissant

In [36]:
train['Survived'].value_counts(ascending=True)

1    342
0    549
Name: Survived, dtype: int64

##### 3 - Affichage des NaN values avec value_count()

In [37]:
# Par défaut value_count() n'affiche que les valeurs pour les index (valeurs colonne) différents de NaN

In [38]:
train['Embarked'].value_counts(dropna=False, normalize=True)

S      0.722783
C      0.188552
Q      0.086420
NaN    0.002245
Name: Embarked, dtype: float64

#### CONCLUSION: 2 valeurs nulles dans la colonne "Embarked"

In [39]:
# Affichage de value_counts avec NaN 

##### 4 - Regrouper les données continues en intervalles discrets

In [40]:
# Exemple d'affichage d'une colonne "Entier"

In [41]:
train['Fare'].value_counts()

8.0500      43
13.0000     42
7.8958      38
7.7500      34
26.0000     31
10.5000     24
7.9250      18
7.7750      16
26.5500     15
0.0000      15
7.2292      15
7.8542      13
8.6625      13
7.2500      13
7.2250      12
16.1000      9
9.5000       9
24.1500      8
15.5000      8
56.4958      7
52.0000      7
14.5000      7
14.4542      7
69.5500      7
7.0500       7
31.2750      7
46.9000      6
30.0000      6
7.7958       6
39.6875      6
21.0000      6
27.9000      6
26.2500      6
27.7208      5
30.5000      5
73.5000      5
53.1000      5
15.2458      5
29.1250      5
34.3750      4
11.5000      4
21.0750      4
35.5000      4
12.4750      4
7.7333       4
110.8833     4
7.8792       4
227.5250     4
79.2000      4
31.3875      4
120.0000     4
27.7500      4
25.4667      4
7.5500       4
39.0000      4
263.0000     4
151.5500     4
15.8500      4
7.1250       4
13.5000      4
90.0000      4
19.2583      4
7.6500       4
23.0000      4
52.5542      3
29.7000      3
86.5000   

In [44]:
train['Fare'].value_counts(bins=7)

(-0.513, 73.19]       789
(73.19, 146.38]        71
(146.38, 219.57]       15
(219.57, 292.76]       13
(439.139, 512.329]      3
(365.949, 439.139]      0
(292.76, 365.949]       0
Name: Fare, dtype: int64

##### CONCLUSION: bin() permet de définir le nombre d'intervalle 

In [45]:
# Binning permet de comprendre facilement la dispersion des données. 
# Nous pouvons facilement constater que la plupart des personnes sur l'ensemble de la population ont payé moins de 73,19 pour leur billet.