In [1]:
# Importation de la librairie
import pandas as pd

# Importation des données depuis mon sit Github
file = "https://raw.githubusercontent.com/simaleo/data_book1/main/hdv2003.csv"
data = pd.read_csv(file)

In [2]:
# import os
# path = "/home/hp/Documents/Book1/data/data/"
# os.chdir(path)

In [3]:
# data = pd.read_csv('hdv2003.csv')

# NATURE DES VARIABLES

In [4]:
# Type de variables
data.dtypes

id                 int64
age                int64
sexe              object
nivetud           object
poids            float64
occup             object
qualif            object
freres.soeurs      int64
clso              object
relig             object
trav.imp          object
trav.satisf       object
hard.rock         object
lecture.bd        object
peche.chasse      object
cuisine           object
bricol            object
cinema            object
sport             object
heures.tv        float64
dtype: object

In [5]:
# Variable binaire
data['sexe'].unique()

array(['Femme', 'Homme'], dtype=object)

In [6]:
# Variable nominale
data['qualif'].dropna().unique()

array(['Employe', 'Technicien', 'Ouvrier qualifie', 'Autre', 'Cadre',
       'Ouvrier specialise', 'Profession intermediaire'], dtype=object)

In [7]:
# Variable ordinale
data["trav.satisf"].dropna().unique()

array(['Insatisfaction', 'Equilibre', 'Satisfaction'], dtype=object)

# ANALYSE D’UNE VARIABLE QUALITATIVE

In [8]:
# Effectif total de la population ou de l’échantillon
data.shape

(2000, 20)

In [9]:
# Nombre total d’observation de chaque variable
data.count()

id               2000
age              2000
sexe             2000
nivetud          1888
poids            2000
occup            2000
qualif           1653
freres.soeurs    2000
clso             2000
relig            2000
trav.imp         1048
trav.satisf      1048
hard.rock        2000
lecture.bd       2000
peche.chasse     2000
cuisine          2000
bricol           2000
cinema           2000
sport            2000
heures.tv        1995
dtype: int64

In [10]:
# Fréquences absolue des modalités de la variable sexe
data['sexe'].value_counts()

Femme    1101
Homme     899
Name: sexe, dtype: int64

In [11]:
# Fréquences relative des modalités de la variable sexe
data['sexe'].value_counts(normalize=True)

Femme    0.5505
Homme    0.4495
Name: sexe, dtype: float64

In [12]:
# Pourcentage relatif des modalités de la variable sexe
data['sexe'].value_counts(normalize=True)*100

Femme    55.05
Homme    44.95
Name: sexe, dtype: float64

In [13]:
# Fréquences cumulées des modalités de la variable qualif
data['qualif'].value_counts(normalize=True).cumsum()*100

Employe                      35.934664
Ouvrier qualifie             53.599516
Cadre                        69.328494
Ouvrier specialise           81.609195
Profession intermediaire     91.288566
Technicien                   96.491228
Autre                       100.000000
Name: qualif, dtype: float64

In [14]:
# Fréquences absolue des modalités de la variable occup
data['occup'].value_counts()

Exerce une profession    1049
Retraite                  392
Au foyer                  171
Chomeur                   134
Etudiant, eleve            94
Autre inactif              83
Retire des affaires        77
Name: occup, dtype: int64

In [15]:
# Determination du mode de la variable occup
data['occup'].mode()

0    Exerce une profession
Name: occup, dtype: object

# ANALYSE D’UNE VARIABLE QUANTITATIVE

### PARAMÈTRES DE POSITION

In [16]:
# Moyenne de la variable age
data['age'].mean()

48.157

In [17]:
# Médiane de la variable age
data['age'].median()

48.0

In [18]:
# Mode de la variable age
data['age'].mode()

0    48
Name: age, dtype: int64

### PARAMÈTRE DE DISPERSION

In [19]:
# Etendue de la variable age
E = data['age'].max() - data['age'].min()
E

79

In [20]:
# Distance interquartile de la variable age
IQR = data['age'].quantile(0.75) - data['age'].quantile(0.25)
IQR

25.0

In [21]:
# Distance interquartile avec la fonction iqr()
import scipy.stats as stat
IQR = stat.iqr(data['age'])
IQR

25.0

In [22]:
# Variance de la variable age
data['age'].var()

287.02486343171586

In [23]:
# Écart-Type de la variable age
data['age'].std()

16.941808151189644

In [24]:
# 1er quantile : 25 % 
data['age'].quantile(0.25)

35.0

In [25]:
# 2ème quantile : 50 %
data['age'].quantile(0.50)

48.0

In [26]:
# 3ème quantile : 75 % 
data['age'].quantile(0.75)

60.0

# STRUCTURE DES DONNÉES ET RÉSUMÉ STATISTIQUE

### STRUCTURE DES DONNÉES

In [27]:
# Structure des données
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 20 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             2000 non-null   int64  
 1   age            2000 non-null   int64  
 2   sexe           2000 non-null   object 
 3   nivetud        1888 non-null   object 
 4   poids          2000 non-null   float64
 5   occup          2000 non-null   object 
 6   qualif         1653 non-null   object 
 7   freres.soeurs  2000 non-null   int64  
 8   clso           2000 non-null   object 
 9   relig          2000 non-null   object 
 10  trav.imp       1048 non-null   object 
 11  trav.satisf    1048 non-null   object 
 12  hard.rock      2000 non-null   object 
 13  lecture.bd     2000 non-null   object 
 14  peche.chasse   2000 non-null   object 
 15  cuisine        2000 non-null   object 
 16  bricol         2000 non-null   object 
 17  cinema         2000 non-null   object 
 18  sport   

### RÉSUMÉ STATISTIQUE

In [28]:
# Résumé statistique des variables age, sexe, occup et qualif
data[['age', 'sexe', 'occup', 'qualif']].describe(include='all')

Unnamed: 0,age,sexe,occup,qualif
count,2000.0,2000,2000,1653
unique,,2,7,7
top,,Femme,Exerce une profession,Employe
freq,,1101,1049,594
mean,48.157,,,
std,16.941808,,,
min,18.0,,,
25%,35.0,,,
50%,48.0,,,
75%,60.0,,,


In [29]:
data.describe(include='all')

Unnamed: 0,id,age,sexe,nivetud,poids,occup,qualif,freres.soeurs,clso,relig,trav.imp,trav.satisf,hard.rock,lecture.bd,peche.chasse,cuisine,bricol,cinema,sport,heures.tv
count,2000.0,2000.0,2000,1888,2000.0,2000,1653,2000.0,2000,2000,1048,1048,2000,2000,2000,2000,2000,2000,2000,1995.0
unique,,,2,8,,7,7,,3,6,4,3,2,2,2,2,2,2,2,
top,,,Femme,Enseignement technique ou professionnel court,,Exerce une profession,Employe,,Non,Appartenance sans pratique,Moins important que le reste,Satisfaction,Non,Non,Non,Non,Non,Non,Non,
freq,,,1101,463,,1049,594,,1037,760,708,480,1986,1953,1776,1119,1147,1174,1277,
mean,1000.5,48.157,,,5535.613169,,,3.283,,,,,,,,,,,,2.246566
std,577.494589,16.941808,,,4375.030379,,,2.766539,,,,,,,,,,,,1.775853
min,1.0,18.0,,,78.07834,,,0.0,,,,,,,,,,,,0.0
25%,500.75,35.0,,,2221.822478,,,1.0,,,,,,,,,,,,1.0
50%,1000.5,48.0,,,4631.188371,,,2.0,,,,,,,,,,,,2.0
75%,1500.25,60.0,,,7626.535189,,,5.0,,,,,,,,,,,,3.0
