In [6]:
import kagglehub
import pandas as pd
import numpy as np
import os

# 1. Télécharger la dernière version du dataset
path = kagglehub.dataset_download("uciml/adult-census-income")

print("Chemin vers les fichiers du dataset :", path)

# 2. Lister les fichiers pour trouver le nom exact du CSV
files = os.listdir(path)
print("Fichiers disponibles :", files)

# 3. Charger le fichier CSV dans un DataFrame Pandas
file_path = os.path.join(path, "adult.csv")
df = pd.read_csv(file_path)

Chemin vers les fichiers du dataset : C:\Users\matth\.cache\kagglehub\datasets\uciml\adult-census-income\versions\3
Fichiers disponibles : ['adult.csv']


In [5]:
print("--- 1. DIMENSIONS DU DATASET ---")
print(f"Nombre de lignes : {df.shape[0]}")
print(f"Nombre de colonnes : {df.shape[1]}")
print("\n")

print("--- 2. TYPES DE DONNÉES ET STRUCTURE ---")
# Affiche les types de chaque colonne
print(df.dtypes)
print("\n")

print("--- 3. IDENTIFICATION DE LA CIBLE (TARGET) ---")
target = 'income'
print(f"La variable cible est : '{target}'")
print("Répartition des classes :")
print(df[target].value_counts(normalize=True) * 100)
print("\n")

print("--- 4. ANALYSE DES VALEURS MANQUANTES ---")
# Dans ce dataset, les valeurs manquantes sont souvent des '?'
# On les remplace par NaN pour que Pandas puisse les compter
df_cleaned = df.replace('?', np.nan)

missing_values = df_cleaned.isnull().sum()
print("Nombre de valeurs manquantes par colonne (après conversion des '?') :")
print(missing_values[missing_values > 0])
print("\n")

print("--- 5. APERÇU DES PREMIÈRES LIGNES ---")
df.head()

--- 1. DIMENSIONS DU DATASET ---
Nombre de lignes : 32561
Nombre de colonnes : 15


--- 2. TYPES DE DONNÉES ET STRUCTURE ---
age                int64
workclass         object
fnlwgt             int64
education         object
education.num      int64
marital.status    object
occupation        object
relationship      object
race              object
sex               object
capital.gain       int64
capital.loss       int64
hours.per.week     int64
native.country    object
income            object
dtype: object


--- 3. IDENTIFICATION DE LA CIBLE (TARGET) ---
La variable cible est : 'income'
Répartition des classes :
income
<=50K    75.919044
>50K     24.080956
Name: proportion, dtype: float64


--- 4. ANALYSE DES VALEURS MANQUANTES ---
Nombre de valeurs manquantes par colonne (après conversion des '?') :
workclass         1836
occupation        1843
native.country     583
dtype: int64


--- 5. APERÇU DES PREMIÈRES LIGNES ---


Unnamed: 0,age,workclass,fnlwgt,education,education.num,marital.status,occupation,relationship,race,sex,capital.gain,capital.loss,hours.per.week,native.country,income
0,90,?,77053,HS-grad,9,Widowed,?,Not-in-family,White,Female,0,4356,40,United-States,<=50K
1,82,Private,132870,HS-grad,9,Widowed,Exec-managerial,Not-in-family,White,Female,0,4356,18,United-States,<=50K
2,66,?,186061,Some-college,10,Widowed,?,Unmarried,Black,Female,0,4356,40,United-States,<=50K
3,54,Private,140359,7th-8th,4,Divorced,Machine-op-inspct,Unmarried,White,Female,0,3900,40,United-States,<=50K
4,41,Private,264663,Some-college,10,Separated,Prof-specialty,Own-child,White,Female,0,3900,40,United-States,<=50K


Le dataset que nous étudions à une dimension de 15x32561

Grace à Python nous pouvons lister les colonnes et également les premières lignes pour donner un sens a nos colonnes. Dans le résultat du code d'avant vous pouvez avoir le type également de chaque colonnes. Voici donc la liste de nos colonnes et de leurs significations :
- age	= Âge de l'individu
- workclass = Secteur d'emploi (Privé, Public, Auto-entrepreneur, etc.)
- fnlwgt = "Final weight" : poids démographique calculé par le bureau du recensement
- education = Plus haut niveau d'études atteint
- educational-num = Niveau d'études converti en valeur numérique continue
- marital-status = État civil
- occupation = Type d'emploi (Cadre, Vente, Artisanat, etc.)
- relationship = Rôle au sein de la famille (Mari, Femme, Enfant, etc.)
- race = Origine ethnique
- gender = Sexe (Male, Female)
- capital-gain = Gains en capital enregistrés
- capital-loss = Pertes en capital enregistrées
- hours-per-week = Nombre d'heures travaillées par semaine
- native-country = Pays d'origine
- income = La Cible (Target) : Revenu annuel
