# ⚙️ Initiez-vous au MLOps (partie 1/2)

## 🫁 Detection du cancer du poumon

L'efficacité du système de prédiction du cancer aide les personnes à connaître leur risque de cancer à faible coût et les aide également à prendre la décision appropriée en fonction de leur statut de risque de cancer. Les données sont collectées à partir du site web du système de prédiction en ligne du cancer du poumon.

###  📦 Initialisation du notebook

In [1]:
import sys
import os
sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath('__file__'))))

import numpy as np
import pandas as pd
from src.visualization.visu_text import quick_df_info

### 📋 Chargement des données brutes

**Nombre total d'attributs : 16**

| N° | Original (Anglais) | Traduction française | Valeurs |
|----|-------------------|---------------------|---------|
| 1  | Gender: M(male), F(female) | Genre : H(homme), F(femme) | M/F ou H/F |
| 2  | Age: Age of the patient | Âge : Âge du patient | Numérique |
| 3  | Smoking: YES=2, NO=1 | Tabagisme : OUI=2, NON=1 | 1 ou 2 |
| 4  | Yellow fingers: YES=2, NO=1 | Doigts jaunes : OUI=2, NON=1 | 1 ou 2 |
| 5  | Anxiety: YES=2, NO=1 | Anxiété : OUI=2, NON=1 | 1 ou 2 |
| 6  | Peer_pressure: YES=2, NO=1 | Influence sociale tabagique : OUI=2, NON=1 | 1 ou 2 |
| 7  | Chronic Disease: YES=2, NO=1 | Maladie chronique : OUI=2, NON=1 | 1 ou 2 |
| 8  | Fatigue: YES=2, NO=1 | Fatigue : OUI=2, NON=1 | 1 ou 2 |
| 9  | Allergy: YES=2, NO=1 | Allergie : OUI=2, NON=1 | 1 ou 2 |
| 10 | Wheezing: YES=2, NO=1 | Sifflement respiratoire : OUI=2, NON=1 | 1 ou 2 |
| 11 | Alcohol: YES=2, NO=1 | Alcool : OUI=2, NON=1 | 1 ou 2 |
| 12 | Coughing: YES=2, NO=1 | Toux : OUI=2, NON=1 | 1 ou 2 |
| 13 | Shortness of Breath: YES=2, NO=1 | Essoufflement : OUI=2, NON=1 | 1 ou 2 |
| 14 | Swallowing Difficulty: YES=2, NO=1 | Difficulté de déglutition : OUI=2, NON=1 | 1 ou 2 |
| 15 | Chest pain: YES=2, NO=1 | Douleur thoracique : OUI=2, NON=1 | 1 ou 2 |
| 16 | Lung Cancer: YES, NO | Cancer du poumon : OUI, NON | OUI/NON |

## Notes
- Les attributs 3-15 utilisent un codage binaire : 1=NON, 2=OUI
- L'attribut 16 (Cancer du poumon) semble être la variable cible du dataset
- Ce dataset paraît être conçu pour la prédiction du cancer du poumon basée sur des facteurs de risque et symptômes


In [2]:
raw_df = pd.read_csv("../data/raw/Lung Cancer - Dataset.csv")
quick_df_info(raw_df, "Données brutes")


┌------------------------------* Données brutes *------------------------------┐
├─------- Shape: (20000, 16) - Colonnes:
├─GENDER                    object    
├─AGE                       float64   
├─SMOKING                   object    
├─YELLOW_FINGERS            object    
├─ANXIETY                   object    
├─PEER_PRESSURE             object    
├─CHRONIC DISEASE           object    
├─FATIGUE                   object    
├─ALLERGY                   object    
├─WHEEZING                  object    
├─ALCOHOL CONSUMING         object    
├─COUGHING                  object    
├─SHORTNESS OF BREATH       object    
├─SWALLOWING DIFFICULTY     object    
├─CHEST PAIN                object    
├─LUNG_CANCER               object    
└------------------------------------------------------------------------------┘


In [5]:
total_missing = raw_df.isnull().sum().sum()
if total_missing == 0:
    print("✅ Aucune valeur manquante détectée !")
else:
    print(f"⚠️  {total_missing} valeur(s) manquante(s) détectée(s)")

raw_df.info()

⚠️  2131 valeur(s) manquante(s) détectée(s)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 16 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   GENDER                 20000 non-null  int64  
 1   AGE                    19942 non-null  float64
 2   SMOKING                19607 non-null  float64
 3   YELLOW_FINGERS         20000 non-null  int64  
 4   ANXIETY                20000 non-null  int64  
 5   PEER_PRESSURE          20000 non-null  int64  
 6   CHRONIC DISEASE        20000 non-null  int64  
 7   FATIGUE                20000 non-null  int64  
 8   ALLERGY                20000 non-null  int64  
 9   WHEEZING               19057 non-null  float64
 10  ALCOHOL CONSUMING      19348 non-null  float64
 11  COUGHING               20000 non-null  int64  
 12  SHORTNESS OF BREATH    19915 non-null  float64
 13  SWALLOWING DIFFICULTY  20000 non-null  int64  
 14  CHEST PAIN

In [7]:
# Suppression des données manquantes
raw_df.dropna(inplace=True) # Pas de données manquantes dans ce dataset
raw_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 17940 entries, 0 to 19999
Data columns (total 16 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   GENDER                 17940 non-null  int64  
 1   AGE                    17940 non-null  float64
 2   SMOKING                17940 non-null  float64
 3   YELLOW_FINGERS         17940 non-null  int64  
 4   ANXIETY                17940 non-null  int64  
 5   PEER_PRESSURE          17940 non-null  int64  
 6   CHRONIC DISEASE        17940 non-null  int64  
 7   FATIGUE                17940 non-null  int64  
 8   ALLERGY                17940 non-null  int64  
 9   WHEEZING               17940 non-null  float64
 10  ALCOHOL CONSUMING      17940 non-null  float64
 11  COUGHING               17940 non-null  int64  
 12  SHORTNESS OF BREATH    17940 non-null  float64
 13  SWALLOWING DIFFICULTY  17940 non-null  int64  
 14  CHEST PAIN             17940 non-null  int64  
 15  LUNG_CA

### 🛠 Transformation des données en binaire 
- GENDER F=0, M=1
- LUNG_CANCER NO=0, YES=1 
- AUTRES 1=0, 2=1

In [None]:
cols = raw_df.columns.tolist()
delete = ["LUNG_CANCER", "GENDER", "AGE"]
cols = [x for x in cols if x not in delete]
for col in cols:
    raw_df[col] = raw_df[col].map({'NO': 0, 'YES': 1})
raw_df["GENDER"] = raw_df["GENDER"].map({"F": 0, "M": 1})
raw_df["LUNG_CANCER"] = raw_df["LUNG_CANCER"].map({"NO": 0, "YES": 1})
#raw_df.drop(raw_df.columns[0], axis=1, inplace=True)  
raw_df.head()

IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer

### 🧽 Sauvegarde du JDD nettoyé

In [4]:
raw_df.to_csv("../data/processed/survey_lung_cancer_clean.csv", index=False)