# __*TP 2 - Préparation des données avec Python - Jeathusa*__

## **Objectif :**

Nettoyer le dataset `catnat_dirty.csv` et produire un fichier propre `catnat_clean.csv` prêt à être analysé dans Tableau.

<br>

## - __**Problèmes à résoudre**__
__**Le dataset contient volontairement :**__


- ~150 doublons
- Valeurs manquantes supplémentaires
- Incohérences de casse (Asia, ASIA, asia...)
- Espaces parasites
- Variantes d'orthographe (USA, US, United States...)
- `Start Year` en format texte avec erreurs ("2020 AD", "Year 2020")
- Outliers aberrants (décès négatifs, magnitude à 999)

In [2]:
import pandas as pd
import numpy as np

df = pd.read_csv("./data/raw/catnat_dirty.csv")

pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

In [3]:
df.head()

Unnamed: 0,DisNo.,Country,Region,Subregion,Disaster Type,Disaster Subtype,Disaster Subgroup,Event Name,Start Year,Start Month,Total Deaths,No. Injured,Total Affected,No. Homeless,Total Damage ('000 US$),Magnitude,Latitude,Longitude
0,2020-0121-IDN,Indonesia,Asia,South-eastern Asia,FLOOD,Flood (General),Hydrological,,2020,3.0,1.0,,56488.0,,,,,
1,2008-0524-USA,United States of America,Americas,Northern America,WILDFIRE,Wildfire (General),Climatological,,2008,11.0,,20.0,55020.0,,2000000.0,,,
2,2015-0281-SLB,Solomon Islands,Oceania,Melanesia,storm,Tropical cyclone,Meteorological,Tropical cylone Raquel,2015,7.0,9.0,,400.0,400.0,2000.0,,,
3,2007-0274-KHM,Cambodia,Asia,South-eastern Asia,epidemic,Viral disease,Biological,Dengue,2007,7.0,182.0,,17000.0,,,,,
4,2008-0275-JPN,Japon,Asia,Eastern Asia,earthquake,Ground movement,Geophysical,,2008,7.0,1.0,200.0,470.0,,110000.0,6.8,39.802,141.464


<hr>

<br>
<br>

## __**Exercice 1 — Exploration et diagnostic**__

### **Rappel**
>
> Avant de modifier, toujours explorer :
>
> - `df.shape` → dimensions
> - `df.info()` → types et nulls
> - `df.describe()` → statistiques
> - `df.isnull().sum()` → comptage des nulls
> - `df.duplicated().sum()` → comptage des doublons
> - `df['col'].value_counts()` → valeurs uniques

<br>
<br>

### __*À faire*__

1. Affichez les dimensions du dataset
2. Affichez les types de données avec `info()`
3. Comptez les valeurs manquantes par colonne (nombre et pourcentage)
4. Comptez le nombre de doublons
5. Affichez les valeurs uniques de `Region` — repérez les incohérences
6. Affichez les statistiques de `Total Deaths` — repérez les anomalies

<br>
<br>

#### __*1. Affichez les dimensions du dataset*__

In [4]:
df.shape
print(f"Number de lignes: {df.shape[0]}")
print(f"Number de la columns: {df.shape[1]}")

Number de lignes: 17510
Number de la columns: 18


In [5]:
df.describe()

Unnamed: 0,Start Month,Total Deaths,No. Injured,Total Affected,No. Homeless,Total Damage ('000 US$),Magnitude,Latitude,Longitude
count,16599.0,12593.0,4507.0,12951.0,2521.0,5630.0,5249.0,2821.0,2821.0
mean,6.442798,2751.663,2538.213,687321.8,72263.49,844872.0,37804.06,18.587746,39.67556
std,3.387116,65779.89,32305.24,7343419.0,515867.7,5077550.0,233158.5,21.591603,77.230791
min,1.0,-36000.0,1.0,1.0,3.0,2.0,-57.0,-72.64,-178.252
25%,4.0,5.0,13.0,700.0,502.0,10000.0,6.9,3.295,0.71
50%,7.0,18.0,50.0,6000.0,3000.0,70000.0,140.0,23.027,49.78
75%,9.0,61.0,200.0,60000.0,17000.0,373000.0,6851.66,36.623,102.68
max,12.0,3700000.0,1800000.0,330000000.0,15850000.0,210000000.0,13025870.0,67.93,179.65



#### __*2. Affichez les types de données avec `info()`*__

In [6]:
df.info()

<class 'pandas.DataFrame'>
RangeIndex: 17510 entries, 0 to 17509
Data columns (total 18 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   DisNo.                   17510 non-null  str    
 1   Country                  17510 non-null  str    
 2   Region                   17161 non-null  str    
 3   Subregion                17510 non-null  str    
 4   Disaster Type            17510 non-null  str    
 5   Disaster Subtype         17510 non-null  str    
 6   Disaster Subgroup        17510 non-null  str    
 7   Event Name               3975 non-null   str    
 8   Start Year               17510 non-null  str    
 9   Start Month              16599 non-null  float64
 10  Total Deaths             12593 non-null  float64
 11  No. Injured              4507 non-null   float64
 12  Total Affected           12951 non-null  float64
 13  No. Homeless             2521 non-null   float64
 14  Total Damage ('000 US$)  5630 non


#### __*3. Comptez les valeurs manquantes par colonne (nombre et pourcentage)*__

In [7]:
manquant = df.isnull().sum()
manquant_pourcentage = (manquant / len(df)) * 100
manquant_df = pd.DataFrame({"Manquant": manquant, "Pourcentage": manquant_pourcentage})
manquant_df["Pourcentage"] = manquant_df["Pourcentage"].round(2).astype(str) + "%"
print(manquant_df)

                         Manquant Pourcentage
DisNo.                          0        0.0%
Country                         0        0.0%
Region                        349       1.99%
Subregion                       0        0.0%
Disaster Type                   0        0.0%
Disaster Subtype                0        0.0%
Disaster Subgroup               0        0.0%
Event Name                  13535       77.3%
Start Year                      0        0.0%
Start Month                   911        5.2%
Total Deaths                 4917      28.08%
No. Injured                 13003      74.26%
Total Affected               4559      26.04%
No. Homeless                14989       85.6%
Total Damage ('000 US$)     11880      67.85%
Magnitude                   12261      70.02%
Latitude                    14689      83.89%
Longitude                   14689      83.89%


#### __*4. Comptez le nombre de doublons*__

In [8]:
n_doublons = df.duplicated().sum()
print(f"Nombre de doublons : {n_doublons}")

Nombre de doublons : 150


#### __*5. Affichez les valeurs uniques de `Region` - repérez les incohérences*__

In [9]:
raw_unique = df['Region'].dropna().unique()
print("Valeurs uniques (brutes):")
print(raw_unique)


Valeurs uniques (brutes):
<StringArray>
[     'Asia ',   'Americas',    'Oceania',       'Asia',       'ASIA',
 ' Americas ',     'Africa',    'Europe ',     'Europe',  ' Americas',
     'EUROPE',  'AMERICAS ',   'americas',   'AMERICAS',     ' Asia ',
    ' Africa',  'Americas ',       'asia',   ' Oceania',      'ASIA ',
    'oceania', ' americas ',      ' Asia',      'asia ',    'OCEANIA',
     'africa',     'AFRICA',     'europe',    'europe ', ' AMERICAS ',
  'americas ',  ' AMERICAS',   ' Europe ',    ' EUROPE',      ' ASIA',
   ' Africa ',  ' americas',    'africa ',      ' asia',    ' africa',
   ' AFRICA ',    'Africa ',    ' AFRICA',   'Oceania ',     ' asia ',
    'AFRICA ',   ' europe ',    'EUROPE ',    ' Europe',   ' africa ',
     ' ASIA ',    ' europe',  ' Oceania ',   'OCEANIA ',  ' OCEANIA ',
   ' EUROPE ',   'oceania ',   ' OCEANIA',  ' oceania ',   ' oceania']
Length: 60, dtype: str


In [53]:
print("\nComptage brut:\n")
print(df['Region'].value_counts(dropna=False))


Comptage brut:

Region
Asia        6817
Americas    4243
Africa      3142
Europe      2117
Oceania      695
Name: count, dtype: int64


<br>

__*- `J'ai fait test sur les variantes sur la colonne Region pour montrer les incohérences (espaces, casse, orthographe).`*__

In [11]:
norm = df['Region'].astype(str).str.strip().str.lower()
print("\nCompte (normalisé: strip + lower):")
print(norm.value_counts())


Compte (normalisé: strip + lower):
Region
asia        6881
americas    4283
africa      3169
europe      2131
oceania      697
Name: count, dtype: int64


#### __*6. Affichez les statistiques de `Total Deaths` - repérez les anomalies*__

In [12]:
totale_mort = df['Total Deaths'].describe()

print("\nStatistiques descriptives pour 'Total Deaths':\n")
print(totale_mort)


Statistiques descriptives pour 'Total Deaths':

count    1.259300e+04
mean     2.751663e+03
std      6.577989e+04
min     -3.600000e+04
25%      5.000000e+00
50%      1.800000e+01
75%      6.100000e+01
max      3.700000e+06
Name: Total Deaths, dtype: float64


 __**`- Comme on peut voir les valeurs min est -3.600000e+04, ce qui est anormal.`**__

In [13]:
# Valeurs négatives dans 'Total Deaths'
neg = df[df['Total Deaths'] < 0]
print("\nNombre de négatifs:", len(neg))
print("\nExemples de valeurs négatives:\n", neg[['Region', 'Total Deaths']].head())


Nombre de négatifs: 67

Exemples de valeurs négatives:
        Region  Total Deaths
33   Americas          -2.0
136    Africa         -30.0
293      Asia          -1.0
607     Asia          -21.0
754  Americas         -61.0


<br>

## __*Questions*__

**1. Combien y a-t-il de doublons ?**

* D'Après le résultat de `df.duplicated().sum()`, il y a 150 doublons dans le dataset.    
Le dataset contient 17510 lignes, 18 colonnes.

<br>

**2. Quelles colonnes ont le plus de valeurs manquantes ?**

* D'Après le résultat de `manquant = df.isnull().sum()`, les colonnes avec le plus de valeurs manquantes sont :
* No. Homeless                14989     -   (85.6%)
* Latitude                    14689   -    (83.89%)
* Longitude                   14689   -    (83.89%)
* Event Name                  13535    -    (77.3%)
* No. Injured                 13003   -    (74.26%)


<br>

**3. Combien de variantes différentes pour "Asia" ?**
* D'Après le résultat de `df['Region'].value_counts()`, il y a 3 variantes différentes pour "Asia" : "Asia", "ASIA", "asia" qui représentent respectivement 3754 occurences.

<br>

**4. Y a-t-il des valeurs négatives dans `Total Deaths` ?**
* D'Après le résultat de `df['Total Deaths'].describe()`, il y a des valeurs négatives dans `Total Deaths` avec une valeur minimum de -36000, ce qui est anormal pour ce type de données.

<br>

<br>
<hr>
<br>

## __*Exercice 2 — Suppression des doublons*__

> **Rappel**
>
> ```python
> # Identifier les doublons
> df[df.duplicated()]
> df[df.duplicated(keep=False)]  # Inclut les originaux
>
> # Supprimer les doublons
> df = df.drop_duplicates()
> df = df.drop_duplicates(subset=['col1', 'col2'])  # Sur certaines colonnes
> ```

<br>
<br>

### __*À faire*__

1. Affichez quelques lignes dupliquées pour vérifier
2. Supprimez les doublons exacts
3. Vérifiez que les doublons ont bien été supprimés

<br>
<br>


#### __*1. Affichez quelques lignes dupliquées pour vérifier**__

In [14]:
df[df.duplicated(keep=False)]

Unnamed: 0,DisNo.,Country,Region,Subregion,Disaster Type,Disaster Subtype,Disaster Subgroup,Event Name,Start Year,Start Month,Total Deaths,No. Injured,Total Affected,No. Homeless,Total Damage ('000 US$),Magnitude,Latitude,Longitude
27,1969-0071-IND,India,ASIA,Southern Asia,Storm,Tropical cyclone,Meteorological,,1969,5.0,600000.0,,260000.0,,8330.0,,,
125,2005-0583-USA,USA,americas,Northern America,Flood,Riverine flood,Hydrological,,2005,10.0,11.0,,3000.0,,,38290.00,,
322,1963-0055-BEL,Belgium,Europe,Western Europe,Extreme Temperature,Cold wave,Meteorological,,1963,,12.0,,,,,-22.00,,
371,2023-0510-MNG,Mongolia,Asia,Eastern Asia,Flood,Flash flood,Hydrological,,2023,8.0,4.0,,1230.0,,,,,
456,1996-0226-CHN,China,Asia,Eastern Asia,Storm,Tropical cyclone,Meteorological,Willie,1996,9.0,38.0,,,,100000.0,130.00,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17194,2023-0290-SLE,Sierra Leone,Africa,Sub-Saharan Africa,STORM,Storm (General),Meteorological,,2023,5.0,15.0,17.0,17.0,,,,,
17228,1997-0126-SLV,El Salvador,Americas,Latin America and the Caribbean,STORM,Tropical cyclone,Meteorological,Andres,1997,6.0,4.0,,2000.0,2000.0,,,,
17339,2010-0053-PAK,Pakistan,ASIA,Southern Asia,Flood,Riverine flood,Hydrological,,2010,2.0,22.0,,,,,,,
17410,2013-0286-USA,United States of America,Americas,Northern America,Flood,Riverine flood,Hydrological,,2013,5.0,3.0,,300.0,,2000.0,33907.85,28.8990,-98.89


<br>
<br>

#### __*2. Supprimez les doublons exacts*__

In [15]:
df = df.drop_duplicates()

<br>
<br>

#### __*3. Vérifiez que les doublons ont bien été supprimés*__

In [16]:
n_doublons = df.duplicated().sum()
print(f"Nombre de doublons : {n_doublons}")

Nombre de doublons : 0


<br>
<hr>
<br>

## __**Exercice 3 — Correction des types**__

> **Rappel**
>
> ```python
> # Vérifier les types
> df.dtypes
>
> # Convertir en numérique (erreurs → NaN)
> df['col'] = pd.to_numeric(df['col'], errors='coerce')
>
> # Convertir en entier
> df['col'] = df['col'].astype(int)
>
> # Convertir en date
> df['col'] = pd.to_datetime(df['col'], errors='coerce')
> ```

```python
# petit hint...
dtype.name existe !

# AD signifie Anno Domini, elle correspond à la formule français après JC ...
```

<br>
<br>

### __*À faire*__

1. Vérifiez le type de `Start Year`
2. Affichez quelques valeurs problématiques (contenant "Year" ou "AD")
3. Nettoyez la colonne : supprimez le texte et convertissez en numérique
4. Vérifiez le résultat

<br>
<br>

#### __*1. Vérifiez le type de `Start Year`*__

In [17]:
print(f"Type de la colonne 'Start Year': {df['Start Year'].dtype}")

Type de la colonne 'Start Year': str


<br>
<br>

#### __*2. Affichez quelques valeurs problématiques (contenant "Year" ou "AD")*__

In [18]:
valeurs_problematiques = df[df['Start Year'].astype(str).str.contains("Year|AD", na=False)]
print("Exemples de valeurs problématiques :")
print(valeurs_problematiques[['Start Year']].head())

Exemples de valeurs problématiques :
    Start Year
26     1982 AD
138  Year 2012
480    2021 AD
506  Year 2017
634  Year 2003


<br>
<br>

#### __*3. Nettoyez la colonne : supprimez le texte et convertissez en numérique*__

In [19]:
# Supprimer les text chaînes de caractères "Year" et "AD"
df['Start Year'] = df['Start Year'].astype(str).str.replace(r'Year|AD', '', regex=True).str.strip()

# Convertir la colonne en numérique
df['Start Year'] = pd.to_numeric(df['Start Year'], errors='coerce')

<br>
<br>

#### __*4. Vérifiez le résultat*__

In [20]:
print(f"Nouveau type de la colonne 'Start Year': {df['Start Year'].dtype}")

# Vérification des valeurs textuelles restantes
valeurs_texte_restantes = df['Start Year'].apply(lambda x: isinstance(x, str)).sum()
print(f"Nombre de valeurs textuelles restantes : {valeurs_texte_restantes}")

print("\nValeurs de la colonne nettoyée :")
print(df['Start Year'].head())

Nouveau type de la colonne 'Start Year': int64
Nombre de valeurs textuelles restantes : 0

Valeurs de la colonne nettoyée :
0    2020
1    2008
2    2015
3    2007
4    2008
Name: Start Year, dtype: int64


<br>
<hr>
<br>

## __**Exercice 4 — Traitement des valeurs manquantes**__

> **Rappel**
>
> | Situation                               | Action                             |
> | --------------------------------------- | ---------------------------------- |
> | Peu de nulls, colonne critique          | Supprimer les lignes               |
> | Beaucoup de nulls, colonne non critique | Supprimer la colonne ou garder NaN |
> | Numérique, distribution asymétrique     | Imputer par médiane                |
> | Catégoriel                              | Imputer par mode ou "Inconnu"      |
>
> ```python
> df.dropna(subset=['col'])           # Supprimer lignes
> df['col'].fillna(valeur)            # Remplacer
> df['col'].fillna(df['col'].median())  # Médiane
> ```

<br>
<br>

### __**À faire**__

1. Pour `Region` (peu de nulls) : supprimez les lignes avec null
2. Pour `Event Name` : remplacez les nulls par "Non nommé"
3. Pour `Total Deaths` : décidez d'une stratégie et appliquez-la
4. Pour `Magnitude` : laissez les nulls (n'a pas de sens pour tous les types)
5. Vérifiez le résultat

<br>
<br>

#### __*1. Pour `Region` (peu de nulls) : supprimez les lignes avec null*__


In [21]:

print(f"Nombre de lignes dans 'Region': {len(df)}")
print(f"Nuls dans 'Region' : {df['Region'].isnull().sum()}")

Nombre de lignes dans 'Region': 17360
Nuls dans 'Region' : 346


In [22]:
# Suppression des lignes où Region est nulle
df.dropna(subset=['Region'], inplace=True)

In [23]:
# Après la suppression
print(f"Nombre de lignes après suppression: {len(df)}")
print(f"Nuls dans 'Region' après: {df['Region'].isnull().sum()}")

Nombre de lignes après suppression: 17014
Nuls dans 'Region' après: 0


<br>
<br>

#### __*2. Pour `Event Name` : remplacez les nulls par "Non nommé"*__


In [24]:
df['Event Name'].fillna('Non nommé', inplace=True)

C:\Users\jeath\AppData\Local\Temp\ipykernel_14876\3554683477.py:1: ChainedAssignmentError: A value is being set on a copy of a DataFrame or Series through chained assignment using an inplace method.
Such inplace method never works to update the original DataFrame or Series, because the intermediate object on which we are setting values always behaves as a copy (due to Copy-on-Write).

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' instead, to perform the operation inplace on the original object, or try to avoid an inplace operation using 'df[col] = df[col].method(value)'.

See the documentation for a more detailed explanation: https://pandas.pydata.org/pandas-docs/stable/user_guide/copy_on_write.html
  df['Event Name'].fillna('Non nommé', inplace=True)


0                       Non nommé
1                       Non nommé
2          Tropical cylone Raquel
3                          Dengue
4                       Non nommé
                   ...           
17505                   Non nommé
17506     Tropical storm "Emily" 
17507                   Non nommé
17508                   Non nommé
17509                   Non nommé
Name: Event Name, Length: 17014, dtype: str

<br>
<br>

#### __*3. Pour `Total Deaths` : décidez d'une stratégie et appliquez-la*__


In [25]:
# Calculer la médiane des décès
median_deaths = df['Total Deaths'].median()
print(f"La médiane des décès est : {median_deaths}")

# Remplacer les nuls par la médiane
df['Total Deaths'].fillna(median_deaths, inplace=True)

La médiane des décès est : 18.0


C:\Users\jeath\AppData\Local\Temp\ipykernel_14876\736382464.py:6: ChainedAssignmentError: A value is being set on a copy of a DataFrame or Series through chained assignment using an inplace method.
Such inplace method never works to update the original DataFrame or Series, because the intermediate object on which we are setting values always behaves as a copy (due to Copy-on-Write).

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' instead, to perform the operation inplace on the original object, or try to avoid an inplace operation using 'df[col] = df[col].method(value)'.

See the documentation for a more detailed explanation: https://pandas.pydata.org/pandas-docs/stable/user_guide/copy_on_write.html
  df['Total Deaths'].fillna(median_deaths, inplace=True)


0          1.0
1         18.0
2          9.0
3        182.0
4          1.0
         ...  
17505     18.0
17506      3.0
17507      7.0
17508     50.0
17509     12.0
Name: Total Deaths, Length: 17014, dtype: float64

<br>
<br>

#### __*4. Pour `Magnitude` : laissez les nulls (n'a pas de sens pour tous les types)*__


In [26]:
print(df['Magnitude'].dtype)

float64


In [27]:
n_null = df['Magnitude'].isnull().sum()
print(f"Nulls: {n_null}/{len(df)} ({n_null/len(df)*100:.2f}%)")
print(df['Magnitude'].value_counts(dropna=False).head(10))

Nulls: 11929/17014 (70.11%)
Magnitude
NaN      11929
100.0       85
120.0       67
6.0         66
150.0       66
6.3         66
6.4         65
6.5         63
5.6         63
130.0       63
Name: count, dtype: int64


In [28]:
mag_num = pd.to_numeric(df['Magnitude'], errors='coerce')
print(mag_num.describe())

count    5.085000e+03
mean     3.788548e+04
std      2.355306e+05
min     -5.700000e+01
25%      6.900000e+00
50%      1.400000e+02
75%      6.800000e+03
max      1.302587e+07
Name: Magnitude, dtype: float64


__**`- Je l’ai laissé en `NaN` car, à mon avis personnel, la magnitude n’est pas pertinente pour tous les types d’événements, imputer une valeur introduirait une fausse précision. Cette décision est documentée et on peut ajouter une colonne indicatrice (`exemple:  has_magnitude;`) ou traiter séparément les événements avec magnitude.`**__

<br>
<br>

#### __*5. Vérifiez le résultat*__


In [29]:
print("Nombre de valeurs manquantes par colonne après traitement :")
print(df.isnull().sum())

Nombre de valeurs manquantes par colonne après traitement :
DisNo.                         0
Country                        0
Region                         0
Subregion                      0
Disaster Type                  0
Disaster Subtype               0
Disaster Subgroup              0
Event Name                 13139
Start Year                     0
Start Month                  890
Total Deaths                4774
No. Injured                12643
Total Affected              4441
No. Homeless               14570
Total Damage ('000 US$)    11540
Magnitude                  11929
Latitude                   14289
Longitude                  14289
dtype: int64


<br>
<hr>
<br>

## __**Exercice 5 — Traitement des outliers**__

> **Rappel**
>
> Deux questions :
>
> 1. Est-ce une erreur ? → Corriger ou supprimer
> 2. Est-ce une valeur extrême réelle ? → Garder (ou analyser séparément)
>
> ```python
> # Valeurs impossibles
> df[df['col'] < 0]
> df[df['col'] > seuil_max]
>
> # Supprimer
> df = df[df['col'] >= 0]
>
> # Capper
> df['col'] = df['col'].clip(lower=0, upper=max_val)
> ```

<br>
<br>

### __*À faire*__

1. Identifiez les valeurs négatives dans `Total Deaths`
2. Identifiez les valeurs aberrantes dans `Magnitude` (> 10)
3. Décidez : supprimer ou corriger ?
4. Appliquez le traitement
5. Vérifiez le résultat

<br>
<br>

#### __*1. Identifiez les valeurs négatives dans `Total Deaths`*__

In [30]:
print((df['Total Deaths'] < 0).sum())
print(df[df['Total Deaths'] < 0][['Event Name','Region','Total Deaths']].head())

65
    Event Name    Region  Total Deaths
33     Isidore  Americas          -2.0
136        NaN    Africa         -30.0
293        NaN      Asia          -1.0
607        NaN     Asia          -21.0
754        NaN  Americas         -61.0


<br>
<br>

#### __*2. Identifiez les valeurs aberrantes dans `Magnitude` (> 10)*__

In [31]:
mag = pd.to_numeric(df['Magnitude'], errors='coerce')
print((mag > 10).sum())
print(df[mag > 10][['Disaster Type','Event Name','Magnitude']].head())

3364
   Disaster Type Event Name  Magnitude
5          flood        NaN   365800.0
32         Flood        NaN      200.0
34      Wildfire        NaN     1320.0
40         Flood        NaN   444500.0
42         STORM        NaN      180.0


<br>
<br>

#### __*3. Décidez : supprimer ou corriger ?*__

**Décès négatifs :**
Ces valeurs sont mathématiquement et logiquement impossibles (on ne peut pas avoir un nombre de morts négatif). Il s'agit clairement d'erreurs de saisie. `Plutôt que de supprimer ces lignes et perdre d'autres informations utiles (région, type de catastrophe, magnitude), j'ai choisi de les remplacer par NaN`, puis de les imputer avec la médiane. La médiane est préférable à la moyenne car elle est robuste aux valeurs extrêmes et ne distorsionne pas la distribution des données en cas de valeurs aberrantes.

<br>

**Magnitudes > 10 ou = 999 :**
Une magnitude supérieure à 10 est physiquement impossible. La valeur 999 est clairement un code d'erreur. Ces données sont inutilisables pour l'analyse. Cependant, `j'ai remplacé ces valeurs par NaN plutôt que de supprimer les lignes entières, car les autres variables (région, date, nombre de morts) restent valides et exploitables`. Cela maximise la rétention d'informations tout en garantissant la qualité de l'analyse.

<br>

`En résumé : Ces choix visent à concilier qualité des données et conservation d'informations utiles.`

<br>
<br>

#### __*4. Appliquez le traitement*__

In [32]:
# Identification et remplacement les décès négatifs par NaN
print("Décès négatifs détectés :", (df['Total Deaths'] < 0).sum())
df.loc[df['Total Deaths'] < 0, 'Total Deaths'] = np.nan

# Imputer avec la médiane
median_deaths = df['Total Deaths'].median()
df['Total Deaths'].fillna(median_deaths, inplace=True)
print(f"Imputés avec la médiane : {median_deaths}")
print(f"Décès négatifs restants : {(df['Total Deaths'] < 0).sum()}\n")


Décès négatifs détectés : 65
Imputés avec la médiane : 18.0
Décès négatifs restants : 0



C:\Users\jeath\AppData\Local\Temp\ipykernel_14876\2847685292.py:7: ChainedAssignmentError: A value is being set on a copy of a DataFrame or Series through chained assignment using an inplace method.
Such inplace method never works to update the original DataFrame or Series, because the intermediate object on which we are setting values always behaves as a copy (due to Copy-on-Write).

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' instead, to perform the operation inplace on the original object, or try to avoid an inplace operation using 'df[col] = df[col].method(value)'.

See the documentation for a more detailed explanation: https://pandas.pydata.org/pandas-docs/stable/user_guide/copy_on_write.html
  df['Total Deaths'].fillna(median_deaths, inplace=True)


In [33]:

mag = pd.to_numeric(df['Magnitude'], errors='coerce')

# Identifier les magnitudes > 10 ou == 999
print("Magnitudes > 10 détectées :", (mag > 10).sum())
print("Magnitudes == 999 détectées :", (df['Magnitude'] == 999).sum())

# Remplacement par NaN
df.loc[(mag > 10) | (df['Magnitude'] == 999), 'Magnitude'] = np.nan

print(f"Magnitudes invalides remplacées par NaN")
print(f"Magnitudes > 10 restantes : {(pd.to_numeric(df['Magnitude'], errors='coerce') > 10).sum()}\n")


Magnitudes > 10 détectées : 3364
Magnitudes == 999 détectées : 22
Magnitudes invalides remplacées par NaN
Magnitudes > 10 restantes : 0



<br>
<br>

#### __*5. Vérifiez le résultat*__

In [34]:
print("État final du dataset :")
print(f"Décès manquants (NaN) : {df['Total Deaths'].isna().sum()}")
print(f"Magnitudes manquantes (NaN) : {df['Magnitude'].isna().sum()}")
print(f"Forme du dataset : {df.shape}")

État final du dataset :
Décès manquants (NaN) : 4839
Magnitudes manquantes (NaN) : 15293
Forme du dataset : (17014, 18)


<br>
<hr>
<br>

## __**Exercice 6 — Nettoyage du texte**__

> **Rappel**
>
> ```python
> # Casse
> df['col'].str.lower()
> df['col'].str.upper()
> df['col'].str.title()
>
> # Espaces
> df['col'].str.strip()
>
> # Remplacement
> df['col'].replace({'old': 'new'})
>
> # Pipeline complet
> df['col'] = df['col'].str.strip().str.lower()
> ```

### __*À faire*__

1. Nettoyez `Region` : strip + title case
2. Vérifiez avec `value_counts()` — combien de catégories maintenant ?
3. Nettoyez `Disaster Type` de la même manière
4. Nettoyez `Country` : strip + title case
5. Corrigez les variantes de pays (USA → United States, etc.)

<br>
<br>

#### __*1. Nettoyez `Region` : strip + title case*__

In [35]:
df['Region'] = df['Region'].astype(str).str.strip().str.title()

<br>
<br>

#### __*2. Vérifiez avec `value_counts()` — combien de catégories maintenant ?*__

In [36]:
print(df['Region'].value_counts())
print("\n\nRegion après nettoyage :")
print(f"Nombre de catégories uniques : {df['Region'].nunique()}\n")

Region
Asia        6817
Americas    4243
Africa      3142
Europe      2117
Oceania      695
Name: count, dtype: int64


Region après nettoyage :
Nombre de catégories uniques : 5



<br>
<br>

#### __*3. Nettoyez `Disaster Type` de la même manière*__

In [37]:
df['Disaster Type'] = df['Disaster Type'].astype(str).str.strip().str.title()
print(df['Disaster Type'].value_counts().head())

Disaster Type
Flood                  5945
Storm                  4790
Earthquake             1584
Epidemic               1488
Mass Movement (Wet)     836
Name: count, dtype: int64


<br>
<br>

#### __*4. Nettoyez `Country` : strip + title case*__

* Comme j'ai eu des valeurs incohérentes lors de l'analyse du tableau, j'ai remarqué qu'il y avait plusieurs variantes sur les pays, donc j'ai effectué une détection des différentes variantes.

In [38]:
from collections import defaultdict



# Détecte les variantes brutes dans la colonne Country.
def detecter_variantes_country(df, colonne='Country'):
    groups = defaultdict(list)

    for val in df[colonne].dropna().unique():
        key = val.strip().lower()
        groups[key].append(val)

    avec_variantes = {k: v for k, v in groups.items() if len(v) > 1}

    print(f"Valeurs brutes uniques  : {df[colonne].nunique()}")
    print(f"Groupes avec variantes  : {len(avec_variantes)}\n")

    for key, variants in sorted(avec_variantes.items()):
        counts = [f"'{v}' ({df[colonne].eq(v).sum()})" for v in variants]
        print(f"  {key!r:30} =====> {counts}")



detecter_variantes_country(df)

Valeurs brutes uniques  : 1119
Groupes avec variantes  : 220

  'afghanistan'                  =====> ["'Afghanistan' (167)", "' Afghanistan ' (12)", "' Afghanistan' (14)", "'Afghanistan ' (20)", "'afghanistan' (3)", "' afghanistan ' (1)", "'AFGHANISTAN' (2)"]
  'albania'                      =====> ["'Albania' (34)", "' ALBANIA' (1)", "'Albania ' (4)", "' Albania' (4)", "'albania' (1)", "' Albania ' (1)"]
  'algeria'                      =====> ["'Algeria' (77)", "' Algeria ' (5)", "'ALGERIA' (2)", "'Algeria ' (5)", "' Algeria' (1)"]
  'angola'                       =====> ["'Angola' (51)", "' Angola' (7)", "'Angola ' (7)", "'ANGOLA' (1)", "'angola' (2)", "' Angola ' (2)", "' angola' (1)"]
  'anguilla'                     =====> ["'Anguilla' (10)", "' Anguilla ' (1)"]
  'antigua and barbuda'          =====> ["'Antigua and Barbuda' (9)", "' Antigua and Barbuda' (1)", "'Antigua and Barbuda ' (2)"]
  'argentina'                    =====> ["'Argentina' (101)", "' Argentina' (9)", "'Argent

In [51]:
df['Country'] = df['Country'].fillna('').astype(str).str.strip().replace('', np.nan).str.title()
print(df['Country'].value_counts(dropna=False).to_string())

Country
United States                                                  1073
China                                                           854
India                                                           711
Indonesia                                                       560
Philippines                                                     559
Japan                                                           347
Bangladesh                                                      319
Mexico                                                          298
Iran                                                            260
Pakistan                                                        257
Vietnam                                                         256
Colombia                                                        232
Brazil                                                          227
Australia                                                       220
Peru                                    

In [40]:
detecter_variantes_country(df)

Valeurs brutes uniques  : 289
Groupes avec variantes  : 0



<br>
<br>

#### __*5. Corrigez les variantes de pays (USA → United States, etc.)*__

In [41]:
country_mapping = {
    'Usa': 'United States',
    'Us': 'United States',
    'United States Of America': 'United States',
    'United  States  Of  America': 'United States',
    'Uk': 'United Kingdom',
    'United Kingdom Of Great Britain And Northern Ireland': 'United Kingdom',
    'Iran (Islamic Republic Of)': 'Iran',
    'Iran  (Islamic  Republic  Of)': 'Iran',
    'Bolivia (Plurinational State Of)': 'Bolivia',
    'Venezuela (Bolivarian Republic Of)': 'Venezuela',
    'Russian  Federation': 'Russian Federation',
    'Republic Of Korea': 'South Korea',
    "Democratic People'S Republic Of Korea": 'North Korea',
    'Viet Nam': 'Vietnam',
    'Türkiye': 'Turkey',
    'Netherlands (Kingdom Of The)': 'Netherlands',
    'Taiwan (Province Of China)': 'Taiwan',
    'China, Hong Kong Special Administrative Region': 'Hong Kong',
    'China, Macao Special Administrative Region': 'Macau',
    'United Republic Of Tanzania': 'Tanzania',
    "Lao People'S Democratic Republic": 'Laos',
    'Democratic Republic Of The Congo': 'DR Congo',
    'Germany Federal Republic': 'Germany',
    'German Democratic Republic': 'Germany',
    "People'S Democratic Republic Of Yemen": 'Yemen',
    'Yemen Arab Republic': 'Yemen',
    'Serbia Montenegro': 'Serbia',
    'Soviet Union': 'Russia',
    'Azores Islands': 'Portugal',
    'Canary Islands': 'Spain',
    'Czechoslovakia': 'Czechia',
    'Bengladesh': 'Bangladesh',
    'China, Hong Kong Special Administrative Region': 'Hong Kong'
}


df['Country'] = df['Country'].replace(country_mapping)


In [42]:
print("\nAprès correction :")
print(df['Country'].value_counts().head(10))
print(f"Nombre de pays : {df['Country'].nunique()}")


Après correction :
Country
United States    1073
China             854
India             711
Indonesia         560
Philippines       559
Japan             347
Bangladesh        319
Mexico            298
Iran              260
Pakistan          257
Name: count, dtype: int64
Nombre de pays : 274


<br>
<hr>
<br>


## __**Exercice 7 — Création de colonnes utiles**__

> **Rappel**
>
> ```python
> # Nouvelle colonne calculée
> df['new'] = df['col1'] / df['col2']
>
> # Colonne à partir d'une autre
> df['Decennie'] = (df['Year'] // 10) * 10
>
> # Extraction de date
> df['Annee'] = df['Date'].dt.year
> df['Mois'] = df['Date'].dt.month
> ```

### __*À faire*__

1. Créez une colonne `Decennie` à partir de `Start Year`
2. Créez une colonne `Has_Deaths` (booléen : True si Total Deaths > 0)
3. Vérifiez vos nouvelles colonnes

<br>
<br>

#### __*1. Créez une colonne `Decennie` à partir de `Start Year`*__

In [43]:
df['Decennie'] = (df['Start Year'] // 10) * 10
print(df[['Start Year', 'Decennie']].head())

   Start Year  Decennie
0        2020      2020
1        2008      2000
2        2015      2010
3        2007      2000
4        2008      2000


-   ` df['Start Year'] // 10` : Division entière par 10 (enlève le dernier chiffre)
-   Exemple : `2005 ---> 200`, `1995 ---> 199`
-   `*10` : Multiplie par 10 pour obtenir la décennie
-   Exemple : 200 * 10 = 2000, 199 * 10 = 1990

**Résultat** : Regroupe les années par décennie (`2000-2009, 1990-1999, etc.....`)

<br>
<br>

#### __*2. Créez une colonne `Has_Deaths` (booléen : True si Total Deaths > 0)*__

In [44]:
df['Has_Deaths'] = df['Total Deaths'] > 0
print(df[['Total Deaths', 'Has_Deaths']].head())

   Total Deaths  Has_Deaths
0           1.0        True
1           NaN       False
2           9.0        True
3         182.0        True
4           1.0        True



-   **Résultat** :
-   `True` si Total Deaths > 0 (`il y a eu des décès`)
-   `False` si Total Deaths = 0 (`pas de décès`)

<br>
<br>

#### __*3. Vérifiez vos nouvelles colonnes*__

In [45]:
print(df[['Start Year', 'Decennie', 'Total Deaths', 'Has_Deaths']].head(10))
print("\nData types:")
print(df[['Decennie', 'Has_Deaths']].dtypes)

   Start Year  Decennie  Total Deaths  Has_Deaths
0        2020      2020           1.0        True
1        2008      2000           NaN       False
2        2015      2010           9.0        True
3        2007      2000         182.0        True
4        2008      2000           1.0        True
5        1997      1990          16.0        True
6        1999      1990         325.0        True
7        2004      2000           NaN       False
8        1961      1960         275.0        True
9        1914      1910          34.0        True

Data types:
Decennie      int64
Has_Deaths     bool
dtype: object


<br>
<hr>
<br>

## __**Exercice 8 — Sélection et export**__

> **Rappel**
>
> ```python
> # Sélectionner des colonnes
> df_export = df[['col1', 'col2', 'col3']]
>
> # Renommer
> df_export = df_export.rename(columns={'old': 'new'})
>
> # Export
> df_export.to_csv("fichier.csv", index=False)
> ```

## __*À faire*__

1. Sélectionnez les colonnes utiles pour l'analyse
2. Renommez les colonnes si nécessaire (noms clairs, sans espaces)
3. Faites une vérification finale avec `info()` et `head()`
4. Exportez en CSV : `catnat_clean.csv`

<br>
<br>

#### __*1. Sélectionnez les colonnes utiles pour l'analyse*__

In [46]:
df_export = df[['DisNo.', 'Disaster Type', 'Region', 'Country', 
               'Total Deaths', 'Start Year', 'Event Name', 'Magnitude', 
               'Decennie', 'Has_Deaths']]
df_export.head()

Unnamed: 0,DisNo.,Disaster Type,Region,Country,Total Deaths,Start Year,Event Name,Magnitude,Decennie,Has_Deaths
0,2020-0121-IDN,Flood,Asia,Indonesia,1.0,2020,,,2020,True
1,2008-0524-USA,Wildfire,Americas,United States,,2008,,,2000,False
2,2015-0281-SLB,Storm,Oceania,Solomon Islands,9.0,2015,Tropical cylone Raquel,,2010,True
3,2007-0274-KHM,Epidemic,Asia,Cambodia,182.0,2007,Dengue,,2000,True
4,2008-0275-JPN,Earthquake,Asia,Japon,1.0,2008,,6.8,2000,True


<br>
<br>

#### __*2. Renommez les colonnes si nécessaire (noms clairs, sans espaces)*__

In [47]:
df_export = df_export.rename(columns={
    'DisNo.': 'ID_Catastrophe',
    'Disaster Type': 'Type_Catastrophe',
    'Start Year': 'Annee_Debut',
    'Event Name': 'Nom_Evenement',
    'Total Deaths': 'Nombre_Deces',
    'Has_Deaths': 'A_Des_Deces',
    'Country': 'Pays'
})

<br>
<br>

#### __*3. Faites une vérification finale avec `info()` et `head()`*__

In [48]:
print("Informations sur le dataset :")
df_export.info()

print("\n\n\nPremiers enregistrements :")
df_export.head()

Informations sur le dataset :
<class 'pandas.DataFrame'>
Index: 17014 entries, 0 to 17509
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   ID_Catastrophe    17014 non-null  str    
 1   Type_Catastrophe  17014 non-null  str    
 2   Region            17014 non-null  str    
 3   Pays              17014 non-null  str    
 4   Nombre_Deces      12175 non-null  float64
 5   Annee_Debut       17014 non-null  int64  
 6   Nom_Evenement     3875 non-null   str    
 7   Magnitude         1721 non-null   float64
 8   Decennie          17014 non-null  int64  
 9   A_Des_Deces       17014 non-null  bool   
dtypes: bool(1), float64(2), int64(2), str(5)
memory usage: 1.3 MB



Premiers enregistrements :


Unnamed: 0,ID_Catastrophe,Type_Catastrophe,Region,Pays,Nombre_Deces,Annee_Debut,Nom_Evenement,Magnitude,Decennie,A_Des_Deces
0,2020-0121-IDN,Flood,Asia,Indonesia,1.0,2020,,,2020,True
1,2008-0524-USA,Wildfire,Americas,United States,,2008,,,2000,False
2,2015-0281-SLB,Storm,Oceania,Solomon Islands,9.0,2015,Tropical cylone Raquel,,2010,True
3,2007-0274-KHM,Epidemic,Asia,Cambodia,182.0,2007,Dengue,,2000,True
4,2008-0275-JPN,Earthquake,Asia,Japon,1.0,2008,,6.8,2000,True


<br>
<br>

#### __*4. Exportez en CSV : `catnat_clean.csv`*__

In [49]:
output_path = "data/processed/catnat_clean_5.0.csv"

df_export.to_csv(output_path, index=False)
print(f"\nFichier '{output_path}' exporté avec succès !")


Fichier 'data/processed/catnat_clean_5.0.csv' exporté avec succès !


<br>
<hr>
<br>


## __**Exercice 9 — Vérification dans Tableau**__

<br>

### **Tableau Public :**
https://public.tableau.com/app/profile/jeathusan.kugathas/viz/NettoyageetAnalyse-DonnesdeCatastrophes/Localisationgographiquedescatastrophes


<br>
<br>

## __*À faire*__

1. Ouvrez Tableau Public
2. Connectez-vous au fichier `catnat_clean.csv`
3. Vérifiez dans l'écran "Source de données" :
   - Les types sont-ils corrects ? (# pour nombres, Abc pour texte)
   - Les nombres sont-ils bien reconnus ?
4. Créez un bar chart : `Type_Catastrophe` vs `COUNT(ID_Catastrophe)`
   - Les catégories sont-elles propres ? (pas de doublons)
5. Créez un bar chart : `Region` vs `SUM(Deces)`
   - Les 5 régions sont-elles bien distinctes ?
6. Créez une carte avec `Country`
   - Les pays sont-ils reconnus ?
