# Mini Projet - Data Processing & Visualization
## Burkina Faso Geographic Data Analysis

**Objectif:** Extraire et analyser des données géographiques du Burkina Faso à partir de la base de données GeoNames.

### Étapes du projet:
1. Téléchargement des données depuis GeoNames
2. Prétraitement et filtrage des données
3. Extraction de sous-ensembles spécifiques
4. Création de fichiers de sortie Excel
5. Analyse statistique des coordonnées

## 1. Import des bibliothèques nécessaires

In [1]:
import pandas as pd
import zipfile
import os
import urllib.request
import numpy as np

print("Bibliothèques importées avec succès!")

Bibliothèques importées avec succès!


## 2. Téléchargement des données du Burkina Faso

Code ISO du Burkina Faso trouvé sur GeoNames: **BF**

In [2]:
# Téléchargement du fichier ZIP pour le Burkina Faso
url = 'https://download.geonames.org/export/dump/BF.zip'
filename = 'BF.zip'

print(f"Téléchargement de {url}...")
urllib.request.urlretrieve(url, filename)
print(f"Fichier {filename} téléchargé avec succès!")

Téléchargement de https://download.geonames.org/export/dump/BF.zip...
Fichier BF.zip téléchargé avec succès!


## 3. Extraction et prétraitement des données

In [3]:
# Extraction du fichier ZIP
print("Extraction du fichier ZIP...")
with zipfile.ZipFile(filename, 'r') as zip_ref:
    file_list = zip_ref.namelist()
    print(f"Fichiers dans l'archive: {file_list}")
    zip_ref.extractall('.')

# Identification du fichier de données
data_file = 'BF.txt'
print(f"Fichier de données: {data_file}")

Extraction du fichier ZIP...
Fichiers dans l'archive: ['readme.txt', 'BF.txt']
Fichier de données: BF.txt


In [4]:
# Définition des colonnes selon la documentation GeoNames
column_names = [
    'geonameid', 'name', 'asciiname', 'alternatenames', 'latitude', 'longitude',
    'feature_class', 'feature_code', 'country_code', 'cc2', 'admin1_code', 
    'admin2_code', 'admin3_code', 'admin4_code', 'population', 'elevation', 
    'dem', 'timezone', 'modification_date'
]

# Lecture du fichier de données
print("Chargement des données...")
df = pd.read_csv(data_file, sep='\t', names=column_names, encoding='utf-8', 
                 on_bad_lines='skip', low_memory=False)

print(f"Forme du dataset original: {df.shape}")
print(f"Colonnes disponibles: {df.columns.tolist()}")
print("\nPremières lignes du dataset:")
df.head()

Chargement des données...
Forme du dataset original: (11958, 19)
Colonnes disponibles: ['geonameid', 'name', 'asciiname', 'alternatenames', 'latitude', 'longitude', 'feature_class', 'feature_code', 'country_code', 'cc2', 'admin1_code', 'admin2_code', 'admin3_code', 'admin4_code', 'population', 'elevation', 'dem', 'timezone', 'modification_date']

Premières lignes du dataset:


Unnamed: 0,geonameid,name,asciiname,alternatenames,latitude,longitude,feature_class,feature_code,country_code,cc2,admin1_code,admin2_code,admin3_code,admin4_code,population,elevation,dem,timezone,modification_date
0,2282318,Pouèn,Pouen,,9.72908,-2.7866,P,PPL,BF,,11,,,,0,,269,Africa/Ouagadougou,2013-09-16
1,2285251,Léraba Occidentale,Leraba Occidentale,,10.28333,-5.11667,H,STM,BF,,3,,,,0,,293,Africa/Ouagadougou,2012-01-16
2,2287216,Kéléouoro,Keleouoro,,9.80748,-4.05023,P,PPL,BF,,3,,,,0,,287,Africa/Ouagadougou,2012-01-16
3,2294066,White Volta,White Volta,"Nakambé,Nakambe,Volta Blanche",8.70194,-0.99056,H,STM,BF,,9,,,,0,,183,Africa/Ouagadougou,2012-01-16
4,2298457,Issana Bouga,Issana Bouga,,10.91667,-1.18333,P,PPL,BF,,9,,,,0,,258,Africa/Ouagadougou,2012-01-16


## 4. Filtrage et renommage des colonnes

In [5]:
# Extraction des colonnes requises: ID, nom, latitude, longitude
df_filtered = df[['geonameid', 'name', 'latitude', 'longitude']].copy()

# Renommage des colonnes comme demandé
df_filtered.columns = ['ID', 'location_name', 'lat', 'long']

print(f"Forme du dataset filtré: {df_filtered.shape}")
print("\nPremières lignes après filtrage:")
df_filtered.head()

Forme du dataset filtré: (11958, 4)

Premières lignes après filtrage:


Unnamed: 0,ID,location_name,lat,long
0,2282318,Pouèn,9.72908,-2.7866
1,2285251,Léraba Occidentale,10.28333,-5.11667
2,2287216,Kéléouoro,9.80748,-4.05023
3,2294066,White Volta,8.70194,-0.99056
4,2298457,Issana Bouga,10.91667,-1.18333


In [6]:
# Sauvegarde en CSV
output_file = 'burkina_location.csv'
df_filtered.to_csv(output_file, index=False, encoding='utf-8')
print(f"Fichier {output_file} créé avec succès!")
print(f"Nombre total de localités: {len(df_filtered)}")

Fichier burkina_location.csv créé avec succès!
Nombre total de localités: 11958


## 5. Opérations sur le fichier burkina_location.csv

### 5.1 Extraction des données contenant 'gounghin'

In [7]:
# Recherche de toutes les localités contenant 'gounghin'
gounghin_data = df_filtered[df_filtered['location_name'].str.contains('gounghin', case=False, na=False)]

print(f"Nombre de localités contenant 'gounghin': {len(gounghin_data)}")
print("\nLocalités trouvées:")
gounghin_data

Nombre de localités contenant 'gounghin': 10

Localités trouvées:


Unnamed: 0,ID,location_name,lat,long
153,2353306,Gounghin,12.06677,-1.42134
7269,2360473,Gounghin,12.62488,-1.36398
10260,2570204,Gounghin,12.31436,-1.379
10746,10342749,Gounghin,12.06667,-0.15
10759,10629032,BICIAB // Gounghin,12.35921,-1.54273
10818,11257296,Gounghin Department,12.06671,-0.15484
10845,11900526,Gounghin Nord,12.3612,-1.55055
10846,11900528,Zone Industrielle de Gounghin,12.36631,-1.54137
10852,11900619,Gounghin Sud,12.35298,-1.54342
10866,11900680,Gounghin,12.35895,-1.54442


In [8]:
# Sauvegarde des données Gounghin
gounghin_file = 'gounghin.csv'
gounghin_data.to_csv(gounghin_file, index=False, encoding='utf-8')
print(f"Fichier {gounghin_file} créé avec succès!")

Fichier gounghin.csv créé avec succès!


### 5.2 Extraction des localités commençant par les lettres A-P

In [9]:
# Filtrage des localités commençant par A-P
a_to_p_data = df_filtered[df_filtered['location_name'].str.match(r'^[A-Pa-p]', na=False)]

print(f"Nombre de localités commençant par A-P: {len(a_to_p_data)}")
print("\nPremières localités A-P:")
a_to_p_data.head()

Nombre de localités commençant par A-P: 8306

Premières localités A-P:


Unnamed: 0,ID,location_name,lat,long
0,2282318,Pouèn,9.72908,-2.7866
2,2287216,Kéléouoro,9.80748,-4.05023
4,2298457,Issana Bouga,10.91667,-1.18333
5,2353158,Zyonguen,12.36667,-0.45
6,2353159,Zyiliw??l??,12.38333,-2.73333


### 5.3 Identification des coordonnées minimales et maximales

In [10]:
# Conversion des coordonnées en valeurs numériques
df_filtered['lat'] = pd.to_numeric(df_filtered['lat'], errors='coerce')
df_filtered['long'] = pd.to_numeric(df_filtered['long'], errors='coerce')

# Recherche des extrema
min_lat_idx = df_filtered['lat'].idxmin()
max_lat_idx = df_filtered['lat'].idxmax()
min_long_idx = df_filtered['long'].idxmin()
max_long_idx = df_filtered['long'].idxmax()

print("=== COORDONNÉES EXTRÊMES ===")
print(f"Latitude minimale: {df_filtered.loc[min_lat_idx, 'lat']:.6f}°")
print(f"  → Localité: {df_filtered.loc[min_lat_idx, 'location_name']}")
print(f"\nLatitude maximale: {df_filtered.loc[max_lat_idx, 'lat']:.6f}°")
print(f"  → Localité: {df_filtered.loc[max_lat_idx, 'location_name']}")
print(f"\nLongitude minimale: {df_filtered.loc[min_long_idx, 'long']:.6f}°")
print(f"  → Localité: {df_filtered.loc[min_long_idx, 'location_name']}")
print(f"\nLongitude maximale: {df_filtered.loc[max_long_idx, 'long']:.6f}°")
print(f"  → Localité: {df_filtered.loc[max_long_idx, 'location_name']}")

=== COORDONNÉES EXTRÊMES ===
Latitude minimale: 5.216090°
  → Localité: Komoé

Latitude maximale: 15.077670°
  → Localité: Lalaba

Longitude minimale: -5.659680°
  → Localité: Banifing

Longitude maximale: 2.522590°
  → Localité: Tapoa


### 5.4 Localités avec latitude ≥ 11° et longitude ≤ 0.5°

In [11]:
# Filtrage selon les coordonnées spécifiées
coord_filter = (df_filtered['lat'] >= 11) & (df_filtered['long'] <= 0.5)
coord_filtered_data = df_filtered[coord_filter]

print(f"Nombre de localités avec lat ≥ 11° et lon ≤ 0.5°: {len(coord_filtered_data)}")
print("\nEchantillon des localités trouvées:")
coord_filtered_data.head()

Nombre de localités avec lat ≥ 11° et lon ≤ 0.5°: 9466

Echantillon des localités trouvées:


Unnamed: 0,ID,location_name,lat,long
5,2353158,Zyonguen,12.36667,-0.45
6,2353159,Zyiliw??l??,12.38333,-2.73333
7,2353160,Zyanko,12.78333,-0.41667
8,2353161,Zouta,13.14908,-1.28197
9,2353162,Zourtenga,12.95741,-1.28745


## 6. Création du fichier Excel avec plusieurs feuilles

In [12]:
# Création du fichier Excel avec deux feuilles
excel_file = 'mini_projet.xlsx'

with pd.ExcelWriter(excel_file, engine='openpyxl') as writer:
    # Feuille 1: Données Gounghin
    gounghin_data.to_excel(writer, sheet_name='gounghin', index=False)
    print(f"Feuille 'gounghin' créée avec {len(gounghin_data)} entrées")
    
    # Feuille 2: Données A-P
    a_to_p_data.to_excel(writer, sheet_name='A_to_P', index=False)
    print(f"Feuille 'A_to_P' créée avec {len(a_to_p_data)} entrées")

print(f"\nFichier Excel '{excel_file}' créé avec succès!")

Feuille 'gounghin' créée avec 10 entrées
Feuille 'A_to_P' créée avec 8306 entrées

Fichier Excel 'mini_projet.xlsx' créé avec succès!


## 7. Statistiques descriptives

In [13]:
# Statistiques descriptives des coordonnées
print("=== STATISTIQUES DESCRIPTIVES ===")
print("\nCoordonnées - Burkina Faso:")
df_filtered[['lat', 'long']].describe()

=== STATISTIQUES DESCRIPTIVES ===

Coordonnées - Burkina Faso:


Unnamed: 0,lat,long
count,11958.0,11958.0
mean,12.274324,-1.184736
std,1.299582,1.272039
min,5.21609,-5.65968
25%,11.69042,-2.18333
50%,12.35,-1.11667
75%,13.1,-0.35
max,15.07767,2.52259


## 8. Résumé des résultats

### Fichiers créés:
1. **burkina_location.csv** - Dataset complet filtré
2. **gounghin.csv** - Localités contenant 'gounghin'
3. **mini_projet.xlsx** - Fichier Excel avec deux feuilles:
   - Feuille "gounghin": Données Gounghin
   - Feuille "A_to_P": Localités commençant par A-P

In [14]:
print("=== RÉSUMÉ FINAL ===")
print(f"📍 Total des localités au Burkina Faso: {len(df_filtered):,}")
print(f"🏘️  Localités contenant 'gounghin': {len(gounghin_data)}")
print(f"🔤 Localités A-P: {len(a_to_p_data):,}")
print(f"🗺️  Localités (lat≥11° et lon≤0.5°): {len(coord_filtered_data):,}")
print("\n=== COORDONNÉES EXTRÊMES ===")
print(f"🌍 Étendue latitude: {df_filtered['lat'].min():.3f}° à {df_filtered['lat'].max():.3f}°")
print(f"🌍 Étendue longitude: {df_filtered['long'].min():.3f}° à {df_filtered['long'].max():.3f}°")

print("\n✅ Projet terminé avec succès!")
print("📁 Tous les fichiers ont été générés dans le répertoire courant.")

=== RÉSUMÉ FINAL ===
📍 Total des localités au Burkina Faso: 11,958
🏘️  Localités contenant 'gounghin': 10
🔤 Localités A-P: 8,306
🗺️  Localités (lat≥11° et lon≤0.5°): 9,466

=== COORDONNÉES EXTRÊMES ===
🌍 Étendue latitude: 5.216° à 15.078°
🌍 Étendue longitude: -5.660° à 2.523°

✅ Projet terminé avec succès!
📁 Tous les fichiers ont été générés dans le répertoire courant.
