# Mini Projet - Extraction et Analyse des donn√©es g√©ographiques du Burkina Faso

Ce notebook r√©alise l'extraction et l'analyse des donn√©es g√©ographiques du Burkina Faso depuis la base de donn√©es GeoNames.

**Auteur:** SAWADOGO Abdel Sa√Ød Najib - √âtudiant en Fouilles de donn√©es et intelligence artificielle  
**Date:** 15 Ao√ªt 2025

---

## üìö Import des biblioth√®ques

In [1]:
import pandas as pd
import numpy as np
import openpyxl
import zipfile
import requests
import os
from io import StringIO
import warnings
warnings.filterwarnings('ignore')

print("="*80)
print("MINI PROJET - ANALYSE DES DONN√âES G√âOGRAPHIQUES DU BURKINA FASO")
print("="*80)

MINI PROJET - ANALYSE DES DONN√âES G√âOGRAPHIQUES DU BURKINA FASO


## ‚öôÔ∏è Configuration des param√®tres

In [2]:
# Configuration des URLs et noms de fichiers
GEONAMES_URL = "https://download.geonames.org/export/dump/BF.zip"
ZIP_FILENAME = "BF.zip"
TXT_FILENAME = "BF.txt"
OUTPUT_CSV = "burkina_location.csv"
GOUNGHIN_CSV = "gounghin.csv"
EXCEL_FILENAME = "mini_projet.xlsx"

print("Configuration termin√©e ‚úÖ")

Configuration termin√©e ‚úÖ


## üîÑ √âTAPE 1: T√©l√©chargement des donn√©es du Burkina Faso

In [3]:
def download_burkina_data():
    """T√©l√©charge le fichier ZIP des donn√©es du Burkina Faso"""
    try:
        print(f"üì• T√©l√©chargement depuis: {GEONAMES_URL}")
        response = requests.get(GEONAMES_URL, stream=True)
        response.raise_for_status()
        
        with open(ZIP_FILENAME, 'wb') as f:
            for chunk in response.iter_content(chunk_size=8192):
                f.write(chunk)
        print(f"‚úÖ T√©l√©chargement termin√©: {ZIP_FILENAME}")
        return True
    except Exception as e:
        print(f"‚ùå Erreur lors du t√©l√©chargement: {e}")
        return False

In [4]:
# Ex√©cuter le t√©l√©chargement
print("-" * 50)
if download_burkina_data():
    print(f"üìÅ Taille du fichier t√©l√©charg√©: {os.path.getsize(ZIP_FILENAME) / 1024:.1f} KB")
else:
    print("‚ùå √âchec du t√©l√©chargement")

--------------------------------------------------
üì• T√©l√©chargement depuis: https://download.geonames.org/export/dump/BF.zip
‚úÖ T√©l√©chargement termin√©: BF.zip
üìÅ Taille du fichier t√©l√©charg√©: 307.2 KB


## üîÑ √âTAPE 2: Extraction et pr√©traitement des donn√©es

In [5]:
def extract_and_preprocess():
    """Extrait le fichier ZIP et pr√©traite les donn√©es"""
    try:
        # Extraction du fichier ZIP
        with zipfile.ZipFile(ZIP_FILENAME, 'r') as zip_ref:
            zip_ref.extractall()
            print(f"‚úÖ Fichier extrait: {TXT_FILENAME}")
        
        # D√©finition des colonnes selon la documentation GeoNames
        columns = [
            'geonameid', 'name', 'asciiname', 'alternatenames',
            'latitude', 'longitude', 'feature_class', 'feature_code',
            'country_code', 'cc2', 'admin1_code', 'admin2_code',
            'admin3_code', 'admin4_code', 'population', 'elevation',
            'dem', 'timezone', 'modification_date'
        ]
        
        # Lecture des donn√©es
        print("üìä Chargement des donn√©es...")
        df = pd.read_csv(TXT_FILENAME, sep='\t', names=columns, encoding='utf-8')
        print(f"‚úÖ Donn√©es charg√©es: {len(df)} enregistrements")
        
        # S√©lection et renommage des colonnes requises
        df_filtered = df[['geonameid', 'name', 'latitude', 'longitude']].copy()
        df_filtered = df_filtered.rename(columns={
            'geonameid': 'ID',
            'name': 'location_name',
            'latitude': 'lat',
            'longitude': 'long'
        })
        
        # Nettoyage des donn√©es
        df_filtered = df_filtered.dropna()
        df_filtered['lat'] = pd.to_numeric(df_filtered['lat'], errors='coerce')
        df_filtered['long'] = pd.to_numeric(df_filtered['long'], errors='coerce')
        df_filtered = df_filtered.dropna()
        
        # Sauvegarde en CSV
        df_filtered.to_csv(OUTPUT_CSV, index=False, encoding='utf-8')
        print(f"‚úÖ Donn√©es sauvegard√©es: {OUTPUT_CSV}")
        print(f"üìà Nombre d'enregistrements trait√©s: {len(df_filtered)}")
        
        return df_filtered
        
    except Exception as e:
        print(f"‚ùå Erreur lors de l'extraction: {e}")
        return None

In [6]:
# Ex√©cuter l'extraction et le pr√©traitement
print("-" * 50)
burkina_data = extract_and_preprocess()

--------------------------------------------------
‚úÖ Fichier extrait: BF.txt
üìä Chargement des donn√©es...
‚úÖ Donn√©es charg√©es: 11958 enregistrements
‚úÖ Donn√©es sauvegard√©es: burkina_location.csv
üìà Nombre d'enregistrements trait√©s: 11958


## üìä Aper√ßu des donn√©es

In [7]:
if burkina_data is not None:
    # Affichage d'un aper√ßu des donn√©es
    print("üìã Aper√ßu des donn√©es:")
    display(burkina_data.head(10))
    
    print(f"\n‚ÑπÔ∏è  Statistiques de base:")
    print(f"   - Nombre total de lieux: {len(burkina_data)}")
    print(f"   - Latitude min: {burkina_data['lat'].min():.6f}")
    print(f"   - Latitude max: {burkina_data['lat'].max():.6f}")
    print(f"   - Longitude min: {burkina_data['long'].min():.6f}")
    print(f"   - Longitude max: {burkina_data['long'].max():.6f}")
else:
    print("‚ùå Aucune donn√©e √† afficher")

üìã Aper√ßu des donn√©es:


Unnamed: 0,ID,location_name,lat,long
0,2282318,Pou√©n√©,9.72908,-2.7866
1,2285251,L√©raba Occidentale,10.28333,-5.11667
2,2287216,K√©l√©ouoro,9.80748,-4.05023
3,2294066,White Volta,8.70194,-0.99056
4,2298457,Issana Bouga,10.91667,-1.18333
5,2353158,Zyonguen,12.36667,-0.45
6,2353159,Zyiliw√®l√®,12.38333,-2.73333
7,2353160,Zyanko,12.78333,-0.41667
8,2353161,Zouta,13.14908,-1.28197
9,2353162,Zourtenga,12.95741,-1.28745



‚ÑπÔ∏è  Statistiques de base:
   - Nombre total de lieux: 11958
   - Latitude min: 5.216090
   - Latitude max: 15.077670
   - Longitude min: -5.659680
   - Longitude max: 2.522590


## üîÑ √âTAPE 4: Op√©rations d'analyse sur les donn√©es

In [8]:
def analyze_burkina_data(df):
    """Effectue les analyses demand√©es"""
    results = {}
    
    # 4.1 - Extraction des donn√©es contenant 'gounghin'
    print("üîç 4.1 - Recherche des lieux contenant 'gounghin'...")
    gounghin_data = df[df['location_name'].str.contains('gounghin', case=False, na=False)]
    gounghin_data.to_csv(GOUNGHIN_CSV, index=False, encoding='utf-8')
    print(f"‚úÖ Trouv√© {len(gounghin_data)} lieu(x) avec 'gounghin'")
    print(f"üíæ Sauvegard√© dans: {GOUNGHIN_CSV}")
    if not gounghin_data.empty:
        print("   Lieux trouv√©s:")
        for _, row in gounghin_data.iterrows():
            print(f"   - {row['location_name']} (ID: {row['ID']}, Lat: {row['lat']:.6f}, Long: {row['long']:.6f})")
    results['gounghin'] = gounghin_data
    
    return results

### 4.1 - Recherche des lieux contenant 'gounghin'

In [9]:
if burkina_data is not None:
    print("-" * 50)
    # 4.1 - Extraction des donn√©es contenant 'gounghin'
    print("üîç 4.1 - Recherche des lieux contenant 'gounghin'...")
    gounghin_data = burkina_data[burkina_data['location_name'].str.contains('gounghin', case=False, na=False)]
    gounghin_data.to_csv(GOUNGHIN_CSV, index=False, encoding='utf-8')
    print(f"‚úÖ Trouv√© {len(gounghin_data)} lieu(x) avec 'gounghin'")
    print(f"üíæ Sauvegard√© dans: {GOUNGHIN_CSV}")
    
    if not gounghin_data.empty:
        print("\nüìã Lieux trouv√©s:")
        display(gounghin_data)
    else:
        print("‚ùå Aucun lieu trouv√© contenant 'gounghin'")

--------------------------------------------------
üîç 4.1 - Recherche des lieux contenant 'gounghin'...
‚úÖ Trouv√© 10 lieu(x) avec 'gounghin'
üíæ Sauvegard√© dans: gounghin.csv

üìã Lieux trouv√©s:


Unnamed: 0,ID,location_name,lat,long
153,2353306,Gounghin,12.06677,-1.42134
7269,2360473,Gounghin,12.62488,-1.36398
10260,2570204,Gounghin,12.31436,-1.379
10746,10342749,Gounghin,12.06667,-0.15
10759,10629032,BICIAB // Gounghin,12.35921,-1.54273
10818,11257296,Gounghin Department,12.06671,-0.15484
10845,11900526,Gounghin Nord,12.3612,-1.55055
10846,11900528,Zone Industrielle de Gounghin,12.36631,-1.54137
10852,11900619,Gounghin Sud,12.35298,-1.54342
10866,11900680,Gounghin,12.35895,-1.54442


### 4.2 - Extraction des lieux A-P

In [10]:
if burkina_data is not None:
    print("üîç 4.2 - Extraction des lieux dont la premi√®re lettre est entre A et P...")
    a_to_p_data = burkina_data[burkina_data['location_name'].str[0].str.upper().between('A', 'P', inclusive='both')]
    print(f"‚úÖ Trouv√© {len(a_to_p_data)} lieu(x) commen√ßant par A-P")
    
    print("\nüìã Aper√ßu des premiers lieux A-P:")
    display(a_to_p_data.head(10))

üîç 4.2 - Extraction des lieux dont la premi√®re lettre est entre A et P...
‚úÖ Trouv√© 8306 lieu(x) commen√ßant par A-P

üìã Aper√ßu des premiers lieux A-P:


Unnamed: 0,ID,location_name,lat,long
0,2282318,Pou√©n√©,9.72908,-2.7866
1,2285251,L√©raba Occidentale,10.28333,-5.11667
2,2287216,K√©l√©ouoro,9.80748,-4.05023
4,2298457,Issana Bouga,10.91667,-1.18333
137,2353290,For√™t Class√©e de Ziga,12.47106,-1.08644
153,2353306,Gounghin,12.06677,-1.42134
320,2353473,Dar Salam,12.36146,-1.63909
389,2353543,For√™t Class√©e de Yend√©r√©,10.15,-5.06667
414,2353568,Province du Yatenga,13.58333,-2.41667
558,2353713,For√™t Class√©e de Yabo,12.98801,-1.50561


### 4.3 - Coordonn√©es extr√™mes

In [11]:
if burkina_data is not None:
    print("üîç 4.3 - Recherche des coordonn√©es extr√™mes...")
    
    lat_min_idx = burkina_data['lat'].idxmin()
    lat_max_idx = burkina_data['lat'].idxmax()
    long_min_idx = burkina_data['long'].idxmin()
    long_max_idx = burkina_data['long'].idxmax()
    
    print("üìä Coordonn√©es extr√™mes:")
    print(f"   Latitude minimale: {burkina_data.loc[lat_min_idx, 'lat']:.6f} - {burkina_data.loc[lat_min_idx, 'location_name']}")
    print(f"   Latitude maximale: {burkina_data.loc[lat_max_idx, 'lat']:.6f} - {burkina_data.loc[lat_max_idx, 'location_name']}")
    print(f"   Longitude minimale: {burkina_data.loc[long_min_idx, 'long']:.6f} - {burkina_data.loc[long_min_idx, 'location_name']}")
    print(f"   Longitude maximale: {burkina_data.loc[long_max_idx, 'long']:.6f} - {burkina_data.loc[long_max_idx, 'location_name']}")
    
    # Cr√©er un DataFrame avec les coordonn√©es extr√™mes
    extremes_data = pd.DataFrame([
        burkina_data.loc[lat_min_idx],
        burkina_data.loc[lat_max_idx],
        burkina_data.loc[long_min_idx],
        burkina_data.loc[long_max_idx]
    ], index=['Latitude Min', 'Latitude Max', 'Longitude Min', 'Longitude Max'])
    
    print("\nüìã Tableau des coordonn√©es extr√™mes:")
    display(extremes_data)

üîç 4.3 - Recherche des coordonn√©es extr√™mes...
üìä Coordonn√©es extr√™mes:
   Latitude minimale: 5.216090 - Komo√©
   Latitude maximale: 15.077670 - Lalaba
   Longitude minimale: -5.659680 - Banifing
   Longitude maximale: 2.522590 - Tapoa

üìã Tableau des coordonn√©es extr√™mes:


Unnamed: 0,ID,location_name,lat,long
Latitude Min,2359210,Komo√©,5.21609,-3.71793
Latitude Max,6913777,Lalaba,15.07767,-0.49986
Longitude Min,2357400,Banifing,12.01147,-5.65968
Longitude Max,2439128,Tapoa,12.5485,2.52259


### 4.4 - Lieux avec coordonn√©es sp√©cifiques (lat >= 11 et lon <= 0.5)

In [12]:
if burkina_data is not None:
    print("üîç 4.4 - Lieux avec lat >= 11 et lon <= 0.5...")
    specific_coords = burkina_data[(burkina_data['lat'] >= 11) & (burkina_data['long'] <= 0.5)]
    print(f"‚úÖ Trouv√© {len(specific_coords)} lieu(x) avec lat >= 11 et long <= 0.5")
    
    if not specific_coords.empty:
        print("\nüìã Premiers lieux avec ces coordonn√©es:")
        display(specific_coords.head(10))
    else:
        print("‚ùå Aucun lieu trouv√© avec ces coordonn√©es")

üîç 4.4 - Lieux avec lat >= 11 et lon <= 0.5...
‚úÖ Trouv√© 9466 lieu(x) avec lat >= 11 et long <= 0.5

üìã Premiers lieux avec ces coordonn√©es:


Unnamed: 0,ID,location_name,lat,long
5,2353158,Zyonguen,12.36667,-0.45
6,2353159,Zyiliw√®l√®,12.38333,-2.73333
7,2353160,Zyanko,12.78333,-0.41667
8,2353161,Zouta,13.14908,-1.28197
9,2353162,Zourtenga,12.95741,-1.28745
10,2353163,Zourma-Kita,11.39418,-0.79273
11,2353164,Zouri,11.65,-1.28333
12,2353165,Zoura,13.28261,-1.47644
13,2353166,Zoungwa,13.21895,-1.97142
14,2353167,Zoungou,12.14441,-0.53169


## üîÑ √âTAPE 5: Cr√©ation du fichier Excel

In [13]:
def create_excel_file(burkina_data):
    """Cr√©e le fichier Excel avec les diff√©rentes feuilles"""
    try:
        # Recalculer les analyses pour le fichier Excel
        gounghin_data = burkina_data[burkina_data['location_name'].str.contains('gounghin', case=False, na=False)]
        a_to_p_data = burkina_data[burkina_data['location_name'].str[0].str.upper().between('A', 'P', inclusive='both')]
        specific_coords = burkina_data[(burkina_data['lat'] >= 11) & (burkina_data['long'] <= 0.5)]
        
        # Coordonn√©es extr√™mes
        lat_min_idx = burkina_data['lat'].idxmin()
        lat_max_idx = burkina_data['lat'].idxmax()
        long_min_idx = burkina_data['long'].idxmin()
        long_max_idx = burkina_data['long'].idxmax()
        
        extremes = {
            'lat_min': burkina_data.loc[lat_min_idx],
            'lat_max': burkina_data.loc[lat_max_idx],
            'long_min': burkina_data.loc[long_min_idx],
            'long_max': burkina_data.loc[long_max_idx]
        }
        
        with pd.ExcelWriter(EXCEL_FILENAME, engine='openpyxl') as writer:
            # Feuille 1: donn√©es gounghin
            if not gounghin_data.empty:
                gounghin_data.to_excel(writer, sheet_name='gounghin', index=False)
                print(f"‚úÖ Feuille 'gounghin' cr√©√©e avec {len(gounghin_data)} enregistrements")
            else:
                # Cr√©er une feuille vide si aucune donn√©e
                pd.DataFrame(columns=['ID', 'location_name', 'lat', 'long']).to_excel(
                    writer, sheet_name='gounghin', index=False)
                print("‚úÖ Feuille 'gounghin' cr√©√©e (vide)")
            
            # Feuille 2: donn√©es A-P
            a_to_p_data.to_excel(writer, sheet_name='A_to_P', index=False)
            print(f"‚úÖ Feuille 'A_to_P' cr√©√©e avec {len(a_to_p_data)} enregistrements")
            
            # Feuille 3: R√©sum√© des analyses
            summary_data = []
            summary_data.append(['Analyse', 'R√©sultat'])
            summary_data.append(['Nombre total de lieux', len(burkina_data)])
            summary_data.append(['Lieux avec "gounghin"', len(gounghin_data)])
            summary_data.append(['Lieux A-P', len(a_to_p_data)])
            summary_data.append(['Lieux lat>=11 et long<=0.5', len(specific_coords)])
            summary_data.append(['', ''])
            summary_data.append(['Coordonn√©es extr√™mes', ''])
            summary_data.append(['Latitude min', f"{extremes['lat_min']['lat']:.6f} - {extremes['lat_min']['location_name']}"])
            summary_data.append(['Latitude max', f"{extremes['lat_max']['lat']:.6f} - {extremes['lat_max']['location_name']}"])
            summary_data.append(['Longitude min', f"{extremes['long_min']['long']:.6f} - {extremes['long_min']['location_name']}"])
            summary_data.append(['Longitude max', f"{extremes['long_max']['long']:.6f} - {extremes['long_max']['location_name']}"])
            
            summary_df = pd.DataFrame(summary_data)
            summary_df.to_excel(writer, sheet_name='R√©sum√©', index=False, header=False)
            print("‚úÖ Feuille 'R√©sum√©' cr√©√©e avec les statistiques")
        
        print(f"üìä Fichier Excel cr√©√©: {EXCEL_FILENAME}")
        return True
        
    except Exception as e:
        print(f"‚ùå Erreur lors de la cr√©ation du fichier Excel: {e}")
        return False

In [14]:
# Cr√©er le fichier Excel
if burkina_data is not None:
    print("-" * 50)
    create_excel_file(burkina_data)
else:
    print("‚ùå Impossible de cr√©er le fichier Excel - donn√©es manquantes")

--------------------------------------------------
‚úÖ Feuille 'gounghin' cr√©√©e avec 10 enregistrements
‚úÖ Feuille 'A_to_P' cr√©√©e avec 8306 enregistrements
‚úÖ Feuille 'R√©sum√©' cr√©√©e avec les statistiques
üìä Fichier Excel cr√©√©: mini_projet.xlsx


## ‚úÖ R√©sum√© final

In [15]:
if burkina_data is not None:
    # Recalcul des statistiques pour le r√©sum√©
    gounghin_count = len(burkina_data[burkina_data['location_name'].str.contains('gounghin', case=False, na=False)])
    a_to_p_count = len(burkina_data[burkina_data['location_name'].str[0].str.upper().between('A', 'P', inclusive='both')])
    specific_coords_count = len(burkina_data[(burkina_data['lat'] >= 11) & (burkina_data['long'] <= 0.5)])
    
    print("="*80)
    print("‚úÖ TRAITEMENT TERMIN√â AVEC SUCC√àS!")
    print("="*80)
    print(f"üìÅ Fichiers cr√©√©s:")
    print(f"   ‚Ä¢ {OUTPUT_CSV} - Donn√©es principales du Burkina Faso")
    print(f"   ‚Ä¢ {GOUNGHIN_CSV} - Lieux contenant 'gounghin'")
    print(f"   ‚Ä¢ {EXCEL_FILENAME} - Fichier Excel avec toutes les analyses")
    print(f"\nüìä R√©sum√© des analyses:")
    print(f"   ‚Ä¢ Nombre total de lieux trait√©s: {len(burkina_data)}")
    print(f"   ‚Ä¢ Lieux contenant 'gounghin': {gounghin_count}")
    print(f"   ‚Ä¢ Lieux commen√ßant par A-P: {a_to_p_count}")
    print(f"   ‚Ä¢ Lieux avec lat>=11 et long<=0.5: {specific_coords_count}")
else:
    print("‚ùå √âchec du traitement des donn√©es")

‚úÖ TRAITEMENT TERMIN√â AVEC SUCC√àS!
üìÅ Fichiers cr√©√©s:
   ‚Ä¢ burkina_location.csv - Donn√©es principales du Burkina Faso
   ‚Ä¢ gounghin.csv - Lieux contenant 'gounghin'
   ‚Ä¢ mini_projet.xlsx - Fichier Excel avec toutes les analyses

üìä R√©sum√© des analyses:
   ‚Ä¢ Nombre total de lieux trait√©s: 11958
   ‚Ä¢ Lieux contenant 'gounghin': 10
   ‚Ä¢ Lieux commen√ßant par A-P: 8306
   ‚Ä¢ Lieux avec lat>=11 et long<=0.5: 9466
