# Mini Projet - Data Processing & Visualization
## Burkina Faso Geographic Data Analysis

**Objectif:** Extraire et analyser des donn√©es g√©ographiques du Burkina Faso √† partir de la base de donn√©es GeoNames.

### √âtapes du projet:
1. T√©l√©chargement des donn√©es depuis GeoNames
2. Pr√©traitement et filtrage des donn√©es
3. Extraction de sous-ensembles sp√©cifiques
4. Cr√©ation de fichiers de sortie Excel
5. Analyse statistique des coordonn√©es

## 1. Import des biblioth√®ques n√©cessaires

In [1]:
import pandas as pd
import zipfile
import os
import urllib.request
import numpy as np

print("Biblioth√®ques import√©es avec succ√®s!")

Biblioth√®ques import√©es avec succ√®s!


## 2. T√©l√©chargement des donn√©es du Burkina Faso

Code ISO du Burkina Faso trouv√© sur GeoNames: **BF**

In [2]:
# T√©l√©chargement du fichier ZIP pour le Burkina Faso
url = 'https://download.geonames.org/export/dump/BF.zip'
filename = 'BF.zip'

print(f"T√©l√©chargement de {url}...")
urllib.request.urlretrieve(url, filename)
print(f"Fichier {filename} t√©l√©charg√© avec succ√®s!")

T√©l√©chargement de https://download.geonames.org/export/dump/BF.zip...
Fichier BF.zip t√©l√©charg√© avec succ√®s!


## 3. Extraction et pr√©traitement des donn√©es

In [3]:
# Extraction du fichier ZIP
print("Extraction du fichier ZIP...")
with zipfile.ZipFile(filename, 'r') as zip_ref:
    file_list = zip_ref.namelist()
    print(f"Fichiers dans l'archive: {file_list}")
    zip_ref.extractall('.')

# Identification du fichier de donn√©es
data_file = 'BF.txt'
print(f"Fichier de donn√©es: {data_file}")

Extraction du fichier ZIP...
Fichiers dans l'archive: ['readme.txt', 'BF.txt']
Fichier de donn√©es: BF.txt


In [4]:
# D√©finition des colonnes selon la documentation GeoNames
column_names = [
    'geonameid', 'name', 'asciiname', 'alternatenames', 'latitude', 'longitude',
    'feature_class', 'feature_code', 'country_code', 'cc2', 'admin1_code', 
    'admin2_code', 'admin3_code', 'admin4_code', 'population', 'elevation', 
    'dem', 'timezone', 'modification_date'
]

# Lecture du fichier de donn√©es
print("Chargement des donn√©es...")
df = pd.read_csv(data_file, sep='\t', names=column_names, encoding='utf-8', 
                 on_bad_lines='skip', low_memory=False)

print(f"Forme du dataset original: {df.shape}")
print(f"Colonnes disponibles: {df.columns.tolist()}")
print("\nPremi√®res lignes du dataset:")
df.head()

Chargement des donn√©es...
Forme du dataset original: (11958, 19)
Colonnes disponibles: ['geonameid', 'name', 'asciiname', 'alternatenames', 'latitude', 'longitude', 'feature_class', 'feature_code', 'country_code', 'cc2', 'admin1_code', 'admin2_code', 'admin3_code', 'admin4_code', 'population', 'elevation', 'dem', 'timezone', 'modification_date']

Premi√®res lignes du dataset:


Unnamed: 0,geonameid,name,asciiname,alternatenames,latitude,longitude,feature_class,feature_code,country_code,cc2,admin1_code,admin2_code,admin3_code,admin4_code,population,elevation,dem,timezone,modification_date
0,2282318,Pou√®n,Pouen,,9.72908,-2.7866,P,PPL,BF,,11,,,,0,,269,Africa/Ouagadougou,2013-09-16
1,2285251,L√©raba Occidentale,Leraba Occidentale,,10.28333,-5.11667,H,STM,BF,,3,,,,0,,293,Africa/Ouagadougou,2012-01-16
2,2287216,K√©l√©ouoro,Keleouoro,,9.80748,-4.05023,P,PPL,BF,,3,,,,0,,287,Africa/Ouagadougou,2012-01-16
3,2294066,White Volta,White Volta,"Nakamb√©,Nakambe,Volta Blanche",8.70194,-0.99056,H,STM,BF,,9,,,,0,,183,Africa/Ouagadougou,2012-01-16
4,2298457,Issana Bouga,Issana Bouga,,10.91667,-1.18333,P,PPL,BF,,9,,,,0,,258,Africa/Ouagadougou,2012-01-16


## 4. Filtrage et renommage des colonnes

In [5]:
# Extraction des colonnes requises: ID, nom, latitude, longitude
df_filtered = df[['geonameid', 'name', 'latitude', 'longitude']].copy()

# Renommage des colonnes comme demand√©
df_filtered.columns = ['ID', 'location_name', 'lat', 'long']

print(f"Forme du dataset filtr√©: {df_filtered.shape}")
print("\nPremi√®res lignes apr√®s filtrage:")
df_filtered.head()

Forme du dataset filtr√©: (11958, 4)

Premi√®res lignes apr√®s filtrage:


Unnamed: 0,ID,location_name,lat,long
0,2282318,Pou√®n,9.72908,-2.7866
1,2285251,L√©raba Occidentale,10.28333,-5.11667
2,2287216,K√©l√©ouoro,9.80748,-4.05023
3,2294066,White Volta,8.70194,-0.99056
4,2298457,Issana Bouga,10.91667,-1.18333


In [6]:
# Sauvegarde en CSV
output_file = 'burkina_location.csv'
df_filtered.to_csv(output_file, index=False, encoding='utf-8')
print(f"Fichier {output_file} cr√©√© avec succ√®s!")
print(f"Nombre total de localit√©s: {len(df_filtered)}")

Fichier burkina_location.csv cr√©√© avec succ√®s!
Nombre total de localit√©s: 11958


## 5. Op√©rations sur le fichier burkina_location.csv

### 5.1 Extraction des donn√©es contenant 'gounghin'

In [7]:
# Recherche de toutes les localit√©s contenant 'gounghin'
gounghin_data = df_filtered[df_filtered['location_name'].str.contains('gounghin', case=False, na=False)]

print(f"Nombre de localit√©s contenant 'gounghin': {len(gounghin_data)}")
print("\nLocalit√©s trouv√©es:")
gounghin_data

Nombre de localit√©s contenant 'gounghin': 10

Localit√©s trouv√©es:


Unnamed: 0,ID,location_name,lat,long
153,2353306,Gounghin,12.06677,-1.42134
7269,2360473,Gounghin,12.62488,-1.36398
10260,2570204,Gounghin,12.31436,-1.379
10746,10342749,Gounghin,12.06667,-0.15
10759,10629032,BICIAB // Gounghin,12.35921,-1.54273
10818,11257296,Gounghin Department,12.06671,-0.15484
10845,11900526,Gounghin Nord,12.3612,-1.55055
10846,11900528,Zone Industrielle de Gounghin,12.36631,-1.54137
10852,11900619,Gounghin Sud,12.35298,-1.54342
10866,11900680,Gounghin,12.35895,-1.54442


In [8]:
# Sauvegarde des donn√©es Gounghin
gounghin_file = 'gounghin.csv'
gounghin_data.to_csv(gounghin_file, index=False, encoding='utf-8')
print(f"Fichier {gounghin_file} cr√©√© avec succ√®s!")

Fichier gounghin.csv cr√©√© avec succ√®s!


### 5.2 Extraction des localit√©s commen√ßant par les lettres A-P

In [9]:
# Filtrage des localit√©s commen√ßant par A-P
a_to_p_data = df_filtered[df_filtered['location_name'].str.match(r'^[A-Pa-p]', na=False)]

print(f"Nombre de localit√©s commen√ßant par A-P: {len(a_to_p_data)}")
print("\nPremi√®res localit√©s A-P:")
a_to_p_data.head()

Nombre de localit√©s commen√ßant par A-P: 8306

Premi√®res localit√©s A-P:


Unnamed: 0,ID,location_name,lat,long
0,2282318,Pou√®n,9.72908,-2.7866
2,2287216,K√©l√©ouoro,9.80748,-4.05023
4,2298457,Issana Bouga,10.91667,-1.18333
5,2353158,Zyonguen,12.36667,-0.45
6,2353159,Zyiliw??l??,12.38333,-2.73333


### 5.3 Identification des coordonn√©es minimales et maximales

In [10]:
# Conversion des coordonn√©es en valeurs num√©riques
df_filtered['lat'] = pd.to_numeric(df_filtered['lat'], errors='coerce')
df_filtered['long'] = pd.to_numeric(df_filtered['long'], errors='coerce')

# Recherche des extrema
min_lat_idx = df_filtered['lat'].idxmin()
max_lat_idx = df_filtered['lat'].idxmax()
min_long_idx = df_filtered['long'].idxmin()
max_long_idx = df_filtered['long'].idxmax()

print("=== COORDONN√âES EXTR√äMES ===")
print(f"Latitude minimale: {df_filtered.loc[min_lat_idx, 'lat']:.6f}¬∞")
print(f"  ‚Üí Localit√©: {df_filtered.loc[min_lat_idx, 'location_name']}")
print(f"\nLatitude maximale: {df_filtered.loc[max_lat_idx, 'lat']:.6f}¬∞")
print(f"  ‚Üí Localit√©: {df_filtered.loc[max_lat_idx, 'location_name']}")
print(f"\nLongitude minimale: {df_filtered.loc[min_long_idx, 'long']:.6f}¬∞")
print(f"  ‚Üí Localit√©: {df_filtered.loc[min_long_idx, 'location_name']}")
print(f"\nLongitude maximale: {df_filtered.loc[max_long_idx, 'long']:.6f}¬∞")
print(f"  ‚Üí Localit√©: {df_filtered.loc[max_long_idx, 'location_name']}")

=== COORDONN√âES EXTR√äMES ===
Latitude minimale: 5.216090¬∞
  ‚Üí Localit√©: Komo√©

Latitude maximale: 15.077670¬∞
  ‚Üí Localit√©: Lalaba

Longitude minimale: -5.659680¬∞
  ‚Üí Localit√©: Banifing

Longitude maximale: 2.522590¬∞
  ‚Üí Localit√©: Tapoa


### 5.4 Localit√©s avec latitude ‚â• 11¬∞ et longitude ‚â§ 0.5¬∞

In [11]:
# Filtrage selon les coordonn√©es sp√©cifi√©es
coord_filter = (df_filtered['lat'] >= 11) & (df_filtered['long'] <= 0.5)
coord_filtered_data = df_filtered[coord_filter]

print(f"Nombre de localit√©s avec lat ‚â• 11¬∞ et lon ‚â§ 0.5¬∞: {len(coord_filtered_data)}")
print("\nEchantillon des localit√©s trouv√©es:")
coord_filtered_data.head()

Nombre de localit√©s avec lat ‚â• 11¬∞ et lon ‚â§ 0.5¬∞: 9466

Echantillon des localit√©s trouv√©es:


Unnamed: 0,ID,location_name,lat,long
5,2353158,Zyonguen,12.36667,-0.45
6,2353159,Zyiliw??l??,12.38333,-2.73333
7,2353160,Zyanko,12.78333,-0.41667
8,2353161,Zouta,13.14908,-1.28197
9,2353162,Zourtenga,12.95741,-1.28745


## 6. Cr√©ation du fichier Excel avec plusieurs feuilles

In [12]:
# Cr√©ation du fichier Excel avec deux feuilles
excel_file = 'mini_projet.xlsx'

with pd.ExcelWriter(excel_file, engine='openpyxl') as writer:
    # Feuille 1: Donn√©es Gounghin
    gounghin_data.to_excel(writer, sheet_name='gounghin', index=False)
    print(f"Feuille 'gounghin' cr√©√©e avec {len(gounghin_data)} entr√©es")
    
    # Feuille 2: Donn√©es A-P
    a_to_p_data.to_excel(writer, sheet_name='A_to_P', index=False)
    print(f"Feuille 'A_to_P' cr√©√©e avec {len(a_to_p_data)} entr√©es")

print(f"\nFichier Excel '{excel_file}' cr√©√© avec succ√®s!")

Feuille 'gounghin' cr√©√©e avec 10 entr√©es
Feuille 'A_to_P' cr√©√©e avec 8306 entr√©es

Fichier Excel 'mini_projet.xlsx' cr√©√© avec succ√®s!


## 7. Statistiques descriptives

In [13]:
# Statistiques descriptives des coordonn√©es
print("=== STATISTIQUES DESCRIPTIVES ===")
print("\nCoordonn√©es - Burkina Faso:")
df_filtered[['lat', 'long']].describe()

=== STATISTIQUES DESCRIPTIVES ===

Coordonn√©es - Burkina Faso:


Unnamed: 0,lat,long
count,11958.0,11958.0
mean,12.274324,-1.184736
std,1.299582,1.272039
min,5.21609,-5.65968
25%,11.69042,-2.18333
50%,12.35,-1.11667
75%,13.1,-0.35
max,15.07767,2.52259


## 8. R√©sum√© des r√©sultats

### Fichiers cr√©√©s:
1. **burkina_location.csv** - Dataset complet filtr√©
2. **gounghin.csv** - Localit√©s contenant 'gounghin'
3. **mini_projet.xlsx** - Fichier Excel avec deux feuilles:
   - Feuille "gounghin": Donn√©es Gounghin
   - Feuille "A_to_P": Localit√©s commen√ßant par A-P

In [14]:
print("=== R√âSUM√â FINAL ===")
print(f"üìç Total des localit√©s au Burkina Faso: {len(df_filtered):,}")
print(f"üèòÔ∏è  Localit√©s contenant 'gounghin': {len(gounghin_data)}")
print(f"üî§ Localit√©s A-P: {len(a_to_p_data):,}")
print(f"üó∫Ô∏è  Localit√©s (lat‚â•11¬∞ et lon‚â§0.5¬∞): {len(coord_filtered_data):,}")
print("\n=== COORDONN√âES EXTR√äMES ===")
print(f"üåç √âtendue latitude: {df_filtered['lat'].min():.3f}¬∞ √† {df_filtered['lat'].max():.3f}¬∞")
print(f"üåç √âtendue longitude: {df_filtered['long'].min():.3f}¬∞ √† {df_filtered['long'].max():.3f}¬∞")

print("\n‚úÖ Projet termin√© avec succ√®s!")
print("üìÅ Tous les fichiers ont √©t√© g√©n√©r√©s dans le r√©pertoire courant.")

=== R√âSUM√â FINAL ===
üìç Total des localit√©s au Burkina Faso: 11,958
üèòÔ∏è  Localit√©s contenant 'gounghin': 10
üî§ Localit√©s A-P: 8,306
üó∫Ô∏è  Localit√©s (lat‚â•11¬∞ et lon‚â§0.5¬∞): 9,466

=== COORDONN√âES EXTR√äMES ===
üåç √âtendue latitude: 5.216¬∞ √† 15.078¬∞
üåç √âtendue longitude: -5.660¬∞ √† 2.523¬∞

‚úÖ Projet termin√© avec succ√®s!
üìÅ Tous les fichiers ont √©t√© g√©n√©r√©s dans le r√©pertoire courant.
