# Mini Projet

## **AUTEUR :** Benewende Pierre BONKOUNGOU

## Readme

Le but de cet exercice étant d'extraire un sous-ensemble de données à partir d'une base de données plus grande. Supposons que nous ayons besoin de réaliser une application qui prend en entrée, des noms de lieux du Burkina Faso, avec des informations telles que la latitude/longitude.

Pour ce faire, nous décidons d'extraire ces informations à partir du server de référencement géoname
(http://www.geonames.org/). Nous procedons de la façon suivante :

### 1 - Exporter la base de données du Burkina Faso
Pour ce faire référons-nous au fichier Readme, décrit à la fin de la page pour identifier le code iso correspondant au Burkina Faso.


### 2 - Télécharger et lire le fichier zip correspondant
Depuis le lien https://download.geonames.org/export/dump/, téléchargeons le fichier ZIP et plaçons le dans un dossier accessible ici dans la racine même du notre répertoire.


In [20]:
import zipfile
import os

# Nom du fichier zip
zip_file_name = 'BF.zip'

# Emplacement du dossier
folder_path = './'  # Changez-le selon l'emplacement de votre fichier zip

# Extrait le contenu du fichier zip
with zipfile.ZipFile(os.path.join(folder_path, zip_file_name), 'r') as zip_ref:
    zip_ref.extractall(folder_path)

### 3 - Appliquer les opérations de prétraitement et filtres nécessaires

In [24]:
# Identifier toutes les colonnes nécessaires d'abord
columns_name = ['Geoname_id', 'Name', 'Asciiname', 'Alternatenames', 'Latitude', 'Longitude',
                'Feature_class', 'Feature_code', 'Country_code', 'CCS2', 'Admin1_code',
                'Admin2_code', 'Admin3_code', 'Admin4_code', 'Population', 'Elevation',
                'Dem', 'Time_zone', 'Date_entry']

In [25]:
import pandas as pd

# Charger les données dans un DataFrame
df = pd.read_csv('BF.txt', sep='\t', usecols=columns_name, names=columns_name, header=None)

In [26]:
df.head()

Unnamed: 0,Geoname_id,Name,Asciiname,Alternatenames,Latitude,Longitude,Feature_class,Feature_code,Country_code,CCS2,Admin1_code,Admin2_code,Admin3_code,Admin4_code,Population,Elevation,Dem,Time_zone,Date_entry
0,2282318,Pouéné,Pouene,,9.72908,-2.7866,H,STM,BF,,0,,,,0,,226,Africa/Abidjan,2023-11-07
1,2285251,Léraba Occidentale,Leraba Occidentale,"Badini,La Leraba Occidentale,Leraba,Leraba Occ...",10.28333,-5.11667,H,STM,BF,CI,0,,,,0,,283,Africa/Abidjan,2023-11-07
2,2287216,Kéléouoro,Keleouoro,"Keleouoro,Keleworo,Kéléouoro,Kéléworo",9.80748,-4.05023,H,STM,BF,"BF,CI",0,,,,0,,261,Africa/Abidjan,2023-11-07
3,2294066,White Volta,White Volta,"Nakambe,Nakambé,Nakanbe,Nakanbé,Volta Blanche,...",8.70194,-0.99056,H,STM,BF,GH,0,,,,0,,75,Africa/Accra,2023-11-08
4,2298457,Issana Bouga,Issana Bouga,"Issana Bouga,Lanyung,Lanyunga",10.91667,-1.18333,H,STM,BF,,0,,,,0,,178,Africa/Accra,2023-11-08


In [28]:
# Filtrer les colonnes nécessaires
df_filter = df[['Geoname_id', 'Name', 'Latitude', 'Longitude']]

# Renommer les colonnes
df_filter.columns = ['ID', 'location_name', 'lat', 'long']

# Afficher les premières lignes pour vérification
df_filter.head()

Unnamed: 0,ID,location_name,lat,long
0,2282318,Pouéné,9.72908,-2.7866
1,2285251,Léraba Occidentale,10.28333,-5.11667
2,2287216,Kéléouoro,9.80748,-4.05023
3,2294066,White Volta,8.70194,-0.99056
4,2298457,Issana Bouga,10.91667,-1.18333


In [43]:
# Sauvegarde les données dans un fichier CSV
csv_file = 'burkina_location.csv'
df_filter.to_csv(csv_file, index=False)

print(f"Données sauvegardées dans {csv_file} Avec succès")
print("\n")

Données sauvegardées dans burkina_location.csv Avec succès




### 4 - Opérations sur le fichier CSV burkina_location.csv

In [44]:
# Chargement du fichier burkina_location.csv
data_bf = pd.read_csv('burkina_location.csv')

# Afficher les résultats
data_bf.head()

Unnamed: 0,ID,location_name,lat,long
0,2282318,Pouéné,9.72908,-2.7866
1,2285251,Léraba Occidentale,10.28333,-5.11667
2,2287216,Kéléouoro,9.80748,-4.05023
3,2294066,White Volta,8.70194,-0.99056
4,2298457,Issana Bouga,10.91667,-1.18333


#### 4.1 - Extraire les données contenant le nom 'gounghin' et les sauvegarder dans un fichier gounghin.csv

In [48]:
# 4.1 Extraction des données 'gounghin'
gounghin_data = data_bf[data_bf['location_name'].str.contains('gounghin', case=False)]
gounghin_data.to_csv('gounghin.csv', index=False)

# Afficher les résultats
gounghin_df = pd.read_csv('gounghin.csv')
gounghin_df

Unnamed: 0,ID,location_name,lat,long
0,2353306,Gounghin,12.06677,-1.42134
1,2360473,Gounghin,12.62488,-1.36398
2,2570204,Gounghin,12.31436,-1.379
3,10342749,Gounghin,12.06667,-0.15
4,10629032,BICIAB // Gounghin,12.35921,-1.54273
5,11257296,Gounghin Department,12.06671,-0.15484
6,11900526,Gounghin Nord,12.3612,-1.55055
7,11900528,Zone Industrielle de Gounghin,12.36631,-1.54137
8,11900619,Gounghin Sud,12.35298,-1.54342
9,11900680,Gounghin,12.35895,-1.54442


- **Extraire la sous-partie de la base de données dont les noms les premières lettres des noms de lieux sont compris entre 'A' et 'P'**

In [70]:
# Filtrer les lignes dont les noms commencent par les lettres entre 'A' et 'P'
a_to_p_df = data_bf[data_bf['location_name'].str[0].between('A', 'P', inclusive= 'both')]
a_to_p_df.to_csv('A_to_P.csv', index=False)

# Afficher les résultats
A_to_P_df = pd.read_csv('A_to_P.csv')
A_to_P_df.head()

Unnamed: 0,ID,location_name,lat,long
0,2282318,Pouéné,9.72908,-2.7866
1,2285251,Léraba Occidentale,10.28333,-5.11667
2,2287216,Kéléouoro,9.80748,-4.05023
3,2298457,Issana Bouga,10.91667,-1.18333
4,2353290,Forêt Classée de Ziga,12.47106,-1.08644


- **Identifier latitude, longitude minimale et les noms de lieux correspondants**

In [66]:
# Trouver la latitude minimale
min_lat_row = A_to_P_df.loc[A_to_P_df['lat'].idxmin()]

# Trouver la longitude minimale
min_long_row = A_to_P_df.loc[A_to_P_df['long'].idxmin()]

# Afficher les résultats
print("Latitude minimale:")
print(min_lat_row[['lat', 'location_name']])

print("\nLongitude minimale:")
print(min_long_row[['long', 'location_name']])

Latitude minimale:
lat              5.21609
location_name      Komoé
Name: 6018, dtype: object

Longitude minimale:
long             -5.65968
location_name    Banifing
Name: 4221, dtype: object


- **Identification des lieux avec des coordonnées spécifiques (lat >= 11 et lon <= 0.5)**

Convertir d'abord les colonnes 'lat' et 'long' en types numériques

In [67]:
# Convertir les colonnes 'lat' et 'long' en types numériques
data_bf['lat'] = pd.to_numeric(data_bf['lat'], errors='coerce')
data_bf['long'] = pd.to_numeric(data_bf['long'], errors='coerce')

In [68]:
# 4.3 Identification des lieux avec des coordonnées spécifiques (lat >= 11 et lon <= 0.5)
filtered_coords_df = data_bf[(data_bf['lat'] >= 11) & (data_bf['long'] <= 0.5)]
filtered_coords_df.to_csv('specific_coords.csv', index=False)

# Afficher les résultats
print("Lieux dont les coordonnées sont comprises entre (lat >= 11 et lon <= 0.5):")
specific_coords_data = pd.read_csv('specific_coords.csv')
specific_coords_data

Lieux dont les coordonnées sont comprises entre (lat >= 11 et lon <= 0.5):


Unnamed: 0,ID,location_name,lat,long
0,2353158,Zyonguen,12.36667,-0.45000
1,2353159,Zyiliwèlè,12.38333,-2.73333
2,2353160,Zyanko,12.78333,-0.41667
3,2353161,Zouta,13.14908,-1.28197
4,2353162,Zourtenga,12.95741,-1.28745
...,...,...,...,...
9277,12687046,Monde-So,14.20081,-1.63983
9278,12688694,Yerfing,11.33747,-3.35025
9279,12688713,Tinonguen-Peulh,11.64924,-0.22063
9280,12720016,Yimdi,12.31014,-1.66322


In [72]:
# Écrire les données 'A_to_P', 'specific_coords_data' et 'burkina_location' dans le fichier Excel
with pd.ExcelWriter('mini_projet.xlsx') as writer:

    # Enregistrer les données 'gounghin' dans la première feuille
    gounghin_data.to_excel(writer, sheet_name='gounghin', index=False)

    # Enregistrer les données de la sous-partie (noms de lieux de 'A' à 'P')
    A_to_P_df.to_excel(writer, sheet_name='A_to_P', index=False)

    # Écrire les données 'specific_coords_data' dans la troisième feuille
    specific_coords_data.to_excel(writer, sheet_name='Coords_Specifiques', index=False)
    
    # Écrire les données 'burkina_location' dans la quatrième feuille
    df_filter.to_excel(writer, sheet_name='burkina_location', index=False)

