# Mini Projet

Le but de cet exercice est d'extraire un sous-ensemble de données à partir d'une base de données plus grande.<br>
Supposons que vous ayez besoin de réaliser une application qui prend en entrée, des noms de lieux du Burkina Faso, avec des informations telles que la latitude/longitude.<br>
Pour ce faire, nous décidons d'extraire ces informations à partir du server de référencement géoname (http://www.geonames.org/). <br>Vous allez procéder de la façon suivante :
<br>1 - Exporter la base de données qui recense les informations sur le Burkina Faso (https://download.geonames.org/export/dump/).
<br>Pour ce faire, reférez-vous au Readme, décrit à la fin de la page pour identifier le code iso correspondant au Burkina Faso
<br>2 - Télécharger le fichier zip correspondant
<br>3 - Appliquer les opérations de prétraitement et filtres nécessaires à ce fichier, pour:
<br> 3.1 Ne garder que les colonnes correspondantes Identifiants, Noms de lieux, latitudes, longitudes
<br> 3.2 Renommez les avec les noms suivants : 'ID', 'location_name', 'lat', 'long'
<br> 3.3 Sauvegarder ces données dans un fichier CSV, nommez-le burkina_location.csv
<br> 4 - Opérations sur le fichier CSV burkina_location.csv.
<br> 4.1 Extraire les données contenant le nom 'gounghin', enregistrez-le sous le fichier gounghin.csv
<br> 4.2 extraire la sous-partie de la base de données (fichier burkina_location.csv), dont les noms les premières lettres des noms de lieux sont compris entre 'A' et 'P' (ordre alphabétique)
<br> 4.3 Identifiez respectivement, la latitude, la longitude minimale et les noms de lieux correspondants
<br> 4.4 Quels sont les lieux dont les coordonnées sont comprises entre (lat >= 11 et lon <= 0.5)
<br>5 - Sorties Excel
<br>À partir des extractions de l'étape 4 :
<br> 5.1 Créer un fichier Excel et nommer le : mini_projet
<br> 5.2 Créer une feuille dans ce fichier, du nom gounghin et enregistrer les données contenant le nom 'gounghin' obtenues dans 4.1
<br> 5.3 Créer une second feuille dans ce même fichier, du nom A_to_P et enregistrer les données de 4.2

## 1 - Exporter la base de données qui recense les informations sur le Burkina Faso

In [2]:
# Iportation des library
import requests
import zipfile
import io
import pandas as pd

In [3]:
# Identification du code iso correspondant au Burkina Faso
zipFileName = "BF.zip"
url = "https://download.geonames.org/export/dump/BF.zip"

## 2 - Télécharger le fichier zip correspondant

In [4]:
# Téléchargement et extraction du fichier ZIP
InputData = "Input_Data"
def DUMP(url, codeIso):
    try:
        # Téléchargement du fichier ZIP
        response = requests.get(url)
        with open(zipFileName, 'wb') as f:
            f.write(response.content)
        # Extraction du fichier ZIP
        with zipfile.ZipFile(zipFileName, 'r') as zf:
            zf.extractall(InputData)            
        print("Extraction du fichier éffectuée avec succès.")
    except Exception as e:
        print("Une erreur s'est produite lors du téléchargement et de l'extraction du fichier ZIP :", e)
# Téléchargement et extraction du fichier ZIP
DUMP(url, zipFileName)


Extraction du fichier éffectuée avec succès.


## 3 - Appliquer les opérations de prétraitement et filtres nécessaires à ce fichier, pour ne garder que les colonnes correspondantes

In [7]:
# 3.0 Importation du fichier BF.txt
columnsName = ['geonameid','name','asciiname','alternatenames','latitude','longitude','feature class','feature code','country code','cc2','admin1 cod','admin2 code','admin3 code','admin4 code','population','elevation','dem' ,'timezone','modification date']
BF=pd.read_csv("Input_Data/BF.txt", delimiter='\t', names=columnsName)
BF.head()

Unnamed: 0,geonameid,name,asciiname,alternatenames,latitude,longitude,feature class,feature code,country code,cc2,admin1 cod,admin2 code,admin3 code,admin4 code,population,elevation,dem,timezone,modification date
0,2282318,Pouéné,Pouene,,9.72908,-2.7866,H,STM,BF,,0,,,,0,,226,Africa/Abidjan,2023-11-07
1,2285251,Léraba Occidentale,Leraba Occidentale,"Badini,La Leraba Occidentale,Leraba,Leraba Occ...",10.28333,-5.11667,H,STM,BF,CI,0,,,,0,,283,Africa/Abidjan,2023-11-07
2,2287216,Kéléouoro,Keleouoro,"Keleouoro,Keleworo,Kéléouoro,Kéléworo",9.80748,-4.05023,H,STM,BF,"BF,CI",0,,,,0,,261,Africa/Abidjan,2023-11-07
3,2294066,White Volta,White Volta,"Nakambe,Nakambé,Nakanbe,Nakanbé,Volta Blanche,...",8.70194,-0.99056,H,STM,BF,GH,0,,,,0,,75,Africa/Accra,2023-11-08
4,2298457,Issana Bouga,Issana Bouga,"Issana Bouga,Lanyung,Lanyunga",10.91667,-1.18333,H,STM,BF,,0,,,,0,,178,Africa/Accra,2023-11-08


3.1 Ne garder que les colonnes correspondantes Identifiants, Noms de lieux, latitudes, longitudes

In [8]:
# 3.1 Ne garder que les colonnes correspondantes Identifiants, Noms de lieux, latitudes, longitudes
BF= BF[['geonameid', 'name', 'latitude', 'longitude']]
BF.head()

Unnamed: 0,geonameid,name,latitude,longitude
0,2282318,Pouéné,9.72908,-2.7866
1,2285251,Léraba Occidentale,10.28333,-5.11667
2,2287216,Kéléouoro,9.80748,-4.05023
3,2294066,White Volta,8.70194,-0.99056
4,2298457,Issana Bouga,10.91667,-1.18333


3.2 Renommez les avec les noms suivants : 'ID', 'location_name', 'lat', 'long'

In [9]:
# 3.2 Renommez les avec les noms suivants : 'ID', 'location_name', 'lat', 'long'
BF.columns=['ID', 'location_name', 'lat', 'long']
BF.head()

Unnamed: 0,ID,location_name,lat,long
0,2282318,Pouéné,9.72908,-2.7866
1,2285251,Léraba Occidentale,10.28333,-5.11667
2,2287216,Kéléouoro,9.80748,-4.05023
3,2294066,White Volta,8.70194,-0.99056
4,2298457,Issana Bouga,10.91667,-1.18333


3.3 Sauvegarder ces données dans un fichier CSV, nommez-le burkina_location.csv

In [10]:
# 3.3 Sauvegarder ces données dans un fichier CSV, nommez-le burkina_location.csv
BF.to_csv("burkina_location.csv", index=False)

# 4 - Opérations sur le fichier CSV burkina_location.csv.

4.1 Extraire les données contenant le nom 'gounghin', enregistrez-le sous le fichier gounghin.csv

In [11]:
# Importation du fichier burkina_location
df_bl = pd.read_csv("burkina_location.csv")
# Filtre des lignes contenant le nom 'gounghin'
df_gounghin = df_bl[df_bl['location_name'].str.contains('gounghin', case=False)]
df_gounghin.to_csv("gounghin.csv", index=False)
df_gounghin.head()

Unnamed: 0,ID,location_name,lat,long
153,2353306,Gounghin,12.06677,-1.42134
7270,2360473,Gounghin,12.62488,-1.36398
10259,2570204,Gounghin,12.31436,-1.379
10745,10342749,Gounghin,12.06667,-0.15
10758,10629032,BICIAB // Gounghin,12.35921,-1.54273


4.2 extraire la sous-partie de la base de données (fichier burkina_location.csv), dont les noms les premières lettres des noms de lieux sont compris entre 'A' et 'P' (ordre alphabétique)

In [16]:
# 4.2 extraire la sous-partie de la base de données (fichier burkina_location.csv), dont les noms les premières lettres des noms de lieux sont compris entre 'A' et 'P' (ordre alphabétique)
df_locationNameInAndP = (df_bl[df_bl['location_name'].str[0].str.upper().between('A', 'P')]).sort_values(by='location_name')
df_locationNameInAndP.shape[0]
df_locationNameInAndP.head()

Unnamed: 0,ID,location_name,lat,long
10647,6913771,Abanda,15.06808,-0.59805
10032,2363251,Abanga,13.32429,0.31151
11092,11980339,Abassi,12.27728,-1.13662
10600,6874881,Abaye,13.4408,-3.9019
10030,2363249,Abra,13.0914,-1.34752


4.3 Identifiez respectivement, la latitude, la longitude minimale et les noms de lieux correspondants

In [58]:
# 4.3 Identifiez respectivement, la latitude, la longitude minimale et les noms de lieux correspondants
# Latitude minimale
latitudeMin = df_bl.loc[df_bl['lat'].idxmin(), 'lat']
# Nom de lieu correspondant à la latitude minimale
LieuLatMin = df_bl.loc[df_bl['lat'].idxmin(), 'location_name']
print("Le nom du lieu ayant la latitude minimale est:", LieuLatMin, "avec un latitude minimale de:", latitudeMin)
# Longitude maximale
longitudeMin = df_bl.loc[df_bl['long'].idxmin(), 'lat']
# Nom de lieu correspondant à la latitude minimale
LieuLongMin = df_bl.loc[df_bl['long'].idxmin(), 'location_name']
print("Le nom du lieu ayant la longitude minimale est:", LieuLongMin, "avec un longitude minimale de:", longitudeMin)

Le nom du lieu ayant la latitude minimale est: Komoé avec un latitude minimale de: 5.21609
Le nom du lieu ayant la longitude minimale est: Banifing avec un longitude minimale de: 12.01147


4.4 Quels sont les lieux dont les coordonnées sont comprises entre (lat >= 11 et lon <= 0.5)

In [59]:
sdf_bl = df_bl[(df_bl['lat'] >= 11) & (df_bl['long'] <= 0.5)]
sdf_bl.head()

Unnamed: 0,ID,location_name,lat,long
5,2353158,Zyonguen,12.36667,-0.45
6,2353159,Zyiliwèlè,12.38333,-2.73333
7,2353160,Zyanko,12.78333,-0.41667
8,2353161,Zouta,13.14908,-1.28197
9,2353162,Zourtenga,12.95741,-1.28745


# 5 - Sorties Excel


5.1 Créer un fichier Excel et nommer le : mini_projet

In [60]:
# 5.1 Créer un fichier Excel et nommer le : mini_projet
!pip install xlsxwriter
fileMiniProjet = pd.ExcelWriter("mini_projet.xlsx", engine='xlsxwriter')




[notice] A new release of pip is available: 23.3.2 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


5.2 Créer une feuille dans ce fichier, du nom gounghin et enregistrer les données contenant le nom 'gounghin' obtenues dans 4.1

In [64]:
# 5.2 Créer une feuille dans ce fichier, du nom gounghin et enregistrer les données contenant le nom 'gounghin' obtenues dans 4.1
df_gounghin.to_excel(fileMiniProjet, sheet_name='gounghin', index=False)

5.3 Créer une second feuille dans ce même fichier, du nom A_to_P et enregistrer les données de 4.2

In [65]:
# 5.3 Créer une second feuille dans ce même fichier, du nom A_to_P et enregistrer les données de 4.2
df_locationNameInAndP.to_excel(fileMiniProjet, sheet_name='A_to_P', index=False)
fileMiniProjet.close()