# Mini Projet

Le but de cet exercice est d'extraire un sous-ensemble de données à partir d'une base de données plus grande.
Supposons que vous ayez besoin de réaliser une application qui prend en entrée, des noms
de lieux du Burkina Faso, avec des informations telles que la latitude/longitude.
Pour ce faire, nous décidons d'extraire ces informations à partir du server de référencement géoname
(http://www.geonames.org/). Vous allez procéder de la façon suivante :


## 1 - Exporter la base de données qui recense les informations sur le Burkina Faso (https://download.geonames.org/export/dump/).

In [1]:
# Iportation des library nécessaire 
import requests
import csv
import zipfile
import io
import os
import pandas as pd

In [2]:
# Lien du serveur
url = "https://download.geonames.org/export/dump/BF.zip"

## 2 - Télécharger le fichier zip correspondant

In [3]:
# Téléchargement et extraction du fichier ZIP
zip_file_path = "BF.zip"
extracted_folder = "Data_BFA"
def Dow_and_extract_zip_file(url, zip_file_path):
    try:
        # Téléchargement du fichier ZIP
        response = requests.get(url)
        with open(zip_file_path, 'wb') as f:
            f.write(response.content)

        # Extraction du fichier ZIP
        with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
            zip_ref.extractall(extracted_folder)            

        print("Extraction réussie.")
    except Exception as e:
        print("Une erreur s'est produite lors du téléchargement et de l'extraction du fichier ZIP :", e)
# Téléchargement et extraction du fichier ZIP
Dow_and_extract_zip_file(url, zip_file_path)


Extraction réussie.


## 3 - Appliquer les opérations de prétraitement et filtres nécessaires à ce fichier, pour ne garder que les colonnes correspondantes

In [4]:
# Prétraitement et filtrage des données
def preprocess_data(input_folder, output_file):
    try:
        # Chemin du fichier de données à prétraiter
        data_file = os.path.join(input_folder, "BF.txt")

        # Ouverture du fichier CSV de sortie en mode écriture
        with open(output_file, 'w', newline='', encoding='utf-8') as csvfile:
            writer = csv.writer(csvfile)

            # Renommage des variables
            writer.writerow(['ID', 'location_name', 'lat', 'long'])

            # Ouverture du fichier de données à prétraiter
            with open(data_file, 'r', encoding='utf-8') as f:
                for line in f:
                    # Séparation des champs
                    fields = line.split('\t')
                    # Filtrage et écriture des champs pertinents
                    id_ = fields[0]
                    name = fields[1]
                    lat = fields[4]
                    long = fields[5]

                    # Écriture de la ligne dans le fichier CSV
                    writer.writerow([id_, name, lat, long])                    

        print("Prétraitement des données réussi.")
    except Exception as e:
        print("Une erreur s'est produite lors du prétraitement des données :", e)

# Sauvegarde des colonnes dans un fichier CSV
preprocess_data(extracted_folder, "burkina_location.csv")

Prétraitement des données réussi.


# 4 - Opérations sur le fichier CSV burkina_location.csv.

 * ### Extraire les données contenant le nom 'gounghin', enregistrez-le sous le fichier gounghin.csv

In [25]:
# Importation du fichier burkina_location
df = pd.read_csv("burkina_location.csv")

#Visualisation des 20 première lignes
df.head(20)

Unnamed: 0,ID,location_name,lat,long
0,2282318,Pouéné,9.72908,-2.7866
1,2285251,Léraba Occidentale,10.28333,-5.11667
2,2287216,Kéléouoro,9.80748,-4.05023
3,2294066,White Volta,8.70194,-0.99056
4,2298457,Issana Bouga,10.91667,-1.18333
5,2353158,Zyonguen,12.36667,-0.45
6,2353159,Zyiliwèlè,12.38333,-2.73333
7,2353160,Zyanko,12.78333,-0.41667
8,2353161,Zouta,13.14908,-1.28197
9,2353162,Zourtenga,12.95741,-1.28745


In [6]:
# Filtrer les lignes contenant le nom 'gounghin'
gounghin_df = df[df['location_name'].str.contains('gounghin', case=False)]
gounghin_df.head()

Unnamed: 0,ID,location_name,lat,long
153,2353306,Gounghin,12.06677,-1.42134
7270,2360473,Gounghin,12.62488,-1.36398
10259,2570204,Gounghin,12.31436,-1.379
10745,10342749,Gounghin,12.06667,-0.15
10758,10629032,BICIAB // Gounghin,12.35921,-1.54273


In [7]:
# Enregistrement sous le fichier gounghin.csv
gounghin_df.to_csv("gounghin.csv", index=False)

* ### Extraire la sous-partie de la base de données (fichier burkina_location.csv), dont les noms les premières lettres des noms de lieux sont compris entre 'A' et 'P' (ordre alphabétique)

In [12]:
loc_name_A_P = (df[df['location_name'].str[0].str.upper().between('A', 'P')]).sort_values(by='location_name')

In [13]:
loc_name_A_P.head(200)

Unnamed: 0,ID,location_name,lat,long
10647,6913771,Abanda,15.06808,-0.59805
10032,2363251,Abanga,13.32429,0.31151
11092,11980339,Abassi,12.27728,-1.13662
10600,6874881,Abaye,13.44080,-3.90190
10030,2363249,Abra,13.09140,-1.34752
...,...,...,...,...
9903,2363120,Badèdsi,12.49728,1.60272
9902,2363119,Badéma,11.18333,-0.31667
9876,2363093,Bafina,13.68314,-0.97362
9875,2363092,Baforo,11.03333,-3.10000


* ### Identifiez respectivement, la latitude, la longitude minimale et les noms de lieux correspondants

* Latitude minimale et lieu correspondant

In [20]:

# Indice de la latitude minimale
ind_min_lat = df['lat'].idxmin()

# Latitude minimale
min_lat = df.loc[ind_min_lat, 'lat']

# Nom de lieu correspondant à la latitude minimale
loc_name_lat_min = df.loc[ind_min_lat, 'location_name']

print("Latitude minimale:", min_lat)
print("Le nom de lieu correspondant est:", loc_name_lat_min)

Latitude minimale: 5.21609
Le nom de lieu correspondant est: Komoé


#### longitude minimale et lieu correspondant

In [21]:
# Indice de la latitude minimale
ind_min_long = df['long'].idxmin()

# Latitude minimale
min_long = df.loc[ind_min_long, 'long']

# Nom de lieu correspondant à la latitude minimale
loc_name_long_min = df.loc[ind_min_long, 'location_name']

print("Longitude minimale:", min_long)
print("Le nom de lieu correspondant est:", loc_name_long_min)

Longitude minimale: -5.65968
Le nom de lieu correspondant est: Banifing


* Quels sont les lieux dont les coordonnées sont comprises entre (lat >= 11 et lon <= 0.5)

In [22]:
lieu_et_loca = df[(df['lat'] >= 11) & (df['long'] <= 0.5)]
lieu_et_loca.head(200)

Unnamed: 0,ID,location_name,lat,long
5,2353158,Zyonguen,12.36667,-0.45000
6,2353159,Zyiliwèlè,12.38333,-2.73333
7,2353160,Zyanko,12.78333,-0.41667
8,2353161,Zouta,13.14908,-1.28197
9,2353162,Zourtenga,12.95741,-1.28745
...,...,...,...,...
213,2353366,Zanzi,13.01473,-1.20985
214,2353367,Zanvi,12.95963,-1.14586
215,2353368,Zanren,12.05000,-0.28333
216,2353369,Zanré,12.06667,-0.05000


In [23]:
# Nous pouvons trier le résultat en fonction de la latitude croissante
lieu_et_loca = lieu_et_loca.sort_values(by='lat')
lieu_et_loca

Unnamed: 0,ID,location_name,lat,long
6901,2360101,Hamélé,11.00000,-2.75000
3473,2356649,Pékoua,11.00000,-2.93333
6224,2359417,Koassonou,11.00000,-1.26667
4555,2357737,Naborgane,11.00000,-3.36667
6320,2359514,Kiétou,11.00000,-2.65000
...,...,...,...,...
10630,6913745,Adaboun,15.06350,-0.24320
10649,6913773,Korfooueyouey,15.06528,-0.45967
10647,6913771,Abanda,15.06808,-0.59805
10625,6913524,Ti-n-Barazan,15.06979,-0.46052


# 5 - Sorties Excel
À partir des extractions de l'étape 4 :
* Créer un fichier Excel et nommer le : mini_projet
* Créer une feuille dans ce fichier, du nom gounghin et enregistrer les données contenant le nom 'gounghin' obtenues dans 4.1
* Créer une second feuille dans ce même fichier, du nom A_to_P et enregistrer les données de 4.2


In [24]:
# Créer un fichier Excel et nommer le : mini_projet
writer = pd.ExcelWriter("mini_projet.xlsx", engine='xlsxwriter')

#Créer une feuille dans ce fichier, du nom gounghin et enregistrer les données contenant le nom 'gounghin' obtenues dans 4.1
gounghin_df.to_excel(writer, sheet_name='gounghin', index=False)

# Écrire les données filtrées dans une feuille nommée 'A_to_P'
loc_name_A_P.to_excel(writer, sheet_name='A_to_P', index=False)

# fermeture pour finaliser l'écriture
writer.close()
