# DATA PROCESSING : Mini Projet

Le but de cet exercice est d'extraire un sous-ensemble de données à partir d'une base de données plus grande.
Supposons que vous ayez besoin de réaliser une application qui prend en entrée, des noms
de lieux du Burkina Faso, avec des informations telles que la latitude/longitude.
Pour ce faire, nous décidons d'extraire ces informations à partir du server de référencement géoname
(http://www.geonames.org/). Vous allez procéder de la façon suivante :


#### 1 - Exporter la base de données qui recense les informations sur le Burkina Faso (https://download.geonames.org/export/dump/).

In [1]:
# Iportation des library nécessaire 
import requests
import csv
import zipfile
import io
import os
import pandas as pd

In [2]:
# Lien du serveur
url = "https://download.geonames.org/export/dump/BF.zip"

#### 2 - Télécharger le fichier zip correspondant

In [3]:
# Téléchargement et extraction du fichier ZIP
zip_file_path = "BF.zip"
extracted_folder = "Data_BFA"
def Dow_and_extract_zip_file(url, zip_file_path):
    try:
        # Téléchargement du fichier ZIP
        response = requests.get(url)
        with open(zip_file_path, 'wb') as f:
            f.write(response.content)

        # Extraction du fichier ZIP
        with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
            zip_ref.extractall(extracted_folder)            

        print("Extraction a été effectuée avec succès")
    except Exception as e:
        print("Une erreur s'est produite lors du téléchargement et de l'extraction du fichier ZIP :", e)


In [4]:
# Téléchargement et extraction du fichier ZIP
Dow_and_extract_zip_file(url, zip_file_path)

Extraction a été effectuée avec succès


#### 3 - Appliquer les opérations de prétraitement et filtres nécessaires à ce fichier, pour ne garder que les colonnes correspondantes

In [5]:
bf_data = pd.read_csv("Data_BFA/BF.txt", delimiter='\t',header=None)
bf_data.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18
0,2282318,Pouéné,Pouene,,9.72908,-2.7866,H,STM,BF,,0,,,,0,,226,Africa/Abidjan,2023-11-07
1,2285251,Léraba Occidentale,Leraba Occidentale,"Badini,La Leraba Occidentale,Leraba,Leraba Occ...",10.28333,-5.11667,H,STM,BF,CI,0,,,,0,,283,Africa/Abidjan,2023-11-07
2,2287216,Kéléouoro,Keleouoro,"Keleouoro,Keleworo,Kéléouoro,Kéléworo",9.80748,-4.05023,H,STM,BF,"BF,CI",0,,,,0,,261,Africa/Abidjan,2023-11-07
3,2294066,White Volta,White Volta,"Nakambe,Nakambé,Nakanbe,Nakanbé,Volta Blanche,...",8.70194,-0.99056,H,STM,BF,GH,0,,,,0,,75,Africa/Accra,2023-11-08
4,2298457,Issana Bouga,Issana Bouga,"Issana Bouga,Lanyung,Lanyunga",10.91667,-1.18333,H,STM,BF,,0,,,,0,,178,Africa/Accra,2023-11-08


In [6]:
# Extraction des colonnes : ID, NAME, LONGITUDE, LATITUDE
bf_data_interest= bf_data.loc[:,[0,2,4,5]]
bf_data_interest.head()

Unnamed: 0,0,2,4,5
0,2282318,Pouene,9.72908,-2.7866
1,2285251,Leraba Occidentale,10.28333,-5.11667
2,2287216,Keleouoro,9.80748,-4.05023
3,2294066,White Volta,8.70194,-0.99056
4,2298457,Issana Bouga,10.91667,-1.18333


In [7]:
bf_data_interest.shape

(11713, 4)

In [8]:
bf_data_interest.columns=['ID', 'location_name', 'lat', 'long']
bf_data_interest.head()

Unnamed: 0,ID,location_name,lat,long
0,2282318,Pouene,9.72908,-2.7866
1,2285251,Leraba Occidentale,10.28333,-5.11667
2,2287216,Keleouoro,9.80748,-4.05023
3,2294066,White Volta,8.70194,-0.99056
4,2298457,Issana Bouga,10.91667,-1.18333


In [9]:
bf_data_interest.to_csv("burkina_location.csv",index=False)

#### 4 - Opérations sur le fichier CSV burkina_location.csv.

In [10]:
# Chargement des données
burkina_location = pd.read_csv("burkina_location.csv",index_col=None)

#Visualisation des 5 première lignes
burkina_location.head()

Unnamed: 0,ID,location_name,lat,long
0,2282318,Pouene,9.72908,-2.7866
1,2285251,Leraba Occidentale,10.28333,-5.11667
2,2287216,Keleouoro,9.80748,-4.05023
3,2294066,White Volta,8.70194,-0.99056
4,2298457,Issana Bouga,10.91667,-1.18333


##### 4.1 Extraire les données contenant le nom 'gounghin', enregistrez-le sous le fichier gounghin.csv

In [11]:
# Filtrer les lignes contenant le nom 'gounghin'
gounghin_df = burkina_location[burkina_location['location_name'].str.contains('gounghin', case=False)]
gounghin_df.head()

Unnamed: 0,ID,location_name,lat,long
153,2353306,Gounghin,12.06677,-1.42134
7270,2360473,Gounghin,12.62488,-1.36398
10259,2570204,Gounghin,12.31436,-1.379
10745,10342749,Gounghin,12.06667,-0.15
10758,10629032,BICIAB // Gounghin,12.35921,-1.54273


In [12]:
gounghin_df.shape

(10, 4)

In [13]:
# Enregistrement sous le fichier gounghin.csv
gounghin_df.to_csv("gounghin.csv", index=False)

##### 4.2 extraire la sous-partie de la base de données (fichier burkina_location.csv), dont les noms les premières lettres des noms de lieux sont compris entre 'A' et 'P' (ordre alphabétique)

In [14]:
location_names_A_to_P = (burkina_location[burkina_location['location_name'].str[0].str.upper().between('A', 'P')]).sort_values(by='location_name')
print(location_names_A_to_P)

             ID        location_name       lat     long
10647   6913771               Abanda  15.06808 -0.59805
10032   2363251               Abanga  13.32429  0.31151
11092  11980339               Abassi  12.27728 -1.13662
10600   6874881                Abaye  13.44080 -3.90190
10031   2363250             Aberekui  12.50000 -3.41667
...         ...                  ...       ...      ...
10390   2597270  Province du Zondoma  13.18333 -2.36667
3118    2356291              Pwedogo  12.67657 -1.86640
3117    2356290                Pwiga  14.42583 -0.50691
3116    2356289             Pyeongou  12.11667  0.55000
3114    2356287             Pyourgou  12.25000 -0.46667

[8134 rows x 4 columns]


#### 4.3 Identifiez respectivement, la latitude, la longitude minimale et les noms de lieux correspondants

###### * Latitude minimale et lieu correspondant

In [15]:
# Indice de la latitude minimale
idx_min_lat = burkina_location['lat'].idxmin()

# Latitude minimale et nom de la localité correspndant
min_lat_and_loc_name = burkina_location.loc[idx_min_lat, ['lat','location_name']]
print(min_lat_and_loc_name)

lat              5.21609
location_name      Komoe
Name: 6018, dtype: object


###### * longitude minimale et lieu correspondant

In [16]:
# Indice de la latitude minimale
idx_min_lon = burkina_location['long'].idxmin()

# Latitude minimale et nom de la localité correspndant
min_long_and_loc_name = burkina_location.loc[idx_min_lon, ['long','location_name']]
print(min_long_and_loc_name)

long             -5.65968
location_name    Banifing
Name: 4221, dtype: object


#### 4.4 Quels sont les lieux dont les coordonnées sont comprises entre (lat >= 11 et lon <= 0.5)


In [17]:
lieu_lat_sup11_lon_inf05 = burkina_location[(burkina_location['lat'] >= 11) & (burkina_location['long'] <= 0.5)]
print(lieu_lat_sup11_lon_inf05)

             ID    location_name       lat     long
5       2353158         Zyonguen  12.36667 -0.45000
6       2353159        Zyiliwele  12.38333 -2.73333
7       2353160           Zyanko  12.78333 -0.41667
8       2353161            Zouta  13.14908 -1.28197
9       2353162        Zourtenga  12.95741 -1.28745
...         ...              ...       ...      ...
11706  12687046         Monde-So  14.20081 -1.63983
11707  12688694          Yerfing  11.33747 -3.35025
11709  12688713  Tinonguen-Peulh  11.64924 -0.22063
11711  12720016            Yimdi  12.31014 -1.66322
11712  12746364           Dabogo  11.49058  0.12698

[9282 rows x 4 columns]


#### 5. Sorties Excel

À partir des extractions de l'étape 4 :
- Créer un fichier Excel et nommer le : mini_projet
- Créer une feuille dans ce fichier, du nom gounghin et enregistrer les données contenant le nom 'gounghin' obtenues dans 4.1
- Créer une second feuille dans ce même fichier, du nom A_to_P et enregistrer les données de 4.2

In [18]:
# Créer un fichier Excel et nommer le : mini_projet
writer = pd.ExcelWriter("mini_projet.xlsx", engine='xlsxwriter')

#Créer une feuille dans ce fichier, du nom gounghin et enregistrer les données contenant le nom 'gounghin' obtenues dans 4.1
gounghin_df.to_excel(writer, sheet_name='gounghin', index=False)

# Écrire les données filtrées dans une feuille nommée 'A_to_P'
location_names_A_to_P.to_excel(writer, sheet_name='A_to_P', index=False)

writer.close()
