# MINI PROJET Data Processing - Data Viz

### Université Virtuelle du Burkina - Master I Fouille de Données et Intélligence Artificielle

######  OUEDRAOGO Relwindé Guillaume Victorien

## Téléchargement du fichier zip correspondant au Burkina Faso

In [1]:
#Import des différents API nécéssaires
import requests 
import zipfile
import io
import pandas as pd

In [2]:
# URL du fichier zip correspondant aux données du Burkina Faso à télécharger
url = "https://download.geonames.org/export/dump/BF.zip"

In [3]:
# Tentative de téléchargement du fichier zip
response = requests.get(url)

In [4]:
# Vérification du succès du téléchargement
if response.status_code == 200:
    
    # Extraction du contenu du fichier zip
    with zipfile.ZipFile(io.BytesIO(response.content), 'r') as zip_ref:
        zip_ref.extractall("./BFA_DATA")
    print("Succès")
else:
    print("Erreur")

Succès


## Opérations de prétraitement et filtres

In [6]:
# Chemin vers le fichier texte pour l'importer
chemin_fichier = "./BFA_DATA/BF.txt"

# Conformement au ReadMe les noms des colonnes:
noms_colonnes = [ 'geonameid','name','asciiname','alternatenames','latitude','longitude','feature class','feature code','country code','cc2','admin1 cod','admin2 code','admin3 code','admin4 code','population','elevation','dem' ,'timezone','modification date']

In [7]:
# Importation du fichier
data = pd.read_csv(chemin_fichier, delimiter='\t', names=noms_colonnes)
data.head()


Unnamed: 0,geonameid,name,asciiname,alternatenames,latitude,longitude,feature class,feature code,country code,cc2,admin1 cod,admin2 code,admin3 code,admin4 code,population,elevation,dem,timezone,modification date
0,2282318,Pouéné,Pouene,,9.72908,-2.7866,H,STM,BF,,0,,,,0,,226,Africa/Abidjan,2023-11-07
1,2285251,Léraba Occidentale,Leraba Occidentale,"Badini,La Leraba Occidentale,Leraba,Leraba Occ...",10.28333,-5.11667,H,STM,BF,CI,0,,,,0,,283,Africa/Abidjan,2023-11-07
2,2287216,Kéléouoro,Keleouoro,"Keleouoro,Keleworo,Kéléouoro,Kéléworo",9.80748,-4.05023,H,STM,BF,"BF,CI",0,,,,0,,261,Africa/Abidjan,2023-11-07
3,2294066,White Volta,White Volta,"Nakambe,Nakambé,Nakanbe,Nakanbé,Volta Blanche,...",8.70194,-0.99056,H,STM,BF,GH,0,,,,0,,75,Africa/Accra,2023-11-08
4,2298457,Issana Bouga,Issana Bouga,"Issana Bouga,Lanyung,Lanyunga",10.91667,-1.18333,H,STM,BF,,0,,,,0,,178,Africa/Accra,2023-11-08


In [8]:
# Sélection des colonnes spécifiées : Identifiants, Noms de lieux, latitudes, longitudes
data = data[['geonameid', 'name', 'latitude', 'longitude']]

In [9]:
# Renom des colonnes
data.columns = ['ID', 'location_name', 'lat', 'long']

In [10]:
data.head()

Unnamed: 0,ID,location_name,lat,long
0,2282318,Pouéné,9.72908,-2.7866
1,2285251,Léraba Occidentale,10.28333,-5.11667
2,2287216,Kéléouoro,9.80748,-4.05023
3,2294066,White Volta,8.70194,-0.99056
4,2298457,Issana Bouga,10.91667,-1.18333


In [11]:
# Sauvegarde des données dans un fichier CSV
data.to_csv("burkina_location.csv", index=False)

## Opérations sur le fichier CSV burkina_location.csv.

### ° Extraire les données contenant le nom 'gounghin', enregistrez-le sous le fichier gounghin.csv

In [12]:
# Lecture du fichier CSV
burkina_location = pd.read_csv("burkina_location.csv")

# Extraction des données contenant le nom 'gounghin'
gounghin= burkina_location[burkina_location['location_name'].str.contains('gounghin', case=False)]

gounghin.head()

Unnamed: 0,ID,location_name,lat,long
153,2353306,Gounghin,12.06677,-1.42134
7270,2360473,Gounghin,12.62488,-1.36398
10259,2570204,Gounghin,12.31436,-1.379
10745,10342749,Gounghin,12.06667,-0.15
10758,10629032,BICIAB // Gounghin,12.35921,-1.54273


In [13]:
# Enregistrement des données extraites dans un fichier CSV
gounghin.to_csv("gounghin.csv", index=False)

### ° Extraire la sous-partie de la base de données (fichier burkina_location.csv), dont les premières lettres des noms de lieux sont compris entre 'A' et 'P' (ordre alphabétique)

In [14]:
# Extraction des données dont les noms de lieux commencent par les lettres entre 'A' et 'P'
data_ap = burkina_location[burkina_location['location_name'].str[0].between('A', 'P', inclusive='both')].sort_values(by='location_name')

data_ap.head(2000)


Unnamed: 0,ID,location_name,lat,long
10647,6913771,Abanda,15.06808,-0.59805
10032,2363251,Abanga,13.32429,0.31151
11092,11980339,Abassi,12.27728,-1.13662
10600,6874881,Abaye,13.44080,-3.90190
10030,2363249,Abra,13.09140,-1.34752
...,...,...,...,...
8321,2361530,Dassissé,12.57782,-1.94296
8312,2361521,Dassèmbinda,12.93333,-0.38333
8311,2361520,Dassèmnatenga,13.09091,-0.68011
8313,2361522,Dassé,12.44035,-4.08806


### ° Identifiez respectivement, la latitude, la longitude minimale et les noms de lieux correspondants

In [15]:
# L'index de la ligne avec la latitude minimale
index_min_latitude = burkina_location['lat'].idxmin()

# L'index de la ligne avec la longitude minimale
index_min_longitude = burkina_location['long'].idxmin()

# Noms de lieux correspondants
nom_min_latitude = burkina_location.loc[burkina_location['lat'].idxmin(), 'location_name']
nom_min_longitude = burkina_location.loc[burkina_location['long'].idxmin(), 'location_name']

In [17]:
print("Nom du lieu: ",nom_min_latitude, "--- Latitude minimale :", burkina_location.loc[index_min_latitude, 'lat'], "\n")
print("Nom du lieu: ",nom_min_longitude,"--- Longitude minimale :", burkina_location.loc[index_min_longitude, 'long'])

Nom du lieu:  Komoé --- Latitude minimale : 5.21609 

Nom du lieu:  Banifing --- Longitude minimale : -5.65968


### ° Les lieux dont les coordonnées sont comprises entre (lat >= 11 et lon <= 0.5)

In [18]:
filtre = burkina_location[(burkina_location['lat'] >= 11) & (burkina_location['long'] <= 0.5)]

filtre.head(200)

Unnamed: 0,ID,location_name,lat,long
5,2353158,Zyonguen,12.36667,-0.45000
6,2353159,Zyiliwèlè,12.38333,-2.73333
7,2353160,Zyanko,12.78333,-0.41667
8,2353161,Zouta,13.14908,-1.28197
9,2353162,Zourtenga,12.95741,-1.28745
...,...,...,...,...
213,2353366,Zanzi,13.01473,-1.20985
214,2353367,Zanvi,12.95963,-1.14586
215,2353368,Zanren,12.05000,-0.28333
216,2353369,Zanré,12.06667,-0.05000


## Sorties Excel

In [19]:
# Création du fichier Excel
with pd.ExcelWriter('mini_projet.xlsx', engine='openpyxl') as writer:
    # Écrire les données 'gounghin' dans une feuille nommée 'gounghin'
    gounghin.to_excel(writer, sheet_name='gounghin', index=False)
    
    # Écrire les données de 'A_to_P' dans une feuille nommée 'A_to_P'
    data_ap.to_excel(writer, sheet_name='A_to_P', index=False)