In [1]:
# Importations des librairies Python Necessaire

import pandas as pd
import zipfile

In [2]:
''' 
    Prétraitement et filtres nécessaires à ce fichier, pour ne garder que les colonnes correspondantes 
        geonameid → ID
        name → location_name
        latitude → lat
        longitude → long
        
'''
# Dézipper le fichier dans un dossier data
with zipfile.ZipFile("BF.zip", "r") as zip_ref:
    zip_ref.extractall("data")

# Charger le fichier BF.txt avec tabulation comme séparateur et ne Conserver que les colonnes correspondante en les renomant et finalement sauvegarder le tout 
df = pd.read_csv("data/BF.txt", sep="\t", header=None, dtype=str)

df = df[[0, 1, 4, 5]]
df.columns = ["ID", "location_name", "lat", "long"]


df.to_csv("burkina_location.csv", index=False)
print("Nombre total de lieux :", len(df))




Nombre total de lieux : 11958


In [3]:
'''
    Extraction 1
    extraire les données contenant le nom 'gounghin', enregistrez-le sous le fichier gounghin.csv
'''

gounghin_df = df[df['location_name'].str.contains("gounghin", case=False, na=False)]
gounghin_df.to_csv("gounghin.csv", index=False)

print("Nombre de lieux contenant 'gounghin' :  ", len(gounghin_df))
print(gounghin_df)

Nombre de lieux contenant 'gounghin' :   10
             ID                  location_name       lat      long
153     2353306                       Gounghin  12.06677  -1.42134
7269    2360473                       Gounghin  12.62488  -1.36398
10260   2570204                       Gounghin  12.31436    -1.379
10746  10342749                       Gounghin  12.06667     -0.15
10759  10629032             BICIAB // Gounghin  12.35921  -1.54273
10818  11257296            Gounghin Department  12.06671  -0.15484
10845  11900526                  Gounghin Nord   12.3612  -1.55055
10846  11900528  Zone Industrielle de Gounghin  12.36631  -1.54137
10852  11900619                   Gounghin Sud  12.35298  -1.54342
10866  11900680                       Gounghin  12.35895  -1.54442


In [4]:
'''
    Extraction 2
    extraire la sous-partie de la base de données (fichier burkina_location.csv), dont les noms les premières lettres des noms de lieux sont compris entre 'A' et 'P' (ordre alphabétique)
'''
# fix 1.0.1 : ignorer la casse pour un meilleur resultat
A_to_P_df = df[df['location_name'].str[0].str.upper().between('A', 'P')]

#fix 1.0.1 ajouter key=lambda x: x.str.upper() qui permet d’ignorer la casse pour un vrai ordre alphabétique global
A_to_P_df = A_to_P_df.sort_values(by='location_name', key=lambda x: x.str.upper())
print("Nom do lieux dont les noms les premières lettres  sont compris entre 'A' et 'P' (ordre alphabétique) :  ", len(A_to_P_df))
print (A_to_P_df)

Nom do lieux dont les noms les premières lettres  sont compris entre 'A' et 'P' (ordre alphabétique) :   8306
             ID location_name       lat      long
10648   6913771        Abanda  15.06808  -0.59805
10031   2363251        Abanga  13.32429   0.31151
11093  11980339        Abassi  12.27728  -1.13662
10601   6874881         Abaye   13.4408   -3.9019
10029   2363249          Abra   13.0914  -1.34752
...         ...           ...       ...       ...
10111   2570015       Pézinga  12.05298  -1.47002
3478    2356655            Pê      11.3  -3.53333
3279    2356453            Pô      12.3  -2.61667
3280    2356454            Pô  11.16972    -1.145
10394   6296406    Pô Airport  11.17854  -1.14498

[8306 rows x 4 columns]


In [5]:
'''
    Extraction 3/Traitement
    Identifiez respectivement, la latitude, la longitude minimale et les noms de lieux correspondants
'''
A_to_P_df['lat'] = A_to_P_df['lat'].astype(float)
A_to_P_df['long'] = A_to_P_df['long'].astype(float)
min_lat = A_to_P_df['lat'].min()
min_long = A_to_P_df['long'].min()

print("Latitude minimale :", min_lat)
print("Longitude minimale :", min_long)

# Lieux correspondants
lieux_min = A_to_P_df[
    (A_to_P_df['lat'].astype(float) == min_lat) |
    (A_to_P_df['long'].astype(float) == min_long)
]
print("\nLieux dont la latitude ou longitude est minimale :")
print(lieux_min)

Latitude minimale : 5.21609
Longitude minimale : -5.65968

Lieux dont la latitude ou longitude est minimale :
           ID location_name       lat     long
4220  2357400      Banifing  12.01147 -5.65968
6017  2359210         Komoé   5.21609 -3.71793


In [6]:
'''
    Extraction 4
    Quels sont les lieux dont les coordonnées sont comprises entre (lat >= 11 et lon <= 0.5)
'''

df['lat'] = df['lat'].astype(float)
df['long'] = df['long'].astype(float)

coord_df = df[
        (df['lat'] >= 11) & 
        (df['long'] <= 0.5)
]

print("Nombre de lieux avec lat >= 11 et long <= 0.5 :", len(coord_df))
print(coord_df)


Nombre de lieux avec lat >= 11 et long <= 0.5 : 9466
             ID location_name       lat     long
5       2353158      Zyonguen  12.36667 -0.45000
6       2353159     Zyiliwèlè  12.38333 -2.73333
7       2353160        Zyanko  12.78333 -0.41667
8       2353161         Zouta  13.14908 -1.28197
9       2353162     Zourtenga  12.95741 -1.28745
...         ...           ...       ...      ...
11953  13494828     Tounougou  11.21462 -0.06965
11954  13494829         Karmé  11.66346  0.08201
11955  13494830     Damdamkom  11.14989  0.43655
11956  13494831       Dazenré  11.43801  0.21293
11957  13494832   Pogoyoaguen  11.44725  0.21074

[9466 rows x 4 columns]


In [7]:
'''
        Sorties Excel
            À partir des extractions de l'étape 4 :
            Créer un fichier Excel et nommer le : mini_projet
            Créer une feuille dans ce fichier, du nom gounghin et enregistrer les données contenant le nom 'gounghin' obtenues dans 4.1
            Créer une second feuille dans ce même fichier, du nom A_to_P et enregistrer les données de 4.2
'''

with pd.ExcelWriter("mini_projet.xlsx") as writer:
    gounghin_df.to_excel(writer, sheet_name="gounghin", index=False)
    A_to_P_df.to_excel(writer, sheet_name="A_to_P", index=False)
print("Fichier Excel 'mini_projet.xlsx' créé avec succès !")

xls = pd.ExcelFile("mini_projet.xlsx")
print("\nFeuilles disponibles :", xls.sheet_names)


# Apercu
for sheet in xls.sheet_names:
    print(f"\n--- Contenu(10 premieres lignes) de la feuille '{sheet}' ---")
    df_sheet = pd.read_excel(xls, sheet_name=sheet)
    print(df_sheet.head(10)) 


Fichier Excel 'mini_projet.xlsx' créé avec succès !

Feuilles disponibles : ['gounghin', 'A_to_P']

--- Contenu(10 premieres lignes) de la feuille 'gounghin' ---
         ID                  location_name       lat     long
0   2353306                       Gounghin  12.06677 -1.42134
1   2360473                       Gounghin  12.62488 -1.36398
2   2570204                       Gounghin  12.31436 -1.37900
3  10342749                       Gounghin  12.06667 -0.15000
4  10629032             BICIAB // Gounghin  12.35921 -1.54273
5  11257296            Gounghin Department  12.06671 -0.15484
6  11900526                  Gounghin Nord  12.36120 -1.55055
7  11900528  Zone Industrielle de Gounghin  12.36631 -1.54137
8  11900619                   Gounghin Sud  12.35298 -1.54342
9  11900680                       Gounghin  12.35895 -1.54442

--- Contenu(10 premieres lignes) de la feuille 'A_to_P' ---
         ID location_name       lat     long
0   6913771        Abanda  15.06808 -0.59805
1   2