In [110]:
import pandas as pd

In [108]:
%pip install XlsxWriter

Note: you may need to restart the kernel to use updated packages.


In [112]:
# Définition des noms des colonnes d’après le README GeoNames
colnames = [
    'geonameid','name','asciiname','alternatenames','latitude','longitude',
    'feature_class','feature_code','country_code','cc2',
    'admin1_code','admin2_code','admin3_code','admin4_code',
    'population','elevation','dem','timezone','modification_date'
]

# Lecture du fichier BF.txt
df = pd.read_csv("BF.txt", sep="\t", header=None, names=colnames, dtype=str)

# Vérification du chargement
print("Nombre total de lignes :", len(df))
print("Colonnes lues :", df.columns.tolist())
print("\nAperçu des 5 premières lignes :")
print(df.head())

Nombre total de lignes : 11958
Colonnes lues : ['geonameid', 'name', 'asciiname', 'alternatenames', 'latitude', 'longitude', 'feature_class', 'feature_code', 'country_code', 'cc2', 'admin1_code', 'admin2_code', 'admin3_code', 'admin4_code', 'population', 'elevation', 'dem', 'timezone', 'modification_date']

Aperçu des 5 premières lignes :
  geonameid                name           asciiname  \
0   2282318              Pouéné              Pouene   
1   2285251  Léraba Occidentale  Leraba Occidentale   
2   2287216           Kéléouoro           Keleouoro   
3   2294066         White Volta         White Volta   
4   2298457        Issana Bouga        Issana Bouga   

                                      alternatenames  latitude longitude  \
0                                                NaN   9.72908   -2.7866   
1  Badini,La Leraba Occidentale,Leraba,Leraba Occ...  10.28333  -5.11667   
2              Keleouoro,Keleworo,Kéléouoro,Kéléworo   9.80748  -4.05023   
3  Nakambe,Nakambé,Nakan

In [114]:
#3. Appliquer les opérations de prétraitement et filtres

#3.1. Sélection des colonnes demandées
df_small = df[['geonameid', 'name', 'latitude', 'longitude']].copy()

#3.2. Renommage des colonnes 
df_small.rename(
    columns={
        'geonameid': 'ID',
        'name': 'location_name',
        'latitude': 'lat',
        'longitude': 'long'
    },
    inplace=True
    )
print(df_small.head())

        ID       location_name       lat      long
0  2282318              Pouéné   9.72908   -2.7866
1  2285251  Léraba Occidentale  10.28333  -5.11667
2  2287216           Kéléouoro   9.80748  -4.05023
3  2294066         White Volta   8.70194  -0.99056
4  2298457        Issana Bouga  10.91667  -1.18333


In [29]:
#3.3. Sauvegarde des données dans un fichier CSV, nommé burkina_location.csv
df_small.to_csv("burkina_location.csv", index=False)

df_small = pd.read_csv("burkina_location.csv")

# Affichons les 5 premières lignes
df_small.head()

Unnamed: 0,ID,location_name,lat,long
0,2282318,Pouéné,9.72908,-2.7866
1,2285251,Léraba Occidentale,10.28333,-5.11667
2,2287216,Kéléouoro,9.80748,-4.05023
3,2294066,White Volta,8.70194,-0.99056
4,2298457,Issana Bouga,10.91667,-1.18333


In [72]:
#4.1 Extraction des données contenant "gounghin"

# On convertit tout en minuscule pour être sûr de ne pas rater à cause de la casse
df_gounghin = df_small[df_small['location_name'].str.lower().str.contains('gounghin')]

# Sauvegarde dans un fichier gounghin.csv
df_gounghin.to_csv("gounghin.csv", index=False)

print("Nombre de lignes de gounghin :", len(df_gounghin))

df_gounghin.head()                  

Nombre de lignes de gounghin : 10


Unnamed: 0,ID,location_name,lat,long
153,2353306,Gounghin,12.06677,-1.42134
7269,2360473,Gounghin,12.62488,-1.36398
10260,2570204,Gounghin,12.31436,-1.379
10746,10342749,Gounghin,12.06667,-0.15
10759,10629032,BICIAB // Gounghin,12.35921,-1.54273


In [74]:
#4.2 Extraction des noms de lieux dont la première lettre est entre 'A' et 'P'

# On utilise str[0] pour prendre la première lettre et on compare avec l'intervalle alphabétique
df_A_to_P = df_small[
    df_small['location_name'].str[0].str.upper().between('A', 'P')
]

# Sauvegarde dans A_to_P.csv
df_A_to_P.to_csv("A_to_P.csv", index=False)

print("Nombre de lignes de A_to_P :", len(df_A_to_P))

df_A_to_P.head()


Nombre de lignes de A_to_P : 8306


Unnamed: 0,ID,location_name,lat,long
0,2282318,Pouéné,9.72908,-2.7866
1,2285251,Léraba Occidentale,10.28333,-5.11667
2,2287216,Kéléouoro,9.80748,-4.05023
4,2298457,Issana Bouga,10.91667,-1.18333
137,2353290,Forêt Classée de Ziga,12.47106,-1.08644


In [76]:
#4.3 Identification de la latitude minimale, de la longitude minimale et des noms de lieux correspondants

# Conversion des colonnes lat et long en float pour pouvoir chercher min
df_small['lat'] = df_small['lat'].astype(float)
df_small['long'] = df_small['long'].astype(float)

# Recherche de la latitude minimale
lat_min = df_small['lat'].min()
lieux_lat_min = df_small[df_small['lat'] == lat_min]['location_name'].tolist()

# Recherche de la longitude minimale
long_min = df_small['long'].min()
lieux_long_min = df_small[df_small['long'] == long_min]['location_name'].tolist()

print("Latitude minimale :", lat_min, "Nom du lieu correspondant :", lieux_lat_min)
print("Longitude minimale :", long_min, "Nom du lieu correspondant :", lieux_long_min)

Latitude minimale : 5.21609 Nom du lieu correspondant : ['Komoé']
Longitude minimale : -5.65968 Nom du lieu correspondant : ['Banifing']


In [63]:
# 4.4 les lieux dont les coordonnées sont comprises entre (lat >= 11 et lon <= 0.5)
df_coords = df_small[(df_small['lat'] >= 11) & (df_small['long'] <= 0.5)]

print("Lieux filtrés selon lat >= 11 et long <= 0.5 :")
print(df_coords)

# Sauvegarde optionnelle
df_coords.to_csv("coords_filter.csv", index=False)

Lieux filtrés selon lat >= 11 et long <= 0.5 :
             ID location_name       lat     long
5       2353158      Zyonguen  12.36667 -0.45000
6       2353159     Zyiliwèlè  12.38333 -2.73333
7       2353160        Zyanko  12.78333 -0.41667
8       2353161         Zouta  13.14908 -1.28197
9       2353162     Zourtenga  12.95741 -1.28745
...         ...           ...       ...      ...
11953  13494828     Tounougou  11.21462 -0.06965
11954  13494829         Karmé  11.66346  0.08201
11955  13494830     Damdamkom  11.14989  0.43655
11956  13494831       Dazenré  11.43801  0.21293
11957  13494832   Pogoyoaguen  11.44725  0.21074

[9466 rows x 4 columns]


In [106]:
# 5. Création du fichier Excel 
with pd.ExcelWriter("mini_projet.xlsx", engine="xlsxwriter") as writer:
    df_gounghin.to_excel(writer, sheet_name="gounghin", index=False)
    df_A_to_P.to_excel(writer, sheet_name="A_to_P", index=False)

print("Feuilles créées : gounghin, A_to_P")

#6. Vérification et aperçu
excel_file = pd.ExcelFile("mini_projet.xlsx")
print("Les feuilles présentes :", excel_file.sheet_names, "\n")

for sheet in excel_file.sheet_names:
    print(f"Aperçu de la feuille : {sheet}")
    df_sheet = pd.read_excel(excel_file, sheet_name=sheet)
    print(df_sheet.head(), "\n")


Feuilles créées : gounghin, A_to_P
Les feuilles présentes : ['gounghin', 'A_to_P'] 

Aperçu de la feuille : gounghin
         ID       location_name       lat     long
0   2353306            Gounghin  12.06677 -1.42134
1   2360473            Gounghin  12.62488 -1.36398
2   2570204            Gounghin  12.31436 -1.37900
3  10342749            Gounghin  12.06667 -0.15000
4  10629032  BICIAB // Gounghin  12.35921 -1.54273 

Aperçu de la feuille : A_to_P
        ID          location_name       lat     long
0  2282318                 Pouéné   9.72908 -2.78660
1  2285251     Léraba Occidentale  10.28333 -5.11667
2  2287216              Kéléouoro   9.80748 -4.05023
3  2298457           Issana Bouga  10.91667 -1.18333
4  2353290  Forêt Classée de Ziga  12.47106 -1.08644 

