## Analyse des villes de France

In [None]:
#importation des librairies
import pandas as pd
import os

In [None]:
#paramètres de l'application
chemin_fichier = "./Data/Villes_France"
fichier_departements = os.path.join(chemin_fichier, "departements.csv")
fichier_villes = os.path.join(chemin_fichier, "villes.csv")
print(fichier_departements)
print(fichier_villes)

In [None]:
# 1. Générez les dataframes `df_departements` et  `df_villes`
df_departements = pd.read_csv(fichier_departements, dtype={"departement_code": "string"})

df_departements

In [None]:
df_villes = pd.read_csv(fichier_villes, dtype={"ville_departement": "string", "ville_code_commune": "string"})

df_villes

In [None]:
# 2. Affichez la liste des 10 villes les plus peuplées en 2012
df_villes_plus_peuplees = df_villes \
    .sort_values("ville_population_2012", ascending=False) \
    .head(10)

df_villes_plus_peuplees[["ville_nom", "ville_population_2012"]]

In [None]:
df_villes_plus_peuplees["ville_nom"].to_list()

In [None]:
# 3. Obtenez la liste des 10 villes ayant la plus faible superficie
df_faible_superficie = df_villes \
    .sort_values("ville_surface") \
    .head(10)

df_faible_superficie[["ville_nom", "ville_surface"]]

In [None]:
df_faible_superficie["ville_nom"].to_list()

In [None]:
# 4.Obtenez la liste des départements d’outres-mer (le département commence par "97")
df_departements_outres_mer = df_departements[df_departements["departement_code"].str.startswith("97")]
df_departements_outres_mer

In [None]:
df_departements_outres_mer["departement_nom"].to_list()

In [None]:
# 5. Obtenez le nom des 10 villes les plus peuplées en 2012, ainsi que le nom du département associé.
df_all = df_villes.merge(df_departements, left_on="ville_departement", right_on="departement_code", how="left")
df_all

In [None]:
df_villes_plus_peuplees = df_all \
    .sort_values("ville_population_2012", ascending=False) \
    .head(10)
    
df_villes_plus_peuplees[["ville_nom", "departement_nom", "ville_population_2012"]]

In [None]:
# 6. Obtenez la liste du nom de chaque département, associé à son code et du nombre de communes au sein de ces départements
df_departements_nb_communes = df_departements.merge(df_villes, left_on="departement_code", right_on="ville_departement", how="left") \
    .groupby(["departement_nom", "departement_code"]) \
    .agg(nombre_communes=("ville_nom", "count")) \
    .sort_values("nombre_communes", ascending=False)

df_departements_nb_communes

In [None]:
# 7. Obtenir la liste des 10 plus grands départements, en terme de superficie
df_departements_nb_communes = df_all \
    .groupby("departement_nom") \
    .agg(surface=("ville_surface", "sum")) \
    .sort_values("surface", ascending=False)

df_departements_nb_communes.head(10)

In [None]:
# 8. Comptez le nombre de villes dont le nom commence par "Saint".
df_villes_saint = df_villes[df_villes["ville_nom"].str.upper().str.startswith("SAINT")]
len(df_villes_saint)

In [None]:
# 9. Obtenez la liste des villes qui ont un nom existants plusieurs fois
df_villes.groupby("ville_nom") \
    .agg(nombre_ville=("ville_nom", "count")) \
    .sort_values("nombre_ville", ascending=False)

In [None]:
# 10. Obtenir la liste des villes dont la superficie est supérieure à la superficie moyenne.
moyenne_surface = df_villes["ville_surface"].mean()
moyenne_surface

In [None]:
df_villes_grande_superficie = df_villes[df_villes["ville_surface"] > moyenne_surface]
df_villes_grande_superficie[["ville_nom", "ville_surface"]]

In [None]:
# 11. Obtenez la liste des départements qui possèdent plus de 2 millions d’habitants
df_departements_somme_habitants = df_all \
    .groupby("departement_nom") \
    .agg(somme_habitants=("ville_population_2012", "sum"))

df_departements_2m_habitants = df_departements_somme_habitants[df_departements_somme_habitants["somme_habitants"] > 2_000_000]
df_departements_2m_habitants

In [None]:
df_departements_2m_habitants.index.to_list()

In [None]:
df_departements[df_departements["departement_nom"].isin(df_departements_2m_habitants.index)]

In [None]:
df_villes[df_villes["ville_nom"].str.upper().str.startswith("SAINT-")]

In [None]:
# 12. Dans votre DataFrame `df_villes`, remplacez les tirets par un espace vide, pour toutes les villes commençant par "SAINT-"
def remplacement_nom(nom_ville):
    if nom_ville.startswith("SAINT-"):
        return nom_ville.replace("-", " ")
    return nom_ville

df_villes["ville_nom"] = df_villes["ville_nom"].apply(remplacement_nom)

In [None]:
#Affichage des villes dont le nom commence par "SAINT"
df_villes[df_villes["ville_nom"].str.upper().str.startswith("SAINT")]

#df_villes[df_villes["ville_nom"].apply(lambda ville: ville.upper().startswith("SAINT"))]

In [None]:
#Autre méthode
df_villes.loc[df_villes["ville_nom"].str.upper().str.startswith("SAINT-"), "ville_nom"] = \
    df_villes["ville_nom"].str.replace("-", " ", regex=False)

df_villes[df_villes["ville_nom"].str.upper().str.startswith("SAINT")]

In [None]:
df_clone = df_villes.copy()

display(df_clone.loc[df_clone["ville_nom"].str.upper().str.startswith("SAINT-"), "ville_nom"])

#equivalent
display(df_clone[df_clone["ville_nom"].str.upper().str.startswith("SAINT-")]["ville_nom"])

## loc et iloc

In [None]:
df_villes

In [None]:
df_villes.loc[2, "ville_nom_simple"]

In [None]:
df_villes.iloc[2:5, 3:5]