In [55]:
from time import sleep
import requests
import pandas as pd
from tqdm import tqdm

In [None]:
API_KEY = ""
LOCATION = "48.8566,2.3522"  # Paris
RADIUS = 2000  # 2 km
TYPE = "restaurant"

# Endpoint principal
url = f"https://maps.googleapis.com/maps/api/place/nearbysearch/json"
DETAILS_URL = "https://maps.googleapis.com/maps/api/place/details/json"
NEARBY_SEARCH_URL = "https://maps.googleapis.com/maps/api/place/nearbysearch/json"

# Paramètres de la requête
params = {
    "location": LOCATION,
    "radius": RADIUS,
    "type": TYPE,
    "key": API_KEY
}

# Envoyer la requête
response = requests.get(url, params=params)
data = response.json()
i = 0 
# Afficher les résultats
for place in data.get("results", []):
    i += 1
    print (i)
    print(f"Nom: {place['name']}")
    print(f"Adresse: {place.get('vicinity', 'N/A')}")
    print(f"Note: {place.get('rating', 'N/A')} ({place.get('user_ratings_total', 0)} avis)")
    print("-" * 40)


1
Nom: Hotel Regina Louvre
Adresse: 2 Place des Pyramides, Paris
Note: 4.3 (644 avis)
----------------------------------------
2
Nom: Saint James Albany Paris Hôtel Spa
Adresse: 202 Rue de Rivoli, Paris
Note: 4 (1065 avis)
----------------------------------------
3
Nom: Le Relais Saint Germain
Adresse: 9 Carrefour de l'Odéon, Paris
Note: 4.3 (187 avis)
----------------------------------------
4
Nom: Hôtel Georgette
Adresse: 36 Rue du Grenier-Saint-Lazare, Paris
Note: 4.4 (471 avis)
----------------------------------------
5
Nom: Le Pavillon de la Reine
Adresse: 28 Place des Vosges, Paris
Note: 4.6 (571 avis)
----------------------------------------
6
Nom: Hotel Montalembert
Adresse: 3 Rue de Montalembert, Paris
Note: 4.7 (263 avis)
----------------------------------------
7
Nom: Grand Hôtel du Palais Royal
Adresse: 4 Rue de Valois, Paris
Note: 4.7 (953 avis)
----------------------------------------
8
Nom: Hotel Edouard VII
Adresse: 39 Avenue de l'Opéra, Paris
Note: 4.5 (482 avis)
-----

In [None]:
# Fonction pour récupérer les détails d'un lieu à partir de son place_id
def get_place_details(place_id):
    params = {
        "place_id": place_id,
        "key": API_KEY,
        "fields": "name,rating,user_ratings_total,formatted_address,geometry,types,opening_hours,price_level,website,international_phone_number,reviews"
    }
    response = requests.get(DETAILS_URL, params=params)
    return response.json().get("result", {})

# Fonction pour récupérer tous les lieux autour d'une localisation
def get_nearby_places():
    places_data = []
    next_page_token = None

    while True:
        params = {
            "location": LOCATION,
            "radius": RADIUS,
            "type": TYPE,
            "key": API_KEY
        }
        if next_page_token:
            params["pagetoken"] = next_page_token

        response = requests.get(NEARBY_SEARCH_URL, params=params)
        data = response.json()

        # Ajouter les résultats actuels
        places_data.extend(data.get("results", []))

        # Vérifier s'il y a une autre page
        next_page_token = data.get("next_page_token")
        if not next_page_token:
            break

    return places_data

# Récupération des données
print("Récupération des lieux...")
nearby_places = get_nearby_places()

print("Récupération des détails de chaque lieu...")
all_details = []
for place in nearby_places:
    details = get_place_details(place["place_id"])
    all_details.append(details)

# Stockage dans un DataFrame
df = pd.DataFrame(all_details)
# Sauvegarde en CSV (optionnel)
df.to_csv("places_details.csv", index=False)


Récupération des lieux...
Récupération des détails de chaque lieu...
                                   formatted_address  \
0           2 Pl. des Pyramides, 75001 Paris, France   
1             202 Rue de Rivoli, 75001 Paris, France   
2             9 Carr de l'Odéon, 75006 Paris, France   
3  36 Rue du Grenier-Saint-Lazare, 75003 Paris, F...   
4             28 Pl. des Vosges, 75003 Paris, France   

                                            geometry  \
0  {'location': {'lat': 48.86386539999999, 'lng':...   
1  {'location': {'lat': 48.86501200000001, 'lng':...   
2  {'location': {'lat': 48.8519758, 'lng': 2.3388...   
3  {'location': {'lat': 48.8632711, 'lng': 2.3526...   
4  {'location': {'lat': 48.85627299999999, 'lng':...   

  international_phone_number                                name  \
0          +33 1 42 60 31 10                 Hotel Regina Louvre   
1          +33 1 44 58 43 21  Saint James Albany Paris Hôtel Spa   
2          +33 1 44 27 07 97             Le Relais Sa

In [12]:
print(len(df))
df.head(2)

1200


Unnamed: 0,Nom,Adresse,Latitude,Longitude,Nombre d'avis,Note moyenne,Reviews,Arrondissement,Nombre de reviews (extraits)
0,Hotel Regina Louvre,"2 Pl. des Pyramides, 75001 Paris, France",48.863865,2.332549,644,4.3,"['I recently stayed at Hotel Regina, and it wa...",1er,5
1,Saint James Albany Paris Hôtel Spa,"202 Rue de Rivoli, 75001 Paris, France",48.865012,2.33071,1065,4.0,['bro can you please reopen already this was t...,1er,5


In [6]:
# Coordonnées centrales des 20 arrondissements de Paris
PARIS_COORDINATES = {
    "1er": "48.8626,2.3365",
    "2e": "48.8687,2.3429",
    "3e": "48.8636,2.3615",
    "4e": "48.8546,2.3589",
    "5e": "48.8446,2.3461",
    "6e": "48.8493,2.3302",
    "7e": "48.8561,2.3126",
    "8e": "48.8738,2.3115",
    "9e": "48.8767,2.3374",
    "10e": "48.8765,2.3602",
    "11e": "48.8579,2.3802",
    "12e": "48.8341,2.4176",
    "13e": "48.8275,2.3553",
    "14e": "48.8318,2.3221",
    "15e": "48.8412,2.2935",
    "16e": "48.8605,2.2672",
    "17e": "48.8850,2.3077",
    "18e": "48.8924,2.3449",
    "19e": "48.8894,2.3774",
    "20e": "48.8634,2.4003"
}

# Endpoints API
NEARBY_SEARCH_URL = "https://maps.googleapis.com/maps/api/place/nearbysearch/json"
DETAILS_URL = "https://maps.googleapis.com/maps/api/place/details/json"

# Fonction pour récupérer les détails d'un lieu à partir de son place_id
def get_place_details(place_id):
    params = {
        "place_id": place_id,
        "key": API_KEY,
        "fields": "name,rating,user_ratings_total,formatted_address,geometry,types,reviews"
    }
    response = requests.get(DETAILS_URL, params=params)
    return response.json().get("result", {})

# Fonction pour récupérer tous les lieux autour d'un point donné
def get_nearby_places(location):
    places_data = []
    next_page_token = None

    while True:
        params = {
            "location": location,
            "radius": RADIUS,
            "type": TYPE,
            "key": API_KEY
        }
        if next_page_token:
            params["pagetoken"] = next_page_token

        response = requests.get(NEARBY_SEARCH_URL, params=params)
        data = response.json()

        # Ajouter les résultats actuels
        places_data.extend(data.get("results", []))

        # Vérifier s'il y a une autre page
        next_page_token = data.get("next_page_token")
        if not next_page_token:
            break

        # Pause pour éviter de dépasser le quota
        sleep(2)

    return places_data

# Récupération des restaurants pour chaque arrondissement
all_restaurants = []
for arrondissement, coords in PARIS_COORDINATES.items():
    print(f"Récupération des restaurants pour le {arrondissement} arrondissement...")
    results = get_nearby_places(coords)
    for place in results:
        # Récupérer les détails supplémentaires
        details = get_place_details(place["place_id"])

        # Extraire les informations choisies
        restaurant_info = {
            "Nom": details.get("name", ""),
            "Adresse": details.get("formatted_address", ""),
            "Latitude": details.get("geometry", {}).get("location", {}).get("lat", ""),
            "Longitude": details.get("geometry", {}).get("location", {}).get("lng", ""),
            "Nombre d'avis": details.get("user_ratings_total", 0),
            "Note moyenne": details.get("rating", ""),
            "Reviews": [review.get("text", "") for review in details.get("reviews", [])]
        }
        restaurant_info["Arrondissement"] = arrondissement
        all_restaurants.append(restaurant_info)

# Stockage dans un DataFrame
df = pd.DataFrame(all_restaurants)

# Sauvegarde en CSV
df.to_csv("paris_restaurants2.csv", index=False)

print(f"Total des restaurants récupérés : {len(df)}")


Récupération des restaurants pour le 1er arrondissement...
Récupération des restaurants pour le 2e arrondissement...
Récupération des restaurants pour le 3e arrondissement...
Récupération des restaurants pour le 4e arrondissement...
Récupération des restaurants pour le 5e arrondissement...
Récupération des restaurants pour le 6e arrondissement...
Récupération des restaurants pour le 7e arrondissement...
Récupération des restaurants pour le 8e arrondissement...
Récupération des restaurants pour le 9e arrondissement...
Récupération des restaurants pour le 10e arrondissement...
Récupération des restaurants pour le 11e arrondissement...
Récupération des restaurants pour le 12e arrondissement...
Récupération des restaurants pour le 13e arrondissement...
Récupération des restaurants pour le 14e arrondissement...
Récupération des restaurants pour le 15e arrondissement...
Récupération des restaurants pour le 16e arrondissement...
Récupération des restaurants pour le 17e arrondissement...
Récup

In [53]:
%pip install tqdm

Collecting tqdm
  Using cached tqdm-4.67.1-py3-none-any.whl.metadata (57 kB)
Using cached tqdm-4.67.1-py3-none-any.whl (78 kB)
Installing collected packages: tqdm
Successfully installed tqdm-4.67.1
Note: you may need to restart the kernel to use updated packages.


In [56]:
def frange(start, stop, step):
    while start < stop:
        yield round(start, 10)  # Pour éviter les problèmes de précision
        start += step


API_KEY = "AIzaSyDI0A5drHyljFIVKp9DpUpPbwwRpjx9MYY"
RADIUS = 1000  # 1km
TYPE = "restaurant"

# Définir les limites géographiques de Paris
LAT_MIN, LAT_MAX = 48.8156, 48.9022
LON_MIN, LON_MAX = 2.2242, 2.4699
STEP = 0.018  # Correspond environ à 2 km

# Endpoints API
NEARBY_SEARCH_URL = "https://maps.googleapis.com/maps/api/place/nearbysearch/json"
DETAILS_URL = "https://maps.googleapis.com/maps/api/place/details/json"

# Fonction pour récupérer les détails d'un lieu à partir de son place_id
def get_place_details(place_id):
    params = {
        "place_id": place_id,
        "key": API_KEY,
        "fields": "name,rating,user_ratings_total,formatted_address,geometry,reviews"
    }
    response = requests.get(DETAILS_URL, params=params)
    return response.json().get("result", {})

# Fonction pour récupérer les lieux autour d'un point donné
def get_nearby_places(lat, lon):
    places_data = []
    next_page_token = None

    while True:
        params = {
            "location": f"{lat},{lon}",
            "radius": RADIUS,
            "type": TYPE,
            "key": API_KEY
        }
        if next_page_token:
            params["pagetoken"] = next_page_token

        response = requests.get(NEARBY_SEARCH_URL, params=params)
        data = response.json()

        # Ajouter les résultats actuels
        places_data.extend(data.get("results", []))

        # Vérifier s'il y a une autre page
        next_page_token = data.get("next_page_token")
        if not next_page_token:
            break

        # Pause pour éviter de dépasser le quota
        sleep(2)

    return places_data

# Créer une grille de points sur Paris
latitudes = [round(lat, 6) for lat in frange(LAT_MIN, LAT_MAX, STEP)]
longitudes = [round(lon, 6) for lon in frange(LON_MIN, LON_MAX, STEP)]
grid_points = [(lat, lon) for lat in latitudes for lon in longitudes]

# Récupérer les restaurants pour chaque point de la grille
all_restaurants = []
for lat, lon in tqdm(grid_points, desc="Récupération des restaurants"):
    results = get_nearby_places(lat, lon)
    for place in results:
        # Récupérer les détails supplémentaires
        details = get_place_details(place["place_id"])

        # Extraire les informations choisies
        restaurant_info = {
            "Nom": details.get("name", ""),
            "Adresse": details.get("formatted_address", ""),
            "Latitude": details.get("geometry", {}).get("location", {}).get("lat", ""),
            "Longitude": details.get("geometry", {}).get("location", {}).get("lng", ""),
            "Nombre d'avis": details.get("user_ratings_total", 0),
            "Note moyenne": details.get("rating", ""),
            "Reviews": [review.get("text", "") for review in details.get("reviews", [])]
        }
        all_restaurants.append(restaurant_info)

# Suppression des doublons par Nom et Adresse
df = pd.DataFrame(all_restaurants)
df = df.drop_duplicates(subset=["Nom", "Adresse"])

# Sauvegarde en CSV
df.to_csv("paris_restaurants_grid.csv", index=False)

print(f"Total des restaurants récupérés : {len(df)}")


Récupération des restaurants:   0%|          | 0/70 [00:00<?, ?it/s]

Récupération des restaurants: 100%|██████████| 70/70 [12:39<00:00, 10.85s/it]


Total des restaurants récupérés : 3387


### Data cleaning

In [57]:
file_path = 'paris_restaurants_grid.csv'
df = pd.read_csv(file_path, sep = ',')

In [58]:
def analyze_data(TradAvis):
    # Obtenir le type des colonnes
    column_types = TradAvis.dtypes
    # Compter les valeurs manquantes
    missing_values = TradAvis.isnull().sum()
    # Compter les valeurs uniques
    unique_values = TradAvis.nunique()
    #Compter les valeurs nan
    nan_values = TradAvis.isna().sum()

    # Créer un DataFrame pour résumer les informations
    summary = pd.DataFrame({
        'Column Type': column_types,
        'Missing Values': missing_values,
        'Unique Values': unique_values,
        'NaN Values': nan_values
    })
    return summary

# Appliquer la fonction et afficher le résumé
analysis_summary = analyze_data(df)
print(analysis_summary)
print(len(df))
df.head(1)

              Column Type  Missing Values  Unique Values  NaN Values
Nom                object               0           3030           0
Adresse            object               0           3176           0
Latitude          float64               0           3312           0
Longitude         float64               0           3323           0
Nombre d'avis       int64               0           1361           0
Note moyenne      float64             163             36         163
Reviews            object               0           3199           0
3387


Unnamed: 0,Nom,Adresse,Latitude,Longitude,Nombre d'avis,Note moyenne,Reviews
0,L'Escarbille,"8 Rue de Vélizy, 92190 Meudon, France",48.820215,2.226951,1004,4.7,"['While admittedly expensive, the food was exc..."


In [None]:
# 1. Nombre de lignes strictement identiques
duplicate_rows_count = df.duplicated().sum()

# 3. Extraction des lignes avec les mêmes latitude et longitude pour visualisation
lat_lon_duplicates = df[df.duplicated(subset=['Nom','Latitude', 'Longitude'], keep=False)]
print(f"Nombre de doublons dans la colonne 'Nom' : {len(lat_lon_duplicates)}")

# Drop duplicates based on the columns "Nom", "Latitude", and "Longitude"
df = df.drop_duplicates(subset=['Nom', 'Latitude', 'Longitude'], keep='first')

lat_lon_duplicates_count = df.duplicated(subset=['Latitude', 'Longitude']).sum()
print(f"Nombre de doublons dans la colonne 'Nom' : {len(lat_lon_duplicates)}")


Nombre de doublons dans la colonne 'Nom' : 0
Nombre de doublons dans la colonne 'Nom' : 0


In [61]:
# Drop the existing "Arrondissement" column
#df = df.drop(columns=['Arrondissement'])
# Function to extract the arrondissement based on the address
def extract_arrondissement(address):
    if '75001' in address:
        return '1er'
    elif '75002' in address:
        return '2e'
    elif '75003' in address:
        return '3e'
    elif '75004' in address:
        return '4e'
    elif '75005' in address:
        return '5e'
    elif '75006' in address:
        return '6e'
    elif '75007' in address:
        return '7e'
    elif '75008' in address:
        return '8e'
    elif '75009' in address:
        return '9e'
    elif '75010' in address:
        return '10e'
    elif '75011' in address:
        return '11e'
    elif '75012' in address:
        return '12e'
    elif '75013' in address:
        return '13e'
    elif '75014' in address:
        return '14e'
    elif '75015' in address:
        return '15e'
    elif '75016' in address:
        return '16e'
    elif '75017' in address:
        return '17e'
    elif '75018' in address:
        return '18e'
    elif '75019' in address:
        return '19e'
    elif '75020' in address:
        return '20e'
    else:
        return 'Unknown'

# Apply the function to create the new "Arrondissement" column
df['Arrondissement'] = df['Adresse'].apply(extract_arrondissement)

analysis_summary = analyze_data(df)
print(analysis_summary)
print(len(df))
df.head(1)


               Column Type  Missing Values  Unique Values  NaN Values
Nom                 object               0           3030           0
Adresse             object               0           3176           0
Latitude           float64               0           3312           0
Longitude          float64               0           3323           0
Nombre d'avis        int64               0           1361           0
Note moyenne       float64             163             36         163
Reviews             object               0           3199           0
Arrondissement      object               0             21           0
3387


Unnamed: 0,Nom,Adresse,Latitude,Longitude,Nombre d'avis,Note moyenne,Reviews,Arrondissement
0,L'Escarbille,"8 Rue de Vélizy, 92190 Meudon, France",48.820215,2.226951,1004,4.7,"['While admittedly expensive, the food was exc...",Unknown


In [66]:
# Vérifier le nombre de lignes avec "unknown" dans la colonne "arrondissement"
unknown_count = df[df["Arrondissement"] == "Unknown"].shape[0]
print(f"Nombre de lignes avec 'unknown' dans la colonne 'arrondissement' : {unknown_count}")
# Supprimer les lignes où "arrondissement" est égal à "unknown"
df = df[df["Arrondissement"] != "Unknown"]
# Vérifier le nombre de lignes restantes
print(f"Nombre de lignes restantes : {len(df)}")

Nombre de lignes avec 'unknown' dans la colonne 'arrondissement' : 1731
Nombre de lignes restantes : 1656


In [68]:
df["Arrondissement"].value_counts()

Arrondissement
16e    159
15e    157
12e    144
13e    139
20e    120
17e    111
14e    101
19e     99
11e     95
8e      81
18e     77
7e      60
6e      55
5e      51
10e     51
9e      37
1er     32
4e      30
2e      29
3e      28
Name: count, dtype: int64

In [69]:
# Sauvegarde en CSV
df.to_csv("paris_restaurants_final.csv", index=False)

### Hotels

In [71]:
def frange(start, stop, step):
    while start < stop:
        yield round(start, 10)  # Pour éviter les problèmes de précision
        start += step


API_KEY = "AIzaSyDI0A5drHyljFIVKp9DpUpPbwwRpjx9MYY"
RADIUS = 1000  # 1km
TYPE = "lodging"

# Définir les limites géographiques de Paris
LAT_MIN, LAT_MAX = 48.8156, 48.9022
LON_MIN, LON_MAX = 2.2242, 2.4699
STEP = 0.018  # Correspond environ à 2 km

# Endpoints API
NEARBY_SEARCH_URL = "https://maps.googleapis.com/maps/api/place/nearbysearch/json"
DETAILS_URL = "https://maps.googleapis.com/maps/api/place/details/json"

# Fonction pour récupérer les détails d'un lieu à partir de son place_id
def get_place_details(place_id):
    params = {
        "place_id": place_id,
        "key": API_KEY,
        "fields": "name,rating,user_ratings_total,formatted_address,geometry,reviews"
    }
    response = requests.get(DETAILS_URL, params=params)
    return response.json().get("result", {})

# Fonction pour récupérer les lieux autour d'un point donné
def get_nearby_places(lat, lon):
    places_data = []
    next_page_token = None

    while True:
        params = {
            "location": f"{lat},{lon}",
            "radius": RADIUS,
            "type": TYPE,
            "key": API_KEY
        }
        if next_page_token:
            params["pagetoken"] = next_page_token

        response = requests.get(NEARBY_SEARCH_URL, params=params)
        data = response.json()

        # Ajouter les résultats actuels
        places_data.extend(data.get("results", []))

        # Vérifier s'il y a une autre page
        next_page_token = data.get("next_page_token")
        if not next_page_token:
            break

        # Pause pour éviter de dépasser le quota
        sleep(2)

    return places_data

# Créer une grille de points sur Paris
latitudes = [round(lat, 6) for lat in frange(LAT_MIN, LAT_MAX, STEP)]
longitudes = [round(lon, 6) for lon in frange(LON_MIN, LON_MAX, STEP)]
grid_points = [(lat, lon) for lat in latitudes for lon in longitudes]

# Récupérer les restaurants pour chaque point de la grille
all_restaurants = []
for lat, lon in tqdm(grid_points, desc="Récupération des restaurants"):
    results = get_nearby_places(lat, lon)
    for place in results:
        # Récupérer les détails supplémentaires
        details = get_place_details(place["place_id"])

        # Extraire les informations choisies
        restaurant_info = {
            "Nom": details.get("name", ""),
            "Adresse": details.get("formatted_address", ""),
            "Latitude": details.get("geometry", {}).get("location", {}).get("lat", ""),
            "Longitude": details.get("geometry", {}).get("location", {}).get("lng", ""),
            "Nombre d'avis": details.get("user_ratings_total", 0),
            "Note moyenne": details.get("rating", ""),
            "Reviews": [review.get("text", "") for review in details.get("reviews", [])]
        }
        all_restaurants.append(restaurant_info)

# Suppression des doublons par Nom et Adresse
df_hotels = pd.DataFrame(all_restaurants)
df_hotels = df_hotels.drop_duplicates(subset=["Nom", "Adresse"])

# Sauvegarde en CSV
df_hotels.to_csv("paris_hotels_grid.csv", index=False)

print(f"Total des restaurants récupérés : {len(df)}")


Récupération des restaurants: 100%|██████████| 70/70 [09:30<00:00,  8.15s/it]


Total des restaurants récupérés : 1656


In [72]:
file_path = 'paris_hotels_grid.csv'
df = pd.read_csv(file_path, sep = ',')

In [73]:
# Apply the function to create the new "Arrondissement" column
df['Arrondissement'] = df['Adresse'].apply(extract_arrondissement)

analysis_summary = analyze_data(df)
print(analysis_summary)
print(len(df))
df.head(1)

               Column Type  Missing Values  Unique Values  NaN Values
Nom                 object               0           2538           0
Adresse             object               0           2433           0
Latitude           float64               0           2496           0
Longitude          float64               0           2499           0
Nombre d'avis        int64               0            821           0
Note moyenne       float64             673             36         673
Reviews             object               0           1782           0
Arrondissement      object               0             21           0
2567


Unnamed: 0,Nom,Adresse,Latitude,Longitude,Nombre d'avis,Note moyenne,Reviews,Arrondissement
0,Les Capucins,"2 Rue des Capucins, 92190 Meudon, France",48.815642,2.227642,1,3.0,[''],Unknown


In [75]:
# Vérifier le nombre de lignes avec "unknown" dans la colonne "arrondissement"
unknown_count = df[df["Arrondissement"] == "Unknown"].shape[0]
print(f"Nombre de lignes avec 'unknown' dans la colonne 'arrondissement' : {unknown_count}")
# Supprimer les lignes où "arrondissement" est égal à "unknown"
df = df[df["Arrondissement"] != "Unknown"]
# Vérifier le nombre de lignes restantes
print(f"Nombre de lignes restantes : {len(df)}")
df["Arrondissement"].value_counts()

Nombre de lignes avec 'unknown' dans la colonne 'arrondissement' : 0
Nombre de lignes restantes : 1548


Arrondissement
15e    142
16e    139
13e    137
12e    129
17e    112
20e    109
14e     96
19e     92
11e     85
8e      80
18e     77
9e      62
10e     55
6e      54
7e      49
5e      49
4e      22
2e      21
1er     20
3e      18
Name: count, dtype: int64

In [77]:
# 1. Nombre de lignes strictement identiques
duplicate_rows_count = df.duplicated().sum()

# 3. Extraction des lignes avec les mêmes latitude et longitude pour visualisation
lat_lon_duplicates = df[df.duplicated(subset=['Nom','Latitude', 'Longitude'], keep=False)]
print(f"Nombre de doublons dans la colonne 'Nom' : {len(lat_lon_duplicates)}")

# Drop duplicates based on the columns "Nom", "Latitude", and "Longitude"
df = df.drop_duplicates(subset=['Nom', 'Latitude', 'Longitude'], keep='first')

lat_lon_duplicates_count = df.duplicated(subset=['Latitude', 'Longitude']).sum()
print(f"Nombre de doublons dans la colonne 'Nom' : {len(lat_lon_duplicates)}")


Nombre de doublons dans la colonne 'Nom' : 0
Nombre de doublons dans la colonne 'Nom' : 0


In [78]:
analysis_summary = analyze_data(df)
print(analysis_summary)
print(len(df))

               Column Type  Missing Values  Unique Values  NaN Values
Nom                 object               0           1539           0
Adresse             object               0           1491           0
Latitude           float64               0           1517           0
Longitude          float64               0           1518           0
Nombre d'avis        int64               0            692           0
Note moyenne       float64             281             36         281
Reviews             object               0           1222           0
Arrondissement      object               0             20           0
1548


In [80]:
df.to_csv('paris_hotels_final.csv',index=False)