In [1]:
import pandas as pd
import ast

<h3>Filtro de restaurantes y obtención de estados de EEUU:</h3>

In [32]:
# Cargamos el dataset que contiene información de los negocios:
df_metadata = pd.read_csv(r"../Datasets/Google Maps/metadata_sitios.csv")

Extracción de la abreviatura del estado de la columna "address":

In [33]:
# Cantidad de reseñas del dataset:
len(df_metadata)

3025011

In [34]:
# Vemos una muestra del contenido de dicha columna:
df_metadata["address"][0]

'Porter Pharmacy, 129 N Second St, Cochran, GA 31014'

In [37]:
# Lista de abreviaturas de estados:
abreviaturas_estados = ['AL', 'AK', 'AZ', 'AR', 'CA', 'CO', 'CT', 'DE', 'DC', 'FL', 'GA', 'HI', 'ID', 'IL', 'IN', 'IA', 'KS', 'KY', 'LA', 'ME', 'MD', 'MA', 'MI', 'MN', 'MS', 'MO', 'MT', 'NE', 'NV', 'NH', 'NJ', 'NM', 'NY', 'NC', 'ND', 'OH', 'OK', 'OR', 'PA', 'RI', 'SC', 'SD', 'TN', 'TX', 'UT', 'VT', 'VA', 'WA', 'WV', 'WI', 'WY']

# Creamos la nueva columna "estado", verificamos si en cada registro de la columna "address" existe alguna abreviatura de estado:
df_metadata["estado"] = df_metadata["address"].astype(str).apply(lambda x: next((estado for estado in abreviaturas_estados if estado in x), None))

df_metadata["estado"]

0          GA
1          CA
2          CA
3          CA
4          CA
           ..
3025006    IL
3025007    CA
3025008    WY
3025009    AZ
3025010    WY
Name: estado, Length: 3025011, dtype: object

In [36]:
# Verificamos la cantidad de nulos:
df_metadata["estado"].isna().sum()

110804

------------

Extracción de la categoría "Restaurant" de la columna "category":

In [38]:
# Cambiamos el formato de la columna a string:
df_metadata["categories"] = df_metadata["category"].astype(str)

# Limpiamos la columna:
df_metadata["categories"] = df_metadata["categories"].str.replace("[", "").str.replace("]", "").str.replace("'", "")
df_metadata["categories"]

0                                                 Pharmacy
1                                         Textile exporter
2                                        Korean restaurant
3                                             Fabric store
4                                             Fabric store
                                ...                       
3025006                                    Restaurant, Bar
3025007                                   Trucking company
3025008                           Beauty salon, Hair salon
3025009    Truck accessories store, Powder coating service
3025010                                         Campground
Name: categories, Length: 3025011, dtype: object

In [39]:
# Filtramos los registros que contienen la categoría "restaurant":
df_restaurant = df_metadata[df_metadata["categories"].str.contains("restaurant", case=False)].reset_index(drop=True)
len(df_restaurant)

212014

In [40]:
df_restaurant.head()

Unnamed: 0,name,address,gmap_id,description,latitude,longitude,category,avg_rating,num_of_reviews,price,hours,MISC,state,relative_results,url,estado,categories
0,San Soo Dang,"San Soo Dang, 761 S Vermont Ave, Los Angeles, ...",0x80c2c778e3b73d33:0xbdc58662a4a97d49,,34.058092,-118.29213,['Korean restaurant'],4.4,18,,"[['Thursday', '6:30AM–6PM'], ['Friday', '6:30A...","{'Service options': ['Takeout', 'Dine-in', 'De...",Open ⋅ Closes 6PM,"['0x80c2c78249aba68f:0x35bf16ce61be751d', '0x8...",https://www.google.com/maps/place//data=!4m2!3...,CA,Korean restaurant
1,Vons Chicken,"Vons Chicken, 12740 La Mirada Blvd, La Mirada,...",0x80dd2b4c8555edb7:0xfc33d65c4bdbef42,,33.916402,-118.010855,['Restaurant'],4.5,18,,"[['Thursday', '11AM–9:30PM'], ['Friday', '11AM...","{'Service options': ['Outdoor seating', 'Curbs...",Open ⋅ Closes 9:30PM,,https://www.google.com/maps/place//data=!4m2!3...,CA,Restaurant
2,"Sweet Rewards Gluten Free Bakery, LLC","Sweet Rewards Gluten Free Bakery, LLC, 85 NE D...",0x87ec235c54d25b31:0x3b75fb5facc602f,,41.616079,-93.865487,"['Bakery', 'Health food restaurant']",4.7,21,,"[['Thursday', '10AM–5:30PM'], ['Friday', '10AM...",{'Service options': ['Delivery']},Permanently closed,"['0x87ee974869295555:0x95f310d065882c9b', '0x8...",https://www.google.com/maps/place//data=!4m2!3...,IA,"Bakery, Health food restaurant"
3,Vivi Bubble Tea,"Vivi Bubble Tea, 701 S 5th St, Philadelphia, P...",0x89c6c89efcaed69d:0xded973f6033e7dba,"Bubble tea shop offering hot & cold versions, ...",39.940293,-75.150923,['Restaurant'],4.0,8,,,"{'Service options': ['Delivery'], 'Amenities':...",,"['0x89c6c62a40f4b733:0x73bfeec1898f272b', '0x8...",https://www.google.com/maps/place//data=!4m2!3...,PA,Restaurant
4,Hale Pops,"Hale Pops, 55-370 Kamehameha Hwy, Laie, HI 96762",0x7c00456eecad3111:0x8217f9600c51f33,,21.637796,-157.920714,['Restaurant'],4.4,18,,"[['Thursday', '11AM–8PM'], ['Friday', '11AM–8P...","{'Service options': ['Outdoor seating', 'Takeo...",Closed ⋅ Opens 11AM,"['0x7c00451360f80cf1:0x930291a38bab3132', '0x7...",https://www.google.com/maps/place//data=!4m2!3...,HI,Restaurant


Explormos los atributos de cada negocio:

In [41]:
# Restaurantes:
df_restaurant["MISC"] = df_restaurant["MISC"].astype(str)
r_credit_card = df_restaurant[df_restaurant["MISC"].str.contains("credit card", case=False)].reset_index(drop=True)
r_debit_card = df_restaurant[df_restaurant["MISC"].str.contains("debit card", case=False)].reset_index(drop=True)
r_cred_deb = df_restaurant[(df_restaurant["MISC"].str.contains("debit card", case=False)) | (df_restaurant["MISC"].str.contains("credit card", case=False)) | (df_restaurant["MISC"].str.contains("card", case=False))].reset_index(drop=True)

# Negocios de todo tipo:
df_metadata["MISC"] = df_metadata["MISC"].astype(str)
credito = df_metadata[df_metadata["MISC"].str.contains("credit card", case=False)].reset_index(drop=True)
debito = df_metadata[df_metadata["MISC"].str.contains("credit card", case=False)].reset_index(drop=True)
cred_deb = df_metadata[(df_metadata["MISC"].str.contains("debit card", case=False)) | (df_restaurant["MISC"].str.contains("credit card", case=False)) | (df_restaurant["MISC"].str.contains("card", case=False))].reset_index(drop=True)


In [42]:
# Restaurantes
print(f"Restaurantes que poseen crédito: {len(r_credit_card)}")
print(f"Restaurantes que poseen débito: {len(r_debit_card)}")
print(f"Restaurantes que poseen crédito y débito: {len(r_cred_deb)}")

# Negocios de todo tipo:
print(f"Negocios que poseen crédito: {len(credito)}")
print(f"Negocios que poseen débito: {len(debito)}")
print(f"Negocios que poseen crédito y débito: {len(cred_deb)}")

Restaurantes que poseen crédito: 31397
Restaurantes que poseen débito: 61005
Restaurantes que poseen crédito y débito: 66121
Negocios que poseen crédito: 193416
Negocios que poseen débito: 193416
Negocios que poseen crédito y débito: 360049


Eploramos la información por región y estado:

In [43]:
# Definimos las regiones:
noreste = ['CT', 'ME', 'MA', 'NH', 'RI', 'VT', 'NY', 'NJ', 'PA']
medio_oeste = ['IL', 'IN', 'IA', 'KS', 'MI', 'MN', 'MO', 'NE', 'ND', 'OH', 'SD', 'WI']
sur = ['AL', 'AR', 'DE', 'FL', 'GA', 'KY', 'LA', 'MD', 'MS', 'NC', 'OK', 'SC', 'TN', 'TX', 'VA', 'WV']
oeste = ['AK', 'AZ', 'CA', 'CO', 'HI', 'ID', 'MT', 'NV', 'NM', 'OR', 'UT', 'WA', 'WY']

In [44]:
print(f"Cantidad de negocios del noreste: {len(df_metadata[df_metadata["estado"].isin(noreste)])}")
print(f"Cantidad de restaurantes del noreste: {len(df_restaurant[df_restaurant["estado"].isin(noreste)])}")

print(f"Cantidad de negocios del medio oeste: {len(df_metadata[df_metadata["estado"].isin(medio_oeste)])}")
print(f"Cantidad de restaurantes del medio oeste: {len(df_restaurant[df_restaurant["estado"].isin(medio_oeste)])}")

print(f"Cantidad de negocios del sur: {len(df_metadata[df_metadata["estado"].isin(sur)])}")
print(f"Cantidad de restaurantes sur: {len(df_restaurant[df_restaurant["estado"].isin(sur)])}")

print(f"Cantidad de negocios del oeste: {len(df_metadata[df_metadata["estado"].isin(oeste)])}")
print(f"Cantidad de restaurantes del oeste: {len(df_restaurant[df_restaurant["estado"].isin(oeste)])}")

Cantidad de negocios del noreste: 478512
Cantidad de restaurantes del noreste: 44262
Cantidad de negocios del medio oeste: 626531
Cantidad de restaurantes del medio oeste: 38467
Cantidad de negocios del sur: 1143955
Cantidad de restaurantes sur: 77302
Cantidad de negocios del oeste: 656107
Cantidad de restaurantes del oeste: 49372


In [45]:
# Chequeamos los 10 estados con mayor cantidad de resaturantes:
df_restaurant["estado"].value_counts().head(10)

estado
CA    26896
TX    19304
NY    17077
FL    13701
PA     8349
IL     8137
NJ     7591
GA     6250
OH     5648
VA     5364
Name: count, dtype: int64

Guardamos el DataFrame de restaurantes como PARQUET:

In [52]:
# Eliminamos la columna "category", no nos será necesaria porque tenemos la columna "categories":
df_restaurant.drop(columns="category", inplace=True)

In [54]:
df_restaurant.to_parquet(r"../Datasets/Google Maps/restaurantes.parquet", index=False)