<div style="font-family: 'JetBrains Mono', monospace; font-size: 14px; color: #e2dbdbff; line-height: 1.6;">

## 1. 🚀 Introducción y Contexto

### 🛠️ La Historia que Motivó este Análisis

Era un día cualquiera en **Tandil** cuando mi bordeadora STIHL FSE60 decidió rendirse. Necesitaba un repuesto específico y, como cualquier persona del siglo XXI, mi primer instinto fue buscarlo **online**.

🔍 **Google:** Nada en la ciudad  
🛒 **MercadoLibre:** ¡Disponible! Pero a **350 km** y con 2 días de espera

Decidí intentar la búsqueda física. Después de **un día completo** recorriendo comercios...

💡 **¡EUREKA!** Un comercio finalmente sabía dónde conseguirlo. Estaba a **10 cuadras de casa**.

#### 🤔 La Pregunta que Cambió Todo

> **"Si este comercio lo tenía, ¿por qué no apareció en mis búsquedas online?"**

---

### 🎯 Objetivos del Análisis

**🔍 Objetivo Principal:** Analizar el estado de la digitalización comercial en 5 ciudades del centro de la Provincia de Buenos Aires.

**📊 Preguntas de Investigación:**
- ¿Qué porcentaje de comercios tiene **datos completos** en Google Maps?
- ¿Cuántos tienen **sitio web** o **redes sociales** registradas?
- ¿El **tamaño de la ciudad** influye en la digitalización?
- ¿Los comercios digitalizados tienen **mejor engagement**?

**💡 Meta:** Transformar una experiencia personal en insights útiles para comerciantes locales.

</div>

<div style="font-family: 'JetBrains Mono', monospace; font-size: 14px; color: #e2dbdbff; line-height: 1.6;">

### 2. 🔧 Preparación de Datos

📊 Importación y Limpieza

**🔄 Procesamiento:** Carga de múltiples archivos CSV por ciudad, selección de columnas relevantes y corrección de valores erróneos.

**🔗 Consolidación:** Concatenación de datasets individuales en archivo único 'Regional' con estandarización de teléfonos, tratamiento de missing values y eliminación de duplicados.

**🧹 Normalización:** Limpieza de nombres comerciales (comillas, asteriscos, emoticones) y estandarización de formato.

</div>

In [90]:
# Se importan las librerías para la carga y manipulación de los datos.
# pandas: manejo y limpieza de datos
# numpy: operaciones numéricas
# glob, os: manipulación de archivos y carpetas

import pandas as pd
import os
import numpy as np
from glob import glob
import glob
import matplotlib.pyplot as plt
import seaborn as sns

# Configura pandas para mostrar todas las columnas del DataFrame, sin recorte visual.
pd.set_option('display.max_columns', None) 


In [91]:
# Búsqueda de los archivos .csv en el directorio
glob.glob('../Datasets/*azul*.csv')

['../Datasets\\azul_dataset_crawler-google-places_2025-06-15_22-59-32-816.csv',
 '../Datasets\\azul_dataset_crawler-google-places_2025-07-30_14-54-37-400.csv',
 '../Datasets\\azul_dataset_google-maps-extractor_2025-05-19_00-03-31-957.csv']

In [92]:
# Lectura de todos los archivos CSV de la carpeta y se combinan en un único DataFrame con 'pd.concat()' 
# y se reestablece el índice con 'reset_index(drop=True)'.
# Se listan las columnas del DataFrame resultante.
df = pd.concat(map(pd.read_csv, glob.glob('../Datasets/*azul*.csv'))).reset_index(drop=True)
df.columns

Index(['additionalInfo/Accesibilidad/0/Entrada accesible para personas en silla de ruedas',
       'additionalInfo/Accesibilidad/0/Espacio accesible para personas en silla de ruedas',
       'additionalInfo/Accesibilidad/0/Estacionamiento accesible para personas en silla de ruedas',
       'additionalInfo/Accesibilidad/1/Bucle magnético de asistencia',
       'additionalInfo/Accesibilidad/1/Espacio accesible para personas en silla de ruedas',
       'additionalInfo/Accesibilidad/1/Estacionamiento accesible para personas en silla de ruedas',
       'additionalInfo/Accesibilidad/1/Sanitarios accesibles para personas en silla de ruedas',
       'additionalInfo/Accesibilidad/2/Bucle magnético de asistencia',
       'additionalInfo/Accesibilidad/2/Sanitarios accesibles para personas en silla de ruedas',
       'additionalInfo/Ambiente/0/A la moda',
       ...
       'plusCode',
       'additionalInfo/Accesibilidad/3/Sanitarios accesibles para personas en silla de ruedas',
       'additional

In [93]:
# Selección de columnas relevantes
df = df[[
        'title',
        'categoryName',
        'website',
        'street',
        'phone',
        'city',
        'state',
        'location/lat', 
        'location/lng',
        'totalScore',
        'rank',
        'imageUrl',
        'imagesCount',       
        'reviewsCount', 
        'scrapedAt',
        'searchString']]
df.head(5)

Unnamed: 0,title,categoryName,website,street,phone,city,state,location/lat,location/lng,totalScore,rank,imageUrl,imagesCount,reviewsCount,scrapedAt,searchString
0,DTI - Azul,Soporte y servicios informáticos,,Av. Juan Domingo Perón 525,+54 2281 42-7066,Azul,Provincia de Buenos Aires,-36.782006,-59.865497,,22,https://streetviewpixels-pa.googleapis.com/v1/...,1.0,0,2025-06-15T22:56:55.477Z,tecnologia
1,TECNO COMPUTACION,Tienda de móviles,http://www.tecnocomputacionazul.com/,Lamadrid 33,+54 2281 65-7938,Azul,Provincia de Buenos Aires,-36.764914,-59.862404,4.6,3,https://lh3.googleusercontent.com/p/AF1QipP9Gg...,12.0,7,2025-06-15T22:56:54.474Z,tecnologia
2,Ingeniero Marcelo Edgardo Cornec,Ingeniero,,Av. Juan Domingo Perón 622,+54 2281 42-6984,Azul,Provincia de Buenos Aires,-36.783278,-59.863594,5.0,20,https://lh3.googleusercontent.com/p/AF1QipN3mw...,13.0,3,2025-06-15T22:56:57.478Z,comercio
3,La esquina,Kiosco,,"7300, Gral. Paz 1500",+54 2281 36-0736,Azul,Provincia de Buenos Aires,-36.79809,-59.853525,3.7,19,https://lh3.googleusercontent.com/p/AF1QipP1o8...,1.0,3,2025-06-15T22:56:57.478Z,comercio
4,Vidrieria 25 de Mayo de Jose Canalicchio,Comercio,,Guaminí 610,+54 2281 53-7036,Azul,Provincia de Buenos Aires,-36.785552,-59.867145,4.2,40,https://lh3.googleusercontent.com/p/AF1QipM1o-...,5.0,9,2025-06-15T22:56:58.824Z,comercio


In [94]:
# Información del DataFrame seleccionado a través del método .info() : 
# Número de filas y columnas
# Nombres y tipos de datos de las columnas
# Valores no nulos en cada columna
# Uso de memoria
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1730 entries, 0 to 1729
Data columns (total 16 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   title         1730 non-null   object 
 1   categoryName  1699 non-null   object 
 2   website       377 non-null    object 
 3   street        1584 non-null   object 
 4   phone         1107 non-null   object 
 5   city          1716 non-null   object 
 6   state         1717 non-null   object 
 7   location/lat  1730 non-null   float64
 8   location/lng  1730 non-null   float64
 9   totalScore    1278 non-null   float64
 10  rank          1730 non-null   int64  
 11  imageUrl      1678 non-null   object 
 12  imagesCount   1676 non-null   float64
 13  reviewsCount  1730 non-null   int64  
 14  scrapedAt     1730 non-null   object 
 15  searchString  1730 non-null   object 
dtypes: float64(4), int64(2), object(10)
memory usage: 216.4+ KB


In [95]:
# Rellenar valores faltantes en la columna 'city' con valor 'Azul'
df['city'] = df['city'].fillna('Azul')

In [96]:
# Cuenta cuántas veces aparece cada registro de ciudad.
df['city'].value_counts()

city
Azul            1698
Buenos Aires      11
CJV                3
B7300GEU           3
GEV                3
FAD                2
CKA                2
CJU                2
FRU                2
ILF                1
CKE                1
FVW                1
Caleufú            1
Name: count, dtype: int64

In [97]:
# Se reemplazan los datos de la columna 'city' que no son correctos
df['city'] = df['city'].replace({
    'Buenos Aires': 'Azul',
    'FRU' : 'Azul',
    'FAD' : 'Azul',
    'B7300GEU' : 'Azul',
    'CJV' : 'Azul',
    'GEV' : 'Azul',
    'CJU' : 'Azul',
    'FVW' : 'Azul',
    'CKE' : 'Azul',
    'ILF' : 'Azul',
    'CKA' : 'Azul',
    'Caleufú' : 'Azul'
})

In [98]:
# Se guarda el archivo principal de la ciudad
df.to_csv('../CleanData/AzulMain.csv', index=False)

In [99]:
# Búsqueda de los archivos .csv en el directorio
glob.glob('../Python_es/Datasets/*juarez*.csv')

[]

In [100]:
# Se carga y concatenan todos los archivos CSV que contengan 'juarez' en su nombre y reestablece el índice del DataFrame resultante.
df = pd.concat(map(pd.read_csv, glob.glob('../Datasets/*juarez*.csv'))).reset_index(drop=True)

In [101]:
df = df[[
        'title',
        'categoryName',
        'website',
        'street',
        'phone',
        'city',
        'state',
        'location/lat', 
        'location/lng',
        'totalScore',
        'rank',
        'imageUrl',
        'imagesCount',       
        'reviewsCount', 
        'scrapedAt',
        'searchString']]
df.head(5)

Unnamed: 0,title,categoryName,website,street,phone,city,state,location/lat,location/lng,totalScore,rank,imageUrl,imagesCount,reviewsCount,scrapedAt,searchString
0,Serantes Accesorios,Tienda de repuestos de automóviles usados,,Av. Muñiz 49,+54 2281 46-6108,Benito Juárez,Provincia de Buenos Aires,-37.678436,-59.800652,4.6,1,https://lh3.googleusercontent.com/gps-cs-s/AC9...,2.0,66,2025-05-29T00:53:21.747Z,repuestos
1,Carlos REYNOSO REPUESTOS AGRICOLAS,Tienda de repuestos para coches de carreras,,Av. Muñiz 251-299,,Benito Juárez,Provincia de Buenos Aires,-37.682303,-59.805742,4.9,2,https://streetviewpixels-pa.googleapis.com/v1/...,1.0,11,2025-05-29T00:53:21.748Z,repuestos
2,Repuestos lo de migue,Tienda de accesorios para automóviles,,San Juan 126,+54 2281 53-2680,Benito Juárez,Provincia de Buenos Aires,-37.672441,-59.800303,4.6,3,https://lh3.googleusercontent.com/gps-cs-s/AC9...,4.0,17,2025-05-29T00:53:21.748Z,repuestos
3,Repuestos Perco,Tienda de repuestos de automóviles usados,,Av. Urquiza 41,+54 2281 53-2090,Benito Juárez,Provincia de Buenos Aires,-37.672897,-59.803693,4.6,4,https://streetviewpixels-pa.googleapis.com/v1/...,1.0,5,2025-05-29T00:53:21.749Z,repuestos
4,Acoplados Juarez - Repuestos acoplados y semir...,Proveedor de repuestos de carrocería de automó...,https://www.guia-dorada.com.ar/guia/aviso-repu...,"Ruta Provincial 86, Suipacha y",+54 9 249 463-4600,Benito Juárez,Provincia de Buenos Aires,-37.679447,-59.818685,5.0,5,https://lh3.googleusercontent.com/gps-cs-s/AC9...,26.0,2,2025-05-29T00:53:21.749Z,repuestos


In [102]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 704 entries, 0 to 703
Data columns (total 16 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   title         704 non-null    object 
 1   categoryName  686 non-null    object 
 2   website       125 non-null    object 
 3   street        655 non-null    object 
 4   phone         430 non-null    object 
 5   city          701 non-null    object 
 6   state         701 non-null    object 
 7   location/lat  704 non-null    float64
 8   location/lng  704 non-null    float64
 9   totalScore    451 non-null    float64
 10  rank          704 non-null    int64  
 11  imageUrl      681 non-null    object 
 12  imagesCount   681 non-null    float64
 13  reviewsCount  704 non-null    int64  
 14  scrapedAt     704 non-null    object 
 15  searchString  704 non-null    object 
dtypes: float64(4), int64(2), object(10)
memory usage: 88.1+ KB


In [103]:
# Rellenar valores faltantes en la columna 'city'
df['city'] = df['city'].fillna('Benito Juárez')

In [104]:
# Se cuenta la frecuencia de los registros de la columna 'city'
df['city'].value_counts()

city
Benito Juárez    690
Buenos Aires       6
Henderson          3
alberti            2
BENITO JUAREZ      2
BAB                1
Name: count, dtype: int64

In [105]:
df['city'] = df['city'].replace({
    'Buenos Aires': 'Benito Juárez',
    'Henderson' : 'Benito Juárez',
    'BENITO JUAREZ' : 'Benito Juárez',
    'BAB' : 'Benito Juárez',
    'alberti' : 'Benito Juárez'
})
df['city'].value_counts()

city
Benito Juárez    704
Name: count, dtype: int64

In [106]:
# Se guarda el archivo principal de la ciudad
df.to_csv('../CleanData/JuarezMain.csv', index=False)

In [107]:
# Búsqueda de los archivos .csv en el directorio
glob.glob('../Datasets/*olavarria*.csv')

['../Datasets\\olavarria_dataset_crawler-google-places_2025-05-29_00-56-36-905.csv',
 '../Datasets\\olavarria_dataset_crawler-google-places_2025-06-11_18-14-26-674.csv',
 '../Datasets\\olavarria_dataset_crawler-google-places_2025-06-15_23-35-08-815.csv',
 '../Datasets\\olavarria_dataset_crawler-google-places_2025-07-30_14-43-37-977.csv']

In [108]:
# Carga y concatena todos los archivos CSV que contengan 'olavarria' en su nombre.
df = pd.concat(map(pd.read_csv, glob.glob('../Datasets/*olavarria*.csv'))).reset_index(drop=True)

In [109]:
# Selección de columnas relevantes
df = df[[
        'title',
        'categoryName',
        'website',
        'street',
        'phone',
        'city',
        'state',
        'location/lat', 
        'location/lng',
        'totalScore',
        'rank',
        'imageUrl',
        'imagesCount',       
        'reviewsCount', 
        'scrapedAt',
        'searchString']]
df.head(5)

Unnamed: 0,title,categoryName,website,street,phone,city,state,location/lat,location/lng,totalScore,rank,imageUrl,imagesCount,reviewsCount,scrapedAt,searchString
0,Polirrubros La Silvia,Kiosco,,Av. Ituzaingó 1317,,Olavarría,Provincia de Buenos Aires,-36.895466,-60.3451,4.8,1,https://lh3.googleusercontent.com/gps-cs-s/AC9...,16.0,27,2025-05-29T00:56:12.806Z,comercio
1,Distribuidora Katy,Comercio,,"Pelegrino, Av. Ituzaingó e",+54 2284 71-1461,Olavarría,Provincia de Buenos Aires,-36.890448,-60.338133,,2,https://lh3.googleusercontent.com/p/AF1QipOckQ...,20.0,0,2025-05-29T00:56:12.808Z,comercio
2,Mercadito Gaby-Fer,Comercio,,Collinet 2595,+54 2284 41-7540,Olavarría,Provincia de Buenos Aires,-36.900998,-60.335121,5.0,3,https://lh3.googleusercontent.com/gps-cs-s/AC9...,3.0,4,2025-05-29T00:56:12.808Z,comercio
3,Dulcemente,Tienda de alimentación,,Independencia 1700-1600,+54 2284 69-7125,Olavarría,Provincia de Buenos Aires,-36.895493,-60.3397,5.0,4,https://lh3.googleusercontent.com/gps-cs-s/AC9...,2.0,2,2025-05-29T00:56:12.808Z,comercio
4,104 Polirrubro,Tienda de alimentación,,Azopardo 1598,+54 2284 42-1670,Olavarría,Provincia de Buenos Aires,-36.893022,-60.341844,3.8,5,https://lh3.googleusercontent.com/gps-cs-s/AC9...,18.0,4,2025-05-29T00:56:12.808Z,comercio


In [110]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2341 entries, 0 to 2340
Data columns (total 16 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   title         2341 non-null   object 
 1   categoryName  2293 non-null   object 
 2   website       774 non-null    object 
 3   street        2253 non-null   object 
 4   phone         1797 non-null   object 
 5   city          2335 non-null   object 
 6   state         2335 non-null   object 
 7   location/lat  2341 non-null   float64
 8   location/lng  2341 non-null   float64
 9   totalScore    1867 non-null   float64
 10  rank          2341 non-null   int64  
 11  imageUrl      2289 non-null   object 
 12  imagesCount   2289 non-null   float64
 13  reviewsCount  2341 non-null   int64  
 14  scrapedAt     2341 non-null   object 
 15  searchString  2341 non-null   object 
dtypes: float64(4), int64(2), object(10)
memory usage: 292.8+ KB


In [111]:
# Rellenar valores faltantes en la columna 'city'
df['city'] = df['city'].fillna('Olavarría')

<style>
.rendered_html {
    font-family: 'Comic Sans MS', cursive !important;
    font-size: 18px !important;
    color: red !important;
}
</style>

In [112]:
df['city'].value_counts()

city
Olavarría            2225
Gran Buenos Aires      57
DFE                     4
KKJ                     4
Buenos Aires            4
IDH                     3
KCI                     3
COO                     3
CVQ                     3
B7400LCX                3
CZY                     2
JZB                     2
Caseros                 2
Moreno                  2
Colon                   2
DAS                     2
DJY                     2
LLD                     1
CUV                     1
B7400JWP                1
CABA                    1
DTO                     1
LNM                     1
CUR                     1
CWP                     1
JUE                     1
DRL                     1
DSN                     1
DJQ                     1
DRQ                     1
CUC                     1
CRB                     1
KKM                     1
DSC                     1
CUG                     1
Name: count, dtype: int64

In [113]:
df['city'] = df['city'].replace({
    'Gran Buenos Aires': 'Olavarría',
    'DFE' : 'Olavarría',
    'Buenos Aires' : 'Olavarría',
    'KKJ' : 'Olavarría',
    'KCI' : 'Olavarría',
    'B7400LCX' : 'Olavarría',
    'COO' : 'Olavarría',
    'CVQ' : 'Olavarría',
    'IDH' : 'Olavarría',
    'Caseros' : 'Olavarría',
    'DAS' : 'Olavarría',
    'Colon' : 'Olavarría',
    'Moreno' : 'Olavarría',
    'CZY' : 'Olavarría',
    'DJY' : 'Olavarría',
    'JZB' : 'Olavarría',
    'DRQ' : 'Olavarría',
    'B7400JWP' : 'Olavarría',
    'CUV' : 'Olavarría',
    'CUG' : 'Olavarría',
    'DSC' : 'Olavarría',
    'KKM' : 'Olavarría',
    'CRB' : 'Olavarría',
    'CUC' : 'Olavarría',
    'JUE' : 'Olavarría',
    'DJQ' : 'Olavarría',
    'DSN' : 'Olavarría',
    'DRL' : 'Olavarría',
    'CWP' : 'Olavarría',
    'CUR' : 'Olavarría',
    'LNM' : 'Olavarría',
    'DTO' : 'Olavarría',
    'LLD' : 'Olavarría',
    'CABA' : 'Olavarría'
})

In [114]:
# Exporta el DataFrame a .CSV sin incluir la columna del índice
df.to_csv('../CleanData/OlavarriaMain.csv', index=False)

In [115]:

glob.glob('../Datasets/*rauch*.csv')

['../Datasets\\rauch_ dataset_crawler-google-places_2025-05-29_00-49-55-809.csv',
 '../Datasets\\rauch_dataset_crawler-google-places_2025-06-15_22-41-11-472.csv',
 '../Datasets\\rauch_dataset_crawler-google-places_2025-07-30_15-11-01-826.csv',
 '../Datasets\\rauch_dataset_google-maps-extractor_2025-05-19_00-06-21-606.csv']

In [116]:
df = pd.concat(map(pd.read_csv, glob.glob('../Datasets/*rauch*.csv'))).reset_index(drop=True)

In [117]:
df = df[[
        'title',
        'categoryName',
        'website',
        'street',
        'phone',
        'city',
        'state',
        'location/lat', 
        'location/lng',
        'totalScore',
        'rank',
        'imageUrl',
        'imagesCount',       
        'reviewsCount', 
        'scrapedAt',
        'searchString']]
df.head(5)

Unnamed: 0,title,categoryName,website,street,phone,city,state,location/lat,location/lng,totalScore,rank,imageUrl,imagesCount,reviewsCount,scrapedAt,searchString
0,Del Valle inyeccion electronica,Taller de reparación de automóviles,,"Aristóbulo del Valle, Aveleyra &",+54 249 434-0861,Rauch,Provincia de Buenos Aires,-36.773298,-59.091459,5.0,1,https://streetviewpixels-pa.googleapis.com/v1/...,1.0,1,2025-05-29T00:48:32.392Z,electronica
1,Electro 440 - Accesorios y Reparación,Tienda de electrónica,https://www.facebook.com/todoenremotos,Letamendi 596,+54 9 249 427-7096,Rauch,Provincia de Buenos Aires,-36.776094,-59.088072,5.0,2,https://lh3.googleusercontent.com/gps-cs-s/AC9...,35.0,5,2025-05-29T00:48:32.394Z,electronica
2,Dangerous Sonido e Iluminación,Tienda de equipos de sonido,,"BNK, Saavedra 507",+54 249 453-3029,Rauch,Provincia de Buenos Aires,-36.772975,-59.093649,5.0,3,https://lh3.googleusercontent.com/gps-cs-s/AC9...,28.0,3,2025-05-29T00:48:32.394Z,electronica
3,Jona PC,Servicio de informática,https://www.facebook.com/profile.php?id=100069...,Dardo Rocha 850,,Rauch,Provincia de Buenos Aires,-36.761649,-59.092823,5.0,4,https://lh3.googleusercontent.com/p/AF1QipPcWb...,13.0,11,2025-05-29T00:48:32.394Z,electronica
4,Super PC Rauch,Tienda de informática,,Balcarce 1001,+54 249 435-8292,Rauch,Provincia de Buenos Aires,-36.768249,-59.090148,,5,https://streetviewpixels-pa.googleapis.com/v1/...,1.0,0,2025-05-29T00:48:32.395Z,electronica


In [118]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 826 entries, 0 to 825
Data columns (total 16 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   title         826 non-null    object 
 1   categoryName  806 non-null    object 
 2   website       147 non-null    object 
 3   street        746 non-null    object 
 4   phone         455 non-null    object 
 5   city          820 non-null    object 
 6   state         821 non-null    object 
 7   location/lat  826 non-null    float64
 8   location/lng  826 non-null    float64
 9   totalScore    527 non-null    float64
 10  rank          826 non-null    int64  
 11  imageUrl      802 non-null    object 
 12  imagesCount   802 non-null    float64
 13  reviewsCount  826 non-null    int64  
 14  scrapedAt     826 non-null    object 
 15  searchString  826 non-null    object 
dtypes: float64(4), int64(2), object(10)
memory usage: 103.4+ KB


In [119]:
df['city'] = df['city'].fillna('Rauch')

In [120]:
df['city'].value_counts()

city
Rauch           722
BPQ              24
Buenos Aires      6
ADB               6
BPJ               4
AEX               4
BPR               4
BBP               4
ACD               4
BID               4
AQH               4
ACF               4
ASJ               4
ABD               3
AQJ               3
ATQ               3
BPO               3
AKG               3
BQC               3
BPI               2
BPP               2
BPK               2
BCB               2
AQE               1
BMT               1
AQF               1
AAI               1
BJF               1
AQB               1
Name: count, dtype: int64

In [121]:
df['city'] = df['city'].replace({
    'Buenos Aires': 'Rauch',
    'BPQ' : 'Rauch',
    'ADB' : 'Rauch',
    'ASJ' : 'Rauch',
    'BPR' : 'Rauch',
    'BBP' : 'Rauch',
    'ACD' : 'Rauch',
    'BPJ' : 'Rauch',
    'AEX' : 'Rauch',
    'BID' : 'Rauch',
    'ACF' : 'Rauch',
    'AQH' : 'Rauch',
    'BPO' : 'Rauch',
    'ATQ' : 'Rauch',
    'AQJ' : 'Rauch',
    'ABD' : 'Rauch',
    'BQC' : 'Rauch',    
    'AKG' : 'Rauch',
    'BCB' : 'Rauch',
    'BPP' : 'Rauch',
    'BPK' : 'Rauch',
    'BPI' : 'Rauch',
    'AQE' : 'Rauch',
    'BMT' : 'Rauch',
    'AQF' : 'Rauch',
    'AAI' : 'Rauch',
    'BJF' : 'Rauch',
    'AQB' : 'Rauch'
})

In [122]:
#Exportación del DataFrame a un archivo CSV
df.to_csv('../CleanData/RauchMain.csv', index=False)

In [123]:
glob.glob('../Datasets/*tandil*.csv')

['../Datasets\\tandil _dataset_google-maps-extractor_2025-05-04_16-09-01-070.csv',
 '../Datasets\\tandil_dataset_crawler-google-places_2025-05-28_23-37-49-506.csv',
 '../Datasets\\tandil_dataset_crawler-google-places_2025-05-28_23-44-51-919.csv',
 '../Datasets\\tandil_dataset_crawler-google-places_2025-05-29_00-18-14-608.csv',
 '../Datasets\\tandil_dataset_crawler-google-places_2025-06-11_18-03-13-154.csv',
 '../Datasets\\tandil_dataset_crawler-google-places_2025-06-15_23-39-41-132.csv',
 '../Datasets\\tandil_dataset_crawler-google-places_2025-07-30_15-45-22-219.csv']

In [124]:
df = pd.concat(map(pd.read_csv, glob.glob('../Datasets/*tandil*.csv'))).reset_index(drop=True)


In [125]:
df = df[[
        'title',
        'categoryName',
        'website',
        'street',
        'phone',
        'city',
        'state',
        'location/lat', 
        'location/lng',
        'totalScore',
        'rank',
        'imageUrl',
        'imagesCount',       
        'reviewsCount', 
        'scrapedAt',
        'searchString']]
df.head(5)

Unnamed: 0,title,categoryName,website,street,phone,city,state,location/lat,location/lng,totalScore,rank,imageUrl,imagesCount,reviewsCount,scrapedAt,searchString
0,EL BAQUEANO TANDIL,Tienda de delicatessen,http://www.elbaqueanotandil.com/,"1381, Tasende",,Tandil,Provincia de Buenos Aires,-37.350908,-59.170069,4.8,8,https://lh3.googleusercontent.com/p/AF1QipP2-l...,686.0,1408,2025-05-04T16:08:15.927Z,Comercio
1,Alquimia Artesanías,Tienda de artesanías,https://www.facebook.com/alquimia.artesanias.t...,Icalma y Tasende Acceso Cerro El Centinela,,Tandil,Provincia de Buenos Aires,-37.355833,-59.172222,4.5,9,https://lh3.googleusercontent.com/p/AF1QipPXrh...,40.0,43,2025-05-04T16:08:15.927Z,Comercio
2,mercado Jorge,Tienda de alimentación,,Sandino 468,+54 249 444-3579,Tandil,Provincia de Buenos Aires,-37.33804,-59.126114,4.5,10,https://streetviewpixels-pa.googleapis.com/v1/...,1.0,13,2025-05-04T16:08:15.927Z,Comercio
3,"Vale la Pena ""Almacén""",Tienda de alimentación,,Av. Estrada 468,,Tandil,Provincia de Buenos Aires,-37.33949,-59.147503,4.6,11,https://lh3.googleusercontent.com/p/AF1QipPz_6...,3.0,17,2025-05-04T16:08:15.927Z,Comercio
4,Sec Tandil - Sociedad Emp de Comercio Tandil,Sindicato,http://www.sectandil.org.ar/,San Martín 785,,Tandil,Provincia de Buenos Aires,-37.325458,-59.134093,1.0,12,https://streetviewpixels-pa.googleapis.com/v1/...,1.0,2,2025-05-04T16:08:15.927Z,Comercio


In [126]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3577 entries, 0 to 3576
Data columns (total 16 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   title         3577 non-null   object 
 1   categoryName  3498 non-null   object 
 2   website       1360 non-null   object 
 3   street        3450 non-null   object 
 4   phone         2746 non-null   object 
 5   city          3543 non-null   object 
 6   state         3555 non-null   object 
 7   location/lat  3577 non-null   float64
 8   location/lng  3577 non-null   float64
 9   totalScore    2966 non-null   float64
 10  rank          3577 non-null   int64  
 11  imageUrl      3486 non-null   object 
 12  imagesCount   3485 non-null   float64
 13  reviewsCount  3577 non-null   int64  
 14  scrapedAt     3577 non-null   object 
 15  searchString  3577 non-null   object 
dtypes: float64(4), int64(2), object(10)
memory usage: 447.3+ KB


In [127]:
df['city'] = df['city'].fillna('Tandil')

In [128]:
df['city'].value_counts()

city
Tandil                             3486
Gran Buenos Aires                    21
Buenos Aires                         11
FTE                                   4
IRK                                   4
BGA                                   4
HXG                                   4
GRS                                   3
GZY                                   3
GKP                                   3
ATN                                   2
IRL                                   2
BKB                                   2
AOX                                   2
FSW                                   2
AOS                                   2
AQX                                   2
Ciudad Autónoma de Buenos Aires       1
Gutiérrez                             1
AZG                                   1
BJD                                   1
GMM                                   1
AZC                                   1
AZD                                   1
AOV                                

In [129]:
df['city'] = df['city'].replace({
    'Gran Buenos Aires': 'Tandil',
    'Buenos Aires': 'Tandil',
    'HXG': 'Tandil',
    'IRK': 'Tandil',
    'BGA': 'Tandil',
    'FTE': 'Tandil',
    'GRS': 'Tandil',
    'GZY': 'Tandil',
    'GKP': 'Tandil',
    'ATN': 'Tandil',
    'BWH': 'Tandil',
    'BKB': 'Tandil',
    'AOS': 'Tandil',
    'AQX': 'Tandil',
    'AOX': 'Tandil',
    'FSW': 'Tandil',
    'IRL': 'Tandil',
    'AHM': 'Tandil',
    'AQO': 'Tandil',
    'HEU': 'Tandil',
    'BJD': 'Tandil',
    'Gutiérrez': 'Tandil',
    'AZR': 'Tandil',
    'AZG': 'Tandil',
    'EAC': 'Tandil',
    'GKR': 'Tandil',
    'GQQ': 'Tandil',
    'AOP': 'Tandil',
    'AOO': 'Tandil',
    'AEK': 'Tandil',
    'GVL': 'Tandil',
    'GMM': 'Tandil',
    'AZC': 'Tandil',
    'AZD': 'Tandil',
    'AOV': 'Tandil',
    'Ciudad Autónoma de Buenos Aires': 'Tandil'
})

In [130]:
#Exportación del DataFrame a un archivo CSV
df.to_csv('../CleanData/TandilMain.csv', index=False)

In [131]:
# Búsqueda de los archivos .csv en el directorio
glob.glob('../CleanData/*Main*.csv')

['../CleanData\\AzulMain.csv',
 '../CleanData\\JuarezMain.csv',
 '../CleanData\\OlavarriaMain.csv',
 '../CleanData\\RauchMain.csv',
 '../CleanData\\TandilMain.csv']

In [132]:
# Lectura y unión de archivos CSV
df = pd.concat(map(pd.read_csv, glob.glob('../CleanData/*Main*.csv'))).reset_index(drop=True)

In [133]:
# Información del DataFrame a través del método .info() : 
# Número de filas y columnas
# Nombres y tipos de datos de las columnas
# Valores no nulos en cada columna
# Uso de memoria
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9178 entries, 0 to 9177
Data columns (total 16 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   title         9178 non-null   object 
 1   categoryName  8982 non-null   object 
 2   website       2783 non-null   object 
 3   street        8688 non-null   object 
 4   phone         6535 non-null   object 
 5   city          9178 non-null   object 
 6   state         9129 non-null   object 
 7   location/lat  9178 non-null   float64
 8   location/lng  9178 non-null   float64
 9   totalScore    7089 non-null   float64
 10  rank          9178 non-null   int64  
 11  imageUrl      8936 non-null   object 
 12  imagesCount   8933 non-null   float64
 13  reviewsCount  9178 non-null   int64  
 14  scrapedAt     9178 non-null   object 
 15  searchString  9178 non-null   object 
dtypes: float64(4), int64(2), object(10)
memory usage: 1.1+ MB


In [134]:
# Se verifica si hay valores nulos en la columna 'state'
df['state'] = df['state'].fillna('Provincia de Buenos Aires')

In [135]:
# Este código cuenta la frecuencia de cada registro en la columna 'state'
df['state'].value_counts()

state
Provincia de Buenos Aires          9163
Ciudad Autónoma de Buenos Aires       6
Buenos Aires Sur                      4
de Buenos Aires                       2
San Juan                              1
La Pampa                              1
CABA                                  1
Name: count, dtype: int64

In [136]:
# Se reemplazan los datos de la columna 'state' que no son correctos
df['state'] = df['state'].replace({
    'San Juan': 'Provincia de Buenos Aires',
    'La Pampa': 'Provincia de Buenos Aires',
    'Ciudad Autónoma de Buenos Aires': 'Provincia de Buenos Aires',
    'de Buenos Aires': 'Provincia de Buenos Aires',
    'Ciudad Autónoma de Buenos Aires': 'Provincia de Buenos Aires',
    'CABA': 'Provincia de Buenos Aires',
    'Buenos Aires Sur' : 'Provincia de Buenos Aires' 
})


In [137]:
# Define qué strings deben ser tratados como nulos en las columnas seleccionadas.
nulls = ['', ' ', 'N/A', 'nan', 'NaN', 'None']
# Define las columnas a las que quieres aplicar este proceso.
col = ['title', 'categoryName', 'website', 'street', 'phone', 'city', 'state', 'imageUrl']
# Itera sobre cada columna y aplica la lógica.
for col in col:
    df.loc[:, col] = df[col].replace(nulls, np.nan) # Estandariza a np.nan
    df.loc[:, col] = df[col].fillna('Incomplete') # Reemplaza nulos con 'Incomplete'


In [138]:
# Define las columnas a las que se aplica este proceso.
colnum = ['location/lat' ,'location/lng', 'totalScore', 'imagesCount', 'rank', 'reviewsCount']
# Itera sobre cada columna y aplica la lógica.
for colnum in colnum:
    df.loc[:, colnum] = df[colnum].replace(nulls, np.nan) # Estandariza a np.nan
    df.loc[:, colnum] = df[colnum].fillna(0) # Reemplaza nulos con 0

In [139]:
# Verifica si hay valores nulos en el DataFrame.
df.isna().sum()

title           0
categoryName    0
website         0
street          0
phone           0
city            0
state           0
location/lat    0
location/lng    0
totalScore      0
rank            0
imageUrl        0
imagesCount     0
reviewsCount    0
scrapedAt       0
searchString    0
dtype: int64

In [140]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9178 entries, 0 to 9177
Data columns (total 16 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   title         9178 non-null   object 
 1   categoryName  9178 non-null   object 
 2   website       9178 non-null   object 
 3   street        9178 non-null   object 
 4   phone         9178 non-null   object 
 5   city          9178 non-null   object 
 6   state         9178 non-null   object 
 7   location/lat  9178 non-null   float64
 8   location/lng  9178 non-null   float64
 9   totalScore    9178 non-null   float64
 10  rank          9178 non-null   int64  
 11  imageUrl      9178 non-null   object 
 12  imagesCount   9178 non-null   float64
 13  reviewsCount  9178 non-null   int64  
 14  scrapedAt     9178 non-null   object 
 15  searchString  9178 non-null   object 
dtypes: float64(4), int64(2), object(10)
memory usage: 1.1+ MB


In [141]:
# Detecta y cuenta filas duplicadas basadas en título, ciudad, calle y coordenadas
dup = df.duplicated(subset=['title','city','street','location/lat','location/lng']).sum()
dup.sum()
print(f"Hay {dup} filas duplicadas en el DataFrame.")

Hay 3319 filas duplicadas en el DataFrame.


In [142]:
# Quita duplicados según campos clave (título, ciudad, calle y coordenadas), reinicia el índice y 
# guarda una copia limpia del DataFrame.
df = df.loc[~df.duplicated(subset=['title','city','street','location/lat','location/lng'])] \
    .reset_index(drop=True).copy()

In [144]:
# Verifica estructura, cuenta de filas y columnas, tipos y valores faltantes
# tras limpieza de duplicados y modificación de tipo de dato
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5859 entries, 0 to 5858
Data columns (total 16 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   title         5859 non-null   object 
 1   categoryName  5859 non-null   object 
 2   website       5859 non-null   object 
 3   street        5859 non-null   object 
 4   phone         5859 non-null   object 
 5   city          5859 non-null   object 
 6   state         5859 non-null   object 
 7   location/lat  5859 non-null   float64
 8   location/lng  5859 non-null   float64
 9   totalScore    5859 non-null   float64
 10  rank          5859 non-null   int64  
 11  imageUrl      5859 non-null   object 
 12  imagesCount   5859 non-null   float64
 13  reviewsCount  5859 non-null   int64  
 14  scrapedAt     5859 non-null   object 
 15  searchString  5859 non-null   object 
dtypes: float64(4), int64(2), object(10)
memory usage: 732.5+ KB


In [145]:
# Limpia y estandariza números internacionales (+54) removiendo dígito “9” extra antes del código local
df['phone'] = df['phone'].astype(str).str.replace(r'\+54\s*9\s*(\d+)', r'+54 \1', regex=True)
df['phone']

0       +54 2281 42-7066
1       +54 2281 65-7938
2       +54 2281 42-6984
3       +54 2281 36-0736
4       +54 2281 53-7036
              ...       
5854    +54 249 464-3311
5855    +54 223 555-9393
5856    +54 249 457-5285
5857    +54 249 438-8237
5858    +54 249 469-8239
Name: phone, Length: 5859, dtype: object

In [146]:
# Estándariza números telefónicos agregando ‘9’ después del +54 si falta, asegurando el formato internacional correcto.
df['phone'] = df['phone'].str.replace(
    r'^\+54\s*(?!9\s*[\d(])(.+)$', 
    r'+54 9 \1',                   
    regex=True
)
df['phone']

0       +54 9 2281 42-7066
1       +54 9 2281 65-7938
2       +54 9 2281 42-6984
3       +54 9 2281 36-0736
4       +54 9 2281 53-7036
               ...        
5854    +54 9 249 464-3311
5855    +54 9 223 555-9393
5856    +54 9 249 457-5285
5857    +54 9 249 438-8237
5858    +54 9 249 469-8239
Name: phone, Length: 5859, dtype: object

In [147]:
# Limpia los nombres de comercios eliminando comillas, asteriscos, signos de interrogación y emoticones.
df['title'] = df['title'].str.replace('"', '', regex=False) \
    .str.replace('*', '', regex=False) \
    .str.replace('?', '', regex=False) \
    .str.replace("'", '', regex=False) \
    .str.replace("👬", '', regex=False) \
    .str.replace("✨", '', regex=False) \
    .str.replace("⚽️", '', regex=False) \
    .str.replace("💖", '', regex=False) \
    .str.replace("♓", '', regex=False) \
    .str.replace("°", '', regex=False) \
    .str.replace("❣️", '', regex=False) \
    .str.replace("!", '', regex=False) \
    .str.replace("🔥", '', regex=False) \
    .str.replace("🪽", '', regex=False)	  
df.head(5)

Unnamed: 0,title,categoryName,website,street,phone,city,state,location/lat,location/lng,totalScore,rank,imageUrl,imagesCount,reviewsCount,scrapedAt,searchString
0,DTI - Azul,Soporte y servicios informáticos,Incomplete,Av. Juan Domingo Perón 525,+54 9 2281 42-7066,Azul,Provincia de Buenos Aires,-36.782006,-59.865497,0.0,22,https://streetviewpixels-pa.googleapis.com/v1/...,1.0,0,2025-06-15T22:56:55.477Z,tecnologia
1,TECNO COMPUTACION,Tienda de móviles,http://www.tecnocomputacionazul.com/,Lamadrid 33,+54 9 2281 65-7938,Azul,Provincia de Buenos Aires,-36.764914,-59.862404,4.6,3,https://lh3.googleusercontent.com/p/AF1QipP9Gg...,12.0,7,2025-06-15T22:56:54.474Z,tecnologia
2,Ingeniero Marcelo Edgardo Cornec,Ingeniero,Incomplete,Av. Juan Domingo Perón 622,+54 9 2281 42-6984,Azul,Provincia de Buenos Aires,-36.783278,-59.863594,5.0,20,https://lh3.googleusercontent.com/p/AF1QipN3mw...,13.0,3,2025-06-15T22:56:57.478Z,comercio
3,La esquina,Kiosco,Incomplete,"7300, Gral. Paz 1500",+54 9 2281 36-0736,Azul,Provincia de Buenos Aires,-36.79809,-59.853525,3.7,19,https://lh3.googleusercontent.com/p/AF1QipP1o8...,1.0,3,2025-06-15T22:56:57.478Z,comercio
4,Vidrieria 25 de Mayo de Jose Canalicchio,Comercio,Incomplete,Guaminí 610,+54 9 2281 53-7036,Azul,Provincia de Buenos Aires,-36.785552,-59.867145,4.2,40,https://lh3.googleusercontent.com/p/AF1QipM1o-...,5.0,9,2025-06-15T22:56:58.824Z,comercio


In [148]:
# Estandariza title, searchString y categoryName aplicando formato de título.
df['title'] = df['title'].str.title()
df['searchString'] = df['searchString'].str.title()
df['categoryName'] = df['categoryName'].str.title()
df[['title', 'searchString', 'categoryName']]

Unnamed: 0,title,searchString,categoryName
0,Dti - Azul,Tecnologia,Soporte Y Servicios Informáticos
1,Tecno Computacion,Tecnologia,Tienda De Móviles
2,Ingeniero Marcelo Edgardo Cornec,Comercio,Ingeniero
3,La Esquina,Comercio,Kiosco
4,Vidrieria 25 De Mayo De Jose Canalicchio,Comercio,Comercio
...,...,...,...
5854,Arkansas Muebles,Electrodomesticos,Tienda De Muebles
5855,Pilchas Mb,Ropa,Tienda De Ropa De Hombre
5856,Rodriggi,Ropa,Tienda De Ropa De Hombre
5857,Lg Service,Electrodomesticos,Servicio De Reparación De Electrodomésticos


In [149]:
# Elimina el prefijo '/url?q=' de las URLs en la columna 'website' y conserva solo la URL base.
df['website'] = df['website'].str.replace(
    r'^\s*/url\?q=(https?://.*)',
    r'\1',
    regex=True
)

In [150]:
# Contar cuántas veces aparece cada valor en la columna 'website'
df['website'].value_counts()

website
Incomplete                                                                                             4109
https://argentina.gridohelado.com/                                                                        6
http://www.luz-azul.com.ar/                                                                               5
http://www.cooperativaobrera.coop/                                                                        5
https://www.gpstaller.com.ar/                                                                             4
                                                                                                       ... 
http://www.herreriaelprogreso.com.ar/                                                                     1
http://martinezsalamandras.com/                                                                           1
https://www.guia-dorada.com.ar/guia/aviso-constructora-aripuka-sa-en-tandil-buenos-aires-25615.html       1
https://m.facebook.c

In [151]:
# Se cuentan las distintas categorías
category = df['categoryName'].nunique()
print(f"Los comercios están registrados en un total de {category} categorías distintas")

Los comercios están registrados en un total de 621 categorías distintas


In [152]:
# Se cuentan las categorías y se muestran las más frecuentes.
df['categoryName'].value_counts()

categoryName
Tienda De Ropa                   465
Tienda De Alimentación           366
Comercio                         334
Agencia Inmobiliaria             180
Incomplete                       142
                                ... 
Fábrica De Bolsas De Papel         1
Tienda De Discos                   1
Masajista Deportivo                1
Servicio De Sistemas Sépticos      1
Escuela De Artes Marciales         1
Name: count, Length: 621, dtype: int64

In [153]:
# Se exporta el DataFrame Regional limpio a un archivo CSV sin incluir la columna del índice.
df.to_csv('../CleanData/Regional.csv', index=False)

<div style="font-family: 'JetBrains Mono', monospace; font-size: 14px; color: #e2dbdbff; line-height: 1.6;">
✅ Conclusión

Se obtuvo un dataset unificado, sin duplicados y con valores nulos tratados.
El archivo está limpio y preparado para el análisis explora