# 1. 🚀 Introducción y Contexto

## 🛠️ La Historia que Motivó este Análisis

Era un día cualquiera en **Tandil** cuando mi bordeadora STIHL FSE60 decidió rendirse. Necesitaba un repuesto específico y, como cualquier persona del siglo XXI, mi primer instinto fue buscarlo **online**.

🔍 **Google:** Nada en la ciudad  
🛒 **MercadoLibre:** ¡Disponible! Pero a **350 km** y con 2 días de espera

Decidí intentar la búsqueda física. Después de **un día completo** recorriendo comercios...

💡 **¡EUREKA!** Un comercio finalmente sabía dónde conseguirlo. Estaba a **10 cuadras de casa**.

### 🤔 La Pregunta que Cambió Todo

> **"Si este comercio lo tenía, ¿por qué no apareció en mis búsquedas online?"**

---

## 🎯 Objetivos del Análisis

**🔍 Objetivo Principal:** Analizar el estado de la digitalización comercial en 5 ciudades del centro de Buenos Aires.

**📊 Preguntas de Investigación:**
- ¿Qué porcentaje de comercios tiene **datos completos** en Google Maps?
- ¿Cuántos tienen **sitio web** o **redes sociales** registradas?
- ¿El **tamaño de la ciudad** influye en la digitalización?
- ¿Los comercios digitalizados tienen **mejor engagement**?

**💡 Meta:** Transformar una experiencia personal en insights útiles para comerciantes locales.

# 2. 🔧 Preparación de Datos

📊 Importación y Limpieza

**🔄 Procesamiento:** Carga de múltiples archivos CSV por ciudad, selección de columnas relevantes y corrección de valores erróneos.

**🔗 Consolidación:** Concatenación de datasets individuales en archivo único 'Regional' con estandarización de teléfonos, tratamiento de missing values y eliminación de duplicados.

**🧹 Normalización:** Limpieza de nombres comerciales (comillas, asteriscos, emoticones) y estandarización de formato.

In [4]:
# Se importan las librerías para la carga y manipulación de los datos.
# pandas: manejo y limpieza de datos
# numpy: operaciones numéricas
# glob, os: manipulación de archivos y carpetas

import pandas as pd
import os
import numpy as np
from glob import glob
import glob
import matplotlib.pyplot as plt
import seaborn as sns

# Configura pandas para mostrar todas las columnas del DataFrame al mostrarlo, sin recorte visual.
pd.set_option('display.max_columns', None) 

In [5]:
# Búsqueda de los archivos .csv en el directorio
glob.glob('../Datasets/*azul*.csv')

['../Datasets\\azul_dataset_crawler-google-places_2025-06-15_22-59-32-816.csv',
 '../Datasets\\azul_dataset_crawler-google-places_2025-07-30_14-54-37-400.csv',
 '../Datasets\\azul_dataset_google-maps-extractor_2025-05-19_00-03-31-957.csv']

In [6]:
# Lectura de todos los archivos CSV de la carpeta y se combinan en un único DataFrame con 'pd.concat()' y se reestablece el índice con 'reset_index(drop=True)'.
# Se listan las columnas del DataFrame resultante.
df = pd.concat(map(pd.read_csv, glob.glob('../Datasets/*azul*.csv'))).reset_index(drop=True)
df.columns

Index(['additionalInfo/Accesibilidad/0/Entrada accesible para personas en silla de ruedas',
       'additionalInfo/Accesibilidad/0/Espacio accesible para personas en silla de ruedas',
       'additionalInfo/Accesibilidad/0/Estacionamiento accesible para personas en silla de ruedas',
       'additionalInfo/Accesibilidad/1/Bucle magnético de asistencia',
       'additionalInfo/Accesibilidad/1/Espacio accesible para personas en silla de ruedas',
       'additionalInfo/Accesibilidad/1/Estacionamiento accesible para personas en silla de ruedas',
       'additionalInfo/Accesibilidad/1/Sanitarios accesibles para personas en silla de ruedas',
       'additionalInfo/Accesibilidad/2/Bucle magnético de asistencia',
       'additionalInfo/Accesibilidad/2/Sanitarios accesibles para personas en silla de ruedas',
       'additionalInfo/Ambiente/0/A la moda',
       ...
       'plusCode',
       'additionalInfo/Accesibilidad/3/Sanitarios accesibles para personas en silla de ruedas',
       'additional

In [7]:
# Selección de columnas relevantes
df = df[[
        'title',
        'categoryName',
        'website',
        'street',
        'phone',
        'city',
        'state',
        'location/lat', 
        'location/lng',
        'totalScore',
        'rank',
        'imageUrl',
        'imagesCount',       
        'reviewsCount', 
        'scrapedAt',
        'searchString']]
df.head(5)

Unnamed: 0,title,categoryName,website,street,phone,city,state,location/lat,location/lng,totalScore,rank,imageUrl,imagesCount,reviewsCount,scrapedAt,searchString
0,DTI - Azul,Soporte y servicios informáticos,,Av. Juan Domingo Perón 525,+54 2281 42-7066,Azul,Provincia de Buenos Aires,-36.782006,-59.865497,,22,https://streetviewpixels-pa.googleapis.com/v1/...,1.0,0,2025-06-15T22:56:55.477Z,tecnologia
1,TECNO COMPUTACION,Tienda de móviles,http://www.tecnocomputacionazul.com/,Lamadrid 33,+54 2281 65-7938,Azul,Provincia de Buenos Aires,-36.764914,-59.862404,4.6,3,https://lh3.googleusercontent.com/p/AF1QipP9Gg...,12.0,7,2025-06-15T22:56:54.474Z,tecnologia
2,Ingeniero Marcelo Edgardo Cornec,Ingeniero,,Av. Juan Domingo Perón 622,+54 2281 42-6984,Azul,Provincia de Buenos Aires,-36.783278,-59.863594,5.0,20,https://lh3.googleusercontent.com/p/AF1QipN3mw...,13.0,3,2025-06-15T22:56:57.478Z,comercio
3,La esquina,Kiosco,,"7300, Gral. Paz 1500",+54 2281 36-0736,Azul,Provincia de Buenos Aires,-36.79809,-59.853525,3.7,19,https://lh3.googleusercontent.com/p/AF1QipP1o8...,1.0,3,2025-06-15T22:56:57.478Z,comercio
4,Vidrieria 25 de Mayo de Jose Canalicchio,Comercio,,Guaminí 610,+54 2281 53-7036,Azul,Provincia de Buenos Aires,-36.785552,-59.867145,4.2,40,https://lh3.googleusercontent.com/p/AF1QipM1o-...,5.0,9,2025-06-15T22:56:58.824Z,comercio


In [8]:
# Información del DataFrame sececcionado a través del método .info() : 
# Número de filas y columnas
# Nombres y tipos de datos de las columnas
# Valores no nulos en cada columna
# Uso de memoria
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1730 entries, 0 to 1729
Data columns (total 16 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   title         1730 non-null   object 
 1   categoryName  1699 non-null   object 
 2   website       377 non-null    object 
 3   street        1584 non-null   object 
 4   phone         1107 non-null   object 
 5   city          1716 non-null   object 
 6   state         1717 non-null   object 
 7   location/lat  1730 non-null   float64
 8   location/lng  1730 non-null   float64
 9   totalScore    1278 non-null   float64
 10  rank          1730 non-null   int64  
 11  imageUrl      1678 non-null   object 
 12  imagesCount   1676 non-null   float64
 13  reviewsCount  1730 non-null   int64  
 14  scrapedAt     1730 non-null   object 
 15  searchString  1730 non-null   object 
dtypes: float64(4), int64(2), object(10)
memory usage: 216.4+ KB


In [None]:
df['city'] = df['city'].fillna('Azul')
df['state'] = df['state'].fillna('Provincia de Buenos Aires')

In [None]:
# Este código cuenta la frecuencia de cada registro en la columna 'state'
df['state'].value_counts()

In [None]:
# Se reemplazan los datos de la columna 'state' que no son correctos
df['state'] = df['state'].replace({
    'San Juan': 'Provincia de Buenos Aires',
    'La Pampa': 'Provincia de Buenos Aires'
})

In [None]:
# Cuenta cuántas veces aparece cada ciudad.
df['city'].value_counts()

In [None]:
# Se reemplazan los datos de la columna 'city' que no son correctos
df['city'] = df['city'].replace({
    'Buenos Aires': 'Azul',
    'FRU' : 'Azul',
    'FAD' : 'Azul',
    'B7300GEU' : 'Azul',
    'CJV' : 'Azul',
    'GEV' : 'Azul',
    'CJU' : 'Azul',
    'FVW' : 'Azul',
    'CKE' : 'Azul',
    'ILF' : 'Azul',
    'CKA' : 'Azul',
    'Caleufú' : 'Azul'
})

In [None]:
# Se guarda el archivo principal de la ciudad
df.to_csv('../CleanData/AzulMain.csv', index=False)

In [None]:
# Búsqueda de los archivos .csv en el directorio
glob.glob('../Datasets/*juarez*.csv')

In [None]:
# Carga y concatena todos los archivos CSV que contengan 'juarez' en su nombre y reestablece el índice del DataFrame resultante.
df = pd.concat(map(pd.read_csv, glob.glob('../Datasets/*juarez*.csv'))).reset_index(drop=True)

In [None]:
# Selección de columnas relevantes
df = df[[
        'title',
        'categoryName',
        'website',
        'street',
        'phone',
        'city',
        'state',
        'location/lat', 
        'location/lng',
        'totalScore',
        'rank',
        'imageUrl',
        'imagesCount',       
        'reviewsCount', 
        'scrapedAt',
        'searchString']]
df.head(5)

In [None]:
df.info()

In [None]:
df['city'] = df['city'].fillna('Benito Juárez')
df['state'] = df['state'].fillna('Provincia de Buenos Aires')

In [None]:
# Cuenta y muestra la frecuencia de cada valor único en la columna 'state'.
df['state'].value_counts()

In [None]:
# Se cuenta la frecuencia de los registros de la columna 'city'
df['city'].value_counts()

In [None]:
df['city'] = df['city'].replace({
    'Buenos Aires': 'Benito Juárez',
    'Henderson' : 'Benito Juárez',
    'BENITO JUAREZ' : 'Benito Juárez',
    'BAB' : 'Benito Juárez',
    'alberti' : 'Benito Juárez'
})
df['city'].value_counts()

In [None]:
# Se guarda el archivo principal de la ciudad
df.to_csv('../CleanData/JuarezMain.csv', index=False)

In [None]:
# Búsqueda de los archivos .csv en el directorio
glob.glob('../Datasets/*olavarria*.csv')

In [None]:
# Carga y concatena todos los archivos CSV que contengan 'olavarria' en su nombre.
df = pd.concat(map(pd.read_csv, glob.glob('../Datasets/*olavarria*.csv'))).reset_index(drop=True)

In [None]:
# Selección de columnas relevantes
df = df[[
        'title',
        'categoryName',
        'website',
        'street',
        'phone',
        'city',
        'state',
        'location/lat', 
        'location/lng',
        'totalScore',
        'rank',
        'imageUrl',
        'imagesCount',       
        'reviewsCount', 
        'scrapedAt',
        'searchString']]
df.head(5)

In [None]:
df.info()

In [None]:
df['city'] = df['city'].fillna('Olavarría')
df['state'] = df['state'].fillna('Provincia de Buenos Aires')

In [None]:
df['state'].value_counts()

In [None]:
df['state'] = df['state'].replace({
    'Ciudad Autónoma de Buenos Aires': 'Provincia de Buenos Aires',
    'CABA': 'Provincia de Buenos Aires'
})

In [None]:
df['city'].value_counts()

In [None]:
df['city'] = df['city'].replace({
    'Gran Buenos Aires': 'Olavarría',
    'DFE' : 'Olavarría',
    'Buenos Aires' : 'Olavarría',
    'KKJ' : 'Olavarría',
    'KCI' : 'Olavarría',
    'B7400LCX' : 'Olavarría',
    'COO' : 'Olavarría',
    'CVQ' : 'Olavarría',
    'IDH' : 'Olavarría',
    'Caseros' : 'Olavarría',
    'DAS' : 'Olavarría',
    'Colon' : 'Olavarría',
    'Moreno' : 'Olavarría',
    'CZY' : 'Olavarría',
    'DJY' : 'Olavarría',
    'JZB' : 'Olavarría',
    'DRQ' : 'Olavarría',
    'B7400JWP' : 'Olavarría',
    'CUV' : 'Olavarría',
    'CUG' : 'Olavarría',
    'DSC' : 'Olavarría',
    'KKM' : 'Olavarría',
    'CRB' : 'Olavarría',
    'CUC' : 'Olavarría',
    'JUE' : 'Olavarría',
    'DJQ' : 'Olavarría',
    'DSN' : 'Olavarría',
    'DRL' : 'Olavarría',
    'CWP' : 'Olavarría',
    'CUR' : 'Olavarría',
    'LNM' : 'Olavarría',
    'DTO' : 'Olavarría',
    'LLD' : 'Olavarría',
    'CABA' : 'Olavarría'
})

In [None]:
# Exporta el DataFrame a .CSV sin incluir la columna del índice
df.to_csv('../CleanData/OlavarriaMain.csv', index=False)

In [None]:

glob.glob('../Datasets/*rauch*.csv')

In [None]:
df = pd.concat(map(pd.read_csv, glob.glob('../Datasets/*rauch*.csv'))).reset_index(drop=True)

In [None]:
df = df[[
        'title',
        'categoryName',
        'website',
        'street',
        'phone',
        'city',
        'state',
        'location/lat', 
        'location/lng',
        'totalScore',
        'rank',
        'imageUrl',
        'imagesCount',       
        'reviewsCount', 
        'scrapedAt',
        'searchString']]
df.head(5)

In [None]:
df.info()

In [None]:
df['city'] = df['city'].fillna('Rauch')
df['state'] = df['state'].fillna('Provincia de Buenos Aires')

In [None]:

df['state'] .value_counts()

In [None]:
df['state'] = df['state'].replace({
    'Buenos Aires Sur' : 'Provincia de Buenos Aires'    
})

In [None]:
df['city'].value_counts()

In [None]:
df['city'] = df['city'].replace({
    'Buenos Aires': 'Rauch',
    'BPQ' : 'Rauch',
    'ADB' : 'Rauch',
    'ASJ' : 'Rauch',
    'BPR' : 'Rauch',
    'BBP' : 'Rauch',
    'ACD' : 'Rauch',
    'BPJ' : 'Rauch',
    'AEX' : 'Rauch',
    'BID' : 'Rauch',
    'ACF' : 'Rauch',
    'AQH' : 'Rauch',
    'BPO' : 'Rauch',
    'ATQ' : 'Rauch',
    'AQJ' : 'Rauch',
    'ABD' : 'Rauch',
    'BQC' : 'Rauch',    
    'AKG' : 'Rauch',
    'BCB' : 'Rauch',
    'BPP' : 'Rauch',
    'BPK' : 'Rauch',
    'BPI' : 'Rauch',
    'AQE' : 'Rauch',
    'BMT' : 'Rauch',
    'AQF' : 'Rauch',
    'AAI' : 'Rauch',
    'BJF' : 'Rauch',
    'AQB' : 'Rauch'
})

In [None]:
#Exportación del DataFrame a un archivo CSV
df.to_csv('../CleanData/RauchMain.csv', index=False)

In [None]:
# Búsqueda de los archivos .csv en el directorio
glob.glob('../Datasets/*tandil*.csv')

In [None]:
# Lectura y unión de archivos CSV
df = pd.concat(map(pd.read_csv, glob.glob('../Datasets/*tandil*.csv'))).reset_index(drop=True)


In [None]:
df = df[[
        'title',
        'categoryName',
        'website',
        'street',
        'phone',
        'city',
        'state',
        'location/lat', 
        'location/lng',
        'totalScore',
        'rank',
        'imageUrl',
        'imagesCount',       
        'reviewsCount', 
        'scrapedAt',
        'searchString']]
df.head(5)

In [None]:
df.info()

In [None]:
df['city'] = df['city'].fillna('Tandil')
df['state'] = df['state'].fillna('Provincia de Buenos Aires')

In [None]:

df['state'].value_counts()

In [None]:
df['state'] = df['state'].replace({
    'Ciudad Autónoma de Buenos Aires': 'Provincia de Buenos Aires',
    'de Buenos Aires': 'Provincia de Buenos Aires'
})

In [None]:
df['city'].value_counts()

In [None]:
df['city'] = df['city'].replace({
    'Gran Buenos Aires': 'Tandil',
    'Buenos Aires': 'Tandil',
    'HXG': 'Tandil',
    'IRK': 'Tandil',
    'BGA': 'Tandil',
    'FTE': 'Tandil',
    'GRS': 'Tandil',
    'GZY': 'Tandil',
    'GKP': 'Tandil',
    'ATN': 'Tandil',
    'BWH': 'Tandil',
    'BKB': 'Tandil',
    'AOS': 'Tandil',
    'AQX': 'Tandil',
    'AOX': 'Tandil',
    'FSW': 'Tandil',
    'IRL': 'Tandil',
    'AHM': 'Tandil',
    'AQO': 'Tandil',
    'HEU': 'Tandil',
    'BJD': 'Tandil',
    'Gutiérrez': 'Tandil',
    'AZR': 'Tandil',
    'AZG': 'Tandil',
    'EAC': 'Tandil',
    'GKR': 'Tandil',
    'GQQ': 'Tandil',
    'AOP': 'Tandil',
    'AOO': 'Tandil',
    'AEK': 'Tandil',
    'GVL': 'Tandil',
    'GMM': 'Tandil',
    'AZC': 'Tandil',
    'AZD': 'Tandil',
    'AOV': 'Tandil',
    'Ciudad Autónoma de Buenos Aires': 'Tandil'
})

In [None]:
#Exportación del DataFrame a un archivo CSV
df.to_csv('../CleanData/TandilMain.csv', index=False)

In [None]:
# Búsqueda de los archivos .csv en el directorio
glob.glob('../CleanData/*Main*.csv')

In [None]:
# Lectura y unión de archivos CSV
df = pd.concat(map(pd.read_csv, glob.glob('../CleanData/*Main*.csv'))).reset_index(drop=True)

In [None]:
# Información del DataFrame a través del método .info() : 
# Número de filas y columnas
# Nombres y tipos de datos de las columnas
# Valores no nulos en cada columna
# Uso de memoria
df.info()

In [None]:
# Define qué strings deben ser tratados como nulos en las columnas seleccionadas.
nulls = ['', ' ', 'N/A', 'nan', 'NaN', 'None']

# Define las columnas a las que quieres aplicar este proceso.
col = ['title', 'categoryName', 'website', 'street', 'phone', 'city', 'state', 'imageUrl']

# Itera sobre cada columna y aplica la lógica.
for col in col:
    df.loc[:, col] = df[col].replace(nulls, np.nan) # Estandariza a np.nan
    df.loc[:, col] = df[col].fillna('Incomplete') # Reemplaza nulos con 'incomplete'


In [None]:


# Define las columnas a las que se aplica este proceso.
colnum = ['location/lat' ,'location/lng', 'totalScore', 'imagesCount', 'rank', 'reviewsCount']

# Itera sobre cada columna y aplica la lógica.
for colnum in colnum:
   df.loc[:, colnum] = df[colnum].replace(nulls, np.nan) # Estandariza a np.nan
   df.loc[:, colnum] = df[colnum].fillna(0) # Reemplaza nulos con 0

In [None]:
df.isna().sum() 

In [None]:
df.info()

In [None]:
# Detecta y cuenta filas duplicadas basadas en título, ciudad, calle y coordenadas
dup = df.duplicated(subset=['title','city','street','location/lat','location/lng']).sum()
dup.sum()

In [None]:
# Quita duplicados según campos clave (título, ciudad, calle y coordenadas), reinicia el índice y 
# guarda una copia limpia del DataFrame.
df = df.loc[~df.duplicated(subset=['title','city','street','location/lat','location/lng'])] \
    .reset_index(drop=True).copy()

In [None]:
# Se modifica el tipo de dato de la columna 'scrapedAt' a datetime
df['scrapedAt'] = pd.to_datetime(df['scrapedAt'], errors='coerce', utc=True)

In [None]:
# "Convierte la columna 'scrapedAt' a tipo fecha, eliminando la información de la hora para facilitar análisis temporales."
df['scrapedAt'] = pd.to_datetime(df['scrapedAt'].dt.date)

In [None]:
df.dtypes

In [None]:
# Verifica estructura, cuenta de filas y columnas, tipos y falta de valores tras limpieza de duplicados y modificación de tipo de dato
df.info()

In [None]:
# Limpia y estandariza números internacionales (+54) removiendo dígito “9” extra antes del código local
df['phone'] = df['phone'].astype(str).str.replace(r'\+54\s*9\s*(\d+)', r'+54 \1', regex=True)
df['phone']

In [None]:
# Estándariza números móviles agregando ‘9’ después del +54 si falta, asegurando el formato internacional correcto.
df['phone'] = df['phone'].str.replace(
    r'^\+54\s*(?!9\s*[\d(])(.+)$', 
    r'+54 9 \1',                   
    regex=True
)
df['phone']

In [None]:
# Limpia los nombres de comercios eliminando comillas, asteriscos, signos de interrogación y emoticones.
df['title'] = df['title'].str.replace('"', '', regex=False) \
    .str.replace('*', '', regex=False) \
    .str.replace('?', '', regex=False) \
    .str.replace("'", '', regex=False) \
    .str.replace("👬", '', regex=False) \
    .str.replace("✨", '', regex=False) \
    .str.replace("⚽️", '', regex=False) \
    .str.replace("💖", '', regex=False) \
    .str.replace("♓", '', regex=False) \
    .str.replace("°", '', regex=False) \
    .str.replace("❣️", '', regex=False) \
    .str.replace("!", '', regex=False) \
    .str.replace("🔥", '', regex=False) \
    .str.replace("🪽", '', regex=False)	  
df.head(5)

In [None]:
# Estandariza title y searchString aplicando formato de título.
df['title'] = df['title'].str.title()
df['searchString'] = df['searchString'].str.title()
df['categoryName'] = df['categoryName'].str.title()
df[['title', 'searchString', 'categoryName']]

In [None]:
# Elimina el prefijo '/url?q=' de las URLs en la columna 'website' y conserva solo la URL base.
df['website'] = df['website'].str.replace(
    r'^\s*/url\?q=(https?://.*)',
    r'\1',
    regex=True
)

In [None]:
df['website'].value_counts()

In [None]:
search = df['searchString'].unique().tolist()
search

In [None]:
# Se cuentan las categorias
df['categoryName'].nunique()


In [None]:
df['categoryName'].value_counts()

In [None]:
df.to_csv('../CleanData/Regional.csv', index=False)

## 📊 Exploratory Data Analysis (EDA)

### ✅ Principales insights:

- **25.29%** de los comercios tienen presencia web.
- **Tandil** y **Olavarria** lideran en digitalización.
- **Instagram 19.2%** y **Facebook 18.11** concentran la presencia en RRSS
- Los comercios con sitio web tienen **mayor cantidad de reviews** en todas las ciudades.
- El puntaje promedio se mantiene **alto y constante (4.0 - 4.4)**.
- Categorías más comunes:
  - 
  - 
  - 
  - 

---

In [None]:
# Carga del archivo CSV
df = pd.read_csv('../CleanData/Regional.csv')

In [None]:
# Verificar la estructura dimensional del DataFrame para el análisis exploratorio
df.shape

In [None]:
# Análisis de tipos de datos para identificar variables numéricas y categóricas
df.dtypes

In [None]:
# Convierte a formato datetime manejando valores inválidos
df['scrapedAt'] = pd.to_datetime(df['scrapedAt'], errors='coerce', utc=True)
# Extraer solo la fecha (eliminar información de hora)
df['scrapedAt'].dt.date

In [None]:
# Resumen general del dataset: tipos, memoria y valores no nulos
df.info()

In [None]:
# Visualizar las primeras 5 filas para entender la estructura
df.head(5)

In [None]:
# Verificar consistencia en los últimos registros
df.tail(5)

In [None]:
# Muestra aleatoria para revisar variabilidad de los datos
df.sample(5)

In [None]:
# Contar total de registros por ciudad
total_city = df.groupby('city')['title'].count().sort_values(ascending=False)
total_city

In [None]:
# Contar total de registros por ciudad excluyendo 'incomplete'
total_web = (df[~df['website'].str.contains('Incomplete', case=False, na=False)]
            .groupby('city')['website'].count()
            .sort_values(ascending=False))
total_web

In [None]:
webs = total_web.sum()
webs

In [None]:
# Análisis de calidad: datos faltantes agrupados por ciudad
incomplete_city = (df[df['website'] == 'Incomplete']
                .groupby('city')['website'].count()
                .sort_values(ascending=False))
incomplete_city

In [None]:
# Crear nuevo DataFrame filtrando registros completos
# Excluye filas que contengan 'incomplete' en cualquiera de las columnas
df_full_records = df[~(df == 'Incomplete').any(axis=1)].copy()
# Resultado: DataFrame con registros que tienen datos completos en todas las columnas
df_full_records.head(5)

In [None]:
df_full_records['categoryName'].value_counts()

In [None]:
# Crear una máscara que identifique registros que contienen CUALQUIERA de esas palabras
words = ['facebook', 'instagram', 'mercadolibre', 'mercadoshops', 'tiendanube', 'paginasamarillas', 
        'guia-dorada', 'gurugo', 'wa.me', 'sites.google.', 'pedidosya', 'region20']
result = (pd.Series({word: df['website'].str.contains(word, case=False, na=False).sum() 
                for word in words})
        .sort_values(ascending=False))

result

In [None]:
result_df = pd.DataFrame({
    'count': result,
    'percentage': (result / webs * 100).round(2)
})
result_df

In [None]:
words_2 = ['facebook', 'instagram', 'mercadolibre', 'mercadoshops', 'tiendanube', 'paginasamarillas', 
        'guia-dorada', 'gurugo', 'wa.me', 'sites.google.', 'region20', 'Incomplete']
# Crear máscara combinada
contains_word = df['website'].str.contains('|'.join(words_2), case=False, na=False)
# Contar los que NO contienen ninguna de esas palabras
Own_Website = (~contains_word).sum()
Own_Website

In [None]:
# Calcular métricas base por ciudad
total_registros = df.groupby('city').size()
registros_incomplete = df[df['website'].str.contains('Incomplete', case=False, na=False)].groupby('city').size()

# Crear tabla resumen con métricas de calidad
resumen = pd.DataFrame({
    'total_registros': total_registros,
    'Incomplete': registros_incomplete
}).fillna(0)

# Calcular métricas derivadas
resumen['complete'] = resumen['total_registros'] - resumen['Incomplete']
resumen['complete_pct'] = (resumen['complete'] / resumen['total_registros'] * 100).round(2)
resumen['Incomplete_pct'] = (resumen['Incomplete'] / resumen['total_registros'] * 100).round(2)

# Ordenar por total de registros
resumen = resumen.sort_values('total_registros', ascending=False)
resumen


In [None]:
# Promedio general de presencia web
avg_General = resumen['complete_pct'].mean().round(2)
avg_General

 📊 **Visualizaciones**

In [None]:

fig, ax = plt.subplots(figsize=(10, 6))
resumen[['complete_pct', 'incomplete_pct']].plot(
    kind='bar', stacked=True, ax=ax, color=["#1D63FF", "#85abfc"]
)

# Agregar los porcentajes en cada barra
for container in ax.containers:
    labels = [f'{w:.1f}%' if w > 0 else '' for w in container.datavalues]
    ax.bar_label(container, labels=labels, label_type='center', color='black', fontsize=10)

plt.ylabel('Porcentaje')
plt.title('Presencia web por ciudad')
plt.legend(['Con web', 'Sin web'])
plt.xticks(rotation=0) 
plt.tight_layout()
plt.show()

In [None]:
# Visualización profesional de completitud de datos por ciudad
fig, ax = plt.subplots(figsize=(12, 7))

# Crear gráfico con colores profesionales y contraste mejorado
resumen[['complete_pct', 'incomplete_pct']].plot(
    kind='bar', 
    stacked=True, 
    ax=ax, 
    color=["#1D63FF", "#85abfc"],
    width=0.7,
    edgecolor='none',
    linewidth=0.8
)
# Etiquetas de porcentaje solo donde sean legibles
for i, container in enumerate(ax.containers):
    labels = [f'{w:.1f}%' if w > 5 else '' for w in container.datavalues]  # Solo mostrar si >5%
    ax.bar_label(container, labels=labels, label_type='center', 
                color='black', fontweight='bold', fontsize=9)

# Personalización
ax.set_ylabel('Porcentaje (%)', fontsize=12, fontweight='bold')
ax.set_title('Presencia Web por ciudad', fontsize=14, fontweight='bold', pad=20)
ax.set_xlabel('Ciudades', fontsize=12, fontweight='bold')

# Mejorar leyenda
ax.legend(['Tiene Website', 'Datos Incompletos'], 
        loc='upper right', frameon=True, shadow=True, 
        fancybox=True, fontsize=10)
# Rotar labels si hay muchas ciudades
plt.xticks(rotation=45 if len(resumen) > 8 else 0, ha='right' if len(resumen) > 8 else 'center')
# Personalizar ejes
ax.set_ylim(0, 100)
ax.set_yticks(range(0, 101, 20))
ax.grid(axis='y', alpha=0.3, linestyle='--')
ax.set_axisbelow(True)
plt.tight_layout()
plt.show()

# Estadística complementaria
print(f"Promedio con Website: {resumen['complete_pct'].mean():.1f}%")

In [None]:


fig, ax = plt.subplots(figsize=(10, 6))
resumen[['complete_pct', 'incomplete_pct']].plot(
    kind='bar', stacked=True, ax=ax, color=['#4CAF50', '#F44336']
)
plt.ylabel('Porcentaje')
plt.title('Presencia web por ciudad')
plt.legend(['Con web', 'Sin web (incomplete)'])
plt.tight_layout()
plt.show()

In [None]:
avg_rating = df.groupby('city')['rank'].mean().sort_values(ascending=False)
avg_rating.plot(kind='barh', title='Calificación promedio por ciudad')
plt.xlabel('Calificación promedio')
plt.show()



# Añadir línea de referencia para 80% (umbral de calidad)
ax.axhline(y=80, color='orange', linestyle=':', alpha=0.7, linewidth=2, 
           label='Umbral de Calidad (80%)')



In [None]:
top_categories = df['categoryName'].value_counts().head(10)

sns.barplot(x=top_categories.values, y=top_categories.index)
plt.title('Top 10 categorías de negocios')
plt.xlabel('Cantidad')
plt.show()


## Distribución de negocios por ciudad


In [None]:
city_counts = df['city'].value_counts()

plt.figure(figsize=(8,5))
barplot = sns.barplot(x=city_counts.index, y=city_counts.values)

for index, value in enumerate(city_counts.values):
    barplot.text(index, value, str(value), ha='center', va='bottom')
# Configurar títulos y etiquetas
plt.title('Cantidad de negocios por ciudad')
plt.ylabel('Cantidad')
plt.xlabel('Ciudad')
plt.show()
first_bar_color = barplot.patches[0].get_facecolor()
print(f"El color de la primera barra es: {first_bar_color}")

## Principales categorías de negocios

Se identifican las categorías de negocios más frecuentes en la región.


In [None]:
top_categories = df['categoryName'].value_counts().head(10)

sns.barplot(x=top_categories.values, y=top_categories.index)
plt.title('Top 10 categorías de negocios')
plt.xlabel('Cantidad')
plt.show()


## Análisis de calificaciones promedio por ciudad


In [None]:
avg_rating = df.groupby('city')['rank'].mean().sort_values(ascending=False)
avg_rating.plot(kind='barh', title='Calificación promedio por ciudad')
plt.xlabel('Calificación promedio')
plt.show()


## Conclusiones

- La ciudad X tiene la mayor cantidad de negocios registrados.
- Las categorías más frecuentes son Restaurants, Grocery, etc.
- Las calificaciones promedio muestran oportunidades de mejora en ciertas ciudades.

Próximos pasos:
- Profundizar en análisis de reviews.
- Analizar correlaciones entre ubicación y puntuaciones.


In [None]:
# Elegir una paleta armónica
color_palette = px.colors.qualitative.Pastel

fig = px.bar(
    category_counts,
    x='count',
    y='website_category',
    orientation='h',
    color='website_category',
    color_discrete_sequence=color_palette,
    text='count'
)

fig.update_layout(
    title='Distribución de Tipos de Presencia Online de Negocios Locales',
    xaxis_title='Cantidad de Negocios',
    yaxis_title='Tipo de Presencia Online',
    showlegend=False,
    plot_bgcolor='white',
    font=dict(size=14)
)

fig.update_traces(
    textposition='outside'
)

fig.show()


In [None]:
import pandas as pd
import plotly.express as px

# Filtrar filas con website válido
df_valid = df[~df['website'].isna() & (df['website'].str.strip() != '')]

# Keywords
keywords = [
    "facebook",
    "mercadoshops",
    "mercadolibre",
    "tiendanube",
    "wa.me",
    "guia-dorada.com.ar",
    "pedidosya.com.ar",
    "region20",
    "empretienda",
    "gurugo",
    "wixsite",
    ".gob",
    ".gov",
    "tiendanegocio",
    "sites.google.com"
]

# Función para categorizar
def categorize_website(site):
    site_lower = str(site).lower()
    for kw in keywords:
        if kw in site_lower:
            return kw
    return 'ownDomain'

# Aplicar categorización
df_valid['website_category'] = df_valid['website'].apply(categorize_website)

# Contar ocurrencias
category_counts = df_valid['website_category'].value_counts().reset_index()
category_counts.columns = ['website_category', 'count']
category_counts = category_counts.sort_values(by='count', ascending=True)

# Plotly
color_palette = px.colors.qualitative.Pastel

fig = px.bar(
    category_counts,
    x='count',
    y='website_category',
    orientation='h',
    color='website_category',
    color_discrete_sequence=color_palette,
    text='count'
)

fig.update_layout(
    title='Distribución de Tipos de Presencia Online de Negocios Locales',
    xaxis_title='Cantidad de Negocios',
    yaxis_title='Tipo de Presencia Online',
    showlegend=False,
    plot_bgcolor='white',
    font=dict(size=14)
)

fig.update_traces(
    textposition='outside'
)

fig.show()


In [None]:
# Agrupar por ciudad y categoría
category_counts = (
    df
    .groupby(['city', 'categoryName'])
    .size()
    .reset_index(name='website_count')
)
category_counts = category_counts.sort_values(by='website_count', ascending=False)
category_counts

PASO 2 — Agrupar por ciudad y categoría
Contamos cuántos websites hay en cada categoría dentro de cada ciudad.

python
Copiar
Editar


# Total de websites por ciudad
total_by_city = (
    city_category_counts
    .groupby('city')['website_count']
    .sum()
    .reset_index(name='total_city')
)

# Merge para calcular el porcentaje
city_category_counts = city_category_counts.merge(
    total_by_city,
    on='city',
    how='left'
)

city_category_counts['percentage'] = (
    city_category_counts['website_count'] / city_category_counts['total_city'] * 100
).round(2)

# Crear texto doble
city_category_counts['text_label'] = (
    "N = " + city_category_counts['website_count'].astype(str) +
    "<br>" +
    city_category_counts['percentage'].astype(str) + " %"
)



PASO 3 — Calcular % dentro de cada ciudad
Queremos saber el porcentaje que cada categoría representa dentro de su ciudad.

python
Copiar
Editar
# Total de websites por ciudad
total_by_city = (
    city_category_counts
    .groupby('city')['website_count']
    .sum()
    .reset_index(name='total_city')
)

# Merge para calcular el porcentaje
city_category_counts = city_category_counts.merge(
    total_by_city,
    on='city',
    how='left'
)

city_category_counts['percentage'] = (
    city_category_counts['website_count'] / city_category_counts['total_city'] * 100
).round(2)

# Crear texto doble
city_category_counts['text_label'] = (
    "N = " + city_category_counts['website_count'].astype(str) +
    "<br>" +
    city_category_counts['percentage'].astype(str) + " %"
)
PASO 4 — Generar un gráfico por ciudad
Ahora generamos un gráfico individual para cada ciudad.

Ejemplo en código puro:

python
Copiar
Editar
import plotly.express as px

cities = city_category_counts['city'].unique()

for city in cities:
    df_city = city_category_counts[city_category_counts['city'] == city]
    
    # Podés mostrar solo el top 10 de categorías
    df_city_top = df_city.sort_values('website_count', ascending=False).head(10)
    
    fig = px.bar(
        df_city_top.sort_values('website_count', ascending=True),
        x='website_count',
        y='categoryName',
        orientation='h',
        text='text_label',
        color_discrete_sequence=px.colors.qualitative.Set3,
        title=f"Categorías con MÁS páginas web en {city}",
        hover_data={
            'website_count': True,
            'percentage': True,
            'categoryName': False,
            'text_label': False
        },
        labels={
            'website_count': 'Cantidad de páginas web',
            'categoryName': 'Categoría de Negocio'
        },
        height=500
    )
    
    fig.update_layout(
        plot_bgcolor="#FDF6F6",
        title={
            'x': 0.5,
            'xanchor': 'center',
            'font': {
                'family': 'Arial, sans-serif',
                'size': 20,
                'color': 'darkblue'
            }
        },
        margin=dict(t=80, b=80, r=250),
        legend=dict(
            orientation='h',
            yanchor='bottom',
            y=-0.3,
            xanchor='center',
            x=0.5
        )
    )
    
    fig.update_traces(
        textposition='inside',
        insidetextanchor='middle'
    )
    
    fig.show()


    