In [None]:
import pandas as pd
import json

#  Cargar el CSV con pandas
ruta_csv = "D:/Soy Henry/Proyecto Final/metadata.csv"  # Ajusta la ruta real
df = pd.read_csv(ruta_csv)

#  Manejo de valores nulos
df.fillna({
    'description': 'Desconocido',  # Rellenar descripciones vacías
    'address': 'Sin dirección'  # Rellenar direcciones vacías
}, inplace=True)

#  Convertir columnas numéricas al tipo correcto
df["latitude"] = pd.to_numeric(df["latitude"], errors="coerce")
df["longitude"] = pd.to_numeric(df["longitude"], errors="coerce")
df["avg_rating"] = pd.to_numeric(df["avg_rating"], errors="coerce")
df["num_of_reviews"] = pd.to_numeric(df["num_of_reviews"], errors="coerce", downcast="integer")

#  Transformar 'category' de JSON-string a CSV-compatible
def clean_json_column(json_str):
    try:
        return ",".join(json.loads(json_str.replace("'", '"'))) if pd.notna(json_str) else ""
    except json.JSONDecodeError:
        return ""

df["category"] = df["category"].apply(clean_json_column)

#  Limpiar y mejorar 'hours'
df["hours"] = df["hours"].astype(str).str.replace("â€“", "-", regex=False)

# Parsear JSON en 'hours' y 'MISC'
def parse_json_safe(json_str):
    try:
        return json.dumps(json.loads(json_str.replace("'", '"'))) if pd.notna(json_str) else "{}"
    except json.JSONDecodeError:
        return "{}"

df["MISC"] = df["MISC"].apply(parse_json_safe)

#  Guardar en **CSV optimizado para Power BI**
ruta_salida_csv = "D:/metadata_clean.csv"
df.to_csv(ruta_salida_csv, index=False, encoding="utf-8")

#  Contar valores nulos
print(df.isnull().sum())

#  Filtrar negocios por categoría (ejemplo: farmacias)
print(df[df["category"].str.contains("Pharmacy", na=False)])

#  Estadísticas básicas de ratings
print(df["avg_rating"].describe())

print("✅ ETL finalizado con pandas. CSV listo para Power BI.")



name                     38
address                   0
gmap_id                   0
description               0
latitude                  0
longitude                 0
category                  0
avg_rating                0
num_of_reviews            0
price               1741198
hours                     0
MISC                      0
state                465999
relative_results     182620
url                       0
dtype: int64
                                                      name  \
0                                          Porter Pharmacy   
35                                        Walmart Pharmacy   
106                                        Kroger Pharmacy   
147                               My Express Care Pharmacy   
155                                     Walgreens Pharmacy   
...                                                    ...   
1922846  Lakewood Apothecary and Natural Health Center Inc   
1922880                                       CVS Pharmacy   
1923196  

🔹 Resumen de Cambios
✅ Manejo de valores nulos:

Se rellenaron valores nulos en description con "Desconocido".
Se rellenaron valores nulos en address con "Sin dirección".
✅ Conversión de tipos de datos:

latitude, longitude, avg_rating y num_of_reviews fueron convertidos a float o integer según corresponda.
num_of_reviews se optimizó con downcast="integer" para reducir uso de memoria.
✅ Transformaciones y limpieza de datos:

Se convirtió la columna category de JSON-string a formato compatible con CSV.
Se limpiaron caracteres no deseados en hours (por ejemplo, "â€“" → "-").
Se manejó el JSON en MISC, asegurando un formato válido.
✅ Optimización para Power BI:

Se guardó el archivo transformado como metadata_clean.csv en formato UTF-8.
✅ Análisis de calidad de datos:

Se realizó un conteo de valores nulos.
Se filtraron negocios por categoría específica (ejemplo: farmacias).
Se generaron estadísticas básicas de ratings (avg_rating).
Principales Mejoras:
🔹 Se asegura consistencia y compatibilidad de datos para análisis en Power BI.
🔹 Reducción de errores en JSON y caracteres extraños.
🔹 Se mejoró la eficiencia con tipos de datos correctos y optimización de memoria.
🔹 Código más robusto y reutilizable para futuras transformaciones.

✅ ETL Google Maps finalizado con éxito.