In [None]:
import pandas as pd
import json

#  Cargar el CSV con pandas
ruta_csv = "D:/Soy Henry/Proyecto Final/metadata.csv"  # Ajusta la ruta real
df = pd.read_csv(ruta_csv)

#  Manejo de valores nulos
df.fillna({
    'description': 'Desconocido',  # Rellenar descripciones vacÃ­as
    'address': 'Sin direcciÃ³n'  # Rellenar direcciones vacÃ­as
}, inplace=True)

#  Convertir columnas numÃ©ricas al tipo correcto
df["latitude"] = pd.to_numeric(df["latitude"], errors="coerce")
df["longitude"] = pd.to_numeric(df["longitude"], errors="coerce")
df["avg_rating"] = pd.to_numeric(df["avg_rating"], errors="coerce")
df["num_of_reviews"] = pd.to_numeric(df["num_of_reviews"], errors="coerce", downcast="integer")

#  Transformar 'category' de JSON-string a CSV-compatible
def clean_json_column(json_str):
    try:
        return ",".join(json.loads(json_str.replace("'", '"'))) if pd.notna(json_str) else ""
    except json.JSONDecodeError:
        return ""

df["category"] = df["category"].apply(clean_json_column)

#  Limpiar y mejorar 'hours'
df["hours"] = df["hours"].astype(str).str.replace("Ã¢â‚¬â€œ", "-", regex=False)

# Parsear JSON en 'hours' y 'MISC'
def parse_json_safe(json_str):
    try:
        return json.dumps(json.loads(json_str.replace("'", '"'))) if pd.notna(json_str) else "{}"
    except json.JSONDecodeError:
        return "{}"

df["MISC"] = df["MISC"].apply(parse_json_safe)

#  Guardar en **CSV optimizado para Power BI**
ruta_salida_csv = "D:/metadata_clean.csv"
df.to_csv(ruta_salida_csv, index=False, encoding="utf-8")

#  Contar valores nulos
print(df.isnull().sum())

#  Filtrar negocios por categorÃ­a (ejemplo: farmacias)
print(df[df["category"].str.contains("Pharmacy", na=False)])

#  EstadÃ­sticas bÃ¡sicas de ratings
print(df["avg_rating"].describe())

print("âœ… ETL finalizado con pandas. CSV listo para Power BI.")



name                     38
address                   0
gmap_id                   0
description               0
latitude                  0
longitude                 0
category                  0
avg_rating                0
num_of_reviews            0
price               1741198
hours                     0
MISC                      0
state                465999
relative_results     182620
url                       0
dtype: int64
                                                      name  \
0                                          Porter Pharmacy   
35                                        Walmart Pharmacy   
106                                        Kroger Pharmacy   
147                               My Express Care Pharmacy   
155                                     Walgreens Pharmacy   
...                                                    ...   
1922846  Lakewood Apothecary and Natural Health Center Inc   
1922880                                       CVS Pharmacy   
1923196  

ðŸ”¹ Resumen de Cambios
âœ… Manejo de valores nulos:

Se rellenaron valores nulos en description con "Desconocido".
Se rellenaron valores nulos en address con "Sin direcciÃ³n".
âœ… ConversiÃ³n de tipos de datos:

latitude, longitude, avg_rating y num_of_reviews fueron convertidos a float o integer segÃºn corresponda.
num_of_reviews se optimizÃ³ con downcast="integer" para reducir uso de memoria.
âœ… Transformaciones y limpieza de datos:

Se convirtiÃ³ la columna category de JSON-string a formato compatible con CSV.
Se limpiaron caracteres no deseados en hours (por ejemplo, "Ã¢â‚¬â€œ" â†’ "-").
Se manejÃ³ el JSON en MISC, asegurando un formato vÃ¡lido.
âœ… OptimizaciÃ³n para Power BI:

Se guardÃ³ el archivo transformado como metadata_clean.csv en formato UTF-8.
âœ… AnÃ¡lisis de calidad de datos:

Se realizÃ³ un conteo de valores nulos.
Se filtraron negocios por categorÃ­a especÃ­fica (ejemplo: farmacias).
Se generaron estadÃ­sticas bÃ¡sicas de ratings (avg_rating).
Principales Mejoras:
ðŸ”¹ Se asegura consistencia y compatibilidad de datos para anÃ¡lisis en Power BI.
ðŸ”¹ ReducciÃ³n de errores en JSON y caracteres extraÃ±os.
ðŸ”¹ Se mejorÃ³ la eficiencia con tipos de datos correctos y optimizaciÃ³n de memoria.
ðŸ”¹ CÃ³digo mÃ¡s robusto y reutilizable para futuras transformaciones.

âœ… ETL Google Maps finalizado con Ã©xito.