Función encargada de analizar el archivo houses_medellin con el fin de procesar y buscar registros duplicados. 

In [None]:
import pandas as pd

def analizar_csv(ruta_archivo_csv: str) -> pd.DataFrame:

    """
    Función que analiza un archivo CSV y realiza las siguientes acciones:
    1. Carga el archivo CSV ignorando la primera columna.
    2. Renombrar columnas eliminando caracteres extraños.
    3. Convertir valores numéricos eliminando caracteres no deseados.
    4. Mostrar cuántos valores se convirtieron en NaN.
    5. Agrupar registros duplicados y contar su frecuencia.
    6. Mostrar la tabla con los datos agrupados.

    Parámetros:
        ruta_archivo_csv (str): Ruta al archivo CSV a analizar.

    Retorna:
        pd.DataFrame: DataFrame con los datos agrupados.
    """

    # Cargar el archivo CSV ignorando la primera columna
    datos = pd.read_csv(ruta_archivo_csv, index_col=0)

    # Mostrar las primeras filas antes de modificar nada
    print("🔹 DataFrame Original:")
    print(datos.head())

    # Renombrar columnas eliminando caracteres extraños
    datos.columns = [
        "Habitaciones", "Baños", "Estrato", "Antigüedad", "Piso_N", "Administracion",
        "Precio_m2", "Parqueaderos", "Estado", "Tipo_apartamento", "Precio",
        "Area_construida_m2", "Area_privada_m2"
    ]

    # Mostrar columnas renombradas
    print("\n🔹 Columnas después de renombrar:", datos.columns)

    # Mostrar valores únicos antes de limpiar
    for columna in ["Precio_m2", "Precio"]:
        print(f"\n🔹 Valores únicos en {columna} antes de limpiar:")
        print(datos[columna].dropna().unique()[:10])  # Muestra los primeros 10 valores únicos

    # Convertir valores numéricos eliminando caracteres no deseados
    columnas_numericas = ["Habitaciones", "Baños", "Estrato", "Precio_m2", "Parqueaderos", "Precio", "Area_construida_m2", "Area_privada_m2"]

    for columna in columnas_numericas:
        datos[columna] = datos[columna].astype(str).str.replace(r"[^0-9,.-]", "", regex=True)  # Quitar caracteres no numéricos
        datos[columna] = datos[columna].str.replace(",", ".", regex=True)  # Convertir comas a puntos
        datos[columna] = pd.to_numeric(datos[columna], errors="coerce")  # Convertir a número, NaN si falla
    
    # Mostrar cuántos valores se convirtieron en NaN
    print("\n🔹 Cantidad de NaN después de conversión numérica:")
    print(datos[columnas_numericas].isna().sum())

    # En lugar de eliminar todos los NaN, llenamos con -1 (o 0 si aplica)
    datos[columnas_numericas] = datos[columnas_numericas].fillna(-1)

    # Agrupar registros duplicados y contar su frecuencia
    datos_agrupados = datos.groupby(list(datos.columns)).size().reset_index(name="Frecuencia")

    # Mostrar la tabla con los datos agrupados
    print("\n🔹 DataFrame Agrupado:")
    print(datos_agrupados.to_string(index=False))

    return datos_agrupados

Ejecución de la función pasandole la URL del archivo csv

In [8]:
# Uso del código con un archivo CSV
df_resultado = analizar_csv("../../../Datasets/houses_medellin.csv")

🔹 DataFrame Original:
   Habitaciones  Baños  Estrato   Antigüedad Piso N° Administración  \
0           NaN    NaN      NaN          NaN     NaN            NaN   
1           1.0    2.0      4.0   1 a 8 años       3    No definida   
2           1.0    2.0      6.0  9 a 15 años     NaN    No definida   
3           NaN    NaN      NaN          NaN     NaN            NaN   
4           1.0    1.0      5.0          NaN       3  $ 167.000 COP   

           Precio m²  Parqueaderos Estado Tipo de apartamento     Precio  \
0                NaN           NaN    NaN                 NaN  240000000   
1  $ 4.032.258,06*m²           NaN    NaN                 NaN  250000000   
2  $ 6.428.571,43*m²           2.0    NaN                 NaN  675000000   
3                NaN           NaN    NaN                 NaN  647307563   
4     $ 4.700.000*m²           2.0    NaN                 NaN  235000000   

  Área construída (m²) Área privada (m²)  
0                  NaN               NaN  
1       