<a href="https://colab.research.google.com/github/Geckomonc/FundamentosDatos/blob/main/sesiones_practicas/sc_6_Geraldine_Acevedo_Restrepo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

| **Función / Método**        | **Descripción**                                                                                          | **Ejemplo de uso**                                                                                        |
| --------------------------- | -------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------- |
| `pd.to_datetime()`          | Convierte una columna a formato de fecha, permitiendo el manejo de valores no válidos.                   | `df['A'] = pd.to_datetime(df['A'], errors='coerce')`                                                      |
| `.isnull()` / `.sum()`      | Identifica y contabiliza valores faltantes.                                                              | `df.isnull().sum()`                                                                                       |
| `.apply()`                  | Permite aplicar funciones personalizadas a columnas.                                                     | `df['A'] = df['A'].apply(lambda x: np.nan if x < 0 else x)`                                               |
| `.fillna()`                 | Imputa valores faltantes con un valor específico o estadístico.                                          | `df['A'] = df['A'].fillna(df['A'].median())`                                                              |
| `.mode()`                   | Obtiene el valor más frecuente de una columna (moda).                                                    | `df['A'].fillna(df['A'].mode()[0])`                                                                       |
| `.interpolate()`            | Rellena valores numéricos faltantes mediante interpolación lineal.                                       | `df['A'] = df['A'].interpolate(method='linear')`                                                          |
| `.ffill()` / `.bfill()`     | Rellena valores faltantes propagando el último valor válido hacia adelante o hacia atrás.                | `df['A'] = df['A'].ffill()`                                                                               |
| `df.duplicated(keep=False)` | Detecta registros duplicados en el DataFrame, mostrando `True` para todas las repeticiones.              | `df[df.duplicated(keep=False)]`                                                                           |
| `get_close_matches()`       | Busca coincidencias aproximadas entre cadenas para detectar errores tipográficos o categorías similares. | `from difflib import get_close_matches`<br>`get_close_matches('Medelin', ['Medellín', 'Bogotá', 'Cali'])` |
| `pd.concat()`               | Combina series o DataFrames para comparación o unión de resultados.                                      | `pd.concat([faltantes_antes, faltantes_despues], axis=1)`                                                 |
| `missingno`                 | Visualización gráfica de valores faltantes.                                                              | `import missingno as msno`<br>`msno.matrix(df)`                                                           |
| `sklearn.impute`            | Imputación avanzada (KNN, media, mediana, constante).                                                    | `from sklearn.impute import SimpleImputer`                                                                |


# Ejercicio N°1

In [None]:
import pandas as pd
import numpy as np

# Crear el DataFrame
df = pd.DataFrame({
    'Nombre': ['Ana', 'Luis', 'Pedro', None, 'Marta', 'Luis', 'Sofía'],
    'Edad': [25, np.nan, 35, 29, -5, 25, None],
    'Ciudad': ['Bogotá', 'Medellín', None, 'Medellín', 'Cali', 'Bogotá', 'Cali'],
    'Ingreso': [3500, 4800, np.nan, 5200, 5100, np.nan, 4700],
    'FechaIngreso': ['2023-01-01', '2023-01-05', None, '2023-01-10', '2023-01-12', None, '2023-01-15']
})

# Ver los datos iniciales
print("Datos originales:")
print(df)


In [None]:
# Identificamos valores negativos que no tienen sentido para la edad
df['Edad'] = df['Edad'].apply(lambda x: np.nan if x is not None and x < 0 else x)

# Reemplazamos los valores faltantes de 'Edad' por la mediana
df['Edad'] = df['Edad'].fillna(df['Edad'].median())

In [None]:
# Imputar valores de ingreso con la mediana
df['Ingreso'] = df['Ingreso'].fillna(df['Ingreso'].median())

In [None]:
# Imputar ciudad con el valor más frecuente (moda)
df['Ciudad'] = df['Ciudad'].fillna(df['Ciudad'].mode()[0])

In [None]:
# Convertir a datetime
df['FechaIngreso'] = pd.to_datetime(df['FechaIngreso'])

# Imputar con el valor anterior (forward fill)
df['FechaIngreso'] = df['FechaIngreso'].ffill()

In [None]:
# Reemplazar nombres faltantes con "Desconocido"
df['Nombre'] = df['Nombre'].fillna("Desconocido")

In [None]:
print("Datos después de la limpieza e imputación:")
print(df)

# Ejercicio N°2

In [None]:
# Crear el nuevo DataFrame
df = pd.DataFrame({
    'ID': [101, 102, 102, 103, 104, 104, 104],
    'Nombre': ['Ana', 'Luis', 'Luis', 'Marta', 'Carlos', 'Carlos', 'Carlos'],
    'Edad': [25, 30, 30, 29, 40, 40, 41],
    'Ciudad': ['Bogotá', 'Cali', 'Cali', 'Medellín', 'Cali', 'Cali', 'Cali'],
    'FechaRegistro': ['2023-01-01', '2023-01-05', '2023-01-05', '2023-01-10',
                      '2023-01-15', '2023-01-15', '2023-01-16']
})

In [None]:
print(df)

¿Cuál es el total de registros originales?

In [None]:
df.shape[0]


¿Cuáles y cuántos son los duplicados exactos?

In [None]:
duplicados_exactos = df[df.duplicated(keep=False)]
cantidad_duplicados_exactos = duplicados_exactos.shape[0]
print("Duplicados exactos:\n", duplicados_exactos)
print("Cantidad de duplicados exactos:", cantidad_duplicados_exactos)


¿Cuáles y cuántos son los duplicados por varias columnas?


In [None]:
duplicados_parciales = df[df.duplicated(subset=['ID', 'Nombre'], keep=False)]
cantidad_duplicados_parciales = duplicados_parciales.shape[0]
print("Duplicados por ID, Nombre, Edad, Ciudad, Fecha de Registro:\n", duplicados_parciales)
print("Cantidad de duplicados por esas columnas:", cantidad_duplicados_parciales)


¿Cuántos registros debes eliminar?

In [None]:
# Suponemos que queremos eliminar duplicados exactos
registros_a_eliminar = df.duplicated(subset=['ID', 'Nombre']).sum()
print("Registros a eliminar:", registros_a_eliminar)



¿Cuántos registros quedan después de la limpieza?

In [None]:
df_limpio = df.drop_duplicates(subset=['ID', 'Nombre'])
print("Registros después de eliminar duplicados:", len(df_limpio))

In [None]:
print(df_limpio)

# Ejercicio N°3

In [None]:
import pandas as pd
from difflib import get_close_matches

df = pd.DataFrame({
    'Ciudad': ['bogota', 'Bogotá', 'BOGOTA', 'bogotá', 'bogata', 'Bógota', 'BogoTa',
               'Cali', 'calí', 'medellín', 'medellin']
})

In [None]:
ciudades_validas = ['Bogotá', 'Cali', 'Medellín']

Parametros opcionales de get_close_matches

- word: Cadena a comparar (ej: 'Medelin')

- possibilities: Lista de posibles coincidencias.

- n: Número máximo de resultados (por defecto 3).

- cutoff: Umbral de similitud entre 0 y 1 (más alto = más estricto). Ej: - 0.6 (por defecto): algo permisivo. -0.9: más exigente (solo casi idénticos).

In [None]:
def corregir_ciudad(nombre_ciudad):
    coincidencias = get_close_matches(nombre_ciudad, ciudades_validas, n=1, cutoff=0.6)
    if coincidencias:
        return coincidencias[0]  # Retornar la coincidencia más cercana
    else:
        return nombre_ciudad  # Si no hay coincidencias, dejar el original

Estaríamos creando una nueva columna para ver como quedo la limpieza

In [None]:
df['Ciudad_Limpia'] = df['Ciudad'].apply(lambda x: corregir_ciudad(x.title()))

In [None]:
df

Si quisieramos ver el resultado reflejado en la columna original se usa el siguiente código

In [None]:
df['Ciudad'] = df['Ciudad'].apply(lambda x: corregir_ciudad(x.title()))