# Ejercicio 1. Limpieza e imputación de un conjunto de datos mixto

In [298]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'Nombre': ['Ana', 'Luis', 'Pedro', None, 'Marta', 'Luis', 'Sofía'],
    'Edad': [25, np.nan, 35, 29, -5, 25, None],
    'Ciudad': ['Bogotá', 'Medellín', None, 'Medellín', 'Cali', 'Bogotá', 'Cali'],
    'Ingreso': [3500, 4800, np.nan, 5200, 5100, np.nan, 4700],
    'FechaIngreso': ['2023-01-01', '2023-01-05', None, '2023-01-10', '2023-01-12', None, '2023-01-15']
})

DataFrame Original

In [299]:
print(df)

  Nombre  Edad    Ciudad  Ingreso FechaIngreso
0    Ana  25.0    Bogotá   3500.0   2023-01-01
1   Luis   NaN  Medellín   4800.0   2023-01-05
2  Pedro  35.0      None      NaN         None
3   None  29.0  Medellín   5200.0   2023-01-10
4  Marta  -5.0      Cali   5100.0   2023-01-12
5   Luis  25.0    Bogotá      NaN         None
6  Sofía   NaN      Cali   4700.0   2023-01-15


Información Inicial y Nulos

In [300]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Nombre        6 non-null      object 
 1   Edad          5 non-null      float64
 2   Ciudad        6 non-null      object 
 3   Ingreso       5 non-null      float64
 4   FechaIngreso  5 non-null      object 
dtypes: float64(2), object(3)
memory usage: 412.0+ bytes


## Proceso de limpieza e imputación

###Corregir Edad negativa

In [301]:
df['Edad'] = df['Edad'].apply(lambda x: np.nan if x < 0 else x)
print(df)

  Nombre  Edad    Ciudad  Ingreso FechaIngreso
0    Ana  25.0    Bogotá   3500.0   2023-01-01
1   Luis   NaN  Medellín   4800.0   2023-01-05
2  Pedro  35.0      None      NaN         None
3   None  29.0  Medellín   5200.0   2023-01-10
4  Marta   NaN      Cali   5100.0   2023-01-12
5   Luis  25.0    Bogotá      NaN         None
6  Sofía   NaN      Cali   4700.0   2023-01-15


Se convierte la edad negativa (-5) a NaN porque no es correcto asumir que el dato correcto (ej. 5)

### Eliminar duplicados

Eliminare duplicados basandome en el nombre y la edad

In [302]:
df.drop_duplicates(subset=['Nombre', 'Edad'], inplace=True)
print(df)

  Nombre  Edad    Ciudad  Ingreso FechaIngreso
0    Ana  25.0    Bogotá   3500.0   2023-01-01
1   Luis   NaN  Medellín   4800.0   2023-01-05
2  Pedro  35.0      None      NaN         None
3   None  29.0  Medellín   5200.0   2023-01-10
4  Marta   NaN      Cali   5100.0   2023-01-12
5   Luis  25.0    Bogotá      NaN         None
6  Sofía   NaN      Cali   4700.0   2023-01-15


### Imputar valores faltantes

#### Imputación para 'Nombre':

Un nombre faltante no se puede adivinar por lo que la mejor estrategia es eliminar la fila.

In [303]:
df.dropna(subset=['Nombre'], inplace=True)
print(df)

  Nombre  Edad    Ciudad  Ingreso FechaIngreso
0    Ana  25.0    Bogotá   3500.0   2023-01-01
1   Luis   NaN  Medellín   4800.0   2023-01-05
2  Pedro  35.0      None      NaN         None
4  Marta   NaN      Cali   5100.0   2023-01-12
5   Luis  25.0    Bogotá      NaN         None
6  Sofía   NaN      Cali   4700.0   2023-01-15


#### Imputación para 'Edad':

Usare la mediana para imputar la edad

In [304]:
mediana_edad = df['Edad'].median()
df['Edad'] = df['Edad'].fillna(mediana_edad)
print(f"La mediana de las edades es {mediana_edad}")
print(df)

La mediana de las edades es 25.0
  Nombre  Edad    Ciudad  Ingreso FechaIngreso
0    Ana  25.0    Bogotá   3500.0   2023-01-01
1   Luis  25.0  Medellín   4800.0   2023-01-05
2  Pedro  35.0      None      NaN         None
4  Marta  25.0      Cali   5100.0   2023-01-12
5   Luis  25.0    Bogotá      NaN         None
6  Sofía  25.0      Cali   4700.0   2023-01-15


####Imputación para 'Ciudad':

Para variables categóricas, usare la moda.

In [305]:
moda_ciudad = df['Ciudad'].mode()[0]
df['Ciudad']=df['Ciudad'].fillna(moda_ciudad)
print(df)

  Nombre  Edad    Ciudad  Ingreso FechaIngreso
0    Ana  25.0    Bogotá   3500.0   2023-01-01
1   Luis  25.0  Medellín   4800.0   2023-01-05
2  Pedro  35.0    Bogotá      NaN         None
4  Marta  25.0      Cali   5100.0   2023-01-12
5   Luis  25.0    Bogotá      NaN         None
6  Sofía  25.0      Cali   4700.0   2023-01-15


AL tener 3 modas "Bogotá,Medellín y Cali" le agregue [0] al final para romper el empate

####Imputación para 'Ingreso':

Asi como con edad utilizare la mediana ya que el ingreso es un dato que casi siempre tiene valores atipicos, y si usaramos la moda podria no reflejar un valor que se acerque a la mayoria de los ingresos

In [306]:
mediana_ingreso = df['Ingreso'].median()
df['Ingreso']=df['Ingreso'].fillna(mediana_ingreso)
print(df)

  Nombre  Edad    Ciudad  Ingreso FechaIngreso
0    Ana  25.0    Bogotá   3500.0   2023-01-01
1   Luis  25.0  Medellín   4800.0   2023-01-05
2  Pedro  35.0    Bogotá   4750.0         None
4  Marta  25.0      Cali   5100.0   2023-01-12
5   Luis  25.0    Bogotá   4750.0         None
6  Sofía  25.0      Cali   4700.0   2023-01-15


#### Imputación para 'FechaIngreso':

Para fechas, usare el método 'forward fill' que propaga la última observación válida hacia adelante.

In [307]:
df['FechaIngreso'].ffill(inplace=True)
print(df)

  Nombre  Edad    Ciudad  Ingreso FechaIngreso
0    Ana  25.0    Bogotá   3500.0   2023-01-01
1   Luis  25.0  Medellín   4800.0   2023-01-05
2  Pedro  35.0    Bogotá   4750.0   2023-01-05
4  Marta  25.0      Cali   5100.0   2023-01-12
5   Luis  25.0    Bogotá   4750.0   2023-01-12
6  Sofía  25.0      Cali   4700.0   2023-01-15


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['FechaIngreso'].ffill(inplace=True)


###DataFrame Limpio y Completo

In [308]:
print(df)

  Nombre  Edad    Ciudad  Ingreso FechaIngreso
0    Ana  25.0    Bogotá   3500.0   2023-01-01
1   Luis  25.0  Medellín   4800.0   2023-01-05
2  Pedro  35.0    Bogotá   4750.0   2023-01-05
4  Marta  25.0      Cali   5100.0   2023-01-12
5   Luis  25.0    Bogotá   4750.0   2023-01-12
6  Sofía  25.0      Cali   4700.0   2023-01-15


#### Verificación Final de Nulos

In [309]:
print(df.isnull().sum())

Nombre          0
Edad            0
Ciudad          0
Ingreso         0
FechaIngreso    0
dtype: int64


# Ejercicio 2. Limpieza de duplicados


In [310]:
df_duplicados = pd.DataFrame({
    'ID': [101, 102, 102, 103, 104, 104, 104],
    'Nombre': ['Ana', 'Luis', 'Luis', 'Marta', 'Carlos', 'Carlos', 'Carlos'],
    'Edad': [25, 30, 30, 29, 40, 40, 41],
    'Ciudad': ['Bogotá', 'Cali', 'Cali', 'Medellín', 'Cali', 'Cali', 'Cali'],
    'FechaRegistro': ['2023-01-01', '2023-01-05', '2023-01-05', '2023-01-10',
                    '2023-01-15', '2023-01-15', '2023-01-16']
})

DataFrame Original

In [311]:
print(df_duplicados)

    ID  Nombre  Edad    Ciudad FechaRegistro
0  101     Ana    25    Bogotá    2023-01-01
1  102    Luis    30      Cali    2023-01-05
2  102    Luis    30      Cali    2023-01-05
3  103   Marta    29  Medellín    2023-01-10
4  104  Carlos    40      Cali    2023-01-15
5  104  Carlos    40      Cali    2023-01-15
6  104  Carlos    41      Cali    2023-01-16


##¿Cuál es el total de registros originales?


In [312]:
total_original = len(df_duplicados)
print(f"Total de registros originales: {total_original}")

Total de registros originales: 7


##¿Cuáles y cuántos son los duplicados exactos?


In [313]:
duplicados_exactos = df_duplicados[df_duplicados.duplicated(keep=False)]
num_duplicados_exactos = df_duplicados.duplicated().sum()
print(duplicados_exactos)
print(f"Hay {num_duplicados_exactos} registros duplicados para eliminar.")

    ID  Nombre  Edad Ciudad FechaRegistro
1  102    Luis    30   Cali    2023-01-05
2  102    Luis    30   Cali    2023-01-05
4  104  Carlos    40   Cali    2023-01-15
5  104  Carlos    40   Cali    2023-01-15
Hay 2 registros duplicados para eliminar.


##¿Cuáles y cuántos son los duplicados por varias columnas?

Por ejemplo, buscare duplicados por 'ID' y 'Nombre'.

In [314]:
duplicados_parciales = df_duplicados[df_duplicados.duplicated(subset=['ID', 'Nombre'], keep=False)]
num_duplicados_parciales = df_duplicados.duplicated(subset=['ID', 'Nombre']).sum()
print("Registros duplicados por 'ID' y 'Nombre':")
print(duplicados_parciales)
print(f"Hay {num_duplicados_parciales} registros duplicados por estas columnas.")

Registros duplicados por 'ID' y 'Nombre':
    ID  Nombre  Edad Ciudad FechaRegistro
1  102    Luis    30   Cali    2023-01-05
2  102    Luis    30   Cali    2023-01-05
4  104  Carlos    40   Cali    2023-01-15
5  104  Carlos    40   Cali    2023-01-15
6  104  Carlos    41   Cali    2023-01-16
Hay 3 registros duplicados por estas columnas.


## ¿Cuántos registros debes eliminar?

In [315]:
registros_a_eliminar = num_duplicados_exactos
print(f"Se deben eliminar {registros_a_eliminar} registros.")

Se deben eliminar 2 registros.


## ¿Cuántos registros quedan después de la limpieza?

In [316]:
df_limpio = df_duplicados.drop_duplicates()
registros_finales = len(df_limpio)
print(df_limpio)
print(f"Quedan {registros_finales} registros después de eliminar los duplicados exactos.")

    ID  Nombre  Edad    Ciudad FechaRegistro
0  101     Ana    25    Bogotá    2023-01-01
1  102    Luis    30      Cali    2023-01-05
3  103   Marta    29  Medellín    2023-01-10
4  104  Carlos    40      Cali    2023-01-15
6  104  Carlos    41      Cali    2023-01-16
Quedan 5 registros después de eliminar los duplicados exactos.


La fila 6 (Carlos, 41 años) no se elimina porque no es un duplicado exacto, sus datos de 'Edad' y 'FechaRegistro' son diferentes al registro anterior pero asumo que es una actualización valida.

# Ejercicio 3. Corrección de errores tipográficos o de codificación


In [317]:
df_ciudades = pd.DataFrame({
    'Ciudad': ['bogota', 'Bogotá', 'BOGOTA', 'bogotá', 'bogata', 'Bógota', 'BogoTa', 'Cali', 'calí', 'medellín', 'medellin']
})

##Valores Únicos

In [318]:
print(df_ciudades['Ciudad'].unique())

['bogota' 'Bogotá' 'BOGOTA' 'bogotá' 'bogata' 'Bógota' 'BogoTa' 'Cali'
 'calí' 'medellín' 'medellin']


##Proceso de estandarización

No usare fuzzy matching para este ejercicio porque nuestro conjunto de datos es muy pequeño y los errores son fáciles de identificar.

Convertir todo a minúsculas

In [319]:
df_ciudades['Ciudad_minusculas'] = df_ciudades['Ciudad'].str.lower()
print(df_ciudades)

      Ciudad Ciudad_minusculas
0     bogota            bogota
1     Bogotá            bogotá
2     BOGOTA            bogota
3     bogotá            bogotá
4     bogata            bogata
5     Bógota            bógota
6     BogoTa            bogota
7       Cali              cali
8       calí              calí
9   medellín          medellín
10  medellin          medellin


Crear un diccionario de reemplazos para corregir tildes y errores.

In [320]:
reemplazos = {
    'bogotá': 'bogotá',
    'bogota': 'bogotá',
    'bógota': 'bogotá',
    'bogata': 'bogotá',
    'calí': 'cali',
    'cali': 'cali',
    'medellín': 'medellín',
    'medellin': 'medellín'
}

# Apliquee los reemplazos a la columna que ya está en minúsculas.
df_ciudades['Ciudad_Estandarizada'] = df_ciudades['Ciudad_minusculas'].map(reemplazos)

print("DataFrame con Ciudades Estandarizadas ---")
print(df_ciudades)

DataFrame con Ciudades Estandarizadas ---
      Ciudad Ciudad_minusculas Ciudad_Estandarizada
0     bogota            bogota               bogotá
1     Bogotá            bogotá               bogotá
2     BOGOTA            bogota               bogotá
3     bogotá            bogotá               bogotá
4     bogata            bogata               bogotá
5     Bógota            bógota               bogotá
6     BogoTa            bogota               bogotá
7       Cali              cali                 cali
8       calí              calí                 cali
9   medellín          medellín             medellín
10  medellin          medellin             medellín


Ciudades Estandarizadas y sus Valores Únicos

In [321]:
df_ciudades = df_ciudades['Ciudad_Estandarizada']
print(df_ciudades)

print("\n Valores unicos:")
print(df_ciudades.unique())

0       bogotá
1       bogotá
2       bogotá
3       bogotá
4       bogotá
5       bogotá
6       bogotá
7         cali
8         cali
9     medellín
10    medellín
Name: Ciudad_Estandarizada, dtype: object

 Valores unicos:
['bogotá' 'cali' 'medellín']
