# Sesión practica
---
Cristian Alejandro Carvajal Mellizo

## <span style="color:#2F749F;"><strong>Ejercicio 1. Limpieza e imputación de un conjunto de datos mixto</strong></span>

#### <span style="color:#2F749F;"><strong>📋 Instrucciones</strong></span>

1. Crea el DataFrame base **df** ejecutando el siguiente código:
    ```python
    df = pd.DataFrame({
        'Nombre': ['Ana', 'Luis', 'Pedro', None, 'Marta', 'Luis', 'Sofía'],
        'Edad': [25, np.nan, 35, 29, -5, 25, None],
        'Ciudad': ['Bogotá', 'Medellín', None, 'Medellín', 'Cali', 'Bogotá', 'Cali'],
        'Ingreso': [3500, 4800, np.nan, 5200, 5100, np.nan, 4700],
        'FechaIngreso': ['2023-01-01', '2023-01-05', None, '2023-01-10', '2023-01-12', None, '2023-01-15']
    })

2. En un nuevo notebook, aplica las etapas del proceso de limpieza e imputación de datos que consideres necesarias sobre el DataFrame df. Ten encuenta incluir:
    - Código correctamente comentado y ejecutado.
    - Explicaciones breves de cada paso.
    - Resultados visuales o estadísticos que evidencien las transformaciones.

In [159]:
# Librerías requeridas
import numpy as np
import pandas as pd

#### Visualización de datos

In [160]:
df = pd.DataFrame({
        'Nombre': ['Ana', 'Luis', 'Pedro', None, 'Marta', 'Luis', 'Sofía'],
        'Edad': [25, np.nan, 35, 29, -5, 25, None],
        'Ciudad': ['Bogotá', 'Medellín', None, 'Medellín', 'Cali', 'Bogotá', 'Cali'],
        'Ingreso': [3500, 4800, np.nan, 5200, 5100, np.nan, 4700],
        'FechaIngreso': ['2023-01-01', '2023-01-05', None, '2023-01-10', '2023-01-12', None, '2023-01-15']
    })

df

Unnamed: 0,Nombre,Edad,Ciudad,Ingreso,FechaIngreso
0,Ana,25.0,Bogotá,3500.0,2023-01-01
1,Luis,,Medellín,4800.0,2023-01-05
2,Pedro,35.0,,,
3,,29.0,Medellín,5200.0,2023-01-10
4,Marta,-5.0,Cali,5100.0,2023-01-12
5,Luis,25.0,Bogotá,,
6,Sofía,,Cali,4700.0,2023-01-15


In [161]:
# Visualizamos todos los valores de cada columna
for col in df.columns:
    unicos = df[col].unique()
    print(f"\nColumna: {col}")
    for valor in unicos:
        print(f"  - {str(valor).strip().replace(chr(10), ' ').replace(chr(9), ' ')}")


Columna: Nombre
  - Ana
  - Luis
  - Pedro
  - None
  - Marta
  - Sofía

Columna: Edad
  - 25.0
  - nan
  - 35.0
  - 29.0
  - -5.0

Columna: Ciudad
  - Bogotá
  - Medellín
  - None
  - Cali

Columna: Ingreso
  - 3500.0
  - 4800.0
  - nan
  - 5200.0
  - 5100.0
  - 4700.0

Columna: FechaIngreso
  - 2023-01-01
  - 2023-01-05
  - None
  - 2023-01-10
  - 2023-01-12
  - 2023-01-15


In [162]:
df.isnull().sum()

Unnamed: 0,0
Nombre,1
Edad,2
Ciudad,1
Ingreso,2
FechaIngreso,2


#### Imputación de datos faltantes

Debido a que los nombres no son un dato imputable, se decidió simplemente renombrar a las muestras nulas con el valor “Desconocido”

In [163]:
df['Nombre'] = df['Nombre'].fillna('Desconocido')

Para la imputación de la edad, se decidió transformar todos los valores negativos a su valor absoluto ya que esto se puede considerar un error al momento de digitar y se decidió llenar los valores faltantes por la moda de esta característica

In [164]:
age_mode = df['Edad'].mode()[0]
df['Edad'] = df['Edad'].dropna().apply(lambda x: abs(x) if x < 0 else x)
df['Edad'] = df['Edad'].fillna(age_mode)

Los campos de ciudad y fecha se decidió llenarlas con los valores inmediatamente anteriores.

In [165]:
df['Ciudad'] = df['Ciudad'].ffill()
df['FechaIngreso'] = df['FechaIngreso'].ffill()

Los ingresos de se decidieron llenar con la mediana de los valores para así evitar cambiar la distribución de los datos originales.

In [166]:
df['Ingreso'] = df['Ingreso'].fillna(df['Ingreso'].median())
df

Unnamed: 0,Nombre,Edad,Ciudad,Ingreso,FechaIngreso
0,Ana,25.0,Bogotá,3500.0,2023-01-01
1,Luis,25.0,Medellín,4800.0,2023-01-05
2,Pedro,35.0,Medellín,4800.0,2023-01-05
3,Desconocido,29.0,Medellín,5200.0,2023-01-10
4,Marta,5.0,Cali,5100.0,2023-01-12
5,Luis,25.0,Bogotá,4800.0,2023-01-12
6,Sofía,25.0,Cali,4700.0,2023-01-15


In [167]:
df.isnull().sum()

Unnamed: 0,0
Nombre,0
Edad,0
Ciudad,0
Ingreso,0
FechaIngreso,0


## <span style="color:#2F749F;"><strong>Ejercicio 2. Limpieza de duplicados</strong></span>

#### <span style="color:#2F749F;"><strong>📋 Instrucciones</strong></span>

1. Crea el DataFrame base **df** ejecutando el siguiente código:
    ```python
    df = pd.DataFrame({
        'ID': [101, 102, 102, 103, 104, 104, 104],
        'Nombre': ['Ana', 'Luis', 'Luis', 'Marta', 'Carlos', 'Carlos', 'Carlos'],
        'Edad': [25, 30, 30, 29, 40, 40, 41],
        'Ciudad': ['Bogotá', 'Cali', 'Cali', 'Medellín', 'Cali', 'Cali', 'Cali'],
        'FechaRegistro': ['2023-01-01', '2023-01-05', '2023-01-05', '2023-01-10',
                        '2023-01-15', '2023-01-15', '2023-01-16']
    })

2.  En el mismo notebook anterior, para el nuevo dataframe df, responde a las siguientes preguntas (utilizando python):
    - ¿Cuál es el total de registros originales?
    - ¿Cuáles y cuántos son los duplicados exactos?
    - ¿Cuáles y cuántos son los duplicados por varias columnas?
    - ¿Cuántos registros debes eliminar?
    - ¿Cuántos registros quedan después de la limpieza?

In [168]:
# Librerías requeridas
import numpy as np
import pandas as pd

#### Visualización de datos


In [169]:
df_dup = pd.DataFrame({
    'ID': [101, 102, 102, 103, 104, 104, 104],
    'Nombre': ['Ana', 'Luis', 'Luis', 'Marta', 'Carlos', 'Carlos', 'Carlos'],
    'Edad': [25, 30, 30, 29, 40, 40, 41],
    'Ciudad': ['Bogotá', 'Cali', 'Cali', 'Medellín', 'Cali', 'Cali', 'Cali'],
    'FechaRegistro': ['2023-01-01', '2023-01-05', '2023-01-05', '2023-01-10',
                    '2023-01-15', '2023-01-15', '2023-01-16']
})
df_dup

Unnamed: 0,ID,Nombre,Edad,Ciudad,FechaRegistro
0,101,Ana,25,Bogotá,2023-01-01
1,102,Luis,30,Cali,2023-01-05
2,102,Luis,30,Cali,2023-01-05
3,103,Marta,29,Medellín,2023-01-10
4,104,Carlos,40,Cali,2023-01-15
5,104,Carlos,40,Cali,2023-01-15
6,104,Carlos,41,Cali,2023-01-16


In [170]:
df_dup[df_dup.duplicated(keep=False)]

Unnamed: 0,ID,Nombre,Edad,Ciudad,FechaRegistro
1,102,Luis,30,Cali,2023-01-05
2,102,Luis,30,Cali,2023-01-05
4,104,Carlos,40,Cali,2023-01-15
5,104,Carlos,40,Cali,2023-01-15


#### Limpieza de duplicados

Primero, se decidió eliminar los registros que son completamente iguales (conservando el primer registro), para esto obtenemos la posición de los valores duplicados y a partir de este creamos un nuevo dataframe sin estos valores.

In [171]:
df_dup = df_dup[df_dup.duplicated(keep="first").apply(lambda x: not x)]

In [172]:
df_dup

Unnamed: 0,ID,Nombre,Edad,Ciudad,FechaRegistro
0,101,Ana,25,Bogotá,2023-01-01
1,102,Luis,30,Cali,2023-01-05
3,103,Marta,29,Medellín,2023-01-10
4,104,Carlos,40,Cali,2023-01-15
6,104,Carlos,41,Cali,2023-01-16


Dado que el ID de una persona se supone único, se eliminaron todos los registros en los cuales el ID se encuentre duplicado.

In [173]:
df_dup.duplicated(subset='ID').sum()

np.int64(1)

In [174]:
df_dup = df_dup[df_dup.duplicated(subset="ID", keep="first").apply(lambda x: not x)]
df_dup

Unnamed: 0,ID,Nombre,Edad,Ciudad,FechaRegistro
0,101,Ana,25,Bogotá,2023-01-01
1,102,Luis,30,Cali,2023-01-05
3,103,Marta,29,Medellín,2023-01-10
4,104,Carlos,40,Cali,2023-01-15


## <span style="color:#2F749F;"><strong>Ejercicio 3. Corrección de errores tipográficos o de codificación</strong></span>

#### <span style="color:#2F749F;"><strong>📋 Instrucciones</strong></span>

1. Crea el DataFrame base **df** ejecutando el siguiente código:
    ```python
    df = pd.DataFrame({
        'Ciudad': ['bogota', 'Bogotá', 'BOGOTA', 'bogotá', 'bogata', 'Bógota', 'BogoTa', 'Cali', 'calí', 'medellín', 'medellin']
    })

2.  En el mismo notebook anterior, para el nuevo dataframe df, estandariza la variable ciudad utilizando python.

In [175]:
# Librerías requeridas
import numpy as np
import pandas as pd

#### Visualización de datos

In [176]:
df_tip = pd.DataFrame({
    'Ciudad': ['bogota', 'Bogotá', 'BOGOTA', 'bogotá', 'bogata', 'Bógota', 'BogoTa', 'Cali', 'calí', 'medellín', 'medellin']
})

In [177]:
# Visualizamos todos los valores de cada columna
for col in df_tip.columns:
    unicos = df_tip[col].unique()
    print(f"\nColumna: {col}")
    for valor in unicos:
        print(f"  - {str(valor).strip().replace(chr(10), ' ').replace(chr(9), ' ')}")


Columna: Ciudad
  - bogota
  - Bogotá
  - BOGOTA
  - bogotá
  - bogata
  - Bógota
  - BogoTa
  - Cali
  - calí
  - medellín
  - medellin


#### Corrección tipográfica

Se creo un diccionario para cada ciudad con los posibles valores que esta pueda tomar y se comparo con cada una de las muestras del dataframe, reemplazando el valor por uno estándar en caso de que su valor se encuentre dentro del dataframe especifico.

In [178]:
bog_dict = ["bogota", "bogotá", "bógota", "bogata"]
cal_dict = ["cali", "calí"]
med_dict = ["medellín", "medellin", "medelin", "medelín"]

In [179]:
df_tip['Ciudad'] = df_tip['Ciudad'].apply(lambda x: "bogota" if x.lower() in bog_dict else x)
df_tip['Ciudad'] = df_tip['Ciudad'].apply(lambda x: "cali" if x.lower() in cal_dict else x)
df_tip['Ciudad'] = df_tip['Ciudad'].apply(lambda x: "medellin" if x.lower() in med_dict else x)
df_tip

Unnamed: 0,Ciudad
0,bogota
1,bogota
2,bogota
3,bogota
4,bogota
5,bogota
6,bogota
7,cali
8,cali
9,medellin


In [180]:
# Visualizamos todos los valores de cada columna
for col in df_tip.columns:
    unicos = df_tip[col].unique()
    print(f"\nColumna: {col}")
    for valor in unicos:
        print(f"  - {str(valor).strip().replace(chr(10), ' ').replace(chr(9), ' ')}")


Columna: Ciudad
  - bogota
  - cali
  - medellin
