# Ejercicio: Limpieza de datos

### Guía para limpieza (úsala solo si quieres)
1. Reemplaza los valores nulos en la columna 'Nombre' con 'Desconocido'
2. Homogenizar el formato de los valores de la columna 'Nombre' - Echar un ojo a la función .title()
3. Corregir valores no númericos en la columna 'Edad' y convertirla a tipo numérico - Reemplazar valores inválidos con la media.
4. Reemplazar valores nulos o vacios en la columna 'Ciudad' con 'Sin especificar'
5. Convertir las fechas de la columna 'Fecha_registro' al formato datetime y eliminar las filas con fechas invalidas
6. Eliminar los registros con valores negativos en la columna 'Compra'
7. Convertir los valores de la columna 'Compra' a tipo float - Tendrás que hacer algo con los valores no númericos.
8. Estandarizar los valores de la columna 'VIP' a booleanos (True/False)
9. Eliminar filas duplicadas basándote en la columna 'Nombre'

### Ayuda extra
1. Revisa función fillna
2. Revisa funciónes .str .title()
3. Revisa funciones to_numeric, fillna, mean
4. Revisa funciones replace, fillna
5. Revisa funciones to_datetime, dropna
6. Usa operadores lógicos
7. Revisa funciones to_numeric y fillna
8. Revisa funciones replace y fillna
9. Revisa función drop_duplicates


---

In [44]:
import pandas as pd
import numpy as np

# Creación del DataFrame con errores
raw_data = {
    'ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'Nombre': ['Ana', 'Pedro', None, 'Luis', 'Maria', 'ana', 'LUCAS', 'Pedro', None, 'Julia'],
    'Edad': ['25', 'treinta', '45', None, '35', 'quince', '40', 29, None, ''],
    'Ciudad': ['Madrid', 'Barcelona', None, 'Madrid', 'Sevilla', 'Madrid', 'Barcelona', 'Madrid', '', None],
    'Fecha_Registro': ['2021-06-01', '06/02/2021', None, '2021/03/15', '15-05-2021', '2021-07-10', '', '2021-06-01', None, '2021-13-01'],
    'Compra': [200.5, None, 150.0, 300.0, -50.0, 400.0, None, 100.0, 'Cien', 250.0],
    'VIP': [True, False, None, 'Si', 'No', True, 'Yes', 'No', None, 'Yes']
}

df = pd.DataFrame(raw_data)
df

Unnamed: 0,ID,Nombre,Edad,Ciudad,Fecha_Registro,Compra,VIP
0,1,Ana,25,Madrid,2021-06-01,200.5,True
1,2,Pedro,treinta,Barcelona,06/02/2021,,False
2,3,,45,,,150.0,
3,4,Luis,,Madrid,2021/03/15,300.0,Si
4,5,Maria,35,Sevilla,15-05-2021,-50.0,No
5,6,ana,quince,Madrid,2021-07-10,400.0,True
6,7,LUCAS,40,Barcelona,,,Yes
7,8,Pedro,29,Madrid,2021-06-01,100.0,No
8,9,,,,,Cien,
9,10,Julia,,,2021-13-01,250.0,Yes


In [35]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   ID              10 non-null     int64 
 1   Nombre          8 non-null      object
 2   Edad            8 non-null      object
 3   Ciudad          8 non-null      object
 4   Fecha_Registro  8 non-null      object
 5   Compra          8 non-null      object
 6   VIP             8 non-null      object
dtypes: int64(1), object(6)
memory usage: 688.0+ bytes


In [36]:
# Ajustar los tipos de datos de las columnas
df['Nombre'] = df['Nombre'].astype('string')  # Convertir a cadena con soporte nulo
df['Ciudad'] = df['Ciudad'].astype('string')  # Convertir a cadena con soporte nulo

df['Compra'] = pd.to_numeric(df['Compra'], errors='coerce')  # Convertir a numérico

df['VIP'] = df['VIP'].astype('bool')  # Convertir a bool, ya trata los none y null

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   ID              10 non-null     int64  
 1   Nombre          8 non-null      string 
 2   Edad            8 non-null      object 
 3   Ciudad          8 non-null      string 
 4   Fecha_Registro  8 non-null      object 
 5   Compra          7 non-null      float64
 6   VIP             10 non-null     bool   
dtypes: bool(1), float64(1), int64(1), object(2), string(2)
memory usage: 618.0+ bytes


In [37]:
# Limpieza de la columna 'Nombre' con .loc
df.loc[:, 'Nombre'] = df['Nombre'].fillna('Desconocido').str.title()
df

Unnamed: 0,ID,Nombre,Edad,Ciudad,Fecha_Registro,Compra,VIP
0,1,Ana,25,Madrid,2021-06-01,200.5,True
1,2,Pedro,treinta,Barcelona,06/02/2021,,False
2,3,Desconocido,45,,,150.0,False
3,4,Luis,,Madrid,2021/03/15,300.0,True
4,5,Maria,35,Sevilla,15-05-2021,-50.0,True
5,6,Ana,quince,Madrid,2021-07-10,400.0,True
6,7,Lucas,40,Barcelona,,,True
7,8,Pedro,29,Madrid,2021-06-01,100.0,True
8,9,Desconocido,,,,,False
9,10,Julia,,,2021-13-01,250.0,True


In [38]:
from word2number_es import w2n

# Función para convertir texto a números, usando word2number_es
def parse_edad(value):
    try:
        # Intentar convertir palabras a números
        return w2n.word_to_num(value) if isinstance(value, str) else value
    except ValueError:
        # Devolver NaN si no es una palabra reconocida
        return None

# Aplicar la función a la columna 'Edad' para convertir texto a número
df['Edad'] = df['Edad'].apply(parse_edad)

# Convertir la columna 'Edad' a numérico, convirtiendo valores no válidos a NaN
df['Edad'] = pd.to_numeric(df['Edad'], errors='coerce')

# Calcular la media de la columna 'Edad' (ignorando NaN)
mean_edad = df['Edad'].mean()

# Redondear la media a un entero
mean_edad_rounded = round(mean_edad)

# Rellenar los NaN con la media redondeada
df['Edad'] = df['Edad'].fillna(mean_edad_rounded)

# Convertir la columna 'Edad' a Int64
df['Edad'] = df['Edad'].astype('Int64')
df



Unnamed: 0,ID,Nombre,Edad,Ciudad,Fecha_Registro,Compra,VIP
0,1,Ana,25,Madrid,2021-06-01,200.5,True
1,2,Pedro,30,Barcelona,06/02/2021,,False
2,3,Desconocido,45,,,150.0,False
3,4,Luis,31,Madrid,2021/03/15,300.0,True
4,5,Maria,35,Sevilla,15-05-2021,-50.0,True
5,6,Ana,15,Madrid,2021-07-10,400.0,True
6,7,Lucas,40,Barcelona,,,True
7,8,Pedro,29,Madrid,2021-06-01,100.0,True
8,9,Desconocido,31,,,,False
9,10,Julia,31,,2021-13-01,250.0,True


In [39]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   ID              10 non-null     int64  
 1   Nombre          10 non-null     string 
 2   Edad            10 non-null     Int64  
 3   Ciudad          8 non-null      string 
 4   Fecha_Registro  8 non-null      object 
 5   Compra          7 non-null      float64
 6   VIP             10 non-null     bool   
dtypes: Int64(1), bool(1), float64(1), int64(1), object(1), string(2)
memory usage: 628.0+ bytes


In [40]:
# Reemplazar los valores nulos o None en la columna 'Ciudad' con "Sin especificar"
df['Ciudad'] = df['Ciudad'].replace({None: 'Sin especificar', '': 'Sin especificar'})
df

Unnamed: 0,ID,Nombre,Edad,Ciudad,Fecha_Registro,Compra,VIP
0,1,Ana,25,Madrid,2021-06-01,200.5,True
1,2,Pedro,30,Barcelona,06/02/2021,,False
2,3,Desconocido,45,Sin especificar,,150.0,False
3,4,Luis,31,Madrid,2021/03/15,300.0,True
4,5,Maria,35,Sevilla,15-05-2021,-50.0,True
5,6,Ana,15,Madrid,2021-07-10,400.0,True
6,7,Lucas,40,Barcelona,,,True
7,8,Pedro,29,Madrid,2021-06-01,100.0,True
8,9,Desconocido,31,Sin especificar,,,False
9,10,Julia,31,Sin especificar,2021-13-01,250.0,True


In [41]:
# Reemplazar valores negativos por NaN
df.loc[df['Compra'] < 0, 'Compra'] = np.nan

# Ahora todos los valores negativos y no numéricos son NaN, 
# los cuales no afectarán a medias, medianas, etc.

df

Unnamed: 0,ID,Nombre,Edad,Ciudad,Fecha_Registro,Compra,VIP
0,1,Ana,25,Madrid,2021-06-01,200.5,True
1,2,Pedro,30,Barcelona,06/02/2021,,False
2,3,Desconocido,45,Sin especificar,,150.0,False
3,4,Luis,31,Madrid,2021/03/15,300.0,True
4,5,Maria,35,Sevilla,15-05-2021,,True
5,6,Ana,15,Madrid,2021-07-10,400.0,True
6,7,Lucas,40,Barcelona,,,True
7,8,Pedro,29,Madrid,2021-06-01,100.0,True
8,9,Desconocido,31,Sin especificar,,,False
9,10,Julia,31,Sin especificar,2021-13-01,250.0,True


In [42]:
possible_formats = [
    '%Y-%m-%d',  # Formato ISO estándar
    '%d/%m/%Y',  # Formato con barras y día primero
    '%Y/%m/%d',  # Formato con barras y año primero
    '%d-%m-%Y'   # Formato con guiones y día primero
]

def parse_date(value):
    # Si el valor es nulo o cadena vacía, devolver NaT directamente
    if pd.isna(value) or str(value).strip() == '':
        return pd.NaT
    
    # Intentar convertir el valor con cada uno de los formatos conocidos
    for fmt in possible_formats:
        try:
            return pd.to_datetime(value, format=fmt)
        except ValueError:
            continue
    
    # Si ninguno de los formatos funcionó, devolver NaT
    return pd.NaT

# Aplicar la función a la columna de fechas
df['Fecha_Registro'] = df['Fecha_Registro'].apply(parse_date)

df

Unnamed: 0,ID,Nombre,Edad,Ciudad,Fecha_Registro,Compra,VIP
0,1,Ana,25,Madrid,2021-06-01,200.5,True
1,2,Pedro,30,Barcelona,2021-02-06,,False
2,3,Desconocido,45,Sin especificar,NaT,150.0,False
3,4,Luis,31,Madrid,2021-03-15,300.0,True
4,5,Maria,35,Sevilla,2021-05-15,,True
5,6,Ana,15,Madrid,2021-07-10,400.0,True
6,7,Lucas,40,Barcelona,NaT,,True
7,8,Pedro,29,Madrid,2021-06-01,100.0,True
8,9,Desconocido,31,Sin especificar,NaT,,False
9,10,Julia,31,Sin especificar,NaT,250.0,True


In [43]:
df = df.drop_duplicates(subset=['Nombre'], keep='first')
df

Unnamed: 0,ID,Nombre,Edad,Ciudad,Fecha_Registro,Compra,VIP
0,1,Ana,25,Madrid,2021-06-01,200.5,True
1,2,Pedro,30,Barcelona,2021-02-06,,False
2,3,Desconocido,45,Sin especificar,NaT,150.0,False
3,4,Luis,31,Madrid,2021-03-15,300.0,True
4,5,Maria,35,Sevilla,2021-05-15,,True
6,7,Lucas,40,Barcelona,NaT,,True
9,10,Julia,31,Sin especificar,NaT,250.0,True
