<a href="https://colab.research.google.com/github/JimCrack/Laboratorios-Analisis-de-Datos/blob/main/Lab_Sesion_10_Jimmy_Ospina.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

1. Salud Digital y Análisis de Datos de Pacientes
Se tiene un conjunto de datos sobre pacientes que incluye nombre, edad, fecha de ingreso y resultados de pruebas. Algunos registros están incompletos o contienen errores. Hacer una limpieza de los datos.


In [None]:
import pandas as pd
import numpy as np

# Datos
nombres = ['Carlos', 'Ana', 'Luis', 'Pedro', 'María', None]
edades = [34, 29, None, 45, 25, 33]
fechas_ingreso = ['2021-01-15', '2020/03/12', '2022-07-01',
                  '2021/12/01', '2021-05-20', '2020-03-12']
resultados_prueba = ['Positivo', 'Negativo', 'Positivo',
                     'Positivo', 'Negativo', 'Negativo']

# Crear DataFrame
data = {
    'Nombre': nombres,
    'Edad': edades,
    'Fecha Ingreso': fechas_ingreso,
    'Resultado Prueba': resultados_prueba
}

df = pd.DataFrame(data)

# Paso 1: Identificar y contar valores faltantes
missing_values = df.isnull().sum()
print("Valores faltantes por columna:")
print(missing_values)

# Paso 2: Estandarizar el formato de la columna 'Fecha Ingreso'
def correct_date_format(date):
    for fmt in ('%Y-%m-%d', '%Y/%m/%d', '%d/%m/%Y', '%Y/%d/%m'):
        try:
            return pd.to_datetime(date, format=fmt)
        except ValueError:
            pass
    return pd.NaT

df['Fecha Ingreso'] = df['Fecha Ingreso'].apply(correct_date_format)
df['Fecha Ingreso Estandarizada'] = df['Fecha Ingreso'].dt.strftime('%Y-%m-%d')

# Mostrar DataFrame con fechas estandarizadas
print("\nFechas de ingreso estandarizadas:")
print(df[['Fecha Ingreso', 'Fecha Ingreso Estandarizada']])

# Paso 3: Llenar valores faltantes
# Rellenar los valores faltantes con un valor por defecto
df['Edad'].fillna(round(df['Edad'].mean()), inplace=True)  # Rellenar edad con la media de edades
df['Nombre'].fillna('Desconocido', inplace=True)    # Rellenar nombre faltante con 'Desconocido'

# Mostrar DataFrame después de la limpieza
print("\nDataFrame después de la limpieza de datos:")
print(df)

# Paso 4: Verificar resultados (para verificar que no hay errores)
# Aquí se verifica que los resultados sean solo 'Positivo' o 'Negativo'
valid_results = ['Positivo', 'Negativo']
df['Resultado Prueba'] = df['Resultado Prueba'] .apply(lambda x: x if x in valid_results else 'Invalido')

print("\nResultados de pruebas verificados:")
print(df['Resultado Prueba'])


Valores faltantes por columna:
Nombre              1
Edad                1
Fecha Ingreso       0
Resultado Prueba    0
dtype: int64

Fechas de ingreso estandarizadas:
  Fecha Ingreso Fecha Ingreso Estandarizada
0    2021-01-15                  2021-01-15
1    2020-03-12                  2020-03-12
2    2022-07-01                  2022-07-01
3    2021-12-01                  2021-12-01
4    2021-05-20                  2021-05-20
5    2020-03-12                  2020-03-12

DataFrame después de la limpieza de datos:
        Nombre  Edad Fecha Ingreso Resultado Prueba  \
0       Carlos  34.0    2021-01-15         Positivo   
1          Ana  29.0    2020-03-12         Negativo   
2         Luis  33.0    2022-07-01         Positivo   
3        Pedro  45.0    2021-12-01         Positivo   
4        María  25.0    2021-05-20         Negativo   
5  Desconocido  33.0    2020-03-12         Negativo   

  Fecha Ingreso Estandarizada  
0                  2021-01-15  
1                  2020-03-12  

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Edad'].fillna(round(df['Edad'].mean()), inplace=True)  # Rellenar edad con la media de edades
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Nombre'].fillna('Desconocido', inplace=True)    # Rellenar nombre faltante con 'Desconocido'


2. Comercio Electrónico y Recomendaciones Personalizadas
Se tiene un conjunto de datos sobre transacciones de clientes que incluye el ID del cliente, el producto comprado, la cantidad, el precio y la fecha de la transacción. Algunos registros tienen errores en los precios y fechas.


In [None]:
import pandas as pd
import numpy as np

# Datos
cliente_id = [1, 2, 3, 4, 5]
producto = ['A', 'B', 'C', 'D', 'E']
cantidad = [10, 20, None, 5, 15]
precio = ['100', '200$', '300', 'cuatrocientos', '500']
fecha_transaccion = ['2023-01-15', '2023/02/20',
                     '2023-03-25', '2023/04/30', '2023-05-10']

# Crear DataFrame
data = {
    'Cliente ID': cliente_id,
    'Producto': producto,
    'Cantidad': cantidad,
    'Precio': precio,
    'Fecha Transacción': fecha_transaccion }

df = pd.DataFrame(data)

# Paso 1: Identificar y corregir errores en los precios
def clean_price(value):
    try:
        # Intentar convertir el valor a un número
        return float(value)
    except ValueError:
        # Manejar valores no numéricos
        if value.lower() == 'cuatrocientos':
            return 400.0
        elif '$' in value:
            return float(value.replace('$', ''))
    return np.nan

df['Precio'] = df['Precio'].apply(clean_price)

# Paso 2: Estandarizar el formato de las fechas
def correct_date_format(date):
    for fmt in ('%Y-%m-%d', '%Y/%m/%d', '%d/%m/%Y', '%Y/%d/%m'):
        try:
            return pd.to_datetime(date, format=fmt)
        except ValueError:
            pass
    return pd.NaT

df['Fecha Transacción'] = df['Fecha Transacción'].apply(correct_date_format)
df['Fecha Transacción Estandarizada'] = df['Fecha Transacción'].dt.strftime('%Y-%m-%d')

# Paso 3: Rellenar valores faltantes con la media de las cantidades
df['Cantidad'].fillna(df['Cantidad'].mean(), inplace=True)

# Mostrar DataFrame después de la limpieza
print("\nDataFrame después de la limpieza de datos:")
print(df)



DataFrame después de la limpieza de datos:
   Cliente ID Producto  Cantidad  Precio Fecha Transacción  \
0           1        A      10.0   100.0        2023-01-15   
1           2        B      20.0   200.0        2023-02-20   
2           3        C      12.5   300.0        2023-03-25   
3           4        D       5.0   400.0        2023-04-30   
4           5        E      15.0   500.0        2023-05-10   

  Fecha Transacción Estandarizada  
0                      2023-01-15  
1                      2023-02-20  
2                      2023-03-25  
3                      2023-04-30  
4                      2023-05-10  


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Cantidad'].fillna(df['Cantidad'].mean(), inplace=True)


Escenario: eres un analista de datos en una pequeña empresa que está recopilando información sobre sus clientes.
Tu objetivo es limpiar los datos para que estén listos para el análisis, aplicando las técnicas de limpieza de datos

In [3]:
import pandas as pd

# Datos iniciales
data = {
    'Nombre': ['Juan', 'Maria', 'Pedro', 'Ana', 'Luisa', 'Carlos', 'Juan'],
    'Edad': [25, 30, None, 29, 28, 200, 25],
    'Email': ['juan@mail.com', 'maria@mail.com', 'pedro@mail.com', 'ana@mail.com',
              'luisa@mail.com', 'carlos@mail.com', 'juan@mail.com'],
    'Pais': ['colombia', 'Colombia', 'Mexico', 'Argentina', 'Colombia',
             'Brazil', 'colombia'],
    'Genero': ['M', 'F', 'H', 'F', 'Femenino', 'M', 'M'],
    'Visitas': [5, 7, 6, 4, 8, 2, 5]}


# Crear DataFrame
df = pd.DataFrame(data)

# Paso 1: Rellenar valores faltantes
# Para la edad, rellenamos con la media de edades (redondeada)
df['Edad'].fillna(round(df['Edad'].mean()), inplace=True)

# Paso 2: Eliminar duplicados
df.drop_duplicates(inplace=True)

# Paso 3: Estandarizar valores de las columnas
# Convertir los valores de 'Pais' a minúsculas para estandarizar
df['Pais'] = df['Pais'].str.lower()

# Estandarizar el género, Ej: convertir 'Femenino' a 'F')
df['Genero'] = df['Genero'].replace({'H': 'M', 'Femenino': 'F'})

# Paso 4: Corregir valores inválidos
# Corregir edad (suponemos que 200 es un error y lo ajustamos al máximo de 120)
df['Edad'] = df['Edad'].apply(lambda x: x if x <= 120 else 120)

# Mostrar DataFrame después de la limpieza
print("\nDataFrame después de la limpieza de datos:")
print(df)



DataFrame después de la limpieza de datos:
   Nombre   Edad            Email       Pais Genero  Visitas
0    Juan   25.0    juan@mail.com   colombia      M        5
1   Maria   30.0   maria@mail.com   colombia      F        7
2   Pedro   56.0   pedro@mail.com     mexico      M        6
3     Ana   29.0     ana@mail.com  argentina      F        4
4   Luisa   28.0   luisa@mail.com   colombia      F        8
5  Carlos  120.0  carlos@mail.com     brazil      M        2


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Edad'].fillna(round(df['Edad'].mean()), inplace=True)
