 # **<font color="DarkBlue">Limpieza y Preparación de Datos 🐼 </font>**

<p align="center">
<img src="https://pandas.pydata.org/static/img/pandas_mark.svg" width="50">
</p>


https://pandas.pydata.org/

 # **<font color="DarkBlue">Transformación de datos</font>**

<p align="justify">
La transformación de datos es el proceso de modificar, organizar o estructurar los datos para que sean más útiles en un análisis o modelado.
<br><br>
Esto puede implicar convertir datos de un formato a otro, aplicar funciones matemáticas, normalizar, escalar, agregar o dividir columnas, entre otras operaciones.
<br><br>
El objetivo es adaptar los datos para que se ajusten a los requisitos del análisis, mejorando la precisión y eficiencia del procesamiento.
<br><br>
En los negocios, es crucial para preparar la información antes de aplicar modelos predictivos, realizar análisis estadísticos o generar reportes.

 ## **<font color="DarkBlue">Eliminando duplicados</font>**

<p align="justify">
Este tipo de análisis es fundamental en negocios donde la calidad de los datos de los clientes es crucial.
<br><br>
Al eliminar registros duplicados, las empresas pueden mejorar la precisión de sus campañas de marketing, análisis de comportamiento del cliente y personalización de servicios, lo que puede llevar a una mejor experiencia del cliente y a mayores ventas.








In [None]:
import pandas as pd

🚀 Ejemplo:

In [None]:
# Crear un DataFrame simulado con datos de clientes, incluyendo duplicados
data = {
    'Cliente_ID': [1, 2, 2, 3, 4, 5, 5, 6],
    'Nombre': ['Ana', 'Luis', 'Luis', 'Pedro', 'María', 'Juan', 'Juan', 'Sofía'],
    'Email': ['ana@example.com', 'luis@example.com', 'luis@example.com',
              'pedro@example.com', 'maria@example.com', 'juan@example.com',
              'juan@example.com', 'sofia@example.com'],
    'Telefono': ['111-222-333', '222-333-444', '222-333-444',
                 '333-444-555', '444-555-666', '555-666-777',
                 '555-666-777', '666-777-888']
}

In [None]:
# Crear el DataFrame
df_clientes = pd.DataFrame(data)
df_clientes

Unnamed: 0,Cliente_ID,Nombre,Email,Telefono
0,1,Ana,ana@example.com,111-222-333
1,2,Luis,luis@example.com,222-333-444
2,2,Luis,luis@example.com,222-333-444
3,3,Pedro,pedro@example.com,333-444-555
4,4,María,maria@example.com,444-555-666
5,5,Juan,juan@example.com,555-666-777
6,5,Juan,juan@example.com,555-666-777
7,6,Sofía,sofia@example.com,666-777-888


 ### **<font color="DarkBlue">Estrategias de manejo de datos duplicados </font>**

In [None]:
# 1. Identificar duplicados basándose en todas las columnas

duplicados_todos = df_clientes[df_clientes.duplicated()]
print("\nDuplicados (todas las columnas):")
duplicados_todos


Duplicados (todas las columnas):


Unnamed: 0,Cliente_ID,Nombre,Email,Telefono
2,2,Luis,luis@example.com,222-333-444
6,5,Juan,juan@example.com,555-666-777


In [None]:
# 2. Eliminar duplicados basándose en todas las columnas

df_sin_duplicados = df_clientes.drop_duplicates()
print("\nDatos sin duplicados (todas las columnas):")
df_sin_duplicados


Datos sin duplicados (todas las columnas):


Unnamed: 0,Cliente_ID,Nombre,Email,Telefono
0,1,Ana,ana@example.com,111-222-333
1,2,Luis,luis@example.com,222-333-444
3,3,Pedro,pedro@example.com,333-444-555
4,4,María,maria@example.com,444-555-666
5,5,Juan,juan@example.com,555-666-777
7,6,Sofía,sofia@example.com,666-777-888


In [None]:
# 3. Identificar duplicados basándose en un subconjunto de columnas (Email y Telefono)

duplicados_subset = df_clientes[df_clientes.duplicated(subset=['Email', 'Telefono'])]
print("\nDuplicados (Email y Telefono):")
duplicados_subset


Duplicados (Email y Telefono):


Unnamed: 0,Cliente_ID,Nombre,Email,Telefono
2,2,Luis,luis@example.com,222-333-444
6,5,Juan,juan@example.com,555-666-777


In [None]:
# 4. Eliminar duplicados basándose en un subconjunto de columnas (Email y Telefono)

df_sin_duplicados_subset = df_clientes.drop_duplicates(subset=['Email', 'Telefono'])
print("\nDatos sin duplicados (Email y Telefono):")
df_sin_duplicados_subset



Datos sin duplicados (Email y Telefono):


Unnamed: 0,Cliente_ID,Nombre,Email,Telefono
0,1,Ana,ana@example.com,111-222-333
1,2,Luis,luis@example.com,222-333-444
3,3,Pedro,pedro@example.com,333-444-555
4,4,María,maria@example.com,444-555-666
5,5,Juan,juan@example.com,555-666-777
7,6,Sofía,sofia@example.com,666-777-888


In [None]:
# 5. Mantener la última aparición en caso de duplicados

df_mantener_ultimo = df_clientes.drop_duplicates(subset=['Email', 'Telefono'], keep='last')
print("\nDatos sin duplicados (mantener última aparición - Email y Telefono):")
df_mantener_ultimo



Datos sin duplicados (mantener última aparición - Email y Telefono):


Unnamed: 0,Cliente_ID,Nombre,Email,Telefono
0,1,Ana,ana@example.com,111-222-333
2,2,Luis,luis@example.com,222-333-444
3,3,Pedro,pedro@example.com,333-444-555
4,4,María,maria@example.com,444-555-666
6,5,Juan,juan@example.com,555-666-777
7,6,Sofía,sofia@example.com,666-777-888


 ## **<font color="DarkBlue">Transformación mediante función o mapeo </font>**

<p align="justify">
Para muchos conjuntos de datos, es posible que desee realizar alguna transformación en función de los valores de una matriz, una serie o una columna en un DataFrame

In [None]:
# Crear un DataFrame simulado con datos de ventas
data = {
    'Producto': ['Laptop', 'Smartphone', 'Tablet', 'Smartwatch', 'Desktop'],
    'Precio': [1000, 500, 300, 200, 1500],  # precios en dólares
    'Categoria': ['Electronics', 'Electronics', 'Electronics', 'Wearables', 'Electronics']
}

In [None]:
# Crear el DataFrame
df_ventas = pd.DataFrame(data)
df_ventas

Unnamed: 0,Producto,Precio,Categoria
0,Laptop,1000,Electronics
1,Smartphone,500,Electronics
2,Tablet,300,Electronics
3,Smartwatch,200,Wearables
4,Desktop,1500,Electronics


 ### **<font color="DarkBlue">Mediante función</font>**

In [None]:
# Definir una función para aplicar un impuesto al precio

def aplicar_iva(precio, tasa_impuesto=0.21):
    """Aplica una tasa de impuesto a un precio dado."""
    return precio * (1 + tasa_impuesto)

In [None]:
# Usar la función para transformar la columna 'Precio'

df_ventas['Precio_Con_Impuesto'] = df_ventas['Precio'].apply(aplicar_iva)
print("\nDatos con precios transformados (con impuesto):")
df_ventas


Datos con precios transformados (con impuesto):


Unnamed: 0,Producto,Precio,Categoria,Precio_Con_Impuesto
0,Laptop,1000,Electronics,1210.0
1,Smartphone,500,Electronics,605.0
2,Tablet,300,Electronics,363.0
3,Smartwatch,200,Wearables,242.0
4,Desktop,1500,Electronics,1815.0


 ### **<font color="DarkBlue">Mediante mapeo</font>**

In [None]:
# Definir un mapeo para simplificar las categorías

mapeo_categorias = {
    'Electronics': 'Electrónica',
    'Wearables': 'Vestibles'
}

In [None]:
# Usar el mapeo para transformar la columna 'Categoria'

df_ventas['Categoria_Transformada'] = df_ventas['Categoria'].map(mapeo_categorias)
print("\nDatos con categorías transformadas:")
df_ventas



Datos con categorías transformadas:


Unnamed: 0,Producto,Precio,Categoria,Precio_Con_Impuesto,Categoria_Transformada
0,Laptop,1000,Electronics,1210.0,Electrónica
1,Smartphone,500,Electronics,605.0,Electrónica
2,Tablet,300,Electronics,363.0,Electrónica
3,Smartwatch,200,Wearables,242.0,Vestibles
4,Desktop,1500,Electronics,1815.0,Electrónica


In [None]:
# Limpiar el DataFrame eliminando columnas innecesarias

df_ventas_final = df_ventas.drop(columns=['Precio', 'Categoria'])
print("\nDatos finales de ventas:")
df_ventas_final


Datos finales de ventas:


Unnamed: 0,Producto,Precio_Con_Impuesto,Categoria_Transformada
0,Laptop,1210.0,Electrónica
1,Smartphone,605.0,Electrónica
2,Tablet,363.0,Electrónica
3,Smartwatch,242.0,Vestibles
4,Desktop,1815.0,Electrónica


 ## **<font color="DarkBlue">Discretización de datos y agrupamiento</font>**

<p align="justify">
Los datos continuos suelen discretizarse o separarse en “grupos” para su análisis.


In [None]:
# Crear un DataFrame simulado con datos de ventas de productos

data = {
    'Producto': ['Laptop', 'Smartphone', 'Tablet', 'Smartwatch', 'Desktop', 'Cámara', 'Auriculares', 'Impresora'],
    'Ventas': [1500, 1200, 800, 600, 2500, 300, 700, 1000]  # Ventas en unidades
}

In [None]:
# Crear el DataFrame
df_ventas = pd.DataFrame(data)
df_ventas

Unnamed: 0,Producto,Ventas
0,Laptop,1500
1,Smartphone,1200
2,Tablet,800
3,Smartwatch,600
4,Desktop,2500
5,Cámara,300
6,Auriculares,700
7,Impresora,1000


 ### **<font color="DarkBlue">Estrategias para la discretización de datos y agrupamiento </font>**

In [None]:
# Definir los límites para las categorías de ventas

bins = [0, 500, 1000, 2000, 3000]
labels = ['Bajo', 'Promedio', 'Alto', 'Muy Alto']

In [None]:
# Usar pandas.cut() para clasificar las ventas

df_ventas['Rendimiento_Ventas'] = pd.cut(df_ventas['Ventas'], bins=bins, labels=labels, right=False)

In [None]:
# Mostrar el DataFrame con la clasificación de rendimiento de ventas

print("\nDatos con clasificación de rendimiento de ventas:")
df_ventas


Datos con clasificación de rendimiento de ventas:


Unnamed: 0,Producto,Ventas,Rendimiento_Ventas
0,Laptop,1500,Alto
1,Smartphone,1200,Alto
2,Tablet,800,Promedio
3,Smartwatch,600,Promedio
4,Desktop,2500,Muy Alto
5,Cámara,300,Bajo
6,Auriculares,700,Promedio
7,Impresora,1000,Alto


In [None]:
# Contar la cantidad de productos en cada categoría

conteo_rendimiento = df_ventas['Rendimiento_Ventas'].value_counts()
print("\nConteo de productos por categoría de rendimiento de ventas:")
conteo_rendimiento.name = 'Cantidad'
conteo_rendimiento


Conteo de productos por categoría de rendimiento de ventas:


Unnamed: 0_level_0,Cantidad
Rendimiento_Ventas,Unnamed: 1_level_1
Promedio,3
Alto,3
Bajo,1
Muy Alto,1


In [None]:
# Mostrar productos que necesitan atención (Bajo rendimiento)

productos_bajo_rendimiento = df_ventas[df_ventas['Rendimiento_Ventas'] == 'Bajo']
print("\nProductos que necesitan atención (Bajo rendimiento):")
productos_bajo_rendimiento


Productos que necesitan atención (Bajo rendimiento):


Unnamed: 0,Producto,Ventas,Rendimiento_Ventas
5,Cámara,300,Bajo


 ## **<font color="DarkBlue">Detección de valores atípicos</font>**

<p align="justify">
Imaginemos que tenemos un conjunto de datos sobre gastos mensuales de diferentes empresas en un sector específico.
<br><br>
Queremos identificar aquellos gastos que son anómalos (valores atípicos) que pueden requerir una revisión más cercana, como posibles errores de entrada de datos o gastos inusuales.



In [None]:
import numpy as np
import plotly.express as px

In [None]:
# Crear un DataFrame simulado con gastos mensuales de empresas
data = {
    'Empresa': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L'],
    'Gastos Mensuales': [12000, 15000, 11000, 13000, 25000, 14000, 16000, 15500, 13500, 12500, 9500, 21500]  # Gastos en dólares
}

In [None]:
df_gastos = pd.DataFrame(data)
df_gastos

Unnamed: 0,Empresa,Gastos Mensuales
0,A,12000
1,B,15000
2,C,11000
3,D,13000
4,E,25000
5,F,14000
6,G,16000
7,H,15500
8,I,13500
9,J,12500


In [None]:
# Calcular el rango intercuartílico (IQR)

Q1 = df_gastos['Gastos Mensuales'].quantile(0.25)
Q3 = df_gastos['Gastos Mensuales'].quantile(0.75)
IQR = Q3 - Q1

In [None]:
# Definir los límites para identificar valores atípicos

limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

In [None]:
# Identificar los valores atípicos

df_gastos['Anomalo'] = (df_gastos['Gastos Mensuales'] < limite_inferior) | (df_gastos['Gastos Mensuales'] > limite_superior)

In [None]:
# Mostrar el DataFrame con la detección de valores atípicos

print("\nDatos con detección de valores atípicos:")
df_gastos


Datos con detección de valores atípicos:


Unnamed: 0,Empresa,Gastos Mensuales,Anomalo
0,A,12000,False
1,B,15000,False
2,C,11000,False
3,D,13000,False
4,E,25000,True
5,F,14000,False
6,G,16000,False
7,H,15500,False
8,I,13500,False
9,J,12500,False


In [None]:
# Visualizar los gastos y los valores atípicos con Plotly

px.box(df_gastos,
       y='Gastos Mensuales',
       title='Boxplot de Gastos Mensuales',
       points="all")

In [None]:
# Filtrar los valores atípicos

valores_atipicos = df_gastos[df_gastos['Anomalo']]
print("\nValores atípicos detectados:")
valores_atipicos


Valores atípicos detectados:


Unnamed: 0,Empresa,Gastos Mensuales,Anomalo
4,E,25000,True
11,L,21500,True


 ## **<font color="DarkBlue">Variables ficticias</font>**

<p align="justify">
Otro tipo de transformación para aplicaciones de modelado estadístico o aprendizaje automático es convertir una variable categórica en una matriz ficticia.
<br><br>
El uso de get_dummies() es fundamental en el análisis de datos económicos, especialmente en modelos de regresión y análisis multivariante, donde es crucial convertir variables categóricas en un formato que los algoritmos de aprendizaje automático puedan procesar.
<br><br>
Este enfoque permite a las empresas comprender mejor el impacto de las diferentes categorías de productos en sus ventas, facilitando decisiones estratégicas sobre marketing, inventario y desarrollo de productos.








In [None]:
# Crear un DataFrame simulado con datos de ventas

data = {
    'Producto': ['Laptop', 'Camisa', 'Manzana', 'Televisor', 'Zapatos', 'Plátano', 'Tablet', 'Pantalones', 'Cereal', 'Cámara'],
    'Categoria': ['Electrónica', 'Ropa', 'Alimentos', 'Electrónica', 'Ropa', 'Alimentos', 'Electrónica', 'Ropa', 'Alimentos', 'Electrónica'],
    'Ventas': [1200, 300, 150, 800, 500, 100, 450, 250, 350, 600]
}

df_ventas = pd.DataFrame(data)
df_ventas

Unnamed: 0,Producto,Categoria,Ventas
0,Laptop,Electrónica,1200
1,Camisa,Ropa,300
2,Manzana,Alimentos,150
3,Televisor,Electrónica,800
4,Zapatos,Ropa,500
5,Plátano,Alimentos,100
6,Tablet,Electrónica,450
7,Pantalones,Ropa,250
8,Cereal,Alimentos,350
9,Cámara,Electrónica,600


In [None]:
# Usar get_dummies() para convertir la columna 'Categoria' en variables dummy

df_dummies = pd.get_dummies(df_ventas, columns=['Categoria'])
print("\nDatos de ventas con variables dummy:")
df_dummies


Datos de ventas con variables dummy:


Unnamed: 0,Producto,Ventas,Categoria_Alimentos,Categoria_Electrónica,Categoria_Ropa
0,Laptop,1200,False,True,False
1,Camisa,300,False,False,True
2,Manzana,150,True,False,False
3,Televisor,800,False,True,False
4,Zapatos,500,False,False,True
5,Plátano,100,True,False,False
6,Tablet,450,False,True,False
7,Pantalones,250,False,False,True
8,Cereal,350,True,False,False
9,Cámara,600,False,True,False


In [None]:
# Usar get_dummies() para convertir la columna 'Categoria' en variables dummy

df_dummies = pd.get_dummies(df_ventas, columns=['Categoria'], drop_first=True)
df_dummies

Unnamed: 0,Producto,Ventas,Categoria_Electrónica,Categoria_Ropa
0,Laptop,1200,True,False
1,Camisa,300,False,True
2,Manzana,150,False,False
3,Televisor,800,True,False
4,Zapatos,500,False,True
5,Plátano,100,False,False
6,Tablet,450,True,False
7,Pantalones,250,False,True
8,Cereal,350,False,False
9,Cámara,600,True,False


<p align="justify">
Utilizamos pd.get_dummies() para convertir la columna Categoria en variables dummy.
<br><br>
La opción drop_first=True se utiliza para evitar la multicolinealidad al eliminar la primera columna dummy, ya que es redundante.
<br><br>
Esto crea nuevas columnas para cada categoría, donde cada columna indica la presencia (1) o ausencia (0) de esa categoría para cada producto

<br>
<br>
<p align="center"><b>
💗
<font color="DarkBlue">
Hemos llegado al final de nuestro colab de Pandas, a seguir codeando...
</font>
</p>