# Limpieza y Preparación de Datos con Pandas

## Introducción
Este notebook cubre técnicas esenciales para la limpieza y preparación de datos usando Pandas.


## 1. Cargar datos
Simulación de un DataFrame inicial para ilustrar los ejemplos.

In [1]:
import pandas as pd
import numpy as np


In [None]:
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos', None, 'Diana', 'Luis', 'Ana', 'Maria', 'Pedro'],
    'Edad': [25, 30, np.nan, 22, 29, 30, 25, None, 28],
    'Ciudad': ['Quito', 'Guayaquil', 'Quito', 'Cuenca', None, 'Guayaquil', 'Quito', 'Cuenca', 'Quito'],
    'Ingreso': [3000, 4500, np.nan, 2800, 3200, 4500, 3000, 3100, None],
    'Activo': [True, True, False, True, False, True, True, False, True]
}
df = pd.DataFrame(data)
print(df)


## 2. Identificación de valores faltantes
### Visualización de valores faltantes con `isna()` y mapa de calor.

In [None]:
print(df.isna())
print(df.isna().sum())

import matplotlib.pyplot as plt
import seaborn as sns
sns.heatmap(df.isna(), cbar=False, cmap='viridis')
plt.title("Mapa de Calor de Valores Faltantes")
plt.show()

## 3. Manejo de valores faltantes
### Eliminación y relleno de valores faltantes.

In [None]:
# Eliminación
df_dropna = df.dropna()
print(df_dropna)

# Relleno con valores personalizados
df_fillna = df.fillna({
    'Edad': df['Edad'].mean(),
    'Ciudad': 'Desconocido',
    'Ingreso': df['Ingreso'].median()
})
print(df_fillna)

# Interpolación
df_interpolated = df.interpolate()
print(df_interpolated)

## 4. Detección y eliminación de duplicados
### Manejo de duplicados simples y personalizados.

In [None]:
print(df.duplicated())

# Eliminar duplicados
df_no_duplicates = df.drop_duplicates()
print(df_no_duplicates)

# Duplicados específicos
print(df.duplicated(subset=['Nombre', 'Edad']))
df_no_duplicates_subset = df.drop_duplicates(subset=['Nombre', 'Edad'])
print(df_no_duplicates_subset)

## 5. Conversión de tipos de datos
### Uso de `astype` para transformar columnas.

In [None]:
df_converted = df_fillna.copy()
df_converted['Edad'] = df_converted['Edad'].astype(int)
df_converted['Ingreso'] = df_converted['Ingreso'].astype(float)
df_converted['Activo'] = df_converted['Activo'].astype(bool)
print(df_converted.dtypes)
print(df_converted)

## 6. Ejercicios avanzados
### Crear nuevas columnas y filtrar datos.

In [None]:
# Nueva columna
print("\n--- Creación de una nueva columna 'Ingreso Anual' ---\n")
df_converted['Ingreso Anual'] = df_converted['Ingreso'] * 12
print(df_converted)

# Segmentación
filtered_df = df_converted[(df_converted['Ingreso'] > 3500) & (df_converted['Activo'] == True)]
print(filtered_df)

### Agrupación y agregación

In [None]:
grouped = df_converted.groupby('Ciudad').agg({
    'Edad': ['mean', 'min', 'max'],
    'Ingreso': ['mean', 'sum']
})
print(grouped)

### Combinación de DataFrames

In [None]:
new_data = {
    'Nombre': ['Sofía', 'Juan'],
    'Edad': [27, 35],
    'Ciudad': ['Ambato', 'Loja'],
    'Ingreso': [4000, 5000],
    'Activo': [True, False]
}
df_new = pd.DataFrame(new_data)
df_combined = pd.concat([df_converted, df_new], ignore_index=True)
print(df_combined)

### Funciones personalizadas

In [None]:
def categorizar_ingreso(ingreso):
    if ingreso < 3000:
        return 'Bajo'
    elif 3000 <= ingreso <= 4000:
        return 'Medio'
    else:
        return 'Alto'

df_combined['Categoría Ingreso'] = df_combined['Ingreso'].apply(categorizar_ingreso)
print(df_combined)

## Conclusión
Este notebook ha demostrado técnicas clave de limpieza de datos con Pandas y ha incluido ejercicios más complejos para fortalecer el aprendizaje.
