<a href="https://colab.research.google.com/github/NatSama2/Bootcamp-Analisis-de-Datos/blob/main/Modulo-4/Data_Wrangling_M4S5_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Fundamentos de Análisis de Datos – Módulo 4 Sesión 05
## Data Wrangling con Python y Pandas

En esta clase trabajaremos con conceptos y técnicas fundamentales para la limpieza, transformación y organización de datos. Utilizaremos `pandas` y `numpy` en Python, y se presentarán tanto ejemplos resueltos como ejercicios prácticos.

---


In [None]:

import pandas as pd
import numpy as np



## ¿Qué es Data Wrangling?
Proceso de limpiar, transformar y estructurar datos para análisis.

### Tareas principales:
- Eliminación de errores y duplicados
- Reemplazo de valores faltantes
- Transformación de estructuras
- Enriquecimiento de datos


## Muestreo aleatorio y permutación

In [None]:

# Creamos un DataFrame de ejemplo
df = pd.DataFrame({
    'Cliente': ['A', 'B', 'C', 'D', 'E'],
    'Ventas': [100, 200, 150, 300, 250]
})

# Muestreo aleatorio
df_sample = df.sample(frac=0.6, random_state=1)
print("Muestreo aleatorio:")
print(df_sample)

# Permutación (shuffle)
df_shuffled = df.sample(frac=1).reset_index(drop=True)
print("\nDatos permutados:")
print(df_shuffled)


## Ejemplos resueltos de Data Wrangling


### Ejemplo: Ordenar datos por una columna

In [None]:

df.sort_values(by='Ventas', ascending=False)


### Ejemplo: Eliminar registros duplicados

In [None]:

df_duplicates = pd.DataFrame({
    'ID': [1, 2, 2, 3],
    'Nombre': ['Ana', 'Luis', 'Luis', 'Carlos']
})
df_duplicates.drop_duplicates()


### Ejemplo: Reemplazar valores nulos con la media

In [None]:

df_nulls = pd.DataFrame({
    'Edad': [25, np.nan, 30, np.nan, 22]
})
df_nulls['Edad'].fillna(df_nulls['Edad'].mean())


### Ejemplo: Crear columna categórica a partir de edad

In [None]:

df_edad = pd.DataFrame({'Edad': [15, 22, 37, 45, 67]})
df_edad['Grupo'] = pd.cut(df_edad['Edad'], bins=[0, 18, 35, 60, 100], labels=['Adolescente', 'Joven', 'Adulto', 'Mayor'])
df_edad


### Ejemplo: Aplicar una función a una columna

In [None]:

df['Ventas_con_IVA'] = df['Ventas'].apply(lambda x: x * 1.19)


### Ejemplo: Agregar columna calculada

In [None]:

df['Costo'] = [60, 100, 90, 200, 170]
df['Ganancia'] = df['Ventas'] - df['Costo']


### Ejemplo: Renombrar columnas

In [None]:

df.rename(columns={'Cliente': 'NombreCliente', 'Ventas': 'MontoVentas'})


### Ejemplo: Resetear el índice

In [None]:

df_reset = df.set_index('Cliente')
df_reset.reset_index()


### Ejemplo: Filtrar filas por condición

In [None]:

df[df['Ventas'] > 200]


### Ejemplo: Reemplazar valores específicos

In [None]:

df['Cliente'].replace({'A': 'Alfa', 'B': 'Beta'})


### Ejemplo: Convertir tipo de columna

In [None]:

df['Ventas'] = df['Ventas'].astype(float)


### Ejemplo: Agregar fila nueva

In [None]:
Fila_n = pd.DataFrame({'Cliente': ['F'], 'Ventas': [180], 'Ventas_con_IVA': [180 * 1.19], 'Costo': [0], 'Ganancia': [180 - 0]})
df = pd.concat([df, Fila_n], ignore_index=True)
df

### Ejemplo: Eliminar columna

In [None]:

df.drop(columns=['Costo'])


### Ejemplo: Discretizar valores con qcut

In [None]:

df['Quintil'] = pd.qcut(df['Ventas'], q=4, labels=False)
df


### Ejemplo: Combinar dataframes

In [None]:

df_extra = pd.DataFrame({'Cliente': ['F'], 'Ventas': [180]})
pd.concat([df, df_extra])


### Ejemplo: Mapeo de valores

In [None]:

df['Segmento'] = df['Cliente'].map({'A': 'Alta', 'B': 'Media', 'C': 'Baja'})


### Ejemplo: Cambiar índice

In [None]:

df.set_index('Cliente', inplace=True)
df


### Ejemplo: Filtrar nulos

In [None]:

df_nulls[df_nulls['Edad'].isna()]


### Ejemplo: Eliminar filas con nulos

In [None]:

df_nulls.dropna()


## 1. Funciones lambda básicas

In [None]:
# Ejercicio 1: Crear una función lambda que eleve un número al cuadrado
cuadrado = lambda x: x**2
print("5 al cuadrado:", cuadrado(5))

In [None]:
# Ejercicio 2: Función lambda que determine si un número es par
es_par = lambda x: x % 2 == 0
print("¿4 es par?", es_par(4))
print("¿5 es par?", es_par(5))

In [None]:
# Ejercicio 3: Función lambda que concatene dos strings con un espacio entre ellos
concatenar = lambda a, b: f"{a} {b}"
print(concatenar("Hola", "Mundo"))

## 2. apply() con Series de pandas

In [None]:
# Crear una Series de ejemplo
s = pd.Series([1, 2, 3, 4, 5])
s

In [None]:
# Ejercicio 4: Aplicar una función lambda para sumar 10 a cada elemento
s.apply(lambda x: x + 10)

In [None]:
# Ejercicio 5: Aplicar una función lambda para convertir números a strings con prefijo
s.apply(lambda x: f"Valor: {x}")

## 3. apply() con DataFrames

In [None]:
# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})
df

In [None]:
# Ejercicio 6: Aplicar una función lambda por columnas (sumar 100 a cada valor)
df.apply(lambda col: col + 100)

In [None]:
# Ejercicio 7: Aplicar una función lambda por filas (sumar los valores de cada fila)
df.apply(lambda fila: fila.sum(), axis=1)

## 4. Casos prácticos más avanzados

In [None]:
# Crear un DataFrame con datos más complejos
personas = pd.DataFrame({
    'Nombre': ['Ana', 'Juan', 'María', 'Carlos'],
    'Edad': [25, 32, 28, 41],
    'Salario': [45000, 60000, 52000, 75000]
})
personas

In [None]:
# Ejercicio 8: Crear una nueva columna con categoría según edad
personas['Categoria_Edad'] = personas['Edad'].apply(
    lambda x: 'Joven' if x < 30 else 'Adulto' if x < 40 else 'Mayor'
)
personas

In [None]:
# Ejercicio 9: Aplicar un aumento de salario del 10% a quienes ganan menos de 55000
personas['Salario_Ajustado'] = personas.apply(
    lambda fila: fila['Salario'] * 1.1 if fila['Salario'] < 55000 else fila['Salario'],
    axis=1
)
personas

In [None]:
# Ejercicio 10: Crear una columna con información combinada
personas['Info'] = personas.apply(
    lambda fila: f"{fila['Nombre']} ({fila['Edad']} años) - ${fila['Salario']}",
    axis=1
)
personas

## 5. Ejercicios para resolver

**Ejercicio 11:** Crea una función lambda que tome tres números y devuelva el mayor de ellos.

In [None]:
# Solución aquí

**Ejercicio 12:** Usa apply() para crear una nueva columna en el DataFrame 'personas' que indique 'Salario Alto' si el salario es mayor a 50000, y 'Salario Bajo' en caso contrario.

In [None]:
# Solución aquí

**Ejercicio 13:** Crea un DataFrame con una columna de strings y usa apply() con una lambda para obtener la longitud de cada string.

In [None]:
# Solución aquí

**Ejercicio 14:** Usa apply() en un DataFrame para normalizar los valores de cada columna (restar la media y dividir por la desviación estándar).

In [None]:
# Solución aquí

**Ejercicio 15:** Crea una función lambda que tome una lista de palabras y devuelva una lista con las palabras en mayúsculas y ordenadas alfabéticamente.