In [4]:
import pandas as pd
import numpy as np

# Creamos un dataset de ejemplo similar al del PDF
df_empleados = pd.DataFrame({
    'Nombre': ['Ana', 'Juan', 'Luis', 'Marta', 'Pedro'],
    'Ciudad': ['Madrid', 'Barcelona', 'Madrid', 'Valencia', 'Barcelona'],
    'Edad': [25, 54, 42, 40, 46],
    'Ingresos': [40367, 45084, 52483, 40941, 50289],
    'Enfermo': ['No', 'No', 'Si', 'No', 'No']
})

# EJERCICIO 1: Filtrar hombres mayores de 40 años
# Nota: Usamos comillas dobles para strings dentro de la expresión [cite: 187]
res1 = df_empleados.query('Edad > 40 and Ciudad == "Barcelona"')

# EJERCICIO 2: Usar una variable externa con el prefijo @ [cite: 213]
lista_ciudades = ['Madrid', 'Valencia']
res2 = df_empleados.query('Ciudad in @lista_ciudades')

# EJERCICIO 3: Búsqueda por índice [cite: 201]
res3 = df_empleados.query('index < 3')

print("Filtro Edad > 40 en BCN:\n", res1)

Filtro Edad > 40 en BCN:
   Nombre     Ciudad  Edad  Ingresos Enfermo
1   Juan  Barcelona    54     45084      No
4  Pedro  Barcelona    46     50289      No


In [8]:
# Dataset con nulos
df_nulos = pd.DataFrame({
    'A': [1.2, 1.3, np.nan, np.nan],
    'B': [6.5, np.nan, np.nan, 6.5],
    'C': [3.4, None, None, 3.0]
})

# EJERCICIO 1: Comprobar nulos [cite: 253, 272]
hay_nulos = df_nulos.isna() 

# EJERCICIO 2: Eliminar filas que tengan AL MENOS un nulo [cite: 303]
df_limpio = df_nulos.dropna()

# EJERCICIO 3: Rellenar nulos con la media de la columna [cite: 324]
df_relleno = df_nulos.copy()
df_relleno['B'] = df_relleno['B'].fillna(df_relleno['B'].mean())

# EJERCICIO 4: Eliminar filas donde TODOS los valores sean nulos [cite: 320]
df_all = df_nulos.dropna(how='all')

In [None]:
# EJERCICIO 1: Discretización con 'cut' (límites manuales) [cite: 58]
# Definimos los bordes de los grupos: [0-18), [18-40), [40-65), [65-100]
edades = [15, 22, 45, 67, 30, 38]
bins = [0, 18, 40, 65, 100]
nombres_grupos = ['Joven', 'Adulto', 'Senior', 'Jubilado']

categorias = pd.cut(edades, bins, labels=nombres_grupos)
print("Categorías creadas:\n", categorias)

# EJERCICIO 2: 'qcut' para grupos homogéneos (por cuantiles) [cite: 76, 77]
# Crea 4 grupos con la misma cantidad de registros aproximadamente
df_empleados['Cuantil_Ingresos'] = pd.qcut(df_empleados['Ingresos'], q=4)

Categorías creadas:
 ['Joven', 'Adulto', 'Senior', 'Jubilado', 'Adulto', 'Adulto']
Categories (4, object): ['Joven' < 'Adulto' < 'Senior' < 'Jubilado']


In [6]:
df1 = pd.DataFrame({'ID': [1, 2], 'Val': ['A', 'B']})
df2 = pd.DataFrame({'ID': [1, 3], 'Val': ['C', 'D']})

# EJERCICIO 1: Inner Join (solo coincidencias) [cite: 101, 102]
union_interna = pd.merge(df1, df2, on='ID', how='inner')

# EJERCICIO 2: Left Join (todo lo de la izquierda) [cite: 104]
union_izq = pd.merge(df1, df2, on='ID', how='left')

# EJERCICIO 3: Concatenar verticalmente [cite: 111]
apilados = pd.concat([df1, df2], axis=0)

In [7]:
# EJERCICIO 1: Media de ingresos por Ciudad [cite: 129, 131]
agrupado = df_empleados.groupby('Ciudad')['Ingresos'].mean()

# EJERCICIO 2: Múltiples funciones en varias columnas [cite: 135]
# Calculamos suma y media de Ingresos y Edad por Ciudad
res_agg = df_empleados.groupby('Ciudad').agg({
    'Ingresos': ['sum', 'mean'],
    'Edad': 'max'
})
print("Agregación compleja:\n", res_agg)

Agregación compleja:
           Ingresos          Edad
               sum     mean  max
Ciudad                          
Barcelona    95373  47686.5   54
Madrid       92850  46425.0   42
Valencia     40941  40941.0   40
