# LISTA 11 - PANDAS HERRAMIENTAS (VERSIÓN SIMPLIFICADA)

## Ejercicios sobre limpieza y transformación de datos

**Nota:** Estos ejercicios están simplificados para enfocarse en:
- Detectar valores nulos
- Eliminar nulos con dropna()
- Rellenar nulos con fillna()
- Convertir tipos de datos con astype()

In [1]:
import pandas as pd
import numpy as np

---

## Ejercicio 1: Detectar valores nulos

1.1) Crea un DataFrame con algunos valores nulos (None o NaN)

In [2]:
datos = {
    'nombre': ['Ana', 'Bruno', None, 'Diana'],
    'edad': [25, None, 28, 30],
    'salario': [2000, 2500, 2200, None]
}

df = pd.DataFrame(datos)
print("DataFrame original:")
print(df)

DataFrame original:
  nombre  edad  salario
0    Ana  25.0   2000.0
1  Bruno   NaN   2500.0
2    NaN  28.0   2200.0
3  Diana  30.0      NaN


1.2) Usa isnull() para detectar dónde están los valores nulos

In [3]:
# Tu código aquí
df.isnull()

Unnamed: 0,nombre,edad,salario
0,False,False,False
1,False,True,False
2,True,False,False
3,False,False,True


1.3) Cuenta cuántos valores nulos hay en cada columna

In [4]:
# Tu código aquí
df.isnull().sum()

nombre     1
edad       1
salario    1
dtype: int64

---

## Ejercicio 2: Eliminar nulos

2.1) Elimina todas las filas que tengan al menos un valor nulo

In [5]:
# Tu código aquí
df_clean = df.dropna()
print(df_clean)

  nombre  edad  salario
0    Ana  25.0   2000.0


2.2) ¿Cuántas filas quedaron después de eliminar nulos?

In [6]:
# Tu código aquí
len(df_clean)

1

---

## Ejercicio 3: Rellenar nulos

3.1) Rellena los nulos de 'edad' con 0

In [8]:
# Tu código aquí
# Usa df['edad'].fillna(0)

df['edad'] = df['edad'].fillna(0)
print(df)

  nombre  edad  salario
0    Ana  25.0   2000.0
1  Bruno   0.0   2500.0
2    NaN  28.0   2200.0
3  Diana  30.0      NaN


3.2) Rellena los nulos de 'nombre' con 'Desconocido'

In [9]:
# Tu código aquí
df['nombre'] = df['nombre'].fillna("Desconocido")
print(df)

        nombre  edad  salario
0          Ana  25.0   2000.0
1        Bruno   0.0   2500.0
2  Desconocido  28.0   2200.0
3        Diana  30.0      NaN


3.3) Rellena los nulos de 'salario' con la media de la columna

In [10]:
# Tu código aquí
# Primero calcula la media: media = df['salario'].mean()
# Luego rellena: df['salario'].fillna(media)

# Tu código aquí
df['salario'] = df['salario'].fillna(df['salario'].mean())
print(df)

        nombre  edad      salario
0          Ana  25.0  2000.000000
1        Bruno   0.0  2500.000000
2  Desconocido  28.0  2200.000000
3        Diana  30.0  2233.333333


---

## Ejercicio 4: Convertir tipos de datos

4.1) Crea un DataFrame donde 'edad' está como texto (string)

In [11]:
df_texto = pd.DataFrame({
    'nombre': ['Ana', 'Bruno', 'Carlos'],
    'edad': ['25', '30', '28']  # Nota: están como strings
})

print("Tipos de datos:")
print(df_texto.dtypes)

Tipos de datos:
nombre    str
edad      str
dtype: object


4.2) Convierte 'edad' de string a entero (int)

In [12]:
# Tu código aquí
edades = df_texto["edad"].astype(int)
print(edades)

0    25
1    30
2    28
Name: edad, dtype: int64


4.3) Convierte 'edad' a float

In [13]:
# Tu código aquí
edades = df_texto["edad"].astype(float)
print(edades)

0    25.0
1    30.0
2    28.0
Name: edad, dtype: float64


---

## Ejercicio 5: Casos prácticos

5.1) **Dataset de calificaciones:**
- Crea un DataFrame con estudiantes, calificación
- Algunos nulos en calificaciones
- Rellena nulos con 0

In [14]:
estudiantes = {
    'nombre': ['Ana', 'Bruno', 'Carlos', 'Diana'],
    'calificacion': [85, None, 92, 78]
}

# Tu código aquí
df = pd.DataFrame(estudiantes)

df_clean = df.fillna(0)
print(df_clean)

   nombre  calificacion
0     Ana          85.0
1   Bruno           0.0
2  Carlos          92.0
3   Diana          78.0


5.2) **Dataset de precios:**
- Crea un DataFrame con producto, precio (como string)
- Convierte precio a float

In [17]:
precios = {
    'producto': ['Laptop', 'Mouse', 'Teclado'],
    'precio': ['999.99', '25.50', '75.00']
}

# Tu código aquí
df = pd.DataFrame(precios)

df["precio"] = df["precio"].astype(float)

df.info()

<class 'pandas.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   producto  3 non-null      str    
 1   precio    3 non-null      float64
dtypes: float64(1), str(1)
memory usage: 180.0 bytes


5.3) **Limpieza completa:**
- Crea un DataFrame con datos sucios (nulos, tipos incorrectos)
- Limpia: detecta, llena/elimina nulos, convierte tipos
- Muestra el DataFrame limpio

In [20]:
datos_sucios = {
    'id': ['1', '2', None, '4'],
    'valor': [100, None, 300, 400],
    'categoría': ['A', 'B', 'A', None]
}

# Tu código aquí

df_sucio = pd.DataFrame(datos_sucios)

df_sucio = df_sucio.dropna(subset=['id'])

df_sucio["id"] = df_sucio["id"].astype(int)

df_sucio["valor"] = df_sucio["valor"].fillna(df_sucio["valor"].mean())

df_sucio["categoría"] = df_sucio["categoría"].fillna("N/A")

print(df_sucio)

   id  valor categoría
0   1  100.0         A
1   2  250.0         B
3   4  400.0       N/A
