# 📑 Ejercicios sobre **manipulación de datos** en Pandas (Parte 2)

## Análisis de datos de producción industrial

Este notebook contiene ejercicios prácticos sobre manipulación de `DataFrames` con `pandas`, aplicados a datos de cinco máquinas trabajando en turnos de mañana, tarde y noche durante una semana.

In [12]:
import pandas as pd
import numpy as np

# Parámetros
fechas = pd.date_range(start="2025-04-14", periods=7)
maquinas = ['Torno 1', 'Torno 2', 'Torno 3', 'Torno 4', 'Torno 5']
turnos = ['Mañana', 'Tarde', 'Noche']
data = []

# Semilla para reproducibilidad
np.random.seed(42)

# Generar los datos
for fecha in fechas:
    for maquina in maquinas:
        for turno in turnos:
            produccion = np.random.randint(50, 200)
            horas_parada = round(np.random.uniform(0, 2), 1)
            averia = "Sí" if np.random.rand() < 0.2 else "No"
            data.append([fecha.date(), maquina, turno, produccion, horas_parada, averia])

# Crear DataFrame
df = pd.DataFrame(data, columns=["Fecha", "Maquina", "Turno", "Produccion", "Horas_parada", "Averia"])

# Asignar NaN a 5 valores aleatorios en 'Produccion'
df.loc[df.sample(n=5, random_state=42).index, "Produccion"] = np.nan

df.to_csv('datasets/industria.csv', index=True)

# Mostrar las primeras 50 filas
df.head(50)



Unnamed: 0,Fecha,Maquina,Turno,Produccion,Horas_parada,Averia
0,2025-04-14,Torno 1,Mañana,152.0,1.6,Sí
1,2025-04-14,Torno 1,Tarde,121.0,1.2,Sí
2,2025-04-14,Torno 1,Noche,124.0,0.9,No
3,2025-04-14,Torno 2,Mañana,153.0,1.4,Sí
4,2025-04-14,Torno 2,Tarde,51.0,1.4,No
5,2025-04-14,Torno 2,Noche,179.0,0.4,Sí
6,2025-04-14,Torno 3,Mañana,107.0,1.0,No
7,2025-04-14,Torno 3,Tarde,98.0,1.0,No
8,2025-04-14,Torno 3,Noche,64.0,0.9,No
9,2025-04-14,Torno 4,Mañana,100.0,0.8,No


## 🔍 Ejercicio 1: Filtrado simple

Filtra las filas que cumplan que la producción de piezas sea mayor a 150

In [2]:
df[df["Produccion"] > 185]

Unnamed: 0,Fecha,Maquina,Turno,Produccion,Horas_parada,Averia
18,2025-04-15,Torno 2,Mañana,195.0,1.6,No
37,2025-04-16,Torno 3,Tarde,192.0,1.5,No
52,2025-04-17,Torno 3,Tarde,196.0,1.4,No
54,2025-04-17,Torno 4,Mañana,194.0,1.5,No
56,2025-04-17,Torno 4,Noche,193.0,1.7,No
58,2025-04-17,Torno 5,Tarde,196.0,1.4,No
59,2025-04-17,Torno 5,Noche,197.0,1.3,Sí
73,2025-04-18,Torno 5,Tarde,197.0,0.7,No
74,2025-04-18,Torno 5,Noche,194.0,0.6,No
93,2025-04-20,Torno 2,Mañana,193.0,0.1,No


## 🔍 Ejercicio 2: Filtrado simple

Filtra las filas que **sí** han tenido **averías**.

In [3]:
df[df["Averia"] == "Sí"]

Unnamed: 0,Fecha,Maquina,Turno,Produccion,Horas_parada,Averia
0,2025-04-14,Torno 1,Mañana,152.0,1.6,Sí
1,2025-04-14,Torno 1,Tarde,121.0,1.2,Sí
3,2025-04-14,Torno 2,Mañana,153.0,1.4,Sí
5,2025-04-14,Torno 2,Noche,179.0,0.4,Sí
28,2025-04-15,Torno 5,Tarde,61.0,0.7,Sí
34,2025-04-16,Torno 2,Tarde,139.0,0.1,Sí
36,2025-04-16,Torno 3,Mañana,145.0,1.4,Sí
38,2025-04-16,Torno 3,Noche,120.0,0.6,Sí
59,2025-04-17,Torno 5,Noche,197.0,1.3,Sí
61,2025-04-18,Torno 1,Tarde,60.0,0.7,Sí


## 🔍 Ejercicio 3: Filtrado compuesto con AND &

Filtra las filas del **turno de noche** y que hayan estado **paradas más de 1 hora**.

In [4]:
df[(df["Turno"] == "Noche") & (df["Horas_parada"] > 1)]

Unnamed: 0,Fecha,Maquina,Turno,Produccion,Horas_parada,Averia
14,2025-04-14,Torno 5,Noche,160.0,1.4,No
20,2025-04-15,Torno 2,Noche,89.0,1.7,No
26,2025-04-15,Torno 4,Noche,82.0,1.2,No
32,2025-04-16,Torno 1,Noche,54.0,1.1,No
35,2025-04-16,Torno 2,Noche,112.0,1.8,No
41,2025-04-16,Torno 4,Noche,133.0,1.8,No
50,2025-04-17,Torno 2,Noche,162.0,2.0,No
56,2025-04-17,Torno 4,Noche,193.0,1.7,No
59,2025-04-17,Torno 5,Noche,197.0,1.3,Sí
65,2025-04-18,Torno 2,Noche,,1.1,No


## 🔍 Ejercicio 4: Filtrado compuesto con OR |

Filtra las filas que hayan **producido menos de 60 piezas** o que hayan estado **paradas exactamente 1.4 horas**.

Además **crea otro DataFrame con estos resultados**. Llama a este DataFrame `df_filtrado`.

In [5]:
df_filtrado = df[(df["Produccion"] < 60) | (df["Horas_parada"] == 1.4)]
df_filtrado

Unnamed: 0,Fecha,Maquina,Turno,Produccion,Horas_parada,Averia
3,2025-04-14,Torno 2,Mañana,153.0,1.4,Sí
4,2025-04-14,Torno 2,Tarde,51.0,1.4,No
14,2025-04-14,Torno 5,Noche,160.0,1.4,No
15,2025-04-15,Torno 1,Mañana,57.0,0.1,No
32,2025-04-16,Torno 1,Noche,54.0,1.1,No
36,2025-04-16,Torno 3,Mañana,145.0,1.4,Sí
52,2025-04-17,Torno 3,Tarde,196.0,1.4,No
57,2025-04-17,Torno 5,Mañana,119.0,1.4,No
58,2025-04-17,Torno 5,Tarde,196.0,1.4,No
66,2025-04-18,Torno 3,Mañana,58.0,0.6,No


## 🔍 Ejercicio 5: Máquinas con más horas paradas

Utilizando `sort_values` haz un listado de las **10 máquinas con más horas paradas**.

Aprovecha para crear un Dataframe con esta lista. Llámalo `df_parada`.

In [6]:
df_parada = df.sort_values(by="Horas_parada", ascending=False).head(10)
df_parada

Unnamed: 0,Fecha,Maquina,Turno,Produccion,Horas_parada,Averia
63,2025-04-18,Torno 2,Mañana,139.0,2.0,No
50,2025-04-17,Torno 2,Noche,162.0,2.0,No
55,2025-04-17,Torno 4,Tarde,165.0,2.0,No
76,2025-04-19,Torno 1,Tarde,87.0,2.0,No
83,2025-04-19,Torno 3,Noche,144.0,1.9,No
82,2025-04-19,Torno 3,Tarde,86.0,1.9,No
31,2025-04-16,Torno 1,Tarde,150.0,1.9,No
70,2025-04-18,Torno 4,Tarde,148.0,1.9,No
35,2025-04-16,Torno 2,Noche,112.0,1.8,No
27,2025-04-15,Torno 5,Mañana,90.0,1.8,No


## 🔍 Ejercicio 6: Búsqueda de datos faltantes (NaN)

Identifica las **columnas en la que faltan datos**. Verás que faltan cinco datos en "Producción"

In [7]:
df.isna().sum()

Fecha           0
Maquina         0
Turno           0
Produccion      5
Horas_parada    0
Averia          0
dtype: int64

## 🔍 Ejercicio 7: Llenar los datos faltantes

Como has observado faltan cinco datos en la columna "Produccion". Una buena solución es completarlos con la **media aritmética** (promedio) de esa columna.  Aprovecha para crear un DataFrame con todos los datos completos y llámalo `df_completo`. Los pasos son:

1. Pandas debe calcular la media de la columna "Produccion" y almacenarlo en una variable.
   ```python
   media_produc = df["Produccion"].mean()
   ```
2. Vamos a visualizar la media.
   ```python
   media_produc
   ```      
3. Con lo explicado ya debes saber terminar el ejercicio.
4. Recuerda visualizar todos los datos (por ejemplo, con head(50)) para comprobar que se ha completado los datos.


In [8]:
media_produccion = df["Produccion"].mean()
media_produccion

128.4

In [9]:
df_completo = df.fillna(media_produccion)
df_completo.head(20)

Unnamed: 0,Fecha,Maquina,Turno,Produccion,Horas_parada,Averia
0,2025-04-14,Torno 1,Mañana,152.0,1.6,Sí
1,2025-04-14,Torno 1,Tarde,121.0,1.2,Sí
2,2025-04-14,Torno 1,Noche,124.0,0.9,No
3,2025-04-14,Torno 2,Mañana,153.0,1.4,Sí
4,2025-04-14,Torno 2,Tarde,51.0,1.4,No
5,2025-04-14,Torno 2,Noche,179.0,0.4,Sí
6,2025-04-14,Torno 3,Mañana,107.0,1.0,No
7,2025-04-14,Torno 3,Tarde,98.0,1.0,No
8,2025-04-14,Torno 3,Noche,64.0,0.9,No
9,2025-04-14,Torno 4,Mañana,100.0,0.8,No


## 🔍 Ejercicio 8: Crear nueva columna

Sabemos que cada hora que pasa una **máquina parada le cuesta a la empresa 150 €**. **Crea una columna nueva llamada "Perdidas"** que calcule automáticamente estos valores.

No olvides visualizar el Dataframe.

In [10]:
df["Perdidas"] = df["Horas_parada"] * 150
df.head()

Unnamed: 0,Fecha,Maquina,Turno,Produccion,Horas_parada,Averia,Perdidas
0,2025-04-14,Torno 1,Mañana,152.0,1.6,Sí,240.0
1,2025-04-14,Torno 1,Tarde,121.0,1.2,Sí,180.0
2,2025-04-14,Torno 1,Noche,124.0,0.9,No,135.0
3,2025-04-14,Torno 2,Mañana,153.0,1.4,Sí,210.0
4,2025-04-14,Torno 2,Tarde,51.0,1.4,No,210.0
