# Preguntas de Análisis SQL

**Producción y Costos:**

¿Cuál es el costo promedio de producción diario?

¿Cuáles son los 5 días con mayor volumen de producción?

¿Cuál es la relación promedio entre volumen de producción y costo de producción por día?

**Calidad y Defectos:**

¿Cuál es la tasa promedio de defectos según el nivel de calidad del proveedor (SupplierQuality)?

¿Qué días presentan la mayor tasa de defectos junto con su puntaje de calidad?

¿Qué porcentaje de registros presenta una tasa de defectos superior al 3.0%?

**Mantenimiento y Productividad:**

¿Cuál es el promedio de horas de mantenimiento y porcentaje de tiempo inactivo por cada nivel de productividad del trabajador (WorkerProductivity) agrupado por rangos?

**Energía:**

¿Qué proporción de registros tiene una eficiencia energética baja (<0.2) y qué tasa de defectos presentan en promedio?

**Inventario:**

¿Cuál es la tasa promedio de desabastecimiento (StockoutRate) por niveles de rotación de inventario (InventoryTurnover) agrupados en rangos?

**Seguridad:**

¿Cuál es la relación entre el número de incidentes de seguridad y la tasa promedio de defectos?

In [1]:
from google.colab import drive
drive.mount('/content/drive')

import pandas as pd

file_path = '/content/drive/MyDrive/Databases/Manufacturing/Predicting Manufacturing Defects Dataset/manufacturing_defect_dataset.csv'
df = pd.read_csv(file_path)

df.head()

Mounted at /content/drive


Unnamed: 0,ProductionVolume,ProductionCost,SupplierQuality,DeliveryDelay,DefectRate,QualityScore,MaintenanceHours,DowntimePercentage,InventoryTurnover,StockoutRate,WorkerProductivity,SafetyIncidents,EnergyConsumption,EnergyEfficiency,AdditiveProcessTime,AdditiveMaterialCost,DefectStatus
0,202,13175.403783,86.648534,1,3.121492,63.463494,9,0.052343,8.630515,0.081322,85.042379,0,2419.616785,0.468947,5.551639,236.439301,1
1,535,19770.046093,86.310664,4,0.819531,83.697818,20,4.908328,9.296598,0.038486,99.657443,7,3915.566713,0.119485,9.080754,353.957631,1
2,960,19060.820997,82.132472,0,4.514504,90.35055,1,2.464923,5.097486,0.002887,92.819264,2,3392.385362,0.496392,6.562827,396.189402,1
3,370,5647.606037,87.335966,5,0.638524,67.62869,8,4.692476,3.577616,0.055331,96.887013,8,4652.400275,0.183125,8.097496,164.13587,1
4,206,7472.222236,81.989893,3,3.867784,82.728334,9,2.746726,6.851709,0.068047,88.315554,7,1581.630332,0.263507,6.406154,365.708964,1


In [2]:
import sqlite3

# Crear conexión a base de datos SQLite en memoria
conn = sqlite3.connect(':memory:')

# Exportar el DataFrame a una tabla SQL
df.to_sql('manufacturing', conn, index=False, if_exists='replace')

# Verificar que la tabla está correctamente cargada
pd.read_sql_query("SELECT * FROM manufacturing LIMIT 5", conn)

Unnamed: 0,ProductionVolume,ProductionCost,SupplierQuality,DeliveryDelay,DefectRate,QualityScore,MaintenanceHours,DowntimePercentage,InventoryTurnover,StockoutRate,WorkerProductivity,SafetyIncidents,EnergyConsumption,EnergyEfficiency,AdditiveProcessTime,AdditiveMaterialCost,DefectStatus
0,202,13175.403783,86.648534,1,3.121492,63.463494,9,0.052343,8.630515,0.081322,85.042379,0,2419.616785,0.468947,5.551639,236.439301,1
1,535,19770.046093,86.310664,4,0.819531,83.697818,20,4.908328,9.296598,0.038486,99.657443,7,3915.566713,0.119485,9.080754,353.957631,1
2,960,19060.820997,82.132472,0,4.514504,90.35055,1,2.464923,5.097486,0.002887,92.819264,2,3392.385362,0.496392,6.562827,396.189402,1
3,370,5647.606037,87.335966,5,0.638524,67.62869,8,4.692476,3.577616,0.055331,96.887013,8,4652.400275,0.183125,8.097496,164.13587,1
4,206,7472.222236,81.989893,3,3.867784,82.728334,9,2.746726,6.851709,0.068047,88.315554,7,1581.630332,0.263507,6.406154,365.708964,1


# ¿Cuál es el costo promedio de producción diario?

In [3]:
# Consulta SQL para obtener el costo promedio de producción diario
query = """
SELECT ROUND(AVG(ProductionCost), 2) AS avg_production_cost
FROM manufacturing
"""
pd.read_sql_query(query, conn)

Unnamed: 0,avg_production_cost
0,12423.02


El costo promedio de producción diario es de aproximadamente $12,423.02

# ¿Cuáles son los 5 días con mayor volumen de producción?

In [4]:
# Consulta SQL para obtener los 5 registros con mayor volumen de producción
query = """
SELECT ProductionVolume, ProductionCost, DefectRate, QualityScore
FROM manufacturing
ORDER BY ProductionVolume DESC
LIMIT 5
"""
pd.read_sql_query(query, conn)

Unnamed: 0,ProductionVolume,ProductionCost,DefectRate,QualityScore
0,999,6225.880186,4.730792,98.83164
1,999,17825.453024,2.527805,77.784224
2,999,9562.980795,2.496405,79.431365
3,999,8456.249932,1.789967,69.567072
4,999,5193.462047,2.421348,77.380108


Los 5 registros con mayor volumen de producción tienen todos un volumen de 999 unidades (el máximo del rango permitido en el dataset).

**Dentro de estos días de alta producción:**

Los costos de producción varían ampliamente (desde 5,193 hasta 17,825).

Las tasas de defectos fluctúan entre 1.78 y 4.73 defectos por cada mil unidades producidas.

La calidad general (QualityScore) también varía notablemente, desde 69.56% hasta 98.83%.

**Observación importante:**

Incluso con el mismo volumen de producción máximo, los defectos y costos pueden cambiar bastante, sugiriendo la influencia de otros factores como calidad de proveedores, mantenimiento, etc.

# ¿Cuál es la relación promedio entre el volumen de producción y el costo de producción por día?

In [5]:
# Consulta SQL para obtener el costo promedio por unidad producida
query = """
SELECT ROUND(AVG(ProductionCost / ProductionVolume), 2) AS avg_cost_per_unit
FROM manufacturing
"""
pd.read_sql_query(query, conn)


Unnamed: 0,avg_cost_per_unit
0,32.06


El costo promedio por unidad producida en el dataset es de aproximadamente $32.06.

Esto significa que, en promedio, fabricar una unidad cuesta alrededor de $32, considerando todos los días y registros de producción.

*Este tipo de métrica es muy importante en manufactura para evaluar la eficiencia económica, ya que permite comparar días con diferente volumen o identificar oportunidades de optimización.*

# ¿Cuál es la tasa promedio de defectos según el nivel de calidad del proveedor?

In [6]:
# Consulta SQL para comparar la tasa de defectos según la calidad del proveedor
query = """
SELECT
  CASE
    WHEN SupplierQuality > 90 THEN 'Alta Calidad'
    ELSE 'Baja/Media Calidad'
  END AS supplier_quality_group,
  ROUND(AVG(DefectRate), 2) AS avg_defect_rate
FROM manufacturing
GROUP BY supplier_quality_group
"""
pd.read_sql_query(query, conn)

Unnamed: 0,supplier_quality_group,avg_defect_rate
0,Alta Calidad,2.78
1,Baja/Media Calidad,2.72


Proveedores de alta calidad (SupplierQuality > 90%) tienen una tasa promedio de defectos de 2.78.

Proveedores de baja o media calidad (≤90%) tienen una tasa promedio de defectos de 2.72.

**Observación:**

La diferencia es mínima entre ambos grupos, lo cual puede deberse a:

Que otros factores (mantenimiento, productividad, energía, etc.) estén influyendo más en los defectos.

El rango de variación en SupplierQuality puede ser relativamente pequeño.

Esta métrica sugiere que la calidad del proveedor no es un factor determinante por sí solo en la tasa de defectos en este dataset sintético.

# ¿Qué días presentan la mayor tasa de defectos junto con su puntaje de calidad?

In [7]:
# Consulta SQL para obtener los 5 registros con mayor tasa de defectos
query = """
SELECT DefectRate, QualityScore, ProductionVolume, ProductionCost
FROM manufacturing
ORDER BY DefectRate DESC
LIMIT 5
"""
pd.read_sql_query(query, conn)

Unnamed: 0,DefectRate,QualityScore,ProductionVolume,ProductionCost
0,4.998529,85.092979,611,19572.990364
1,4.997008,74.290837,990,19898.825231
2,4.994802,92.522048,213,5660.987924
3,4.994375,66.40513,291,6975.725429
4,4.994143,69.960798,475,17261.11771


**Observaciones:**

Las tasas de defectos más altas están casi en el límite superior del rango (5.0).

Los puntajes de calidad (QualityScore) son muy variados, desde 66.4% hasta 92.5%.

El volumen y el costo de producción también fluctúan bastante, lo que sugiere que las altas tasas de defectos no están asociadas únicamente a la baja calidad o a bajos volúmenes.

Esto confirma que los defectos dependen de múltiples factores y refuerza la necesidad de modelos predictivos más complejos.

# ¿Qué porcentaje de registros presenta una tasa de defectos superior al 3.0%?

In [8]:
# Consulta SQL para obtener el porcentaje de registros con alta tasa de defectos
query = """
SELECT
  ROUND(100.0 * COUNT(*) / (SELECT COUNT(*) FROM manufacturing), 2) AS high_defect_percentage
FROM manufacturing
WHERE DefectRate > 3.0
"""
pd.read_sql_query(query, conn)

Unnamed: 0,high_defect_percentage
0,44.41


Aproximadamente el 44.41% de los registros en el dataset presentan una tasa de defectos superior al 3.0%.

Esto indica que casi la mitad de los registros tienen defectos relativamente altos, lo cual refuerza que:

El dataset tiene un enfoque importante en defectos altos.

Es un problema relevante en este entorno de manufactura.

# ¿Cuál es el promedio de horas de mantenimiento y porcentaje de tiempo inactivo por cada nivel de productividad del trabajador, agrupado por rangos?

In [10]:
# Consulta SQL sin FIELD()
query = """
SELECT
  CASE
    WHEN WorkerProductivity <= 85 THEN 'Bajo'
    WHEN WorkerProductivity > 85 AND WorkerProductivity <= 95 THEN 'Medio'
    ELSE 'Alto'
  END AS productivity_level,
  ROUND(AVG(MaintenanceHours), 2) AS avg_maintenance_hours,
  ROUND(AVG(DowntimePercentage), 2) AS avg_downtime_percentage
FROM manufacturing
GROUP BY productivity_level
"""
pd.read_sql_query(query, conn)

Unnamed: 0,productivity_level,avg_maintenance_hours,avg_downtime_percentage
0,Alto,11.54,2.41
1,Bajo,11.24,2.57
2,Medio,11.56,2.51


**Observaciones:**

Las diferencias en horas de mantenimiento son mínimas entre los grupos.

Sin embargo, se observa que:

El grupo de productividad baja presenta el mayor porcentaje de tiempo inactivo (2.57%).

A mayor productividad, el porcentaje de tiempo inactivo tiende a disminuir levemente.

Este patrón sugiere una ligera asociación entre productividad y eficiencia operativa.



# ¿Qué proporción de registros tiene una eficiencia energética baja (<0.2) y qué tasa de defectos presentan en promedio?

In [11]:
# Consulta SQL para calcular el porcentaje de registros con baja eficiencia energética y su tasa promedio de defectos
query = """
SELECT
  ROUND(100.0 * COUNT(*) / (SELECT COUNT(*) FROM manufacturing), 2) AS low_energy_efficiency_percentage,
  ROUND(AVG(DefectRate), 2) AS avg_defect_rate
FROM manufacturing
WHERE EnergyEfficiency < 0.2
"""
pd.read_sql_query(query, conn)


Unnamed: 0,low_energy_efficiency_percentage,avg_defect_rate
0,24.81,2.76


Aproximadamente el 24.81% de los registros presentan baja eficiencia energética (EnergyEfficiency < 0.2).

Estos registros tienen una tasa promedio de defectos de 2.76.

**Observaciones:**

Cerca de 1 de cada 4 registros tiene eficiencia energética baja, lo que puede indicar oportunidades de mejora energética.

Sin embargo, su tasa promedio de defectos (2.76) no es particularmente extrema (muy similar a los promedios generales)

Esto sugiere que, la eficiencia energética no tiene un impacto directo fuerte sobre la tasa de defectos, pero sí puede tener un impacto económico.



# ¿Cuál es la tasa promedio de desabastecimiento (StockoutRate) por niveles de rotación de inventario (InventoryTurnover) agrupados en rangos?

In [12]:
# Consulta SQL para obtener la tasa promedio de desabastecimiento por niveles de rotación de inventario
query = """
SELECT
  CASE
    WHEN InventoryTurnover <= 4 THEN 'Baja'
    WHEN InventoryTurnover > 4 AND InventoryTurnover <= 7 THEN 'Media'
    ELSE 'Alta'
  END AS turnover_level,
  ROUND(AVG(StockoutRate), 2) AS avg_stockout_rate
FROM manufacturing
GROUP BY turnover_level
"""
pd.read_sql_query(query, conn)

Unnamed: 0,turnover_level,avg_stockout_rate
0,Alta,0.05
1,Baja,0.05
2,Media,0.05


La tasa promedio de desabastecimiento es exactamente la misma (0.05) en los tres grupos.

Esto indica que, la rotación de inventario no afecta la tasa de desabastecimiento, o al menos no está reflejado en los datos simulados.

# ¿Cuál es la relación entre el número de incidentes de seguridad (SafetyIncidents) y la tasa promedio de defectos?

In [13]:
# Consulta SQL para obtener la tasa promedio de defectos según el número de incidentes de seguridad
query = """
SELECT
  SafetyIncidents,
  ROUND(AVG(DefectRate), 2) AS avg_defect_rate
FROM manufacturing
GROUP BY SafetyIncidents
ORDER BY SafetyIncidents
"""
pd.read_sql_query(query, conn)

Unnamed: 0,SafetyIncidents,avg_defect_rate
0,0,2.66
1,1,2.69
2,2,2.74
3,3,2.68
4,4,2.93
5,5,2.75
6,6,2.82
7,7,2.82
8,8,2.76
9,9,2.66


En general, la tasa de defectos tiende a aumentar ligeramente con el número de incidentes de seguridad, aunque no de forma perfectamente lineal.

Especialmente a partir de 4 o más incidentes, la tasa promedio tiende a ser más alta (≥2.75).

Esto sugiere que los entornos con más incidentes de seguridad podrían estar asociados a mayores defectos, posiblemente por malas prácticas operativas o falta de control.

# Conclusiones Generales del Análisis SQL

Este análisis exploratorio mediante SQL permitió obtener información clave sobre los factores relacionados con defectos en procesos de manufactura, a partir del dataset **"Predicting Manufacturing Defects Dataset"**.

---

### Principales hallazgos:
1. **Costo promedio de producción diario:**  
   El costo promedio diario fue de aproximadamente **$12,423.02**.

2. **Máximo volumen de producción:**  
   Los registros con mayor volumen de producción (999 unidades) mostraron gran variabilidad en costos y defectos, evidenciando que el volumen por sí solo no explica el rendimiento.

3. **Costo promedio por unidad producida:**  
   Se identificó un costo promedio de **$32.06** por unidad producida.

4. **Relación entre calidad del proveedor y defectos:**  
   La calidad del proveedor no mostró una relación clara con la tasa de defectos; ambos grupos tuvieron tasas muy similares.

5. **Días con más defectos:**  
   Las tasas de defectos más altas no siempre coincidieron con los registros de baja calidad o bajo volumen, sugiriendo múltiples factores involucrados.

6. **Frecuencia de alta tasa de defectos:**  
   El **44.41%** de los registros presentan tasas de defectos superiores al 3%.

7. **Productividad vs. Mantenimiento e Inactividad:**  
   Las diferencias fueron leves, pero los trabajadores con baja productividad tuvieron un mayor porcentaje de tiempo inactivo.

8. **Eficiencia energética:**  
   Cerca del **25%** de los registros tienen baja eficiencia energética, pero su tasa de defectos fue similar al promedio.

9. **Inventario vs. Desabastecimiento:**  
   La rotación de inventario no mostró impacto sobre la tasa de desabastecimiento, posiblemente por la naturaleza simulada del dataset.

10. **Incidentes de seguridad y defectos:**  
   Se evidenció una ligera tendencia: más incidentes de seguridad suelen asociarse con tasas más altas de defectos, sugiriendo potenciales riesgos operacionales.

---

Este análisis demuestra que los defectos en manufactura dependen de múltiples variables y que ningún factor único los explica por completo.  
