# üìä ETL, EDA y Predicci√≥n ‚Äì Curtidur√≠a Tungurahua S.A.
### Versi√≥n Detallada (Opci√≥n B)

Este notebook est√° dise√±ado **para personas sin conocimientos t√©cnicos**, explicando cada transformaci√≥n, limpieza, gr√°fica y predicci√≥n paso a paso.

Se separan claramente las etapas:
- **Transformaci√≥n de datos (tipos)**
- **Limpieza de datos (errores, vac√≠os, incoherencias)**
- **EDA con gr√°ficas explicadas**
- **Predicci√≥n sencilla**

## 1Ô∏è‚É£ Importaci√≥n de librer√≠as

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
%matplotlib inline

## 2Ô∏è‚É£ Cargar los datos

Aqu√≠ cargamos el archivo **Produccion-Curtiduria.csv**, que contiene los datos simulados de la producci√≥n de la empresa.

In [None]:
df = pd.read_csv("Produccion-Curtiduria.csv")
df.head()

## 3Ô∏è‚É£ Transformaci√≥n de datos (Tipos de datos)
En esta etapa **no limpiamos errores**, solo transformamos el tipo de datos.
Explicamos columna por columna **qu√© tipo ten√≠a y a qu√© tipo lo convertimos**.

### üîπ 3.1 Transformaci√≥n de columnas tipo Fecha

‚û°Ô∏è **`Fecha_Producci√≥n`**
- Tipo original: *texto (string)*
- Problema: las computadoras no saben que es una fecha, solo ven texto.
- Soluci√≥n: convertirla al tipo **datetime**, que permite ordenar, filtrar y agrupar.


In [None]:
df['Fecha_Producci√≥n'] = pd.to_datetime(df['Fecha_Producci√≥n'], errors='coerce')
df['Fecha_Producci√≥n'].head()

### üîπ 3.2 Transformaci√≥n de columnas num√©ricas ‚Äì Tipo Entero (Int64)

Estas columnas representan cantidades contadas. Por eso deben ser **enteros (Int64)**.

Columnas:
- `Unidades_Producidas`
- `Unidades_Defectuosas`
- `Unidades_Aprobadas`
- `Duraci√≥n_Proceso_Min`

‚û°Ô∏è Originalmente ven√≠an como texto.
‚û°Ô∏è Convertimos a **Int64**, que soporta valores nulos sin errores.

In [None]:
cols_int = ['Unidades_Producidas','Unidades_Defectuosas','Unidades_Aprobadas','Duraci√≥n_Proceso_Min']

for col in cols_int:
    df[col] = pd.to_numeric(df[col], errors='coerce').astype('Int64')

df[cols_int].head()

### üîπ 3.3 Transformaci√≥n de columnas num√©ricas ‚Äì Tipo Decimal (float)

Estas columnas requieren decimales porque representan porcentajes, costos o valores energ√©ticos.

Columnas:
- `Rendimiento_%`
- `Costo_Unitario`
- `Costo_Total`
- `Consumo_Energ√≠a_kWh`

‚û°Ô∏è Se convierten a **float** para permitir c√°lculos precisos.

In [None]:
cols_float = ['Rendimiento_%','Costo_Unitario','Costo_Total','Consumo_Energ√≠a_kWh']

for col in cols_float:
    df[col] = pd.to_numeric(df[col], errors='coerce')

df[cols_float].head()

### üîπ 3.4 Transformaci√≥n de columnas categ√≥ricas

Estas columnas contienen texto repetido (como 'Turno A', 'Turno B').
‚û°Ô∏è Convertimos a **category**, un tipo eficiente para texto repetitivo.

Columnas:
- `Turno`, `L√≠nea`, `M√°quina`, `Producto`, `Estado_Producci√≥n`, `Supervisor`

In [None]:
categorical_cols = ['Turno','L√≠nea','M√°quina','Producto','Estado_Producci√≥n','Supervisor']

for col in categorical_cols:
    df[col] = df[col].astype('category')

df[categorical_cols].head()

## 4Ô∏è‚É£ Limpieza de Datos (Separado de transformaci√≥n)
Aqu√≠ revisamos valores faltantes, incoherentes o imposibles.
No modificamos tipos: solo limpiamos.

### üîç 4.1 Buscar valores faltantes

In [None]:
df.isna().sum()

Si encontramos valores faltantes en datos cr√≠ticos, podemos:
- Rellenar
- Eliminar
- Sustituir con promedios
En este dataset no se aplica limpieza agresiva porque es un archivo simulado.

### ‚ûï 4.2 Nueva columna: Fecha sin hora

In [None]:
df['Fecha_D√≠a'] = df['Fecha_Producci√≥n'].dt.date
df[['Fecha_Producci√≥n','Fecha_D√≠a']].head()

### ‚ûï 4.3 Nueva columna: Tasa de defectos (%)

In [None]:
df['Tasa_Defectos_%'] = (df['Unidades_Defectuosas'] / df['Unidades_Producidas']) * 100
df[['Unidades_Producidas','Unidades_Defectuosas','Tasa_Defectos_%']].head()

## 5Ô∏è‚É£ EDA ‚Äì An√°lisis Exploratorio de Datos
Las siguientes gr√°ficas tienen explicaciones para personas sin experiencia t√©cnica.

### üìà 5.1 Producci√≥n diaria

In [None]:
prod_dia = df.groupby('Fecha_D√≠a')['Unidades_Aprobadas'].sum().reset_index()
prod_dia['Fecha_D√≠a'] = pd.to_datetime(prod_dia['Fecha_D√≠a'])

plt.figure(figsize=(10,5))
plt.plot(prod_dia['Fecha_D√≠a'], prod_dia['Unidades_Aprobadas'])
plt.title("Producci√≥n diaria de unidades aprobadas")
plt.xlabel("Fecha")
plt.ylabel("Unidades aprobadas")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

### üßë‚Äçüè≠ 5.2 Producci√≥n por turno

In [None]:
turno = df.groupby('Turno')['Unidades_Aprobadas'].sum().reset_index()

plt.figure(figsize=(6,4))
plt.bar(turno['Turno'], turno['Unidades_Aprobadas'])
plt.title("Producci√≥n por turno")
plt.xlabel("Turno")
plt.ylabel("Unidades aprobadas")
plt.tight_layout()
plt.show()

### ‚ûï 5.3 Gr√°ficas adicionales: an√°lisis profundo

#### üîµ Producci√≥n vs Defectos

In [None]:
plt.figure(figsize=(7,5))
plt.scatter(df['Unidades_Producidas'], df['Unidades_Defectuosas'])
plt.title("Producci√≥n vs Defectos")
plt.xlabel("Unidades producidas")
plt.ylabel("Unidades defectuosas")
plt.tight_layout()
plt.show()

#### ‚ö° Consumo energ√©tico por l√≠nea

In [None]:
energia = df.groupby('L√≠nea')['Consumo_Energ√≠a_kWh'].mean().reset_index()

plt.figure(figsize=(8,5))
plt.bar(energia['L√≠nea'], energia['Consumo_Energ√≠a_kWh'])
plt.title("Consumo energ√©tico promedio por l√≠nea")
plt.xlabel("L√≠nea")
plt.ylabel("kWh")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

#### üéØ Rendimiento vs Consumo Energ√©tico

In [None]:
plt.figure(figsize=(7,5))
plt.scatter(df['Rendimiento_%'], df['Consumo_Energ√≠a_kWh'])
plt.title("Rendimiento vs Consumo Energ√©tico")
plt.xlabel("Rendimiento (%)")
plt.ylabel("Consumo energ√©tico (kWh)")
plt.tight_layout()
plt.show()

## 6Ô∏è‚É£ Predicci√≥n de la producci√≥n

Se utiliza un modelo **muy sencillo** para estimar la tendencia futura.

In [None]:
data_pred = prod_dia.copy().reset_index(drop=True)
data_pred['t'] = np.arange(len(data_pred))

X = data_pred[['t']]
y = data_pred['Unidades_Aprobadas']

modelo = LinearRegression()
modelo.fit(X, y)

dias = 7
t_fut = np.arange(len(data_pred), len(data_pred)+dias).reshape(-1,1)
pred = modelo.predict(t_fut)

fecha_fin = data_pred['Fecha_D√≠a'].max()
fechas_fut = pd.date_range(start=fecha_fin + pd.Timedelta(days=1), periods=dias)

pred_df = pd.DataFrame({'Fecha_D√≠a': fechas_fut, 'Predicci√≥n': pred})

plt.figure(figsize=(10,5))
plt.plot(data_pred['Fecha_D√≠a'], data_pred['Unidades_Aprobadas'], label="Hist√≥rico")
plt.plot(pred_df['Fecha_D√≠a'], pred_df['Predicci√≥n'], marker='o', linestyle="--", label="Predicci√≥n")
plt.title("Predicci√≥n de producci√≥n (7 d√≠as)")
plt.xlabel("Fecha")
plt.ylabel("Unidades")
plt.legend()
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## üèÅ 7Ô∏è‚É£ Conclusiones