# **PREDICCION ESTADISTICA** utilizando modelo de regresion logistica

# ***Reseña del Conjunto de Datos de Control de Calidad: Devoluciones de Productos Defectuosos***

El conjunto de datos que vamos a utilizar se centra en informes de devoluciones de productos defectuosos dentro de una organización. Cada registro en el conjunto de datos representa un lote de productos entregados, con detalles sobre la cantidad de productos en el lote (registrado en la columna "Productos-Lote") y el tiempo de entrega en minutos (registrado en la columna "Tiempo-Entrega"). La columna "Defectuoso" se utiliza para etiquetar si un producto es defectuoso o no, donde el valor 0 indica que el producto no tiene defectos y el valor 1 indica que el producto es defectuoso.

Este conjunto de datos es fundamental para desarrollar un modelo de clasificación que pueda predecir si un producto será defectuoso o no, basándose en la cantidad de productos en un lote y el tiempo de entrega. Utilizaremos técnicas de aprendizaje automático para analizar estos patrones y crear un modelo predictivo que ayudará a la organización en su control de calidad, permitiéndoles identificar productos defectuosos de manera más eficiente y tomar medidas preventivas para mejorar su proceso de producción y entrega.

***Importar bibliotecas:*** Importamos las bibliotecas necesarias, incluyendo pandas para el manejo de datos y las funciones de scikit-learn para el modelo de regresión logística.

In [235]:
# Importar las bibliotecas necesarias
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score, accuracy_score, recall_score, f1_score, roc_auc_score

***Cargar los datos proporcionados***

In [236]:
df = pd.read_excel('datos-logisticos.xlsx')

In [237]:
df.head()

Unnamed: 0,Muestra,Productos-Lote,Tiempo-Entrega,Defectuoso
0,1,19,19000,0
1,2,35,20000,0
2,3,26,43000,0
3,4,27,57000,0
4,5,19,76000,0


In [238]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype
---  ------          --------------  -----
 0   Muestra         400 non-null    int64
 1   Productos-Lote  400 non-null    int64
 2   Tiempo-Entrega  400 non-null    int64
 3   Defectuoso      400 non-null    int64
dtypes: int64(4)
memory usage: 12.6 KB


***Preprocesamiento de los datos***

In [239]:
# Definir las características (X) y la variable objetivo (y)
X = df[['Productos-Lote', 'Tiempo-Entrega']]
y = df['Defectuoso']

In [240]:
# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

In [241]:
# Crear y entrenar el modelo de regresión logística
modelo = LogisticRegression()
modelo.fit(X_train, y_train)

  if not hasattr(array, "sparse") and array.dtypes.apply(is_sparse).any():
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):


In [242]:
# Evaluar el modelo en el conjunto de prueba
y_pred = modelo.predict(X_test)
exactitud = accuracy_score(y_test, y_pred)
print(f'Exactitud del modelo: {exactitud}')

Exactitud del modelo: 0.6583333333333333


  if not hasattr(array, "sparse") and array.dtypes.apply(is_sparse).any():
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):


In [243]:
# Función para predecir si un producto estará defectuoso o no
def predecir_defectuosos(cantidad_producto, tiempo_entrega):
    # Crear un DataFrame con los datos de entrada
    datos = pd.DataFrame([[cantidad_producto, tiempo_entrega]], columns=['Productos-Lote', 'Tiempo-Entrega'])
    # Usar el modelo entrenado para hacer la predicción
    prediccion = modelo.predict(datos)
    if prediccion[0] == 1:
        return "El producto estará defectuoso."
    else:
        return "El producto no estará defectuoso."

### ***Llamar a funcion y realizar prediccion***

In [244]:
#Modificar valires para realizar prediccion
# Llamando a la función con valores específicos
cantidad_producto = 20
tiempo_entrega = 80000  # 80,000 minutos

In [245]:
# Obtener la predicción llamando a la función
resultado = predecir_defectuosos(cantidad_producto, tiempo_entrega)

  if not hasattr(array, "sparse") and array.dtypes.apply(is_sparse).any():
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):


In [246]:
# Mostrar el resultado
print(resultado)

El producto no estará defectuoso.


-----------------------------------------

## ***Calcular las métricas de evaluación del modelo***

In [247]:
# Realizar predicciones en el conjunto de prueba
y_pred = modelo.predict(X_test)  # Se usa 'modelo' en lugar de 'algoritmo' para las predicciones

# Calcular la precisión del modelo
precision = precision_score(y_test, y_pred)
print('Precision del modelo:', precision)

# Calcular la exactitud del modelo
exactitud = accuracy_score(y_test, y_pred)
print('Exactitud del modelo:', exactitud)

# Calcular la sensibilidad del modelo
sensibilidad = recall_score(y_test, y_pred)
print('Sensibilidad del modelo:', sensibilidad)

# Calcular el puntaje F1 del modelo
puntaje_f1 = f1_score(y_test, y_pred)
print('Puntaje F1 del modelo:', puntaje_f1)

# Calcular la curva ROC - AUC del modelo
roc_auc = roc_auc_score(y_test, y_pred)
print('Curva ROC - AUC del modelo:', roc_auc)

Precision del modelo: 0.0
Exactitud del modelo: 0.6583333333333333
Sensibilidad del modelo: 0.0
Puntaje F1 del modelo: 0.0
Curva ROC - AUC del modelo: 0.5


  if not hasattr(array, "sparse") and array.dtypes.apply(is_sparse).any():
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  _warn_prf(average, modifier, msg_start, len(result))
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype)