# Regresión Logística: Análisis de Combustible Peligroso

Este proyecto utiliza la técnica de regresión logística para analizar un conjunto de datos relacionado con el tratamiento de combustible peligroso. 

### Enunciado del ejercicio:
 
  El objetivo es construir un modelo predictivo que permita identificar ciertas categorías o riesgos asociados al tratamiento de combustibles peligrosos. Para ello, se utiliza un dataset proporcionado en formato `.csv`.

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
from sklearn.metrics import accuracy_score, classification_report

In [2]:
# Cargar el dataset
df = pd.read_csv('datos/archivo.csv', low_memory=False)

# Mostrar las primeras filas para inspeccionar
print(df.head())

    OBJECTID                 SUID    ORG  ACTIVITY_CODE  \
0  976519744  0904062016306021002  90406           4220   
1  976519745  0904062016306012003  90406           4220   
2  976519746  0904012008439025000  90401           4270   
3  976519747  0904062016306021001  90406           4220   
4  976519748  011101A170300009000  11104           4220   

                  ACTIVITY LOCAL_QUALIFIER  ASU_NBR_UNITS ASU_UOM  \
0          Commercial Thin             NaN           91.0   ACRES   
1          Commercial Thin             NaN          161.0   ACRES   
2  Permanent Land Clearing             NaN          131.2   ACRES   
3          Commercial Thin             NaN           91.0   ACRES   
4          Commercial Thin             NaN           15.0   ACRES   

   ADMIN_REGION_CODE  ADMIN_FOREST_CODE  ...         EDW_INSERT_DATE  \
0                  9                  4  ...  2023/02/04 06:59:52+00   
1                  9                  4  ...  2023/02/04 06:59:52+00   
2             

In [3]:
# Mostrar las primeras filas para entender la estructura del dataset
print("Estructura del dataset:")
print(df.head())

Estructura del dataset:
    OBJECTID                 SUID    ORG  ACTIVITY_CODE  \
0  976519744  0904062016306021002  90406           4220   
1  976519745  0904062016306012003  90406           4220   
2  976519746  0904012008439025000  90401           4270   
3  976519747  0904062016306021001  90406           4220   
4  976519748  011101A170300009000  11104           4220   

                  ACTIVITY LOCAL_QUALIFIER  ASU_NBR_UNITS ASU_UOM  \
0          Commercial Thin             NaN           91.0   ACRES   
1          Commercial Thin             NaN          161.0   ACRES   
2  Permanent Land Clearing             NaN          131.2   ACRES   
3          Commercial Thin             NaN           91.0   ACRES   
4          Commercial Thin             NaN           15.0   ACRES   

   ADMIN_REGION_CODE  ADMIN_FOREST_CODE  ...         EDW_INSERT_DATE  \
0                  9                  4  ...  2023/02/04 06:59:52+00   
1                  9                  4  ...  2023/02/04 06:59

In [4]:
# Filtrar y evaluar 50,000 datos
if len(df) > 50000:
    df = df.sample(n=50000, random_state=42)

In [5]:
print("Datos seleccionados para evaluación:")
print(df.shape)

Datos seleccionados para evaluación:
(50000, 82)


In [6]:
# Renombrar columnas para que coincidan con la estructura de la imagen proporcionada (ejemplo de columnas)
df.rename(columns={
    'OBJECTID': 'ID_OBJETO',
    'SUID': 'IDENTIFICADOR_UNICO',
    'ORG': 'ORGANIZACION',
    'ACTIVITY CODE': 'CODIGO_ACTIVIDAD',
    'ACTIVITY': 'ACTIVIDAD',
    'ASU_NBR_UNITS': 'UNIDADES',  # Cambiar el nombre para simplificar
    'ASU_UOM': 'UNIDAD_MEDIDA',
    'STATE ABBR': 'ESTADO'
}, inplace=True)

In [7]:
# Mostrar las primeras filas después de renombrar columnas
print("Dataset después de renombrar columnas:")
print(df.head())

Dataset después de renombrar columnas:
        ID_OBJETO  IDENTIFICADOR_UNICO  ORGANIZACION  ACTIVITY_CODE  \
74921   976594745  061631WHIT000490000         61631           4231   
116037  976635861  060101CORAY00003000         60101           4521   
69219   976589043  0910020000006009000         91002           4151   
152088  976671912  0803080000119000003         80308           1113   
36846   976556670  0505555410018000001         50555           1153   

                                                ACTIVIDAD LOCAL_QUALIFIER  \
74921   Salvage Cut (intermediate treatment, not regen...             NaN   
116037                                 Precommercial Thin             NaN   
69219                Single-tree Selection Cut (UA/RH/FH)             NaN   
152088       Underburn - Low Intensity (Majority of Unit)             NaN   
36846                   Piling of Fuels, Hand or Machine              NaN   

        UNIDADES UNIDAD_MEDIDA  ADMIN_REGION_CODE  ADMIN_FOREST_CODE  .

In [8]:
# Descripción general del dataset
print("Descripción del dataset:")
print(df.describe())

Descripción del dataset:
          ID_OBJETO  ORGANIZACION  ACTIVITY_CODE       UNIDADES  \
count  5.000000e+04  50000.000000   50000.000000   50000.000000   
mean   9.766034e+08  56294.825900    2673.724980     234.472378   
std    4.802136e+04  24144.381616    1654.173533    7173.068892   
min    9.765197e+08  10201.000000    1102.000000       0.000000   
25%    9.765618e+08  50552.000000    1130.000000      12.000000   
50%    9.766034e+08  60401.000000    1160.000000      24.900000   
75%    9.766449e+08  62112.000000    4232.000000      54.000000   
max    9.766863e+08  92205.000000    9008.000000  999999.000000   

       ADMIN_REGION_CODE  ADMIN_FOREST_CODE  ADMIN_DISTRICT_CODE  \
count       50000.000000       50000.000000         50000.000000   
mean            5.551840           7.637140            12.711900   
std             2.419676           5.791247            18.109006   
min             1.000000           1.000000             0.000000   
25%             5.000000       

In [9]:
# Preparación de datos para regresión logística (ajusta las columnas según tu dataset)
# Suponemos que 'ACTIVIDAD' es la variable objetivo y 'UNIDADES' es una característica numérica
# Verificar si las columnas existen antes de continuar
required_columns = ['ACTIVIDAD', 'UNIDADES']
missing_columns = [col for col in required_columns if col not in df.columns]
if missing_columns:
    print("Columnas disponibles:", df.columns)
    raise KeyError(f"Las siguientes columnas no se encuentran en el dataset: {missing_columns}")

df = df.dropna(subset=required_columns)  # Eliminar filas con valores nulos en estas columnas
X = df[['UNIDADES']]  # Características
y = df['ACTIVIDAD'].astype('category').cat.codes  # Convertir la variable objetivo a códigos numéricos

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [10]:
# Entrenar el modelo de regresión logística
clf = LogisticRegression()
clf.fit(X_train, y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [11]:
# Evaluar el modelo
y_pred = clf.predict(X_test)

In [12]:
# Evaluación del modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión del modelo: {accuracy:.3f}")

Precisión del modelo: 0.031


In [13]:
print("Reporte de clasificación:")
print(classification_report(y_test, y_pred))

Reporte de clasificación:
              precision    recall  f1-score   support

           1       0.02      0.34      0.04       550
           2       0.00      0.00      0.00      1383
           3       0.00      0.00      0.00       119
           4       0.00      0.00      0.00      1173
           5       0.00      0.00      0.00        87
           6       0.00      0.00      0.00        14
           7       0.00      0.00      0.00        10
           8       0.00      0.00      0.00         1
           9       0.00      0.00      0.00        12
          10       0.00      0.00      0.00        36
          11       0.00      0.00      0.00        14
          12       0.00      0.00      0.00        60
          13       0.00      0.00      0.00        11
          14       0.00      0.00      0.00        53
          15       0.00      0.00      0.00         1
          17       0.00      0.00      0.00         8
          18       0.00      0.00      0.00        95
 

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [14]:
# Guardar una versión procesada del dataset
output_file = 'archivo_procesado.csv'
df.to_csv(output_file, index=False)
print(f"Dataset procesado guardado en {output_file}")

Dataset procesado guardado en archivo_procesado.csv
