# Predicción y Clasificación en la Industria Azucarera
El **Ingenio Providencia** cuenta con un conjunto de datos históricos que recoge información relevante sobre la producción de caña de azúcar. Este taller tiene como objetivo que ustedes, como estudiantes, apliquen los conocimientos adquiridos en el curso para desarrollar modelos que permitan desarrollar las siguientes tareas:

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report, roc_curve, auc
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import StratifiedKFold, KFold, cross_val_score
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.linear_model import Ridge, Lasso
from sklearn.linear_model import LassoCV, RidgeCV
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer

sns.set_style('whitegrid')
%matplotlib inline


# Parte 1: Modelo de Regresión

In [4]:

df_bd_ipsa = pd.read_excel("../Data/BD_IPSA_1940.xlsx")

In [None]:
df_bd_ipsa = pd.read_excel('Diccionario.xlsx', sheet_name='Total_Variables')
df_variables = df_bd_ipsa[['Nombre ', 'Descripcion ']].drop_duplicates(subset=['Nombre '])

* Cabeza de datos del dataset

In [5]:
df_bd_ipsa.head()

Unnamed: 0.1,Unnamed: 0,NOME,FAZ,TAL,tipocorte,variedad,madurada,producto,dosismad,semsmad,...,cortes,me,vejez,sacarosa,mes,periodo,TCH,lluvias,grupo_tenencia,pct_diatrea
0,11,AMAIME SILCA,81291,40,Mecanizado Verde,CC01-1940,SI,BONUS 250 EC REGULADOR FISIOLÓGICO,0.8,8.3,...,4,12.7,2.4,14.0,12,202012,112,137,3,6.2
1,12,AMAIME SILCA,81291,41,Mecanizado Verde,CC01-1940,SI,BONUS 250 EC REGULADOR FISIOLÓGICO,0.8,6.3,...,2,7.8,2.3,13.0,3,201903,157,0,3,3.5
2,13,AMAIME SILCA,81291,41,Mecanizado Verde,CC01-1940,SI,BONUS 250 EC REGULADOR FISIOLÓGICO,0.6,7.9,...,3,8.8,1.8,13.3,3,202003,167,68,3,4.3
3,15,AMAIME SILCA,81291,43,Mecanizado Verde,CC01-1940,SI,BONUS 250 EC REGULADOR FISIOLÓGICO,0.8,6.6,...,1,6.1,2.5,13.4,3,201903,156,0,3,3.5
4,16,AMAIME SILCA,81291,43,Mecanizado Verde,CC01-1940,SI,BONUS 250 EC REGULADOR FISIOLÓGICO,0.6,8.1,...,2,7.9,2.1,14.0,3,202003,151,68,3,4.3


* Cola de datos del dataset

In [6]:
df_bd_ipsa.tail()

Unnamed: 0.1,Unnamed: 0,NOME,FAZ,TAL,tipocorte,variedad,madurada,producto,dosismad,semsmad,...,cortes,me,vejez,sacarosa,mes,periodo,TCH,lluvias,grupo_tenencia,pct_diatrea
2182,4216,ZABALETAS CORPORACION,80123,544B,Mecanizado Verde,CC01-1940,SI,BONUS 250 EC REGULADOR FISIOLÓGICO,1.3,5.6,...,3,8.5,1.8,13.5,3,201903,63,99,1,4.3
2183,4217,ZABALETAS CORPORACION,80123,545A,Mecanizado Verde,CC01-1940,SI,BONUS 250 EC REGULADOR FISIOLÓGICO,1.2,9.1,...,1,9.7,3.6,13.0,12,201912,126,448,1,3.1
2184,4218,ZABALETAS EMPRESA,82503,6,Mecanizado Verde,CC01-1940,SI,BONUS 250 EC REGULADOR FISIOLÓGICO,1.2,7.1,...,1,8.8,2.0,12.9,4,201904,173,122,1,2.2
2185,4219,ZABALETAS EMPRESA,82503,6,Mecanizado Verde,CC01-1940,SI,BONUS 250 EC REGULADOR FISIOLÓGICO,1.0,6.9,...,2,8.4,2.2,13.5,4,202004,134,73,1,3.1
2186,4222,ZABALETAS EMPRESA,82503,9,Mecanizado Verde,CC01-1940,SI,BONUS 250 EC REGULADOR FISIOLÓGICO,1.0,7.0,...,2,8.8,2.3,12.7,4,202004,157,127,1,3.1


* Total de columnas, tipo de columnas y valoración inicial de Nulos

In [7]:
df_bd_ipsa.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2187 entries, 0 to 2186
Data columns (total 21 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Unnamed: 0      2187 non-null   int64  
 1   NOME            2187 non-null   object 
 2   FAZ             2187 non-null   int64  
 3   TAL             2187 non-null   object 
 4   tipocorte       2187 non-null   object 
 5   variedad        2187 non-null   object 
 6   madurada        2187 non-null   object 
 7   producto        2187 non-null   object 
 8   dosismad        2187 non-null   float64
 9   semsmad         2187 non-null   float64
 10  edad            2187 non-null   float64
 11  cortes          2187 non-null   int64  
 12  me              2187 non-null   float64
 13  vejez           2187 non-null   float64
 14  sacarosa        2187 non-null   float64
 15  mes             2187 non-null   int64  
 16  periodo         2187 non-null   int64  
 17  TCH             2187 non-null   i

* Análisis de variables cuantitativas

In [8]:
df_bd_ipsa.describe()

Unnamed: 0.1,Unnamed: 0,FAZ,dosismad,semsmad,edad,cortes,me,vejez,sacarosa,mes,periodo,TCH,lluvias,grupo_tenencia,pct_diatrea
count,2187.0,2187.0,2187.0,2187.0,2187.0,2187.0,2187.0,2187.0,2187.0,2187.0,2187.0,2187.0,2187.0,2187.0,2187.0
mean,2126.50663,80588.332876,0.993278,9.164838,12.766118,2.794239,9.197759,4.172154,12.777732,6.758573,201887.691358,142.393233,118.051212,2.435299,4.317284
std,1228.561661,572.818299,0.309096,3.441579,1.117866,1.621195,1.574409,6.339255,0.854397,3.482444,131.982686,25.838029,144.424675,0.704058,2.591956
min,11.0,80100.0,0.0,-1.6,10.3,1.0,3.4,0.2,9.2,1.0,201407.0,6.0,0.0,1.0,0.2
25%,1038.0,80222.0,0.8,7.1,12.0,1.0,8.2,2.1,12.2,4.0,201807.0,126.0,0.0,2.0,2.9
50%,2219.0,80396.0,1.0,8.7,12.5,2.0,9.1,2.6,12.8,7.0,201908.0,144.0,77.0,3.0,3.7
75%,3223.5,80660.0,1.2,10.6,13.3,4.0,10.1,3.3,13.3,10.0,202005.0,159.0,171.5,3.0,5.0
max,4222.0,82519.0,9.0,45.0,21.1,14.0,15.0,102.9,16.0,12.0,202101.0,249.0,1468.0,3.0,25.5


# Parte 2: Modelo de Clasificación

In [3]:

df_historico_suertes = pd.read_excel("../Data/HISTORICO_SUERTES.xlsx")
df_historico_suertes.head()

Unnamed: 0,Período,Hacienda,Nombre,Zona,Tenencia,Suerte,Suelo,Area Neta,Dist Km,Variedad,...,Humedad Rel Media Ciclo,Oscilacion Temp Med 0-3,Oscilacion Temp Ciclo,Sum Oscilacion Temp Ciclo,Radicion Solar 0-3,Radiacion Solar Ciclo,Precipitacion 0_3,Precipitacion Ciclo,Evaporacion 0-3,Evaporacion Ciclo
0,201701,80493,LA CONCHA,IP02,51.0,002A,CANTARINA,6.0,4.3,CC85-92,...,,,,,,,,,,
1,201701,81284,UKRANIA INCAUCA,IP05,81.0,039B,,1.45,,CC85-92,...,,,,,,,,,,
2,201701,80203,EL AMPARO SAA,IP05,31.0,007,CORINTIAS,8.24,23.0,CC01-1228,...,,,,,,,,,,
3,201701,81380,SAN JUDAS INCAUCA,IP05,82.0,013A,,1.05,66.5,CC01-1940,...,,,,,,,,,,
4,201701,80298,JAVA,IP06,31.0,025A,GALPON,4.53,17.0,RB73-2223,...,,,,,,,,,,
