# Desafío - Expansiones basales

● Para realizar este desafío debes haber estudiado previamente todo el material disponibilizado correspondiente a la unidad.

● Una vez terminado el desafío, comprime la carpeta que contiene el desarrollo de los requerimientos solicitados y sube el .zip en el LMS.

● Desarrollo desafío:
    
    ○ El desafío se debe desarrollar de manera Individual.
    
    ○ Para la realización del desafío necesitarás apoyarte del archivo Apoyo Desafío - Expansiones basales.

## Descripción

● Una aplicación interesante de los modelos predictivos es poder predecir propiedades de materiales compuestos a partir de diferentes combinaciones en el proceso y creación de estos.

● Para este desafío trabajaremos con un dataset que contiene diferentes medidas de materiales con los que se hace la mezcla de concreto.

● Nuestra tarea será utilizar estas medidas para predecir la capacidad de resistir fuerzas compresivas de vigas de concreto, a esta capacidad de soportar fuerzas que buscan reducir la superficie o volumen de un cuerpo se le conoce como fuerza compresiva.

## Ejercicio 1: Preparar el ambiente de trabajo

● Importe los módulos clásicos del trabajo en ciencia de datos.

● El archivo tiene el nombre compresive_strength_concrete.csv. Importe y genere estadísticas descriptivas.

● En esta actividad su tarea será predecir la fuerza compresiva del concreto a partir de las medidas en la mezcla, para esto, utilice un modelo aditivo generalizado de la librería pyGAM.

In [None]:
!pip install lazypredict


In [None]:
#!pip install ipywidgets
#!pip install pandas-profiling
#!pip install lazypredict


In [None]:

# importación de librerias
# librerias clasicas

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

import seaborn as sns
import warnings
import missingno as msngo

# analisis exploratorio 
from pandas_profiling import ProfileReport

# librerias de machine learning

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge, RidgeCV, Lasso, LassoCV, ElasticNet, ElasticNetCV
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import r2_score, mean_squared_error, median_absolute_error
from pygam import LinearGAM, s

# librerias LazyPredict
from lazypredict.Supervised import LazyRegressor
from lazypredict.Supervised import LazyClassifier

# otros

labelencoder = LabelEncoder()
warnings.filterwarnings('ignore')
plt.rcParams['figure.figsize'] = (20,10)
plt.style.use('seaborn-darkgrid')
import func as fx

In [None]:
# cargamos el archivos compresive_strength_concrete.csv en nuestro DataSet
df = pd.read_csv('compresive_strength_concrete.csv')
# visualizamos los primeros 10 registros del df
df.head(10)

In [None]:
# generamos estadisticas descriptivas
df.describe()

## Ejercicio 2: Descripción

● El vector objetivo tiene el nombre de Concrete compressive strength(MPa, megapascals)

● Los nombres de las variables son muy poco amigables, dado que contienen espacios, paréntesis y otros elementos difíciles de referenciar. Se sugiere (pero no se obliga) renombrar las variables o acceder a éstas mediante notación de índice iloc.

● Inspeccione el tipo de datos de la base de datos, fijándose en su naturaleza y distribución. Decide si es necesario normalizarlos/escalarlos.

In [None]:
# Limpieza de cararcteres en nombre de las variables, para eliminar espacios, mayusculas y parentesis
df.columns = df.columns.map(lambda x: str(x).lower().replace(' ', '_'))
df.columns = df.columns.map(lambda x: str(x).lower().replace('(', ''))
df.columns = df.columns.map(lambda x: str(x).lower().replace(')', ''))

In [None]:
# Cambio de nombres a variables
df = df.rename(columns={'cement_component_1kg_in_a_m^3_mixture':'cement',
                        'blast_furnace_slag_component_2kg_in_a_m^3_mixture':'blast_furnace',
                        'fly_ash_component_3kg_in_a_m^3_mixture':'fly_ash',
                        'water__component_4kg_in_a_m^3_mixture':'water',
                        'superplasticizer_component_5kg_in_a_m^3_mixture':'superplasticizer',
                        'coarse_aggregate__component_6kg_in_a_m^3_mixture':'coarse_aggregate',
                        'fine_aggregate_component_7kg_in_a_m^3_mixture':'fine_aggregate',
                        'age_day':'age',
                        'concrete_compressive_strengthmpa,_megapascals_':'concrete'})

df.head()

In [None]:
# revisamos la dimensionalidad del dataset
print(f'''El dataset contiene
Numero de filas: {df.shape[0]}
Numero de columnas: {df.shape[1]}''')

In [None]:
# revisamos que no existan datos perdidos
msngo.matrix(df)

In [None]:
# revisamos el tipo de datos de cada una de las columnas
df.dtypes

In [None]:
sns.countplot(x = df['concrete'])
plt.title(f'Distribución para variable objetivo: Concrete')
plt.show()

In [None]:
# Visualizacion distribucion vector objetivo
sns.distplot(x = df['concrete'])
sns.rugplot(x = df['concrete'])
plt.title(f'Distribución para variable objetivo: concrete')
plt.axvline(df['concrete'].mean())
plt.show()

In [None]:
# Analisis exploratorio mediante ProfileReport de Pandas.
perfil = ProfileReport(df, title="Reporte")

In [None]:
perfil.to_notebook_iframe()

In [None]:
# mostramos la composición del dataset, indicando en detalle cada una de las caracteristicas de las columnas.
fx.summary_drop(df)

In [None]:
list_vars = ['cement', 'blast_furnace', 'fly_ash', 'water', 'superplasticizer', 'coarse_aggregate', 'fine_aggregate', 'age', 'concrete']

for i in range(len(list_vars)):
        fx.dist_box(df[list_vars[i]])

## Ejercicio 3: Modelo
● En base al vector objetivo, decida el mejor modelo e importe con pygam. Condicional a esto, importe las métricas de desempeño asociadas.

● Genere conjuntos de entrenamiento y validación.

● Genere un primer modelo sin implementar la función gridsearch. Reporte el hiper parámetro lam así como las métricas de desempeño asociadas.

● Genere un segundo modelo implementando gridsearch en lambda con un logspace entre -3 y 3. Comente sobre el mejor hiper parámetro y sus métricas de desempeño.

In [None]:
fx.summary_drop(df)

In [None]:
# determinamos las columnas de forma aleatoria segun el analisis exploratorio
sub = df[['age','cement','water','coarse_aggregate','fine_aggregate','superplasticizer']]
X_train_pre, X_test_pre, y_train, y_test = train_test_split(sub, df['concrete'], test_size=.3, random_state=2404)

# ajustamos el estandarizador sobre el conjunto de entrenamiento (para que aprenda la media y desv. est.)
scaler = StandardScaler().fit(X_train_pre)

In [None]:
# con el estandarizador ajustamos sobre entrenamiento, transformamos el conjunto de entrenamiento con esta estandarizacion
X_train = pd.DataFrame(scaler.transform(X_train_pre), columns= X_train_pre.columns)

# transformamos el conjunto de pruebas con el estandarizador ajustado sobre entrenamiento
X_test = pd.DataFrame(scaler.transform(X_test_pre), columns= X_test_pre.columns)

In [None]:
lams = np.logspace(-3,3,3)

In [None]:
lams = [lams]*len(X_train.columns)

In [None]:
gam = LinearGAM(s(0) + s(1) + s(2) + s(3) + s(4) + s(5), fit_intercept=True)

In [None]:
# Genere un primer modelo sin implementar la función gridsearch.
gam.fit(X_train, y_train)

In [None]:
def report_metrics(model, x_test, y_test):
    preds = model.predict(x_test)
    print(f'Test R2: {r2_score(y_test, preds)}')
    print(f'Test MSE: {mean_squared_error(y_test,preds)}')
    print(f'Test Median Absolute Error: {median_absolute_error(y_test, preds)}')

In [None]:
print(f'Metricas para el primer modelo entregado con lambda: {gam.lam}\n')
report_metrics(gam,X_test, y_test)

In [None]:
gam.summary()

In [None]:
# Genere un segundo modelo implementando gridsearch
gam_2 = LinearGAM(s(0) + s(1) + s(2) + s(3) + s(4) + s(5), fit_intercept=True)
gam_2.gridsearch(X_train.values, y_train.values, lam = lams)

In [None]:
print(f'Metricas para el segundo modelo entregado con lambda: {gam_2.lam}\n')
report_metrics(gam_2,X_test, y_test)

In [None]:
gam_2.summary()

El segundo modelo presenta mejores resultados que el segundo mediante gridsearch

## Ejercicio 4: Dependencia Parcial

● En base al mejor modelo, reporte el comportamiento de la dependencia parcial de cada atributo.

● Para ello, genere una función que tenga como argumento de entrada el modelo estimado y devuelva una grilla con todos los gráficos de dependencia parcial.

● Reporte brevemente sobre qué atributos están asociados a mayores y menores. niveles de resistencia.

In [None]:
def dependencia_parcial(model):
    fig, axs = plt.subplots(2,3, figsize = (20,6));
    titles = X_train.columns
    for i, ax in enumerate(axs.flatten()):
        XX = model.generate_X_grid(term=i)
        ax.plot(XX[:,i], model.partial_dependence(term=i, X=XX))
        ax.plot(XX[:,i], model.partial_dependence(term=i, X=XX, width=.95)[1], c='r', ls='--')
        ax.scatter(X_train[titles[i]],
               [0] * len(X_train[titles[i]]),
               marker = '|', alpha = .5)
        ax.set_title(titles[i]);

In [None]:
report_metrics(gam, X_test, y_test)

In [None]:
# dependencias parciales del primer modelo (gam sin gridsearch)
dependencia_parcial(gam)

In [None]:
report_metrics(gam_2, X_test, y_test)

In [None]:
# dependencias parciales del segundo modelo (gam con gridsearch)
dependencia_parcial(gam_2)