# Hola &#x1F600;

Soy **Hesus Garcia**, revisor de c√≥digo de Triple Ten, y voy a examinar el proyecto que has desarrollado recientemente. Si encuentro alg√∫n error, te lo se√±alar√© para que lo corrijas, ya que mi objetivo es ayudarte a prepararte para un ambiente de trabajo real, donde el l√≠der de tu equipo actuar√≠a de la misma manera. Si no puedes solucionar el problema, te proporcionar√© m√°s informaci√≥n en la pr√≥xima oportunidad. Cuando encuentres un comentario,  **por favor, no los muevas, no los modifiques ni los borres**. 

Revisar√© cuidadosamente todas las implementaciones que has realizado para cumplir con los requisitos y te proporcionar√© mis comentarios de la siguiente manera:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=‚ÄútocSkip‚Äù></a>
Si todo est√° perfecto.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=‚ÄútocSkip‚Äù></a>
Si tu c√≥digo est√° bien pero se puede mejorar o hay alg√∫n detalle que le hace falta.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=‚ÄútocSkip‚Äù></a>
Si de pronto hace falta algo o existe alg√∫n problema con tu c√≥digo o conclusiones.
</div>

Puedes responderme de esta forma:
<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=‚ÄútocSkip‚Äù></a>
</div>

</br>

**¬°Empecemos!**  &#x1F680;


# Introducci√≥n

Se busca el calculo de la eficiencia de una minera de extracci√≥n de oro por Zyfra

## Inicializaci√≥n

### Librer√≠as a usar

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import (make_scorer, mean_absolute_error)
from sklearn.model_selection import cross_validate
from sklearn.preprocessing import StandardScaler

from collections import defaultdict


### Carga de datasets

In [None]:
# Carga de datasets a trabajar
try:
    train = pd.read_csv('gold_recovery_train.csv')
    test = pd.read_csv('gold_recovery_test.csv')
    full = pd.read_csv('gold_recovery_full.csv')
except:
    train = pd.read_csv('/datasets/gold_recovery_train.csv')
    test = pd.read_csv('/datasets/gold_recovery_test.csv')
    full = pd.read_csv('/datasets/gold_recovery_full.csv')

In [None]:
train.info()
train.head()

In [None]:
test.info()
test.head()

In [None]:
full.info()
full.head()

Revisando los datos de cada uno de los conjuntos de datos se trabajar√° lo siguiente:
    1.- Columna `data` se transformar√° a DateTime en los tres datasets.
    2.- Verificar los valores ausentes, al no tener los datos completos se eliminar√°n las filas con valores ausentes.

### Preprocesamiento

Se trabajar√° la columna `data` para transforma a tipo DateTime

In [None]:
train['date'] = pd.to_datetime(train['date'])
test['date'] = pd.to_datetime(test['date'])
full['date'] = pd.to_datetime(full['date'])

Se eliminan los valores ausentes en los datasets

In [None]:
train = train.dropna()
test = test.dropna()
full = full.dropna()

Se buscar√° usar las mismas columnas en cada dataset para realizar el an√°lisis de mejor forma.

In [None]:
list_test = list(test.columns.values)+ ['rougher.output.recovery','final.output.recovery']
train_df = train.loc[:,list_test]
train_df.info()

Se crean las columnas de target a usar para entrenar los modelos

In [None]:
target_columns = full[['date','rougher.output.recovery','final.output.recovery']]
test_df = test.merge(target_columns, how='left', on='date')
test_df.info()

### Calculo de recuperados

Para verificar que el c√°lculo de recuperados es correcto se realizar√° un c√°lculo con las siguientes columnas:

    - rougher.input.infeed_au La cual es la concentraci√≥n inicial de oro alimentado.
    - rougher.output.concentrate_au Concentraci√≥n de oro antes de la flotaci√≥n.
    - rougher.output.tail_au Concentraci√≥n de oro despu√©s de la flotaci√≥n.

Con estos datos se va a calcular el porcentaje de oro para cada fila del data set train.

In [None]:
#Funci√≥n para calculo de procentaje de oro

def calculo_concentrado(ini_au, conc_au, tail_au):
    recuperado = (conc_au*(ini_au-tail_au))/(ini_au*(conc_au-tail_au))*100
    print(recuperado.head())
    return recuperado

In [None]:
#Valores presentados en dataset
recovery = train['rougher.output.recovery']

In [None]:
concentrado = train['rougher.output.concentrate_au']
alimentacion = train['rougher.input.feed_au']
colas = train['rougher.output.tail_au']

recuperado_calculado = calculo_concentrado(alimentacion,concentrado,colas)

Se calcula el Error absoluto medio de recuperado_calculado contra recovery

In [None]:
mae = mean_absolute_error(recuperado_calculado, recovery)
mae

El error es tan peque√±o que nuestro c√°lculo de porcentaje de recuperaci√≥n de oro es correcto, por lo que procederemos a lo siguiente.

### An√°lisis set de prueba

El dataset de prueba, no contiene las columnas referentes a la concentraci√≥n de plata, plomo, solvente, oro finales.
As√≠ mismo tampoco tiene los datos finales de las colas de plata, plomo, solvente y oro.
Para tener todas las caracter√≠sticas las columnas floatbank10_sulfate_to_au_feed, floatbank11_sulfate_to_au_feed, and au_pb_ratio tambi√©n est√°n ausentes.

## An√°lisis de datos

### C√°lculo de concentraciones por metal

Se definir√° una funci√≥n para mostrar los cambios de concentraci√≥n de los diferentes metales (oro, plata, plomo) en las diferentes etapas del proceso.

In [None]:
def metal_conc(data, etapas):
    for etapa in etapas:
        data[etapa].hist(legend=True, figsize=(9,6),alpha=0.65)
        plt.xlabel("Concentraci√≥n")

In [None]:
#Se definen las concentraciones de los metales en las diferentes etapas:

etapa_oro = ['rougher.output.concentrate_au',
             'primary_cleaner.output.concentrate_au',
             'secondary_cleaner.output.tail_au',
             'final.output.concentrate_au']

etapa_plata = ['rougher.output.concentrate_ag',
               'primary_cleaner.output.concentrate_ag',
               'secondary_cleaner.output.tail_ag',
               'final.output.concentrate_ag']

etapa_plomo = ['rougher.output.concentrate_pb',
               'primary_cleaner.output.concentrate_pb',
               'secondary_cleaner.output.tail_pb',
               'final.output.concentrate_pb']

#### Oro

In [None]:
metal_conc(train,etapa_oro)

#### Plata 

In [None]:
metal_conc(train,etapa_plata)

#### Plomo

In [None]:
metal_conc(train,etapa_plomo)

Como se muestra en los histrogramas, conforme avanza el proceso se espera tener una mayor concentraci√≥n de oro, mientras que la concentraci√≥n de plata y plomo disminuyen.

### Tama√±o de part√≠culas

Se va a comparar el tama√±o de part√≠cula en los dataset de entrenamiento *(train)* y de prueba *(test)*.

In [None]:
train['rougher.input.feed_size'].hist(bins=50, 
                                      alpha=0.5, 
                                      label="Tama√±o de part√≠cula entrenamiento")

test['rougher.input.feed_size'].hist(bins=50, 
                                     alpha=0.5, 
                                     label="Tama√±o de part√≠cula prueba")

plt.legend()
plt.xlabel("Tama√±o de part√≠cula")
plt.ylabel("Frecuencia")
plt.show()

El histograma no muestra gran diferencia en la frecuencia de los tama√±os de part√≠culas por lo que los c√°lculos de estimaciones ser√°n consistentes.

###  Concentraci√≥n de mezcla a diferentes etapas

Se graficar√°n la sumas de las concentraciones de los metales en diferentes etapas, esto con el fin de determinar los valores fuera de rango que causar√≠an ruido en nuestro modelo de predicci√≥n.

In [None]:
#Usando del dataset full realizaremos los histogramas

full['total_mixture'] = full[['rougher.input.feed_au',
                              'rougher.input.feed_ag',
                              'rougher.input.feed_pb']].sum(axis=1, skipna=True)
full['total_mixture'].hist(bins=30, figsize=(9,6))
plt.show()

In [None]:
full['total_roughermix'] = full[['rougher.output.concentrate_au',
                                 'rougher.output.concentrate_ag',
                                 'rougher.output.concentrate_pb']].sum(axis=1,skipna=True)
full['total_roughermix'].hist(bins=30, figsize=(9,6))
plt.show()

In [None]:
full['total_finalmix'] = full[['final.output.concentrate_au',
                                 'final.output.concentrate_ag',
                                 'final.output.concentrate_pb']].sum(axis=1,skipna=True)
full['total_finalmix'].hist(bins=30, figsize=(9,6))
plt.show()

Los histrogramas nos muestran muchos valores fuera de rango, por lo que los removeremos para no causar ruido en nuestros calculos. Tambi√©n se muestra que los datos est√°n cargados hacia la derecha.

In [None]:
#Para buscar los valores fuera de rangos u outliers, se realizar√° un c√°lculo de los valores intercuartiles

def outliers_drop(data, columnas):
    mapeo = defaultdict(list)
    for columna in columnas:
        q1 = data[columna].quantile(0.25)
        q3 = data[columna].quantile(0.75)
        iqr = q3 - q1
        minimo = q1-1.5*iqr
        maximo = q3+1.5*iqr
        mapeo[columna] = (minimo, maximo)
    df = data
    for a, b in mapeo.items():
        df = df.loc[(df[a] > b[0]) & (df[a] < b[1])]
        
    return df

In [None]:
parametros = ['total_mixture','total_roughermix','total_finalmix']

print(full.shape)

full_fin = outliers_drop(full, parametros)

print(full_fin.shape)

Se muestran los histogramas nuevamente

In [None]:
full_fin['total_mixture'].hist(bins=30)
plt.show()

In [None]:
full_fin['total_roughermix'].hist(bins=30)
plt.show()

In [None]:
full_fin['total_finalmix'].hist(bins=30)
plt.show()

Ya con los datos m√°s parecidos a una distribuci√≥n normal, procederemos a entrenar y probar nuestro modelo.

In [None]:
#Se agrega la columna total_mixture al dataset de entrenamiento
columnas = full_fin[['date','total_mixture']]
train_final = train_df.merge(columnas, how='left', on='date')
train_final.shape[0]

In [None]:
#Se quitan las filas con valores nulos en total_mixture
train_final = train_final[train_final.total_mixture.notnull()]
train_final = train_final.drop(['total_mixture'], axis=1)
train_final.shape[0]


Se har√° lo mismo con el dataset de prueba

In [None]:
test_final = test_df.merge(columnas, how='left', on='date')
test_final.shape[0]

In [None]:
test_final = test_final[test_final.total_mixture.notnull()]
test_final = test_final.drop(['total_mixture'], axis=1)
test_final.shape[0]

Con estos datasets trabajaremos los modelos

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=‚ÄútocSkip‚Äù></a>
¬°Muy bien! üëèüëè Los c√°lculos de esta secci√≥n est√°n correctos y eso es un gran logro. Sigue as√≠ y ver√°s c√≥mo poco a poco te ir√°s convirtiendo en un experto en esta √°rea. üí™üíª</div>

## Modelado y Resultados

### C√°lculo de sMAPE

In [None]:
def smape_cal(target, prediction):
    
    def smape(target, prediction):
        smape = np.mean((np.abs(target-prediction)/((np.abs(target)+np.abs(prediction))/2)))*100
        return smape
    
    smape_r = smape(target[:,0],prediction[:,0])
    smape_f = smape(target[:,1],prediction[:,1])
    smape_final = 0.25*smape_r + 0.75*smape_f
    return smape_final

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=‚ÄútocSkip‚Äù></a>
La funci√≥n est√° correctamente definida. 
</div>

### Entrenamiento de modelos

#### Caracter√≠sticas y resultados

In [None]:
targets = ['rougher.output.recovery','final.output.recovery']

train_features = train_final.drop(targets, axis=1)
train_target = train_final[targets]

test_features = test_final.drop(targets,axis=1)
test_target = test_final[targets]

In [None]:
smape_scorer = make_scorer(smape_cal)

In [None]:
scaler = StandardScaler()
train_features = train_features.set_index('date')
test_features = test_features.set_index('date')

features = list(train_features.columns)
scaler.fit(train_features[features])

train_features[features] = scaler.transform(train_features[features])
test_features[features] = scaler.transform(test_features[features])

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=‚ÄútocSkip‚Äù></a>
Perfecto! Preveniste el data leakage. El escalado de datos se realiza por separado para los conjuntos de entrenamiento y prueba.
Cuando escalas tus datos, est√°s ajustando sus valores para que tengan una escala uniforme.
Imagina esto: Si escalas todo el conjunto de datos (entrenamiento + prueba) juntos, es posible que los valores de prueba influyan en la escala de entrenamiento y viceversa.
    


</div>

#### RandomForestRegressor

In [None]:
rfr_model = RandomForestRegressor(random_state=1234, n_estimators=15)

rfr_train_smape = cross_validate(rfr_model, train_features, train_target.to_numpy(), scoring=smape_scorer, cv=5)

for a,b in rfr_train_smape.items():
    print(a,b)

score_final = rfr_train_smape['test_score']
print("sMAPE promedio: ", np.sum(score_final)/5)

#### LinearRegression

In [None]:
lr_model = LinearRegression()

lr_train_smape = cross_validate(lr_model, 
                                train_features, 
                                train_target.to_numpy(), 
                                scoring=smape_scorer, 
                                cv=5)

for a,b in lr_train_smape.items():
    print(a,b)

score_final = lr_train_smape['test_score']
print("sMAPE promedio: ", np.sum(score_final)/5)

#### DecisionTreeRegressor

In [None]:
for depth in range(1,15):
    dcr_model = DecisionTreeRegressor(random_state=1234, max_depth=depth)
    
    dcr_train_smape = cross_validate(dcr_model, 
                                     train_features, 
                                     train_target.to_numpy(), 
                                     scoring=smape_scorer, 
                                     cv=5)
    
    for a,b in dcr_train_smape.items():
        print(a,b)

    score_final = dcr_train_smape['test_score']
    print("Depth: ", depth)
    print("sMAPE promedio: ", np.sum(score_final)/5)

El modelo DecisionTreeRegresor es el que nos arroja menor sMAPE, con una profundidad m√°xima de 1, por lo que utilizaremos estos valores para entrenar y probar el modelo.

<div class="alert alert-block alert-success">
<b>Comentario del Revisor</b> <a class="tocSkip"></a>


He revisado tu implementaci√≥n de los modelos RandomForestRegressor, LinearRegression y DecisionTreeRegressor, y quisiera destacar varios aspectos positivos de tu enfoque.

1. <b>Selecci√≥n de Modelos y Par√°metros:</b> Has hecho un excelente trabajo al seleccionar una variedad de modelos  de regress√≥n. para probar en tu conjunto de datos

2. <b>Uso de Cross-Validation:</b> Tu implementaci√≥n de validaci√≥n cruzada fue adecuada. 

3. <b>Implementaci√≥n del sMAPE Custom Scorer:</b> La utilizaci√≥n del sMAPE (Symmetric Mean Absolute Percentage Error) como m√©trica es adecuada para problemas de regresi√≥n, especialmente en contextos donde los errores relativos son m√°s importantes. Adem√°s, la creaci√≥n de un 'scorer' personalizado para esta m√©trica demuestra un nivel avanzado de habilidad en la manipulaci√≥n de datos y evaluaci√≥n de modelos.

4. <b>An√°lisis y Elecci√≥n del Modelo Final:</b> La decisi√≥n de elegir el modelo con el menor sMAPE promedio es l√≥gica y bien fundamentada. Tu an√°lisis para llegar a esta conclusi√≥n est√° bien articulado y muestra un razonamiento claro.


### Resultados

In [None]:
dtr_model = DecisionTreeRegressor(random_state=1234, max_depth=1)

dtr_model.fit(train_features, train_target)

predict = dtr_model.predict(test_features)

smape = smape_cal(test_target.to_numpy(), predict)
print("sMAPE: ", smape)

Nuestro modelo nos un valor sMAPE de 6.589, menor que lo presenta la validaci√≥n cruzada, con esto damos un valor de certidumbre aceptable a nuestro modelo.

<div class="alert alert-block alert-success">    
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
¬°Qu√© gran trabajo has hecho!  &#128077;  Podemos aprobar el proyecto. <br>
Has demostrado un excelente conocimiento en la construcci√≥n de modelos, al eliminar variables innecesarias y procesar  los datos antes de entrenar los modelos. <br>
<br>Quiero felicitarte por un trabajo excepcional y por la calidad de tu an√°lisis. Te animo a que sigas aprendiendo y desafiando tu potencial en los pr√≥ximos sprints. Estoy seguro de que tus habilidades y conocimientos ser√°n valiosos en el futuro y te permitir√°n abordar problemas cada vez m√°s complejos con √©xito.
</div>