# Sprint 13 - Proyecto

### 1. Preparar los datos

##### Cargar las librerías

In [1]:
# Data manipulation
import pandas as pd
import numpy as np

# Visualization
import matplotlib.pyplot as plt

# Machine learning
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LinearRegression

# Metrics
from sklearn.metrics import (
    roc_auc_score,
    roc_curve,
    auc,
    f1_score,
    mean_squared_error
)

# Utilities
from sklearn.utils import shuffle


#### 1.1. Abre los archivos y examina los datos

In [2]:
#Cargar los archivos

gold_recovery_train = pd.read_csv('data/gold_recovery_train.csv')
gold_recovery_test = pd.read_csv('data/gold_recovery_test.csv')
gold_recovery_full = pd.read_csv('data/gold_recovery_full.csv')

In [6]:
#Análisis exploratorio de datos para los tres conjuntos:

# Para cada dataset
print("Dimensiones del datasets:")
print(f"Train: {gold_recovery_train.shape}")
print(f"Test: {gold_recovery_test.shape}") 
print(f"Full: {gold_recovery_full.shape}")
print()
print("Valores ausentes de los datasets:")
print(f"Train - Total valores ausentes: {gold_recovery_train.isnull().sum().sum()}, es decir, el {(gold_recovery_train.isnull().sum().sum()) / gold_recovery_train.size * 100} está ausente")
print(f"Test - Total valores ausentes: {gold_recovery_test.isnull().sum().sum()}, es decir, el {(gold_recovery_test.isnull().sum().sum()) / gold_recovery_test.size * 100} está ausente")
print(f"Full - Total valores ausentes: {gold_recovery_full.isnull().sum().sum()}, es decir, el {(gold_recovery_full.isnull().sum().sum()) / gold_recovery_full.size * 100} está ausente")

Dimensiones del datasets:
Train: (16860, 87)
Test: (5856, 53)
Full: (22716, 87)

Valores ausentes de los datasets:
Train - Total valores ausentes: 30320, es decir, el 2.0670566258982013 está ausente
Test - Total valores ausentes: 2360, es decir, el 0.7603876688318383 está ausente
Full - Total valores ausentes: 36587, es decir, el 1.851295253940207 está ausente


In [7]:
# Revisar qué columnas faltan en test vs train
train_cols = set(gold_recovery_train.columns)
test_cols = set(gold_recovery_test.columns)
missing_in_test = train_cols - test_cols

print(f"Columnas que están en train pero NO en test: {len(missing_in_test)}")
print("Columnas faltantes:")
print(list(missing_in_test)[:])

Columnas que están en train pero NO en test: 34
Columnas faltantes:
['primary_cleaner.output.concentrate_au', 'final.output.concentrate_pb', 'rougher.output.tail_au', 'rougher.output.tail_pb', 'final.output.recovery', 'primary_cleaner.output.concentrate_pb', 'primary_cleaner.output.tail_pb', 'secondary_cleaner.output.tail_sol', 'primary_cleaner.output.tail_sol', 'final.output.tail_sol', 'secondary_cleaner.output.tail_ag', 'final.output.tail_au', 'rougher.calculation.sulfate_to_au_concentrate', 'primary_cleaner.output.tail_au', 'final.output.concentrate_ag', 'final.output.concentrate_sol', 'rougher.output.concentrate_ag', 'rougher.output.concentrate_au', 'final.output.concentrate_au', 'rougher.output.concentrate_pb', 'rougher.calculation.au_pb_ratio', 'primary_cleaner.output.tail_ag', 'primary_cleaner.output.concentrate_ag', 'rougher.output.recovery', 'final.output.tail_pb', 'rougher.output.tail_ag', 'rougher.calculation.floatbank11_sulfate_to_au_feed', 'rougher.calculation.floatbank10_

Se observa que las columnas faltantes en el dataset de prueba (test) probablemente sean las variables objetivo, lo cual explicaría el porqué se encuentran en el dataset de entrenamiento pero no en el de prueba.