In [20]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn.impute import SimpleImputer

# Cargar los datos
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')

# Preparar los datos eliminando columnas irrelevantes
X = train_data.drop(columns=['Life expectancy ', 'Unnamed: 0', 'Country', 'Year', 'Status'])
y = train_data['Life expectancy ']
X_test = test_data.drop(columns=['Unnamed: 0', 'Country', 'Year', 'Status'])

# Manejar valores faltantes con imputación
imputer = SimpleImputer(strategy='mean')
X = imputer.fit_transform(X)
X_test = imputer.transform(X_test)

# Dividir los datos para validación
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar el modelo Random Forest
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Validar el modelo
y_val_pred = model.predict(X_val)
validation_r2 = r2_score(y_val, y_val_pred)

# Hacer predicciones en los datos de prueba
test_predictions = model.predict(X_test)

# Preparar el archivo de envío
submission = pd.DataFrame({
    'ID': range(1, len(test_predictions) + 1),
    'Life expectancy': test_predictions
})

# Guardar el archivo de envío
submission_file_path = 'otro.csv'
submission.to_csv(submission_file_path, index=False)

print("R2 Score en validación:", validation_r2)
print("Archivo de predicciones guardado en:", submission_file_path)

R2 Score en validación: 0.963277896859561
Archivo de predicciones guardado en: otro.csv
