<a href="https://colab.research.google.com/github/antonellafontanetto/Pre-Entrega-3/blob/main/Proyecto4x4YPF_transflogar%C3%ADtmica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Proyecto 4x4 YPF - Primer pilar Vaca Muerta
El proyecto de modelado busca seguir la linea de pensamiento de desarrollo de la compañía YPF, en la actualidad este proyecto plantea cuadruplicar el crecimiento de la firma en los próximos 4 años. En primordial que este objetivo esta centrado en 4 pilares, del cual solo vamos a focalizar en el primero, que es el crecimiento de Vaca Muerta a corto plazo.

La estrategia se basa en reducir costos operativos, optimizar los tiempos de perforación y adoptar un enfoque más eficiente en la gestión financiera. La compañía ha logrado reducir los tiempos de perforación de aproximadamente un año a 170 días, mediante mejoras técnicas y operativas.

Este plan de transformación busca posicionar a YPF como una empresa más eficiente, rentable y alineada con las tendencias internacionales del sector energético, con una visión clara en el desarrollo del shale en Argentina.

Modelado
En la pre entrega 2, realizamos la transformación de todas las features utilizando One Hot Encoder, ahora vamos a limpiar y decidir en función al análisis exploratorio que features tener en consideración para el modelado.

Como observamos anteriormente tanto la producción de petróleo como la producción de gas son dos datos que queremos predecir para los próximos 4 años, sin embargo el análisis estará centrado en la Cuenca Neuquina, es decir, Vaca Muerta y las cinco principales áreas de permiso de concesión tanto para la producción de petróleo como para la producción de gas.

Así como también tenemos que mencionar que el dataset está centrado únicamente en la producción de lo no convencional, es decir, de aquella extracción que requiere tecnologías más avanzadas, costosas o intensivas en recursos debido a las características del yacimiento o del propio hidrocarburo.

Finalmente, cabe mencionar que la producción de petróleo y gas se sujeta a dos subtipos de recursos, estos son shale y tight, los mismos se diferencian según el tipo de roca y suelen requerir técnicas como la fractura hidráulica (fracking) para su extracción. Mientras que el shale se extrae de la roca sedimentaria rica en materia orgánica que actúa como fuente y reservorio del hidrocarburo, el tight se encuentra en rocas porosas pero de baja permeabilidad, como areniscas o calizas muy cementadas.

In [None]:
#descargamos todas las librerías necesarias para el desarrollo del proyecto
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

In [None]:
#Cargamos el dataset transformado en la segunda pre-entrega
Produccion_ypf = pd.read_csv('/content/prod_encoded_df.csv')

#Aplicamos la función head() para visualizar las primeras 5 observaciones del dataset
Produccion_ypf.head().astype(int)

In [None]:
#Con la función columns podemos observar mejor el nombre de todas las columnas del dataset, que en este caso son 47 columnas
Produccion_ypf.columns.tolist()

In [None]:
#Creamos una copia del dataset original
Produccion_ypf_copia = Produccion_ypf.copy()

columnas_a_eliminar = [
    'Tipo de pozo_Inyección de Agua',
    'Tipo de pozo_Otro tipo',
    'Tipo de pozo_Sumidero',
    'Tipo de recurso_NO CONVENCIONAL',
    'Producción de agua',
    'Area de permiso de concesion_AGUADA DEL CHAÑAR',
    'Area de permiso de concesion_AL NORTE DE LA DORSAL',
    'Area de permiso de concesion_BAJO DEL TORO',
    'Area de permiso de concesion_CERRO ARENA ',
    'Area de permiso de concesion_CERRO LAS MINAS ',
    'Area de permiso de concesion_CERRO MANRIQUE',
    'Area de permiso de concesion_CHIHUIDO DE LA SIERRA NEGRA',
    'Area de permiso de concesion_CN VII A',
    'Area de permiso de concesion_DADIN',
    'Area de permiso de concesion_BAJO DEL TORO NORTE',
    'Area de permiso de concesion_ESTACION FERNANDEZ ORO',
    'Area de permiso de concesion_FILO MORADO',
    'Area de permiso de concesion_LA ANGOSTURA SUR I',
    'Area de permiso de concesion_LA ANGOSTURA SUR II',
    'Area de permiso de concesion_LA RIBERA BLOQUE I',
    'Area de permiso de concesion_LA RIBERA BLOQUE II',
    'Area de permiso de concesion_LAS TACANAS'
]

#Con la función drop eliminamos las columnas que consideramos que no son necesarias para el análisis, en este caso solo dejamos las principales áreas de permiso de concesión por producción de petróleo y gas
Produccion_ypf = Produccion_ypf.drop(columns=columnas_a_eliminar, errors='ignore')

Produccion_ypf.head()

In [None]:
Produccion_ypf.astype(int) #aplicamos astype para visualizar los datos en números enteros

In [None]:
Produccion_ypf.columns.tolist() #Nuevamente aplicamos la función columns para visualizar como quedó el dataset con las columnas eliminadas, ahora son 29 columnas

### **Regresión Lineal**

In [None]:
Produccion_ypf_copia2 = Produccion_ypf.copy() #es la copia del dataframe nuevo que si contiene Produccion de petróleo y Producción de gas

In [None]:
x = Produccion_ypf.drop(['Produccion de Petroleo','Produccion de Gas'], axis=1)

In [None]:
x.head()

In [None]:
lista_atributos = x.columns

In [None]:
y = Produccion_ypf[['Produccion de Petroleo','Produccion de Gas']]

In [None]:
# Transformación logarítmica de la variable objetivo
y_log = np.log1p(y)  # log(1 + y), para evitar problemas con valores cero

In [None]:
x, y =np.array(x), np.array(y_log)

In [None]:
x

In [None]:
y_log[:10]

### **Separando Train-Test**

In [None]:
# Importamos la librearia para separar el dataset.
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train_log, y_test_log = train_test_split(x, y_log, test_size=0.2,
                                                    random_state=42)  #un numero aleatorio para fijar cuantas veces testeamos

In [None]:
x.shape

In [None]:
X_train.shape

In [None]:
y_test_log.shape

In [None]:
X_test.shape

In [None]:
from sklearn.linear_model import LinearRegression

# Crear el modelo
model = LinearRegression()

# Entrenar el modelo
model.fit(X_train, y_train_log)

In [None]:
#predicción en escala logarítmica
y_pred_log = model.predict(X_test)

In [None]:
# Volver a la escala original
y_pred = np.expm1(y_pred_log)  # inversa de log1p: exp(y) - 1
y_test = np.expm1(y_test_log)

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

mae = mean_absolute_error(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

print(f"MAE: {mae}")
print(f"RMSE: {rmse}")
print(f"R²: {r2}")

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Verificamos forma de y_test y y_pred
print("Forma de y_test:", y_test.shape)
print("Forma de y_pred:", y_pred.shape)

# Aseguramos que y_test y y_pred son arrays 2D
y_test = np.array(y_test)
y_pred = np.array(y_pred)

# Confirmar que tienen 2 columnas
if y_test.shape[1] == 2 and y_pred.shape[1] == 2:
    # Crear DataFrames con nombres claros
    y_test_df = pd.DataFrame(y_test, columns=['Petróleo', 'Gas'])
    y_pred_df = pd.DataFrame(y_pred, columns=['Petróleo', 'Gas'])

    # Calcular los residuos
    residuals_df = y_test_df - y_pred_df
    residuals_df.columns = ['Residuos Petróleo', 'Residuos Gas']

    # Transformar a formato largo para seaborn
    residuals_long = residuals_df.melt(var_name='Variable', value_name='Residuo')

    # Asegurar que no hay NaN
    residuals_long.dropna(inplace=True)

    # Graficar
    plt.figure(figsize=(10, 6))
    sns.boxplot(x='Variable', y='Residuo', data=residuals_long)
    plt.title('Análisis de Residuos - Boxplot por Variable')
    plt.ylabel('Residuos')
    plt.show()
else:
    print("Error: y_test o y_pred no tienen 2 columnas. Revisa la forma del modelo.")

In [None]:
import matplotlib.pyplot as plt
# Asumiendo que ya tienes un modelo de regresión entrenado (ej: RandomForestRegressor)
# Aquí se muestra un ejemplo genérico de cómo podrías generar y visualizar las predicciones.
# Necesitarás tener un modelo entrenado llamado 'model'.

# Si no tienes un modelo entrenado, descomenta las siguientes líneas y adapta el código:
# from sklearn.ensemble import RandomForestRegressor
# model = RandomForestRegressor(n_estimators=100, random_state=42)
# model.fit(X_train, y_train)

# Hacer predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Visualizar los resultados para 'Produccion de Petroleo' (primera columna de y)
plt.figure(figsize=(8, 5))
plt.scatter(y_test[:, 0], y_pred[:, 0], alpha=0.5)
plt.xlabel('Producción de Petróleo Real')
plt.ylabel('Producción de Petróleo Predicha')
plt.title('Producción de Petróleo Real vs. Predicha (Random Forest)')
plt.grid(True)
plt.show()

# Visualizar los resultados para 'Produccion de Gas' (segunda columna de y)
plt.figure(figsize=(8, 5))
plt.scatter(y_test[:, 1], y_pred[:, 1], alpha=0.5, color='orange')
plt.xlabel('Producción de Gas Real')
plt.ylabel('Producción de Gas Predicha')
plt.title('Producción de Gas Real vs. Predicha (Random Forest)')
plt.grid(True)
plt.show()

# También puedes visualizar la distribución de los errores
errors_petroleo = y_test[:, 0] - y_pred[:, 0]
errors_gas = y_test[:, 1] - y_pred[:, 1]

plt.figure(figsize=(8, 5))
sns.histplot(errors_petroleo, kde=True, label='Errores Petróleo')
sns.histplot(errors_gas, kde=True, label='Errores Gas', color='orange')
plt.xlabel('Errores de Predicción')
plt.ylabel('Frecuencia')
plt.title('Distribución de los Errores de Predicción')
plt.legend()
plt.grid(True)
plt.show()

### **Random Forest**

In [None]:
from sklearn.ensemble import RandomForestRegressor

In [None]:
from sklearn.metrics import mean_absolute_error

In [None]:
# Inicializo el modelo
regresor = RandomForestRegressor(criterion='absolute_error', random_state=25, n_estimators=20,max_depth=5,max_features='sqrt')

In [None]:
# Entreno el modelo
regresor.fit(X_train, y_train_log);

In [None]:
regresor.get_params()

In [None]:
# Predigo los valores para el set de testeo
y_pred = regresor.predict(X_test)

y_pred

In [None]:
# Calculo el error medio absoluto
mean_absolute_error(y_test, y_pred)

In [None]:
mape = np.mean(np.abs((y_test - y_pred) / y_test)) * 100  #Consultar si el error tiene que ver con que exista un dato valor a 0 entonces en la feature Producción de Petróleo y Producción de gas contiene algun 0 que hace que la división no se pueda realizar
print(f'MAPE: {mape:.2f}%')

In [None]:
# gráfico de arbol

import matplotlib.pyplot as plt
!pip install scikit-learn matplotlib

from sklearn.tree import plot_tree

# Asumo que ya tienes un modelo de RandomForestRegressor entrenado llamado 'regresor'
# y que 'lista_atributos' contiene los nombres de las características.

# Asegúrate de que el modelo es un RandomForestRegressor
if isinstance(regresor, RandomForestRegressor):
  # Visualiza el primer árbol del bosque
  plt.figure(figsize=(20, 10))
  plot_tree(regresor.estimators_[0],
            feature_names=lista_atributos.tolist(),  # Asegúrate de que sea una lista
            filled=True,
            rounded=True,
            fontsize=8)
  plt.title("Primer Árbol del Random Forest")
  plt.show()
else:
  print("El modelo 'regresor' no es un RandomForestRegressor.")

### **Support Vector Machine**

In [None]:
from sklearn.multioutput import MultiOutputRegressor
from sklearn.svm import SVR
from sklearn.metrics import mean_absolute_error

In [None]:
multi_svr = MultiOutputRegressor(SVR())
multi_svr.fit(X_train, y_train_log)

In [None]:
multi_svr.get_params()

In [None]:
y_pred_svr = multi_svr.predict(X_test)

y_pred_svr

In [None]:
# Calculo el error medio absoluto
mean_absolute_error(y_test, y_pred_svr)

In [None]:
# gráfico support vector machine

import matplotlib.pyplot as plt
# Visualizar los resultados para 'Produccion de Petroleo' (primera columna de y)
plt.figure(figsize=(8, 5))
plt.scatter(y_test[:, 0], y_pred_svr[:, 0], alpha=0.5)
plt.xlabel('Producción de Petróleo Real')
plt.ylabel('Producción de Petróleo Predicha')
plt.title('Producción de Petróleo Real vs. Predicha (SVR)')
plt.grid(True)
plt.show()

# Visualizar los resultados para 'Produccion de Gas' (segunda columna de y)
plt.figure(figsize=(8, 5))
plt.scatter(y_test[:, 1], y_pred_svr[:, 1], alpha=0.5, color='orange')
plt.xlabel('Producción de Gas Real')
plt.ylabel('Producción de Gas Predicha')
plt.title('Producción de Gas Real vs. Predicha (SVR)')
plt.grid(True)
plt.show()

# También puedes visualizar la distribución de los errores
errors_petroleo_svr = y_test[:, 0] - y_pred_svr[:, 0]
errors_gas_svr = y_test[:, 1] - y_pred_svr[:, 1]

plt.figure(figsize=(8, 5))
sns.histplot(errors_petroleo_svr, kde=True, label='Errores Petróleo')
sns.histplot(errors_gas_svr, kde=True, label='Errores Gas', color='orange')
plt.xlabel('Errores de Predicción (SVR)')
plt.ylabel('Frecuencia')
plt.title('Distribución de los Errores de Predicción (SVR)')
plt.legend()
plt.grid(True)
plt.show()


### **XGBoost**

In [None]:
from xgboost import XGBRegressor

In [None]:
modelo_xgb = XGBRegressor(
    n_estimators=300,
    max_depth=3,
    learning_rate=0.3,
    subsample=1.0,
    colsample_bytree=1.0,
    objective='reg:squarederror',  # Para regresión
    random_state=42
)

In [None]:
modelo_xgb.fit(X_train, y_train_log)

In [None]:
y_pred_xgb = modelo_xgb.predict(X_test)

In [None]:

from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

mae = mean_absolute_error(y_test, y_pred_xgb)
rmse = np.sqrt(mean_squared_error(y_test, y_pred_xgb))  # Esto equivale a squared=False
r2 = r2_score(y_test, y_pred_xgb)

print(f"MAE: {mae}")
print(f"RMSE: {rmse}")
print(f"R²: {r2}")


### **Optimización: Gridsearch**

In [None]:
from sklearn.model_selection import GridSearchCV
from xgboost import XGBRegressor

param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [3, 5, 10],
    'learning_rate': [0.01, 0.1, 0.2],
    'subsample': [0.7, 0.9, 1],
    'colsample_bytree': [0.7, 0.9, 1]
}

xgb = XGBRegressor(random_state=42)

grid_search = GridSearchCV(estimator=xgb, param_grid=param_grid,
                           cv=3, scoring='neg_mean_absolute_error', n_jobs=-1)

grid_search.fit(X_train, y_train_log)
print("Mejores parámetros:", grid_search.best_params_)

In [None]:
best_model = grid_search.best_estimator_

In [None]:
y_pred = best_model.predict(X_test)

from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import numpy as np

mae = mean_absolute_error(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

print(f"MAE: {mae}")
print(f"RMSE: {rmse}")
print(f"R²: {r2}")

La dispersión de los puntos muestra que el modelo tiende a subestimar las producciones altas. Muchas predicciones están muy por debajo de los valores reales cuando la producción real es alta (por ejemplo >200).

También hay mucho ruido cuando la producción es baja: las predicciones varían mucho cuando la producción real está entre 0 y 100.

Hay predicciones incluso negativas, lo cual puede ser un problema si la producción no puede ser menor a cero (tal vez el modelo necesita que le impongas restricciones o revises el preprocesamiento).

In [None]:
plt.scatter(y_test, y_pred, alpha=0.5)
plt.xlabel("Producción Real")
plt.ylabel("Producción Predicha")
plt.title("Producción Real vs. Predicha (XGBoost Optimizado)")
plt.grid(True)
plt.show()

### **Validación Cruzada: K-Fold**

In [None]:
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, make_scorer
import numpy as np

# Supongamos que y es un array o DataFrame con dos columnas: petróleo (col 0) y gas (col 1)

# 1. Separar petróleo y gas
y_petroleo = y[:, 0] if isinstance(y, np.ndarray) else y.iloc[:, 0]
y_gas = y[:, 1] if isinstance(y, np.ndarray) else y.iloc[:, 1]

# 2. Filtrar valores > 0 para poder aplicar log
mask_petroleo = y_petroleo > 0
mask_gas = y_gas > 0

x_petroleo = x[mask_petroleo]
y_petroleo_filtered = y_petroleo[mask_petroleo]
y_petroleo_log = np.log(y_petroleo_filtered)

x_gas = x[mask_gas]
y_gas_filtered = y_gas[mask_gas]
y_gas_log = np.log(y_gas_filtered)

# 3. Definir función de error revertido (log → escala original)
def rmse_log_model(y_true, y_pred_log):
    y_pred = np.exp(y_pred_log)
    return np.sqrt(mean_squared_error(y_true, y_pred))

rmse_scorer = make_scorer(rmse_log_model, greater_is_better=False)

# 4. Validación cruzada
kf = KFold(n_splits=5, shuffle=True, random_state=42)
model = LinearRegression()

# 5. Cross-validation para petróleo
scores_petroleo = cross_val_score(model, x_petroleo, y_petroleo_log, cv=kf, scoring=rmse_scorer)

# 6. Cross-validation para gas
scores_gas = cross_val_score(model, x_gas, y_gas_log, cv=kf, scoring=rmse_scorer)

# 7. Mostrar resultados
print("RMSE promedio petróleo:", -np.mean(scores_petroleo))
print("RMSE promedio gas:", -np.mean(scores_gas))