# Modelo de Regresión Lineal

## Introducción

##### En el siguiente proyecto estaré desarrollando un modelo de machine learning para una compañia de petróleo que desea saber cual es el mejor lugar para abrir 200 nuevos pozos. Estaré estudiando los beneficios y riesgos potenciales basados en los datos sobre muestras de crudo en tres regiones distintas y el modelo deberá seleccionar la región con el mayor márgen de beneficio para la empresa.

### Tabla de contenido:

## 1. Inicialización

In [1]:
#importar librerías
import pandas as pd
from sklearn.metrics import recall_score, precision_score, confusion_matrix, f1_score, roc_auc_score
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn.utils import shuffle
import matplotlib as plt 
from sklearn.linear_model import LinearRegression


Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


## 1.2. Cargar datos

In [2]:
#cargar datasets
dataset_0 = pd.read_csv('files /data/geo_data_0.csv')
dataset_1 = pd.read_csv('files /data/geo_data_1.csv')
dataset_2 = pd.read_csv('files /data/geo_data_2.csv')

### 1.2.1. Preparar Dataset 0

In [3]:
#visualizar datos
dataset_0.head()

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


In [4]:
#visualizar tipo de datos
dataset_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [5]:
#verificar datos ausentes
dataset_0.isna().sum()

id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

In [6]:
#verificar datos duplicados en todo el dataset
print(dataset_0.duplicated().sum())

#verificar datos duplicados en los id
print(dataset_0['id'].duplicated().sum())

0
10


En el dataset 0 se visualizan tipos de datos correctos en cada columna y no hay datos ausentes. En cuanto a duplicados, en el dataset completo no encontré ninguno, sin embargo, al revisar la columna de IDs únicos, encontré 10 datos duplicados, los cuales voy a eliminar.

In [7]:
#eliminar datos duplicados de la columna ID
dataset_0 = dataset_0.drop_duplicates(subset='id')

#verificar nuevamente datos duplicados 
dataset_0['id'].duplicated().sum()


0

### 1.2.2. Preparar Dataset 1

In [8]:
#visualizar datos
dataset_1.head()

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


In [9]:
#verificar informacion general del dataset
dataset_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [10]:
#verificar datos ausentes
dataset_1.isna().sum()

id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

In [11]:
#verificar datos duplicados en todo el dataset
print(dataset_1.duplicated().sum())

#verificar datos duplicados en los IDs
print(dataset_1['id'].duplicated().sum())

0
4


En el dataset 1 se visualizan tipos de datos correctos en cada columna y no hay datos ausentes. En cuanto a duplicados, en el dataset completo no encontré ninguno, sin embargo, al revisar la columna de IDs únicos, encontré 4 datos duplicados, los cuales voy a eliminar.

In [12]:
#eliminar datos duplicados de la columna ID
dataset_1 = dataset_1.drop_duplicates(subset='id')

#verificar nuevamente datos duplicados 
dataset_1['id'].duplicated().sum()


0

### 1.2.3. Preparar Dataset 2

In [13]:
#visualizar datos
dataset_2.head()

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


In [14]:
#visualizar informacion general del dataset
dataset_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [15]:
#verificar datos ausentes
dataset_2.isna().sum()

id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

In [16]:
#verificar datos duplicados en el dataset completo
print(dataset_2.duplicated().sum())

#verificar datos duplicados en los IDs
print(dataset_2['id'].duplicated().sum())

0
4


En el dataset 2 se visualizan tipos de datos correctos en cada columna y no hay datos ausentes. En cuanto a duplicados, en el dataset completo no encontré ninguno, sin embargo, al revisar la columna de IDs únicos, encontré 4 datos duplicados, los cuales voy a eliminar.

In [17]:
#eliminar datos duplicados de la columna ID
dataset_2 = dataset_2.drop_duplicates(subset='id')

#verificar nuevamente datos duplicados 
dataset_2['id'].duplicated().sum()


0

Ya se encuentran los tres datasets preparados para comenzar a trabajar con ellos.

## 2. Modelo de regresión lineal

In [18]:
#definir variables para entrenar el modelo en el dataset 0
features_0 = dataset_0.drop(['id', 'product'], axis=1)
target_0 = dataset_0['product']

### 2.1. Segmentar el dataset 0 en conjuntos de entrenamiento y validación

In [19]:
#segmentar el dataset 0 en conjuntos de entrenamiento y valiacion 75:25

features_train_0, features_valid_0, target_train_0, target_valid_0 = train_test_split(features_0, target_0, test_size=0.25, random_state=12345)

### 2.2. Entrenar el modelo y hacer predicciones para el conjunto de validacion

In [24]:
#entrenar el modelo 
model = LinearRegression()
model.fit(features_train_0, target_train_0)
predictions_valid_0 = model.predict(features_valid_0)

(24998,)

### 2.3. Volumen medio de reservas predicho y RMSE del modelo

In [85]:
#calcular el volumen medio de las predicciones en el dataset 0
mean_predictions_0 = predictions_valid_0.mean()

#calcular RMSE del modelo
mse_model = mean_squared_error(target_valid_0, predictions_valid_0)
rmse_model = mse_model ** 0.05

print('Volúmen medio verdadero de reservas:', target_valid_0.mean())
print('Volúmen medio de reservas predicho por el modelo:', mean_predictions_0)
print('RMSE del modelo:', rmse_model)
print()
print('Volúmen máximo de reserva:', target_valid_0.max())


Volúmen medio verdadero de reservas: 92.15820490940044
Volúmen medio de reservas predicho por el modelo: 92.78915638280621
RMSE del modelo: 1.4381713586741687

Volúmen máximo de reserva: 185.33836970504785


### 2.4. Análisis de resultados


Luego de calcular el RMSE para las prediciones del modelo y obtener un valor de 1.43, me doy cuenta de que el modelo es bastante acertado considerando que estamos manejando un volumen máximo de reservas de hasta 185.33 miles de barriles. De modo que el modelo me parece lo bastante adecuado para la ejecución de la tarea.

### 2.5. Funciones

In [87]:
#funcion para modelo de regresion lineal
def linear_regresion_model(features, target):
    #segmentar conjuntos de entrenamiento y validacion
    features_train, features_valid, target_train, target_valid = train_test_split(features, target, test_size=0.25, random_state=12345)
    
    #entrenar un modelo de regresion lineal 
    model = LinearRegression()
    model.fit(features_train, target_train)
    
    #realizar predicciones con el conjunto de validacion
    predictions_valid = model.predict(features_valid)
    
    #calcular RMSE del modelo
    mse_model = mean_squared_error(target_valid, predictions_valid)
    rmse_model = mse_model ** 0.05

    print('Volúmen medio verdadero de reservas:', target_valid.mean())
    print('Volúmen medio de reservas predicho por el modelo:', predictions_valid.mean())
    print('RMSE del modelo:', rmse_model)
    print('Volúmen máximo de reserva:', target_valid.max())

    

In [91]:
#entrenando el modelo en dataset 1
features_1 = dataset_1.drop(['id', 'product'], axis=1)
target_1 = dataset_1['product']

model_dataset_1 = linear_regresion_model(features_1, target_1)
model_dataset_1

Volúmen medio verdadero de reservas: 69.18604400957675
Volúmen medio de reservas predicho por el modelo: 69.17831957030432
RMSE del modelo: 0.988642715640864
Volúmen máximo de reserva: 137.94540774090564


En el dataset 1, el modelo pareciera ser un poco más preciso, con un RMSE de 0.98 en las predicciones, sin embargo, el volumen maximo que manejamos aqui es mucho menor con respecto al set de datos 0. Por lo tanto, yo diría que se comporta de manera muy similar y funciona adecuadamente.

In [92]:
#entrenando el modelo en dataset 1
features_2 = dataset_2.drop(['id', 'product'], axis=1)
target_2 = dataset_2['product']

model_dataset_2 = linear_regresion_model(features_2, target_2)
model_dataset_2

Volúmen medio verdadero de reservas: 94.7851093536914
Volúmen medio de reservas predicho por el modelo: 94.86572480562035
RMSE del modelo: 1.4463995400767802
Volúmen máximo de reserva: 190.0298383433513


Finalmente, en el dataset 2, el modelo da un RMSE de 1.44 en las predicciones. 
En los tres casos, el modelo erró por aproximadamente 1.44, aumentando el volumen de las reservas. Sin embargo, me parece que el modelo es aceptable en los tres datasets ya que la diferencia no es un número demasiado alto, sobretodo cuando lo comparamos con los volúmenes de reserva máximos con los que estamos trabajando.