# Proyecto integrado

## Introducción

En el presente proyecto trataremos de encontrar los mejores lugares para abrir 200 nuevos pozos de petróleo para la compañía OilyGiant. Para esto se creará un modelo que nos ayude a elegir la región que proporcione a la empresa el mayor margen de beneficio.

## Cargar librerías y abrir archivos

In [1]:
#Cargar todas las librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score
from sklearn.metrics import mean_absolute_error
from scipy import stats as st

In [2]:
#Cargar los archivos de los datos
geo_data_0= pd.read_csv('https://practicum-content.s3.us-west-1.amazonaws.com/datasets/geo_data_0.csv')
geo_data_1= pd.read_csv('https://practicum-content.s3.us-west-1.amazonaws.com/datasets/geo_data_1.csv')
geo_data_2= pd.read_csv('https://practicum-content.s3.us-west-1.amazonaws.com/datasets/geo_data_2.csv')

## Descarga y preparación de los datos

In [3]:
# Información general sobre el DataFrame geo_data_0
geo_data_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [4]:
# Información general sobre el DataFrame geo_data_1
geo_data_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [5]:
# Información general sobre el DataFrame geo_data_2
geo_data_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [6]:
print(geo_data_0[geo_data_0.duplicated()])

Empty DataFrame
Columns: [id, f0, f1, f2, product]
Index: []


In [7]:
print(geo_data_1[geo_data_1.duplicated()])

Empty DataFrame
Columns: [id, f0, f1, f2, product]
Index: []


In [8]:
print(geo_data_2[geo_data_2.duplicated()])

Empty DataFrame
Columns: [id, f0, f1, f2, product]
Index: []


Podemos observar que no existen valores nulos ni duplicados en ninguna de las tablas, ahora si podemos empezar a trabajar con ellas.

## Entrenamiento y prueba del modelo 

In [9]:
#Muestra general de los datos
geo_data_1.head()

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


In [10]:
#Tamaño de la tabla
geo_data_0.shape

(100000, 5)

In [11]:
#Eliminaremos la fila que no se utilizará para el entrenamiento del modelo
geo_data_0 = geo_data_0.drop(['id'], axis =1)

### División de los datos en un conjunto de entrenamiento y un conjunto de validación 

In [12]:
#División de los datos en un conjunto de entrenamiento y un conjunto de validación en una proporción de 75:25
target_0 = geo_data_0['product']
features_0 = geo_data_0.drop(['product'], axis=1)
features_train_0, features_valid_0, target_train_0, target_valid_0 = train_test_split(
    features_0, target_0, test_size=0.25, random_state=12345
)

### Entrena el modelo y haz predicciones para el conjunto de validación

In [13]:
model_0 = LinearRegression()
model_0.fit(features_train_0, target_train_0)
predicted_valid_0 = model_0.predict(features_valid_0)
mse_0 = mean_squared_error(target_valid_0, predicted_valid_0)
mean_0 =predicted_valid_0.mean()

### Volumen medio de reservas predicho y RMSE del modelo

In [14]:
print('Mean = ', round(mean_0,2))
print('Linear Regression')
print('MSE =', round(mse_0,2))
print('RMSE =', round(mse_0 ** 0.5, 2))

Mean =  92.59
Linear Regression
MSE = 1412.21
RMSE = 37.58


El promedio de reservas predichos en la región 0 es de 92590 barriles

La diferencia entre el valor observado y el valor predicho para las caracteristicas dadas en la Región 0 es de +- 37580 barriles de petróleo

### Entranamiento y predicciones para los archivos restantes

#### Geo Data 1

In [15]:
#Eliminaremos la fila que no se utilizará para el entrenamiento del modelo
geo_data_1 = geo_data_1.drop(['id'], axis =1)

In [16]:
#División de los datos en un conjunto de entrenamiento y un conjunto de validación en una proporción de 75:25
target_1 = geo_data_1['product']
features_1 = geo_data_1.drop(['product'], axis=1)
features_train_1, features_valid_1, target_train_1, target_valid_1 = train_test_split(
    features_1, target_1, test_size=0.25, random_state=12345
)

In [17]:
model_1 = LinearRegression()
model_1.fit(features_train_1, target_train_1)
predicted_valid_1 = model_1.predict(features_valid_1)
mse_1 = mean_squared_error(target_valid_1, predicted_valid_1)
mean_1 = predicted_valid_1.mean()

In [18]:
print('Mean = ', round(mean_1,2))
print('Linear Regression')
print('MSE =', round(mse_1,2))
print('RMSE =', round(mse_1 ** 0.5, 2))

Mean =  68.73
Linear Regression
MSE = 0.8
RMSE = 0.89


El promedio de reservas predichos en la región 0 es de 68730 barriles

La diferencia entre el valor observado y el valor predicho para las caracteristicas dadas en la Región 1 es de +- 890 barriles de petróleo

#### Geo Data 2

In [19]:
#Eliminaremos la fila que no se utilizará para el entrenamiento del modelo
geo_data_2 = geo_data_2.drop(['id'], axis =1)

In [20]:
#División de los datos en un conjunto de entrenamiento y un conjunto de validación en una proporción de 75:25
target_2 = geo_data_2['product']
features_2 = geo_data_2.drop(['product'], axis=1)
features_train_2, features_valid_2, target_train_2, target_valid_2 = train_test_split(
    features_2, target_2, test_size=0.25, random_state=12345
)

In [21]:
model_2 = LinearRegression()
model_2.fit(features_train_2, target_train_2)
predicted_valid_2 = model_2.predict(features_valid_2)
mse_2 = mean_squared_error(target_valid_2, predicted_valid_2)
mean_2 = predicted_valid_2.mean()

In [22]:
print('Mean = ', round(mean_2,2))
print('Linear Regression')
print('MSE =', round(mse_2,2))
print('RMSE =', round(mse_2 ** 0.5, 2))

Mean =  94.97
Linear Regression
MSE = 1602.38
RMSE = 40.03


El promedio de reservas predichos en la región 0 es de 94970 barriles

La diferencia entre el valor observado y el valor predicho para las caracteristicas dadas en la Región 1 es de +- 40030 barriles de petróleo

## Cálculo de ganancias 

In [23]:
# Cálculo de la media de reservas para la región 0
media0 = geo_data_0['product'].mean()
print('Media de miles de barriles de petróleo en la región 0 = ' , round(media0, 2))

Media de miles de barriles de petróleo en la región 0 =  92.5


In [24]:
# Cálculo de la media de reservas para la región 0
media1 = geo_data_1['product'].mean()
print('Media de miles de barriles de petróleo en la región 1 = ' , round(media1, 2))

Media de miles de barriles de petróleo en la región 1 =  68.83


In [25]:
# Cálculo de la media de reservas para la región 0
media2 = geo_data_2['product'].mean()
print('Media de miles de barriles de petróleo en la región 2 = ' , round(media2, 2))

Media de miles de barriles de petróleo en la región 2 =  95.0


Para calcular el beneficio medio por región se multiplica la media que está expresada en miles de barriles por la cantidad en dólares americanos que se recibe por la venta (US$4.5 por barril * 1000 = 4500).

In [26]:
# Variables a considerar
cost_200_pozos = 100000000
income_per_unit = 4500
costo_por_pozo = 500000
umbral = 111.1 

### Ganancia promedio por región

In [27]:
# Cálculo de la ganancia promedio para la región 0
print('Ingreso por nivel de reservas promedio por pozo para la región 0 = ' + str(round(media0 * income_per_unit - costo_por_pozo,2)))

Ingreso por nivel de reservas promedio por pozo para la región 0 = -83750.0


In [28]:
# Cálculo de la ganancia promedio para la región 1
print('Ingreso por nivel de reservas promedio por pozo para la región 0 = ' + str(round(media1 * income_per_unit - costo_por_pozo,2)))

Ingreso por nivel de reservas promedio por pozo para la región 0 = -190287.5


In [29]:
# Cálculo de la ganancia promedio para la región 2
print('Ingreso por nivel de reservas promedio por pozo para la región 0 = ' + str(round(media2 * income_per_unit - costo_por_pozo,2)))

Ingreso por nivel de reservas promedio por pozo para la región 0 = -72500.0


Como podemos observar si tomamos los valores promedio de reserva de los pozos petroleros por cada región presentamos pérdidas, en ningina de las regiones se llega en promedio al nivel mínimo que se necesita para que un pozo sea rentable.

## Cálculo de la ganancia de un conjunto de pozos de petróleo seleccionados

In [30]:
geo_data_0_sorted = -np.sort(-predicted_valid_0)
geo_data_0_sorted = geo_data_0_sorted[:200]

In [31]:
suma0 = geo_data_0_sorted.sum()
print('Potencial ganancia de los 200 pozos de petróleo con mas reservas de la región 0 = $' + str(round(suma0 * 4500 - cost_200_pozos ,2)))

Potencial ganancia de los 200 pozos de petróleo con mas reservas de la región 0 = $39960488.77


In [32]:
geo_data_1_sorted = -np.sort(-predicted_valid_1)
geo_data_1_sorted = geo_data_1_sorted[:200]

In [33]:
suma1 = geo_data_1_sorted.sum()
print('Potencial ganancia de los 200 pozos de petróleo con mas reservas de la región 0 = $' + str(round(suma1 * 4500 - cost_200_pozos,2)))

Potencial ganancia de los 200 pozos de petróleo con mas reservas de la región 0 = $24857120.52


In [34]:
geo_data_2_sorted = -np.sort(-predicted_valid_2)
geo_data_2_sorted = geo_data_2_sorted[:200]

In [35]:
suma2 = geo_data_2_sorted.sum()
print('Potencial ganancia de los 200 pozos de petróleo con mas reservas de la región 0 = $' + str(round(suma2 * 4500 - cost_200_pozos,2)))

Potencial ganancia de los 200 pozos de petróleo con mas reservas de la región 0 = $33217543.96


Una ves realizado el cálculo para poder ver que región tendría la mayor potencial ganancia al escoger los 200 pozos petroleros con mayores reservas predichos llegamos a la conclusión que es la Región 0 con un valor de $39 960 488.77 de beneficios.

## Calcula riesgos y ganancias 

### Región 0

In [36]:
# Región 0

#Conversión de las variables a series de pandas para trabajarles posteriormente 
predicted_valid_0 =pd.Series(predicted_valid_0)
geo_data_0_sorted = pd.Series(geo_data_0_sorted)

#Creación de la función
def revenue(predictions, count):
    selected = predicted_valid_0.sort_values(ascending=False)[:count]
    return income_per_unit * selected.sum() - cost_200_pozos

state = np.random.RandomState(12345)

#Bootstrapping con mil muestras
values = []
for i in range(1000):
    subsample = predicted_valid_0.sample(n=500, replace=True, random_state=state) 
    values.append(revenue(subsample, 200))

values = pd.Series(values)


mean = values.mean()
print("Ingresos promedio: $", round(mean,2))
print('Media de los 200 pozos con mayores reservas de la región 0:', round(geo_data_0_sorted.mean(), 2))

#Intervalo de confianza al 95% de los 200 pozos con mayores reservas de la Región 0

confidence_interval0 = st.t.interval(
    0.95, len(geo_data_0_sorted)-1, geo_data_0_sorted.mean(), geo_data_0_sorted.sem())

print('Intervalo de confianza del 95 %: ', confidence_interval0)

Ingresos promedio: $ 39960488.77
Media de los 200 pozos con mayores reservas de la región 0: 155.51
Intervalo de confianza del 95 %:  (154.62602923098981, 156.3972791571242)


In [37]:
pd.DataFrame({'valor_real':target_valid_0.reset_index(drop=True),'valor_prediccion':pd.Series(predicted_valid_0)})

Unnamed: 0,valor_real,valor_prediccion
0,10.038645,95.894952
1,114.551489,77.572583
2,132.603635,77.892640
3,169.072125,90.175134
4,122.325180,70.510088
...,...,...
24995,170.116726,103.037104
24996,93.632175,85.403255
24997,127.352259,61.509833
24998,99.782700,118.180397


In [38]:
# Región 0

#Conversión de las variables a series de pandas para trabajarles posteriormente 
target_valid_0 = pd.Series(target_valid_0)
target_valid_0.reset_index(drop=True, inplace=True)

#Creación de la función
def revenue(target, probabilities):
    pred_sorted = predicted_valid_0.sort_values(ascending=False)
    selected = target_valid_0[pred_sorted.index][:200]
    return income_per_unit * selected.sum() - cost_200_pozos
probs_subsample = 0
state = np.random.RandomState(12345)

#Bootstrapping con mil muestras
values = []
for i in range(1000):
    target_subsample = target_valid_0.sample(n=500, replace=True, random_state=state)
    probs_subsample = predicted_valid_0[target_subsample.index]
    
    values.append(revenue(target_subsample, probs_subsample))
values = pd.Series(values)

lower = values.quantile(0.99)

#Intervalo de confianza al 95% de los 200 pozos con mayores reservas de la Región 0

mean = values.mean()
lower = values.quantile(0.025)
upper = values.quantile(0.975)
print("Ingresos promedio:", mean)
print(lower)
print(upper)


Ingresos promedio: 33208260.431398515
33208260.43139851
33208260.43139851


- Podemos observar que tomando una muestra de 200 pozos mil veces obtenemos una ganancia de $39 960 488.77
- Hay un 95% de probabilidad que la media de los 200 pozos con mayoures reservas para la región 0 este entre 154.63 y 156.40


### Región 0

In [53]:
#Región 0

#Creación del dataframe que contiene los valores reales con los valores de predicción de la Región 0
data_0 = pd.DataFrame({'valor_real':target_valid_0.reset_index(drop=True),'valor_prediccion':pd.Series(predicted_valid_0)})

#Creación de la función
def revenue0(real_v, predicted_v):
    pred_sorted0 = predicted_v.sort_values(ascending=False).head(200)
    selected0 = real_v[pred_sorted0.index]
    return income_per_unit * selected0.sum() - cost_200_pozos

state = np.random.RandomState(12345)

#Bootstrapping con mil muestras
values0 = []
for i in range(1000):
    target_subsample0 = data_0['valor_real'].sample(n=500, replace=True, random_state=state)
    probs_subsample0 = data_0['valor_prediccion'][target_subsample0.index]
    
    values0.append(revenue0(target_subsample0, probs_subsample0))
    
values0 = pd.Series(values0)



#Intervalo de confianza al 95% de los 200 pozos con mayores reservas de la Región 0

mean0 = values0.mean()
lower0 = values0.quantile(0.025)
upper0 = values0.quantile(0.975)
print("Ingresos promedio región 0: $", round(mean0,2))
print()
print('Intervalo de Confianza al 95%')
print('Nivel inferior: $ ', round(lower0,2))
print('Nivel superior: $', round(upper0,2))
print()
#Nivel de riesgo 
r0 = []
for k in values0:
    if k < 0:
        r0.append(k)
        
risk0= len(r0)/len(values0)
print('Riesgo = ', round(risk0*100,2),'%')

Ingresos promedio región 0: $ 6007352.44

Intervalo de Confianza al 95%
Nivel inferior: $  129483.31
Nivel superior: $ 12311636.06

Riesgo =  2.0 %


- Podemos observar que la ganancia promedio para la región 0 es de $ 6 007 352.44 

- Hay un 95% de probabilidades que la ganancia promedio para la región 0 este entre  129 483.31 y  12 311 636.06 millones de dólares.

- El riesgo para esta región es del 2%

### Región 1

In [52]:
#Región 1

#Creación del dataframe que contiene los valores reales con los valores de predicción de la Región 0
data_1 = pd.DataFrame({'valor_real':target_valid_1.reset_index(drop=True),'valor_prediccion':pd.Series(predicted_valid_1)})

#Creación de la función
def revenue1(real_v, predicted_v):
    pred_sorted1 = predicted_v.sort_values(ascending=False).head(200)
    selected1 = real_v[pred_sorted1.index]
    return income_per_unit * selected1.sum() - cost_200_pozos

state = np.random.RandomState(12345)

#Bootstrapping con mil muestras
values1 = []
for i in range(1000):
    target_subsample1 = data_1['valor_real'].sample(n=500, replace=True, random_state=state)
    probs_subsample1 = data_1['valor_prediccion'][target_subsample1.index]
    
    values1.append(revenue1(target_subsample1, probs_subsample1))
    
values1 = pd.Series(values1)



#Intervalo de confianza al 95% de los 200 pozos con mayores reservas de la Región 1

mean1 = values1.mean()
lower1 = values1.quantile(0.025)
upper1 = values1.quantile(0.975)
print("Ingresos promedio región 1: $", round(mean1,2))
print()
print('Intervalo de Confianza al 95%')
print('Nivel inferior: $ ', round(lower1,2))
print('Nivel superior: $', round(upper1,2))
print()
#Nivel de riesgo 
r1 = []
for k in values1:
    if k < 0:
        r1.append(k)
        
risk1= len(r1)/len(values1)
print('Riesgo = ', round(risk1*100,2),'%')

Ingresos promedio región 1: $ 6652410.58

Intervalo de Confianza al 95%
Nivel inferior: $  1579884.81
Nivel superior: $ 11976415.87

Riesgo =  0.3 %


- Podemos observar que la ganancia promedio para la región 1 es de $ 6 652 410.58 

- Hay un 95% de probabilidades que la ganancia promedio para la región 0 este entre  1 579 884.81 y  11 976 415.87 millones de dólares.

- El riesgo para esta región es del 0.3%

### Región 2

In [54]:
#Región 2

#Creación del dataframe que contiene los valores reales con los valores de predicción de la Región 0
data_2 = pd.DataFrame({'valor_real':target_valid_2.reset_index(drop=True),'valor_prediccion':pd.Series(predicted_valid_2)})

#Creación de la función
def revenue2(real_v, predicted_v):
    pred_sorted2 = predicted_v.sort_values(ascending=False).head(200)
    selected2 = real_v[pred_sorted2.index]
    return income_per_unit * selected2.sum() - cost_200_pozos

state = np.random.RandomState(12345)

#Bootstrapping con mil muestras
values2 = []
for i in range(1000):
    target_subsample2 = data_2['valor_real'].sample(n=500, replace=True, random_state=state)
    probs_subsample2 = data_2['valor_prediccion'][target_subsample2.index]
    
    values2.append(revenue2(target_subsample2, probs_subsample2))
    
values2 = pd.Series(values2)



#Intervalo de confianza al 95% de los 200 pozos con mayores reservas de la Región 2

mean2 = values2.mean()
lower2 = values2.quantile(0.025)
upper2 = values2.quantile(0.975)
print("Ingresos promedio región 2: $", round(mean2,2))
print()
print('Intervalo de Confianza al 95%')
print('Nivel inferior: $ ', round(lower2,2))
print('Nivel superior: $', round(upper2,2))
print()
#Nivel de riesgo 
r2 = []
for k in values2:
    if k < 0:
        r2.append(k)
        
risk2= len(r2)/len(values2)
print('Riesgo = ', round(risk2*200,2),'%')

Ingresos promedio región 2: $ 6155597.23

Intervalo de Confianza al 95%
Nivel inferior: $  -122184.95
Nivel superior: $ 12306444.74

Riesgo =  6.0 %


- Podemos observar que la ganancia promedio para la región 2 es de $ 6 155 597.23 

- Hay un 95% de probabilidades que la ganancia promedio para la región 0 este entre  -122 184.95 y  12 306 444 millones de dólares.

- El riesgo para esta región es del 6%

## Conclusiones

- Podemos concluir que al utilizar diferentes métodos de estimación la región que sigue siendo más rentable entre las tres posibles es la Región 0, con una ganancia esperada de alrededor de 40 millones de dólares después de restar los costos conocidos. Esto se debe a que es la región que presenta los pozos con mayores reservas.

- A su vez se denota que ninguna de las 3 regiones presenta un riesgo de pérdida, ya que ninguno de los 200 pozos con las mayores reservas de cada una de esta presenta menos de 111100 barriles, todas están bastante por encima de este umbral.
