Projeto de Desenvolvimento de Novos Po√ßos de Petr√≥leo

No contexto da ind√∫stria petrol√≠fera, a tomada de decis√£o estrat√©gica sobre o desenvolvimento de novos po√ßos de petr√≥leo √© crucial para o sucesso e a sustentabilidade das opera√ß√µes. Este projeto se concentra em abordar esse desafio, fornecendo uma estrutura metodol√≥gica baseada em aprendizado de m√°quina para identificar as regi√µes mais promissoras para explora√ß√£o. Utilizando dados geol√≥gicos sint√©ticos de tr√™s regi√µes distintas, o objetivo √© desenvolver modelos de regress√£o linear capazes de prever o volume de reservas em novos po√ßos de petr√≥leo. Al√©m disso, o projeto incorpora an√°lises de lucro e riscos, empregando t√©cnicas como bootstrapping para avaliar os potenciais retornos e as incertezas associadas a cada regi√£o. Ao final, espera-se oferecer insights valiosos para orientar decis√µes estrat√©gicas na sele√ß√£o das melhores √°reas para investimento e desenvolvimento de po√ßos de petr√≥leo.

1  Importando as bibliotecas e as bases de dados

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np

In [None]:
data0 = pd.read_csv('/datasets/geo_data_0.csv')
data1 = pd.read_csv('/datasets/geo_data_1.csv')
data2 = pd.read_csv('/datasets/geo_data_2.csv')

2  Prepara√ß√£o dos dados

In [None]:
data0.info()
print()
print()
data1.info()
print()
print()
data2.info()

In [None]:
print(data0.sample(5))
print()
print()
print(data1.sample(5))
print()
print()
print(data2.sample(5))

Os tr√™s dataframes n√£o possuem valores ausentes. Seus valores e tipos de dados correspondem ao que se espera. A vari√°vel id corresponde ao identificador un√≠voco de cada po√ßo de petr√≥leo, como uma vari√°vel no formato string e as demais vari√°veis que representam as caracter√≠sticas e capacidade de cada po√ßo como float.

3  Treinamento e teste do modelo

In [None]:
def train_and_test_model(data):
    # Dividindo os dados em caracter√≠sticas (X) e r√≥tulos (y)
    X = data[['f0', 'f1', 'f2']]
    y = data['product']

    # Dividindo os dados em conjunto de treinamento e conjunto de valida√ß√£o
    X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.25, random_state=42)

    # Treinando o modelo de regress√£o linear
    model = LinearRegression()
    model.fit(X_train, y_train)

    # Fazendo as predi√ß√µes no conjunto de valida√ß√£o
    y_pred = model.predict(X_val)

    # Calculando o REQM (Erro Quadr√°tico M√©dio)
    rmse = mean_squared_error(y_val, y_pred, squared=False)

    # Calculando o volume m√©dio previsto de reservas
    mean_predicted_volume = y_pred.mean()

    return mean_predicted_volume, rmse

In [None]:
# Para data0
mean_predicted_volume_0, rmse_0 = train_and_test_model(data0)
print("Para data0:")
print("Volume m√©dio previsto de reservas:", mean_predicted_volume_0)
print("REQM do modelo:", rmse_0)
print()

In [None]:
# Para data1
mean_predicted_volume_1, rmse_1 = train_and_test_model(data1)
print("Para data1:")
print("Volume m√©dio previsto de reservas:", mean_predicted_volume_1)
print("REQM do modelo:", rmse_1)
print()

In [None]:
# Para data2
mean_predicted_volume_2, rmse_2 = train_and_test_model(data2)
print("Para data2:")
print("Volume m√©dio previsto de reservas:", mean_predicted_volume_2)
print("REQM do modelo:", rmse_2)

Os resultados da an√°lise do desempenho dos modelos de regress√£o linear para as tr√™s regi√µes revelam varia√ß√µes significativas. No caso da regi√£o representada por data1, observa-se um volume m√©dio previsto de reservas relativamente baixo, mas com um REQM m√≠nimo, indicando uma precis√£o consider√°vel do modelo. Em contrapartida, as regi√µes representadas pelos conjuntos de dados data0 e data2 apresentam volumes m√©dios previstos de reservas mais elevados, por√©m, com valores de REQM maiores, sugerindo que os modelos possam ter dificuldades em capturar a variabilidade dos dados nesses casos.

4  C√°lculo do lucro

In [None]:
# Selecionando os top 200 po√ßos de cada regi√£o
top_wells_data0 = data0.nlargest(200, 'product')
top_wells_data1 = data1.nlargest(200, 'product')
top_wells_data2 = data2.nlargest(200, 'product')

# Calculando o lucro projetado para cada regi√£o
profit_data0 = (top_wells_data0['product'].sum() * 4500) - (100000000)
profit_data1 = (top_wells_data1['product'].sum() * 4500) - (100000000)
profit_data2 = (top_wells_data2['product'].sum() * 4500) - (100000000)

# Imprimindo os resultados
print("Lucro projetado para data0:", profit_data0)
print("Lucro projetado para data1:", profit_data1)
print("Lucro projetado para data2:", profit_data2)

Os resultados indicam que o lucro projetado para a Regi√£o 0 √© de aproximadamente  66.35ùëöùëñùëô‚Ñé√µùëíùë†,ùëùùëéùëüùëéùëéùëÖùëíùëîùëñ√£ùëú1√©ùëëùëíùëêùëíùëüùëêùëéùëëùëí
 24.15 milh√µes, e para a Regi√£o 2 √© de aproximadamente $70.60 milh√µes. Esses valores representam o potencial de lucro ap√≥s considerar os custos de desenvolvimento de 200 po√ßos de petr√≥leo em cada regi√£o.

5  Fun√ß√£o para Calcular o Lucro

In [None]:
# Definindo os modelos de regress√£o linear para cada regi√£o
model0 = LinearRegression()
model1 = LinearRegression()
model2 = LinearRegression()

# Treinando os modelos com os dados de cada regi√£o
model0.fit(data0[['f0', 'f1', 'f2']], data0['product'])
model1.fit(data1[['f0', 'f1', 'f2']], data1['product'])
model2.fit(data2[['f0', 'f1', 'f2']], data2['product'])

# Fun√ß√£o para calcular o lucro potencial de cada regi√£o
def calculate_region_profit(region_name, data, model):
    # Fazendo predi√ß√µes para todos os po√ßos na regi√£o
    X = data[['f0', 'f1', 'f2']]
    y_pred = model.predict(X)
    
    # Adicionando as predi√ß√µes como uma coluna ao dataframe original
    data[region_name + '_predicted_product'] = y_pred
    
    # Ordenando os po√ßos pela predi√ß√£o de volume de reservas
    data_sorted = data.sort_values(by=region_name + '_predicted_product', ascending=False)
    
    # Selecionando os 200 melhores po√ßos
    top_200_wells = data_sorted.head(200)
    
    # Calculando o volume total de reservas dos 200 melhores po√ßos
    total_volume = top_200_wells[region_name + '_predicted_product'].sum()
    
    # Calculando o lucro total dos 200 melhores po√ßos
    total_profit = total_volume * 4500
    
    # Verificando se o lucro total √© suficiente para cobrir o investimento
    if total_profit >= 100000000:  # Or√ßamento de 100 milh√µes para 200 po√ßos
        return total_profit, top_200_wells
    else:
        return 0, None

# Chamando a fun√ß√£o calculate_region_profit para cada regi√£o
profit_0, top_wells_0 = calculate_region_profit('data0', data0, model0)
profit_1, top_wells_1 = calculate_region_profit('data1', data1, model1)
profit_2, top_wells_2 = calculate_region_profit('data2', data2, model2)

# Exibindo os resultados
print("Lucro potencial para data0:", profit_0)
print("Lucro potencial para data1:", profit_1)
print("Lucro potencial para data2:", profit_2)


Os resultados mostram que a regi√£o data0 possui o maior lucro potencial, seguida pela regi√£o data2 e, por √∫ltimo, a regi√£o data1. Isso sugere que a aloca√ß√£o de recursos para o desenvolvimento de po√ßos de petr√≥leo deve ser priorizada em data0, seguida por data2, de acordo com os modelos de regress√£o linear treinados para cada regi√£o.

6  C√°lculo de Riscos e Lucro para Cada Regi√£o

In [None]:
# Custo de implanta√ß√£o para 200 po√ßos de petr√≥leo (em milh√µes de d√≥lares)
budget_per_well = 100000000

# Definindo e treinando os modelos para cada regi√£o
model_0 = LinearRegression().fit(data0[['f0', 'f1', 'f2']], data0['product'])
model_1 = LinearRegression().fit(data1[['f0', 'f1', 'f2']], data1['product'])
model_2 = LinearRegression().fit(data2[['f0', 'f1', 'f2']], data2['product'])

# Fun√ß√£o para calcular o lucro projetado para cada regi√£o
def calculate_region_profit(data, model, budget_per_well):
    # Fazendo predi√ß√µes para todos os po√ßos na regi√£o
    X = data[['f0', 'f1', 'f2']]
    y_pred = model.predict(X)
    data['predicted_product'] = y_pred
    
    # Ordenando os po√ßos pela predi√ß√£o de volume de reservas
    data_sorted = data.sort_values(by='predicted_product', ascending=False)
    
    # Selecionando os top 200 po√ßos
    top_200_wells = data_sorted.head(200)
    
    # Calculando o volume total de reservas dos top 200 po√ßos
    total_volume = top_200_wells['predicted_product'].sum()
    
    # Calculando o lucro total dos top 200 po√ßos
    total_profit = (total_volume * 4500) - budget_per_well
    
    return total_profit

# Fun√ß√£o para realizar bootstrapping e calcular m√©tricas
def bootstrap_and_calculate_metrics(data, model, budget_per_well, n_samples=1000):
    profits = []
    for _ in range(n_samples):
        sampled_data = data.sample(n=500, replace=True)
        profit = calculate_region_profit(sampled_data, model, budget_per_well)
        profits.append(profit)
    
    mean_profit = np.mean(profits)
    ci_lower = np.percentile(profits, 2.5)
    ci_upper = np.percentile(profits, 97.5)
    loss_risk = np.mean(np.array(profits) < 0) * 100
    
    return mean_profit, ci_lower, ci_upper, loss_risk

# Calculando os lucros e m√©tricas para cada regi√£o usando bootstrapping
metrics_0 = bootstrap_and_calculate_metrics(data0, model_0, budget_per_well)
metrics_1 = bootstrap_and_calculate_metrics(data1, model_1, budget_per_well)
metrics_2 = bootstrap_and_calculate_metrics(data2, model_2, budget_per_well)

# Apresentando os resultados para cada regi√£o
print("Regi√£o 0:")
print("Lucro m√©dio:", metrics_0[0])
print("Intervalo de confian√ßa de 95%:", (metrics_0[1], metrics_0[2]))
print("Risco de preju√≠zo (%):", metrics_0[3])
print()

print("Regi√£o 1:")
print("Lucro m√©dio:", metrics_1[0])
print("Intervalo de confian√ßa de 95%:", (metrics_1[1], metrics_1[2]))
print("Risco de preju√≠zo (%):", metrics_1[3])
print()

print("Regi√£o 2:")
print("Lucro m√©dio:", metrics_2[0])
print("Intervalo de confian√ßa de 95%:", (metrics_2[1], metrics_2[2]))
print("Risco de preju√≠zo (%):", metrics_2[3])


Na regi√£o 0, o lucro m√©dio foi de aproximadamente 3.57 milh√µes de d√≥lares, com um intervalo de confian√ßa de 95% entre 1.31 e 5.72 milh√µes de d√≥lares, e um risco de preju√≠zo de 0.1%. J√° na regi√£o 1, o lucro m√©dio foi um pouco maior, cerca de 4.46 milh√µes de d√≥lares, com um intervalo de confian√ßa entre 0.42 e 8.56 milh√µes de d√≥lares e um risco de preju√≠zo de 1.5%. Por fim, na regi√£o 2, o lucro m√©dio foi de aproximadamente 2.89 milh√µes de d√≥lares, com um intervalo de confian√ßa entre 1.06 e 4.83 milh√µes de d√≥lares e um risco de preju√≠zo de 0.2%.

7  Conclus√µes

Com base nos novos resultados obtidos com a t√©cnica de bootstrap, podemos observar algumas diferen√ßas significativas em rela√ß√£o aos resultados anteriores. Utilizar o bootstrap nos permitiu calcular com mais precis√£o o lucro m√©dio esperado, bem como entender melhor o intervalo de confian√ßa e o risco de preju√≠zo associado a cada regi√£o.

Dessa forma, com base nos novos resultados, podemos concluir que a regi√£o 1 apresenta o maior lucro m√©dio projetado, embora tamb√©m tenha o maior risco de preju√≠zo. J√° as regi√µes 0 e 2 t√™m lucros m√©dios menores, por√©m com riscos de preju√≠zo mais baixos. A escolha da regi√£o mais indicada para o desenvolvimento de po√ßos de petr√≥leo depender√° da toler√¢ncia ao risco e das metas de lucro da empresa.