## Imports

In [1]:
# Imports
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.linear_model import Ridge, Lasso
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

## Carregando os dados

In [2]:
df1 = pd.read_csv('/datasets/geo_data_0.csv')
df1

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.221170,105.280062
1,2acmU,1.334711,-0.340164,4.365080,73.037750
2,409Wp,1.022732,0.151990,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647
...,...,...,...,...,...
99995,DLsed,0.971957,0.370953,6.075346,110.744026
99996,QKivN,1.392429,-0.382606,1.273912,122.346843
99997,3rnvd,1.029585,0.018787,-1.348308,64.375443
99998,7kl59,0.998163,-0.528582,1.583869,74.040764


In [3]:
df2 = pd.read_csv('/datasets/geo_data_1.csv')
df2

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276000,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.001160,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305
...,...,...,...,...,...
99995,QywKC,9.535637,-6.878139,1.998296,53.906522
99996,ptvty,-10.160631,-12.558096,5.005581,137.945408
99997,09gWa,-7.378891,-3.084104,4.998651,137.945408
99998,rqwUm,0.665714,-6.152593,1.000146,30.132364


In [4]:
df3 = pd.read_csv('/datasets/geo_data_2.csv')
df3

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.871910
3,q6cA6,2.236060,-0.553760,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746
...,...,...,...,...,...
99995,4GxBu,-1.777037,1.125220,6.263374,172.327046
99996,YKFjq,-1.261523,-0.894828,2.524545,138.748846
99997,tKPY3,-1.199934,-2.957637,5.219411,157.080080
99998,nmxp2,-2.419896,2.417221,-5.548444,51.795253


## Separação entre treino e teste (de forma manual)

In [5]:
X = df1[['f0', 'f1', 'f2']]
y = df1['product']

In [6]:
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.25, random_state=6)

In [7]:
model = LinearRegression()
model.fit(X_train, y_train)


LinearRegression()

In [8]:
y_pred = model.predict(X_valid)


In [9]:
average_predicted_volume = y_pred.mean()
rmse = np.sqrt(mean_squared_error(y_valid, y_pred))


In [10]:
print("Volume Médio Previsto de Reservas:", average_predicted_volume)
print("REQM do Modelo:", rmse)


Volume Médio Previsto de Reservas: 92.46866515483404
REQM do Modelo: 37.50092951247967


## Função para realização da seperação e treino do modelo para cada DF

In [11]:
# Função para treinar e testar o modelo
def train_and_test_model(data_file):
    
    data = pd.read_csv(data_file)
    X = data[['f0', 'f1', 'f2']]
    y = data['product']
    
    X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.25, random_state=42)
    
    model = LinearRegression()
    model.fit(X_train, y_train)
    
    y_pred = model.predict(X_valid)
    
    average_predicted_volume = y_pred.mean()
    rmse = np.sqrt(mean_squared_error(y_valid, y_pred))
    r2 = r2_score(y_valid, y_pred)
    mae = mean_absolute_error(y_valid, y_pred)
    
    return  average_predicted_volume, rmse, r2, mae

# Função para executar os passos 2.1 a 2.5 em diferentes regiões
def process_region(region_file):
    print("Processando região:", region_file)
    avg_volume, rmse, r2, mae = train_and_test_model(region_file)
    print("Volume Médio Previsto de Reservas:", avg_volume)
    print("REQM do Modelo:", rmse)
    print("Coeficiente de Determinação (R²):", r2)
    print("Erro Médio Absoluto (MAE):", mae)
    print("\n" * 2)  # Adiciona duas linhas em branco após cada região


# Executar para geo_data_0.csv, geo_data_1.csv e geo_data_2.csv
process_region('/datasets/geo_data_0.csv')
process_region('/datasets/geo_data_1.csv')
process_region('/datasets/geo_data_2.csv')

Processando região: /datasets/geo_data_0.csv
Volume Médio Previsto de Reservas: 92.3987999065777
REQM do Modelo: 37.756600350261685
Coeficiente de Determinação (R²): 0.2728287328173472
Erro Médio Absoluto (MAE): 31.047681538788183



Processando região: /datasets/geo_data_1.csv
Volume Médio Previsto de Reservas: 68.71287803913762
REQM do Modelo: 0.890280100102884
Coeficiente de Determinação (R²): 0.9996245232002449
Erro Médio Absoluto (MAE): 0.7170119535682553



Processando região: /datasets/geo_data_2.csv
Volume Médio Previsto de Reservas: 94.77102387765939
REQM do Modelo: 40.14587231134218
Coeficiente de Determinação (R²): 0.19634705977280464
Erro Médio Absoluto (MAE): 32.896958610578054





**Observações**

Região geo_data_0.csv: O modelo tem um REQM relativamente alto, o que indica que as previsões podem não estar tão próximas dos valores reais. Além disso, o coeficiente de determinação (R²) está mais baixo, sugerindo que as variações nos dados de entrada não explicam bem as variações nos valores de saída. O MAE também está relativamente alto.

Região geo_data_1.csv: O modelo tem um REQM muito baixo, indicando previsões muito precisas. O R² está próximo de 1, o que sugere que o modelo está se ajustando muito bem aos dados. O MAE também está muito baixo, o que é uma boa indicação.

Região geo_data_2.csv: Os resultados são semelhantes à região geo_data_0.csv, com um REQM relativamente alto e um R² mais baixo. O MAE também está relativamente alto.

## Preparação e Calculo do Lucro

In [12]:
# Valores necessários para cálculos
budget = 100_000_000  # Orçamento para 200 poços de petróleo
revenue_per_unit = 4.5 * 1000  # Receita por unidade de produto (em milhares de barris)
min_units_to_avoid_loss = 500_000 / revenue_per_unit  # Mínimo de unidades para evitar prejuízos

In [13]:
for region_file in ['/datasets/geo_data_0.csv', '/datasets/geo_data_1.csv', '/datasets/geo_data_2.csv']:
    data = pd.read_csv(region_file)
    y_pred = model.predict(data[['f0', 'f1', 'f2']])
    avg_predicted_volume = y_pred.mean()
    
    print(f"Região: {region_file}")
    print(f"Volume Médio Previsto de Reservas: {avg_predicted_volume:.2f}")
    
    if avg_predicted_volume >= min_units_to_avoid_loss:
        print("Esta região atende ao requisito mínimo para evitar prejuízos.")
    else:
        print("Esta região NÃO atende ao requisito mínimo para evitar prejuízos.")
    
    print("\n" * 2)  # Adiciona duas linhas em branco após cada região


Região: /datasets/geo_data_0.csv
Volume Médio Previsto de Reservas: 92.47
Esta região NÃO atende ao requisito mínimo para evitar prejuízos.



Região: /datasets/geo_data_1.csv
Volume Médio Previsto de Reservas: 166.69
Esta região atende ao requisito mínimo para evitar prejuízos.



Região: /datasets/geo_data_2.csv
Volume Médio Previsto de Reservas: 94.15
Esta região NÃO atende ao requisito mínimo para evitar prejuízos.





In [14]:
# Função para treinar e testar o modelo
def train_and_test_model(data_file):
    data = pd.read_csv(data_file)
    X = data[['f0', 'f1', 'f2']]
    y = data['product']
    
    X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.25, random_state=42)
    
    model = LinearRegression()
    model.fit(X_train, y_train)
    
    y_pred = model.predict(X_valid)
    
    return y_pred

# Função para calcular lucro potencial dos poços selecionados
def calculate_profit(selected_wells, predictions):
    total_volume = np.sum(predictions[selected_wells])
    total_revenue = total_volume * revenue_per_unit
    total_cost = budget
    total_profit = total_revenue - total_cost
    return total_profit

# Função para selecionar os melhores poços e calcular lucro potencial
def select_and_calculate_profit(y_pred):
    selected_wells = np.argsort(-y_pred)[:200]
    profit = calculate_profit(selected_wells, y_pred)
    return selected_wells, profit

# Criação do modelo
model = LinearRegression()

# Valores necessários para cálculos
budget = 100_000_000  # Orçamento para 200 poços de petróleo
revenue_per_unit = 4.5 * 1000  # Receita por unidade de produto (em milhares de barris)
min_units_to_avoid_loss = 500_000 / revenue_per_unit  # Mínimo de unidades para evitar prejuízos

# Processar cada região e calcular previsões
y_pred_0 = train_and_test_model('/datasets/geo_data_0.csv')
y_pred_1 = train_and_test_model('/datasets/geo_data_1.csv')
y_pred_2 = train_and_test_model('/datasets/geo_data_2.csv')

# Selecionar melhores poços e calcular lucro potencial para cada região
selected_wells_geo_0, profit_geo_0 = select_and_calculate_profit(y_pred_0)
selected_wells_geo_1, profit_geo_1 = select_and_calculate_profit(y_pred_1)
selected_wells_geo_2, profit_geo_2 = select_and_calculate_profit(y_pred_2)

# Apresentar conclusões sobre a etapa de cálculo de lucro
print("Lucro Potencial por Região:")
print("Região geo_data_0.csv:", profit_geo_0)
print("Região geo_data_1.csv:", profit_geo_1)
print("Região geo_data_2.csv:", profit_geo_2)

# Escolher a região com o maior lucro potencial
max_profit = max(profit_geo_0, profit_geo_1, profit_geo_2)
if max_profit == profit_geo_0:
    selected_region = "geo_data_0.csv"
elif max_profit == profit_geo_1:
    selected_region = "geo_data_1.csv"
else:
    selected_region = "geo_data_2.csv"

print("\nRegião selecionada para o desenvolvimento de poços de petróleo:", selected_region)

Lucro Potencial por Região:
Região geo_data_0.csv: 38966584.79666147
Região geo_data_1.csv: 24869381.149990782
Região geo_data_2.csv: 33779815.1371495

Região selecionada para o desenvolvimento de poços de petróleo: geo_data_0.csv


**Lucro Potencial por Região:**

Região geo_data_0.csv: $38,966,584.80

Região geo_data_1.csv: $24,869,381.15

Região geo_data_2.csv: $33,779,815.14

Esses valores representam o lucro potencial estimado para cada região, com base na seleção dos 200 melhores poços de petróleo de acordo com as previsões do modelo.

**Região selecionada para o desenvolvimento de poços de petróleo:**

A região selecionada é geo_data_0.csv

A região escolhida para o desenvolvimento de poços de petróleo é a geo_data_0.csv, uma vez que ela apresentou o maior lucro potencial entre as três regiões analisadas.

Portanto, com base nos cálculos realizados, a região geo_data_0.csv é a mais promissora para o desenvolvimento de poços de petróleo, pois oferece o maior lucro potencial entre as opções disponíveis.

### Bootstrapping para encontrar a distribuição de lucros

In [15]:
def perform_bootstrapping(y_pred, y_valid, num_samples=1000):
    profits = []
    num_samples = min(num_samples, len(y_pred))  # Garante que o número de amostras não exceda o tamanho do conjunto de validação
    for _ in range(num_samples):
        sampled_indices = np.random.choice(len(y_valid), size=len(y_valid), replace=True)
        sampled_profit = calculate_profit(sampled_indices, y_pred)  # Use y_pred em vez de y_valid
        profits.append(sampled_profit)
    
    mean_profit = np.mean(profits)
    confidence_interval = np.percentile(profits, [2.5, 97.5])
    
    return mean_profit, confidence_interval

# Processar cada região e calcular previsões
y_pred_0 = train_and_test_model('/datasets/geo_data_0.csv')
y_pred_1 = train_and_test_model('/datasets/geo_data_1.csv')
y_pred_2 = train_and_test_model('/datasets/geo_data_2.csv')

# Realizar bootstrapping e calcular lucro médio e intervalo de confiança para cada região
mean_profit_geo_0, ci_geo_0 = perform_bootstrapping(y_pred_0, y_pred_0)  # Usar y_pred_0 para y_valid_0
mean_profit_geo_1, ci_geo_1 = perform_bootstrapping(y_pred_1, y_pred_1)  # Usar y_pred_1 para y_valid_1
mean_profit_geo_2, ci_geo_2 = perform_bootstrapping(y_pred_2, y_pred_2)  # Usar y_pred_2 para y_valid_2

# Calcular risco de prejuízo (lucro negativo) para cada região
risk_geo_0 = np.mean(np.array(y_pred_0) < 0) * 100
risk_geo_1 = np.mean(np.array(y_pred_1) < 0) * 100
risk_geo_2 = np.mean(np.array(y_pred_2) < 0) * 100

# Apresentar resultados do bootstrapping e riscos
print("Resultados do Bootstrapping e Riscos:")
print("Região geo_data_0.csv:")
print("Lucro Médio:", mean_profit_geo_0)
print("Intervalo de Confiança (95%):", ci_geo_0)
print("Risco de Prejuízo (%):", risk_geo_0)
print("\nRegião geo_data_1.csv:")
print("Lucro Médio:", mean_profit_geo_1)
print("Intervalo de Confiança (95%):", ci_geo_1)
print("Risco de Prejuízo (%):", risk_geo_1)
print("\nRegião geo_data_2.csv:")
print("Lucro Médio:", mean_profit_geo_2)
print("Intervalo de Confiança (95%):", ci_geo_2)
print("Risco de Prejuízo (%):", risk_geo_2)


Resultados do Bootstrapping e Riscos:
Região geo_data_0.csv:
Lucro Médio: 10295649458.398464
Intervalo de Confiança (95%): [1.02624784e+10 1.03298065e+10]
Risco de Prejuízo (%): 0.004

Região geo_data_1.csv:
Lucro Médio: 7629988385.588967
Intervalo de Confiança (95%): [7.56671575e+09 7.69943142e+09]
Risco de Prejuízo (%): 2.1999999999999997

Região geo_data_2.csv:
Lucro Médio: 10561330988.599785
Intervalo de Confiança (95%): [1.05342378e+10 1.05883337e+10]
Risco de Prejuízo (%): 0.0


**Resultados**

O resultado do bootstrapping indica que para todas as três regiões (geo_data_0.csv, geo_data_1.csv e geo_data_2.csv), o lucro médio potencial é alto e o risco de prejuízo é de 0%, o que é uma situação favorável.

Com base nos resultados apresentados:

*Região geo_data_0.csv:*

Lucro Médio: 10.294.164.247
Intervalo de Confiança (95%): [1.026.077.380.000, 1.032.448.210.000]
Risco de Prejuízo (%): 0.0%


*Região geo_data_1.csv:*

Lucro Médio: 7.628.443.214
Intervalo de Confiança (95%): [7.564.270.600.000, 7.692.958.310.000]
Risco de Prejuízo (%): 0.0%


*Região geo_data_2.csv:*

Lucro Médio: 10.562.257.970
Intervalo de Confiança (95%): [1.053.164.550.000, 1.058.961.650.000]
Risco de Prejuízo (%): 0.0%


As três regiões parecem ser favoráveis em termos de lucro potencial e risco, com médias de lucro altas e nenhum risco de prejuízo detectado. Portanto, com base nas análises de lucro médio e risco, todas as três regiões podem ser consideradas como boas opções para o desenvolvimento de poços de petróleo.

In [16]:
# Calcular risco de prejuízo (lucro negativo) para cada região
risk_geo_0 = np.mean(np.array(profit_geo_0) < 0) * 100
risk_geo_1 = np.mean(np.array(profit_geo_1) < 0) * 100
risk_geo_2 = np.mean(np.array(profit_geo_2) < 0) * 100

# Filtrar regiões com risco de prejuízo inferior a 2.5%
selected_regions = []
if risk_geo_0 < 2.5:
    selected_regions.append(('geo_data_0.csv', mean_profit_geo_0, risk_geo_0))
if risk_geo_1 < 2.5:
    selected_regions.append(('geo_data_1.csv', mean_profit_geo_1, risk_geo_1))
if risk_geo_2 < 2.5:
    selected_regions.append(('geo_data_2.csv', mean_profit_geo_2, risk_geo_2))

# Selecione a região com o lucro médio mais alto dentre aquelas que atendem ao critério de risco
best_region = max(selected_regions, key=lambda x: x[1])

# Apresentar resultados das regiões selecionadas
print("\nRegiões selecionadas para o desenvolvimento de poços de petróleo:")
for region, mean_profit, risk in selected_regions:
    print(f"Região {region}:")
    print("Lucro Médio:", mean_profit)
    print("Risco de Prejuízo (%):", risk)
    print()

print("Região selecionada para o desenvolvimento de poços de petróleo:", best_region[0])


Regiões selecionadas para o desenvolvimento de poços de petróleo:
Região geo_data_0.csv:
Lucro Médio: 10295649458.398464
Risco de Prejuízo (%): 0.0

Região geo_data_1.csv:
Lucro Médio: 7629988385.588967
Risco de Prejuízo (%): 0.0

Região geo_data_2.csv:
Lucro Médio: 10561330988.599785
Risco de Prejuízo (%): 0.0

Região selecionada para o desenvolvimento de poços de petróleo: geo_data_2.csv
