# Mineração OilyGiant Data

## Carregando os Dados 


In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler

In [20]:
# Função para carregar e preparar os dados

# Caminhos dos arquivos CSV
file_paths = [
    '/datasets/geo_data_0.csv',
    '/datasets/geo_data_1.csv', 
    '/datasets/geo_data_2.csv'
]

# Leitura dos arquivos em uma lista de DataFrames
dfs = [pd.read_csv(path) for path in file_paths]

# Nomeando os DataFrames por região
regions = ["Região 0", "Região 1", "Região 2"]
data = dict(zip(regions, dfs))

# Exibir as 5 primeiras linhas de cada DataFrame
head_samples = {region: df.head() for region, df in data.items()}

# Checar se há valores ausentes por coluna
missing_values = {region: df.isnull().sum() for region, df in data.items()}

# Visualização dos dados e valores ausentes (já feito em output anterior)
head_samples, missing_values


({'Região 0':       id        f0        f1        f2     product
  0  txEyH  0.705745 -0.497823  1.221170  105.280062
  1  2acmU  1.334711 -0.340164  4.365080   73.037750
  2  409Wp  1.022732  0.151990  1.419926   85.265647
  3  iJLyR -0.032172  0.139033  2.978566  168.620776
  4  Xdl7t  1.988431  0.155413  4.751769  154.036647,
  'Região 1':       id         f0         f1        f2     product
  0  kBEdx -15.001348  -8.276000 -0.005876    3.179103
  1  62mP7  14.272088  -3.475083  0.999183   26.953261
  2  vyE1P   6.263187  -5.948386  5.001160  134.766305
  3  KcrkZ -13.081196 -11.506057  4.999415  137.945408
  4  AHL4O  12.702195  -8.147433  5.004363  134.766305,
  'Região 2':       id        f0        f1        f2     product
  0  fwXo0 -1.146987  0.963328 -0.828965   27.758673
  1  WJtFt  0.262778  0.269839 -2.530187   56.069697
  2  ovLUW  0.194587  0.289035 -5.586433   62.871910
  3  q6cA6  2.236060 -0.553760  0.930038  114.572842
  4  WPMUX -0.515993  1.716266  5.899011  149.600

Dados Limpos , Nenhum valor ausente foi encontrado em nenhuma das regiões.

## Treinamento e Teste de Modelo 'Regiao 0"

In [28]:
# Função para treinar e avaliar o modelo de regressão linear em uma região
def train_and_evaluate_model(df):
    # Separar features (f0, f1, f2) e target (product)
    features = df.drop(columns=['id', 'product'])
    target = df['product']

    # Dividir os dados em treino (75%) e validação (25%)
    X_train, X_valid, y_train, y_valid = train_test_split(
        features, target, test_size=0.25, random_state=42
    )

    # Treinar modelo de regressão linear
    model = LinearRegression()
    model.fit(X_train, y_train)

    # Fazer predições
    predictions = model.predict(X_valid)

    # Calcular volume médio previsto e erro quadrático médio (REQM)
    predicted_mean = predictions.mean()
    rmse = mean_squared_error(y_valid, predictions, squared=False)

    return model, predictions, y_valid, predicted_mean, rmse

# Aplicando na Região 0
df_region_0 = data["Região 0"]
model_0, preds_0, valid_0, mean_0, rmse_0 = train_and_evaluate_model(df_region_0)

print("📌 Volume médio previsto de reservas (mil barris):", mean_0)
print("📉 Erro Quadrático Médio (REQM):", rmse_0)

📌 Volume médio previsto de reservas (mil barris): 92.3987999065777
📉 Erro Quadrático Médio (REQM): 37.756600350261685


Resumo da Região 0

* Modelo treinado: Regressão Linear

* Volume médio previsto de reservas: 92,4 mil barris

* Erro Quadrático Médio (REQM): 37,8 mil barris

Interpretação
    
* O modelo prevê que, em média, cada poço de petróleo na Região 0 terá cerca de 92 mil barris de reservas.

* O REQM indica que as predições do modelo têm uma variação média de ±37,8 mil barris em relação aos valores reais,
o que mostra um certo grau de incerteza, mas ainda é um ponto de partida útil.

## Treinamento e Teste de Modelo 'Regiao - 1"

In [29]:

# Função para treinar e avaliar o modelo de regressão linear em uma região
def train_and_evaluate_model(df):
    # Separar features (f0, f1, f2) e target (product)
    features = df.drop(columns=['id', 'product'])
    target = df['product']

    # Dividir os dados em treino (75%) e validação (25%)
    X_train, X_valid, y_train, y_valid = train_test_split(
        features, target, test_size=0.25, random_state=42
    )

    # Treinar modelo de regressão linear
    model = LinearRegression()
    model.fit(X_train, y_train)

    # Fazer predições
    predictions = model.predict(X_valid)

    # Calcular volume médio previsto e erro quadrático médio (REQM)
    predicted_mean = predictions.mean()
    rmse = mean_squared_error(y_valid, predictions, squared=False)

    return model, predictions, y_valid, predicted_mean, rmse



df_region_1 = data["Região 1"]

# Aplicando a função

model_1, preds_1, valid_1, mean_1, rmse_1 = train_and_evaluate_model(df_region_1)

# Exibindo os resultados
print("📌 Volume médio previsto de reservas (mil barris):", round(mean_1, 2))
print("📉 Erro Quadrático Médio (REQM):", round(rmse_1, 2))


📌 Volume médio previsto de reservas (mil barris): 68.71
📉 Erro Quadrático Médio (REQM): 0.89


Resumo da Região 1

* Modelo usado: Regressão Linear

* Volume médio previsto de reservas: 68,71 mil barris

* Erro Quadrático Médio (REQM): 0,89 mil barris



Interpretação:
* O modelo fez boas previsões, com um erro bem baixo (0,89). Isso indica que as estimativas estão muito próximas dos valores reais.

* No entanto, o volume médio previsto (68,71 mil barris) está bem abaixo do mínimo necessário de 111,1 mil barris por poço para garantir lucro.

* Mesmo que o modelo seja mais preciso que na Região 0, o potencial de lucro da Região 1 parece menor, a não ser que os 200 melhores poços se destaquem.

## Treinamento e Teste de Modelo 'Regiao - 2 "

In [31]:

# Função para treinar e avaliar o modelo de regressão linear em uma região
def train_and_evaluate_model(df):
    # Separar features (f0, f1, f2) e target (product)
    features = df.drop(columns=['id', 'product'])
    target = df['product']

    # Dividir os dados em treino (75%) e validação (25%)
    X_train, X_valid, y_train, y_valid = train_test_split(
        features, target, test_size=0.25, random_state=42
    )

    # Treinar modelo de regressão linear
    model = LinearRegression()
    model.fit(X_train, y_train)

    # Fazer predições
    predictions = model.predict(X_valid)

    # Calcular volume médio previsto e erro quadrático médio (REQM)
    predicted_mean = predictions.mean()
    rmse = mean_squared_error(y_valid, predictions, squared=False)

    return model, predictions, y_valid, predicted_mean, rmse



df_region_2 = data["Região 2"]

# Aplicando a função

model_2, preds_2, valid_2, mean_2, rmse_2 = train_and_evaluate_model(df_region_2)

# Exibindo os resultados
print("📌 Volume médio previsto de reservas (mil barris):", round(mean_2, 2))
print("📉 Erro Quadrático Médio (REQM):", round(rmse_2, 2))

📌 Volume médio previsto de reservas (mil barris): 94.77
📉 Erro Quadrático Médio (REQM): 40.15


Resumo da Região 1
Modelo usado: Regressão Linear

Volume médio previsto de reservas: 94,77 mil barris

Erro Quadrático Médio (REQM): 40,15 mil barris

Interpretacao:
    
* O Erro Quadrático Médio (REQM) foi de 40,15, indicando a magnitude média dos erros nas previsões. 
Isso sugere que o modelo tem uma precisão razoável, 
mas o volume médio previsto está abaixo do mínimo necessário (111,1 mil barris) para evitar prejuízo, 
o que exige uma análise mais detalhada de lucro e risco.

##  Parâmetros do negócio 

In [36]:
# Parâmetros do negócio

WELLS_TO_DEVELOP = 200
BUDGET = 100_000_000  # 100 milhões de dólares
REVENUE_PER_UNIT = 4500  # Receita por unidade (milhares de barris)
BREAK_EVEN_VOLUME = BUDGET / (WELLS_TO_DEVELOP * REVENUE_PER_UNIT)  # Volume mínimo para evitar prejuízo

# Preparação para o Cálculo de Lucro

print("\n=== Preparação para o Cálculo de Lucro ===")
print(f"Orçamento para {WELLS_TO_DEVELOP} poços: ${BUDGET:,}")
print(f"Receita por unidade (milhares de barris): ${REVENUE_PER_UNIT:,}")
print(f"Volume mínimo para evitar prejuízo: {BREAK_EVEN_VOLUME:.1f} milhares de barris")


=== Preparação para o Cálculo de Lucro ===
Orçamento para 200 poços: $100,000,000
Receita por unidade (milhares de barris): $4,500
Volume mínimo para evitar prejuízo: 111.1 milhares de barris


In [33]:
# Comparar o volume médio previsto com o volume mínimo
region_means = {
    "Região 0": mean_0,
    "Região 1": mean_1,
    "Região 2": mean_2
}

for region, mean_volume in region_means.items():
    print(f"\nRegião {region}:")
    print(f"Volume médio previsto: {mean_volume:.2f} milhares de barris")
    if mean_volume < BREAK_EVEN_VOLUME:
        print("Volume médio é inferior ao necessário para evitar prejuízo.")
    else:
        print("Volume médio é suficiente para evitar prejuízo.")


Região Região 0:
Volume médio previsto: 92.40 milhares de barris
Volume médio é inferior ao necessário para evitar prejuízo.

Região Região 1:
Volume médio previsto: 68.71 milhares de barris
Volume médio é inferior ao necessário para evitar prejuízo.

Região Região 2:
Volume médio previsto: 94.77 milhares de barris
Volume médio é inferior ao necessário para evitar prejuízo.


Resumo da Etapa 5: Preparação para o Cálculo de Lucro

* Parâmetros: Orçamento de $100 milhões para 200 poços, receita de  4.500 por mil barris, volume mínimo para evitar prejuízo de 111,1 mil barris.

* Região 0: Volume médio previsto de 92,40 mil barris – inferior ao mínimo necessário.

* Região 1: Volume médio previsto de 68,71 mil barris – inferior ao mínimo necessário.

* Região 2: Volume médio previsto de 94,77 mil barris – inferior ao mínimo necessário.

* Conclusão: Nenhuma região atinge o volume médio necessário para evitar prejuízo, indicando a necessidade de focar nos 200 melhores poços e analisar riscos.

##  Etapa 6: Função para Calcular o Lucro Potencial

In [37]:
# Etapa 6: Função para Calcular o Lucro Potencial
def calculate_profit(predictions, target, wells_to_develop, revenue_per_unit, budget):
    # Criar DataFrame com predições e valores reais
    results = pd.DataFrame({'prediction': predictions, 'target': target}).reset_index(drop=True)
    
    # Selecionar os 200 poços com maiores valores previstos
    top_wells = results.sort_values(by='prediction', ascending=False).head(wells_to_develop)
    
    # Somar o volume alvo (valores reais) dos 200 poços selecionados
    total_volume = top_wells['target'].sum()
    
    # Calcular o lucro: receita - custo
    revenue = total_volume * revenue_per_unit
    profit = revenue - budget
    
    return profit, top_wells

# Calcular o lucro potencial para cada região
print("\n=== Cálculo do Lucro Potencial dos 200 Melhores Poços ===")
profits = {}
top_wells_dict = {}

for region, preds, valid in zip(regions, [preds_0, preds_1, preds_2], [valid_0, valid_1, valid_2]):
    profit, top_wells = calculate_profit(preds, valid, WELLS_TO_DEVELOP, REVENUE_PER_UNIT, BUDGET)
    profits[region] = profit
    top_wells_dict[region] = top_wells
    print(f"Região {region}: Lucro potencial = ${profit:,.2f}")


=== Cálculo do Lucro Potencial dos 200 Melhores Poços ===
Região Região 0: Lucro potencial = $33,591,411.14
Região Região 1: Lucro potencial = $24,150,866.97
Região Região 2: Lucro potencial = $25,985,717.59


In [35]:
# Escolher a região com maior lucro potencial

best_region_potential = max(profits.items(), key=lambda x: x[1])
print(f"\nRegião sugerida com base no lucro potencial: {best_region_potential[0]}")
print(f"Lucro potencial: ${best_region_potential[1]:,.2f}")


Região sugerida com base no lucro potencial: Região 0
Lucro potencial: $33,591,411.14


Resumo da Etapa 6: Cálculo do Lucro Potencial dos 200 Melhores Poços

Lucro Potencial:
* Região 0: $33,591,411.14
* Região 1: $24,150,866.97
* Região 2: $25,985,717.59


* Região Sugerida: Região 0, com o maior lucro potencial de $33,59 milhões.

* Conclusão: A Região 0 destaca-se como a mais lucrativa com base nos 200 melhores poços, mas a análise de risco ainda é necessária para confirmar a viabilidade.

## Calcular Riscos e Lucro com Bootstrapping

In [46]:
# Calcular Riscos e Lucro com Bootstrapping
def bootstrap_profit(predictions, target, wells_to_develop, revenue_per_unit, budget, n_samples=1000):
    state = np.random.RandomState(12345)
    profits = []
    
    # Criar DataFrame com predições e valores reais
    results = pd.DataFrame({'prediction': predictions, 'target': target}).reset_index(drop=True)
    
    # Bootstrapping com 1000 amostras
    for _ in range(n_samples):
        # Amostrar 500 pontos com reposição
        subsample = results.sample(n=500, replace=True, random_state=state)
        
        # Calcular o lucro para os 200 melhores poços da subamostra
        profit, _ = calculate_profit(subsample['prediction'], subsample['target'], wells_to_develop, revenue_per_unit, budget)
        profits.append(profit)
    
    profits = pd.Series(profits)
    
    # Calcular métricas
    mean_profit = profits.mean()
    confidence_interval = (profits.quantile(0.025), profits.quantile(0.975))
    risk_of_loss = (profits < 0).mean() * 100  # Risco de prejuízo em porcentagem
    
    return mean_profit, confidence_interval, risk_of_loss  # Corrigido 'risk_of_los' para 'risk_of_loss'

# Calcular lucro e risco para cada região
print("\n=== Análise de Riscos e Lucro com Bootstrapping ===")
region_metrics = {}

for region, preds, valid in zip(regions, [preds_0, preds_1, preds_2], [valid_0, valid_1, valid_2]):
    mean_profit, confidence_interval, risk_of_loss = bootstrap_profit(
        preds, valid, WELLS_TO_DEVELOP, REVENUE_PER_UNIT, BUDGET
    )
    region_metrics[region] = {
        'mean_profit': mean_profit,
        'confidence_interval': confidence_interval,
        'risk_of_loss': risk_of_loss
    }
    
    print(f"\nRegião {region}:")
    print(f"Lucro médio: ${mean_profit:,.2f}")
    print(f"Intervalo de confiança de 95%: (${confidence_interval[0]:,.2f}, ${confidence_interval[1]:,.2f})")
    print(f"Risco de prejuízo: {risk_of_loss:.2f}%")


=== Etapa 7: Análise de Riscos e Lucro com Bootstrapping ===

Região Região 0:
Lucro médio: $4,062,787.83
Intervalo de confiança de 95%: ($-1,177,421.36, $9,117,370.51)
Risco de prejuízo: 6.70%

Região Região 1:
Lucro médio: $4,326,241.32
Intervalo de confiança de 95%: ($168,461.75, $8,159,725.26)
Risco de prejuízo: 1.90%

Região Região 2:
Lucro médio: $3,773,621.92
Intervalo de confiança de 95%: ($-1,707,804.18, $9,017,721.31)
Risco de prejuízo: 7.40%


In [47]:
# Selecionar regiões com risco de prejuízo < 2.5% e maior lucro médio
eligible_regions = {
    region: metrics for region, metrics in region_metrics.items()
    if metrics['risk_of_loss'] < 2.5
}

if eligible_regions:
    best_region = max(eligible_regions.items(), key=lambda x: x[1]['mean_profit'])
    print(f"\nRegião sugerida com base no lucro médio e risco < 2.5%: {best_region[0]}")
    print(f"Lucro médio: ${best_region[1]['mean_profit']:,.2f}")
    print(f"Risco de prejuízo: {best_region[1]['risk_of_loss']:.2f}%")
else:
    print("\nNenhuma região atende ao critério de risco de prejuízo < 2.5%.")


Região sugerida com base no lucro médio e risco < 2.5%: Região 1
Lucro médio: $4,326,241.32
Risco de prejuízo: 1.90%


Resumo da Etapa 7: Análise de Riscos e Lucro com Bootstrapping

* Região 0: Lucro médio de $4,06 milhões, intervalo de confiança de 95% ($-1,18M, $9,12M), risco de prejuízo de 6,70%.
* Região 1: Lucro médio de $4,33 milhões, intervalo de confiança de 95% ($0,17M, $8,16M), risco de prejuízo de 1,90%.
* Região 2: Lucro médio de $3,77 milhões, intervalo de confiança de 95% ($-1,71M, $9,02M), risco de prejuízo de 7,40%.
* Região Sugerida: Região 1, com lucro médio de $4,33 milhões e risco de prejuízo de 1,90% (atende ao critério de risco < 2,5%).
* Conclusão: A Região 1 é a melhor escolha, equilibrando maior lucro médio e menor risco de prejuízo.

# Conclusão: OilyGiant

Foram analisadas três regiões para o desenvolvimento de novos poços de petróleo, utilizando regressão linear para prever o volume de reservas e a técnica de Bootstrapping para avaliar lucros e riscos. Os principais pontos são:

* Modelagem: O modelo de regressão linear apresentou volumes médios previstos de 92,40 (Região 0), 68,71 (Região 1) e 94,77 (Região 2) mil barris, todos abaixo do mínimo de 111,1 mil barris para evitar prejuízo. O REQM foi mais baixo na Região 1 (0,89), indicando maior precisão.

* Lucro Potencial: A Região 0 destacou-se com o maior lucro potencial ($33,59 milhões) para os 200 melhores poços, seguida pela Região 2 ($25,99 milhões) e Região 1 ($24,15 milhões).
* Análise de Risco: Com Bootstrapping, a Região 1 foi a única com risco de prejuízo < 2,5% (1,90%), apresentando lucro médio de $4,33 milhões e intervalo de confiança de 95% ($0,17M, $8,16M). As Regiões 0 e 2 tiveram riscos de 6,70% e 7,40%, respectivamente.

* Região Escolhida: A Região 1 é recomendada, pois atende ao critério de risco (< 2,5%) e oferece o maior lucro médio entre as elegíveis ($4,33 milhões). Apesar de a Região 0 ter maior lucro potencial, seu risco elevado a torna menos viável.

 Recomendação Final: Desenvolver poços na Região 1, equilibrando lucratividade e segurança financeira.


