# Maximização de Lucros em Mineração de Petróleo: Uma Análise Baseada em Dados para Identificar Locais Estratégicos

Este é o projeto "Maximização de Lucros em Mineração de Petróleo", uma iniciativa pioneira da **OilyGiant**. O objetivo é revolucionar o processo de identificação e exploração de novos poços de petróleo, combinando análises de dados avançadas com modelos preditivos. Como membro da equipe de análise de dados, você desempenhará um papel chave na conversão de dados brutos em insights valiosos.

## Estrutura do Projeto

O projeto é dividido em quatro etapas principais:

### 1. Análise de Dados Existente

- Examinar dados de poços de petróleo existentes em três regiões.
- Avaliar a quantidade de petróleo e o volume de reservas.

### 2. Modelagem Preditiva

- Desenvolver um modelo para prever o volume de reservas em novos poços.
- Estimar a viabilidade e rentabilidade dos poços.

### 3. Seleção de Poços de Petróleo

- Identificar poços com os maiores volumes estimados de reservas.
- Priorizar poços com maior potencial de lucro.

### 4. Avaliação de Lucratividade Regional

- Escolher a região com o maior lucro total, considerando todos os poços selecionados.
- Utilizar a técnica de Bootstrapping para análise de lucro potencial e riscos.

## importação de bibliotecas 

Antes de embarcarmos em qualquer análise de dados, é crucial importar as bibliotecas certas para o ambiente de codificação. As bibliotecas contêm conjuntos de ferramentas e funções que nos permitem executar tarefas específicas, variando desde a manipulação de dados até a visualização e análise estatística. Ao importar bibliotecas apropriadas, estamos essencialmente equipando nosso ambiente com as ferramentas necessárias para conduzir a análise de maneira eficaz e eficiente. Em projetos de análise de dados, é comum usar bibliotecas como pandas para manipulação de dados, matplotlib e seaborn para visualização, e scikit-learn para modelagem, entre outras. A importação de bibliotecas é, portanto, um passo fundamental e preliminar que estabelece a base para as etapas subsequentes da análise.

In [1]:
import pandas as pd
import numpy as np
import matplotlib as plot
import statistics
import scipy.stats as stats
import datetime as dt
from scipy.stats import probplot
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats as st
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [2]:
try:
    data_0 = pd.read_csv('https://practicum-content.s3.us-west-1.amazonaws.com/datasets/geo_data_0.csv')
    data_1 = pd.read_csv('https://practicum-content.s3.us-west-1.amazonaws.com/datasets/geo_data_1.csv')
    data_2 = pd.read_csv('https://practicum-content.s3.us-west-1.amazonaws.com/datasets/geo_data_2.csv')
except:
    data_0 = pd.read_csv(r'C:\Users\Note\Desktop\projeto_9\geo_data_0.csv')
    data_1 = pd.read_csv(r'C:\Users\Note\Desktop\projeto_9\geo_data_1.csv')
    data_2 = pd.read_csv(r'C:\Users\Note\Desktop\projeto_9\geo_data_2.csv')  # armazenando o conjunto de dados 

## Observação de dados 

Agora é o momento de ter o nosso primeiro contato com os dados. Vamos identificar quais dados estão disponíveis, bem como possíveis problemas que possam estar presentes, como a ausência de informações, dados armazenados com o tipo incorreto, entre outros.

In [3]:
data_0.head()

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


In [4]:
data_1.head()

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


In [5]:
data_2.head()

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


id — identificador unívoco de poço de petróleo
f0, f1, f2 — três características de pontos (seu significado específico não é importante, mas as próprias características são significativas)
product — volume de reservas no poço de petróleo (milhares de barris).

## Estrutura dos Dados do Projeto

### Descrição das Colunas do Dataset

| ID     | Descrição                           |
|--------|-------------------------------------|
| `id`   | Identificador unívoco de poço de petróleo |
| `f0`   | Primeira característica significativa de um ponto |
| `f1`   | Segunda característica significativa de um ponto |
| `f2`   | Terceira característica significativa de um ponto |
| `product` | Volume de reservas no poço de petróleo (milhares de barris) |


In [6]:
data_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [7]:
data_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [8]:
data_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


## Características dos Dados do DataFrame

### Tipos de Dados

- **`id`**: Tipo `object`
  - Utilizado para strings ou identificadores únicos.
- **`f0`, `f1`, `f2`, `product`**: Tipo `float64`
  - Representam números reais com ponto flutuante.

### Ausência de Valores Nulos

- Todas as colunas possuem 100.000 entradas não nulas.
- Indica a completa ausência de valores ausentes no dataset.

### Padronização dos Nomes das Colunas

- Nomes de colunas padronizados para facilitar a referência e manuseio.
- Colunas de características nomeadas sequencialmente (`f0`, `f1`, `f2`).

### Conclusão

- Os dados estão bem estruturados e prontos para análise e modelagem, sem a necessidade de etapas adicionais de limpeza ou preparação.


In [9]:
data_0.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347


In [10]:
data_1.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408


In [11]:
data_2.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838


**Métricas Estatísticas Básicas:**
   - Através da análise de tendências centrais e de dispersão, como média e desvio padrão, obtemos uma compreensão mais profunda da distribuição e da variabilidade dos dados.

## Etapas de Análise e Modelagem

Este projeto envolverá várias etapas chave para construir e avaliar um modelo preditivo. As seguintes ações serão realizadas:

### 1. Divisão dos Dados

- Os dados serão divididos em dois conjuntos:
  - **Conjunto de Treinamento:** 75% dos dados.
  - **Conjunto de Validação:** 25% dos dados.
- Esta divisão permitirá treinar o modelo com uma grande quantidade de dados, mantendo uma parte substancial para avaliação independente.

### 2. Treinamento e Predição

- O modelo será treinado usando o conjunto de treinamento.
- Em seguida, serão feitas predições para o conjunto de validação.

### 3. Salvamento das Predições e Respostas Corretas

- As predições feitas pelo modelo, juntamente com as respostas corretas (valores reais), serão salvas para análise posterior.
- Esta etapa é crucial para comparar o desempenho do modelo com a realidade.

### 4. Avaliação do Modelo

- Será calculado o volume médio previsto de reservas pelo modelo.
- O Erro Quadrático Médio Raiz (REQM) será utilizado para quantificar o desempenho do modelo.
- Estes indicadores ajudarão a entender a precisão e a confiabilidade das previsões do modelo.

### 5. Análise dos Resultados

- Os resultados serão analisados para avaliar a eficácia do modelo.
- A análise incluirá a interpretação do volume médio previsto e do REQM, assim como qualquer insight relevante sobre o desempenho do modelo.

### Conclusão

- Essas etapas fornecerão uma compreensão abrangente da capacidade do modelo de prever com precisão o volume de reservas em novos poços de petróleo.
- A análise final ajudará a tomar decisões informadas sobre a viabilidade e o potencial lucrativo dos locais de mineração propostos.


In [12]:
def train_and_evaluate(datasets):
    models = {}
    predictions = {}
    avg_volumes = {}
    reqms = {}

    for name, data in datasets.items():
        features = data.drop(['product', 'id'], axis=1)
        target = data['product']

        features_train, features_valid, target_train, target_valid = train_test_split(
            features, target, test_size=0.25, random_state=12345)

        model = LinearRegression()
        model.fit(features_train, target_train)
        predicted_valid = model.predict(features_valid)

        avg_predicted_volume = np.mean(predicted_valid)
        print(f"{name}: Volume médio previsto de reservas: {avg_predicted_volume}")

        reqm = mean_squared_error(target_valid, predicted_valid, squared=False)
        print(f"{name}: REQM do modelo: {reqm}")

        models[name] = model
        predictions[name] = predicted_valid
        avg_volumes[name] = avg_predicted_volume
        reqms[name] = reqm

    return models, predictions, avg_volumes, reqms




In [13]:
datasets = {'geo_data_0': data_0, 'geo_data_1': data_1, 'geo_data_2': data_2}
models, predictions, avg_volumes, reqms = train_and_evaluate(datasets)


geo_data_0: Volume médio previsto de reservas: 92.59256778438035
geo_data_0: REQM do modelo: 37.5794217150813
geo_data_1: Volume médio previsto de reservas: 68.728546895446
geo_data_1: REQM do modelo: 0.893099286775617
geo_data_2: Volume médio previsto de reservas: 94.96504596800489
geo_data_2: REQM do modelo: 40.02970873393434


## Análise e Conclusões dos Resultados dos Modelos de Regressão Linear

Nós treinamos modelos de regressão linear em três conjuntos de dados diferentes (geo_data_0, geo_data_1, geo_data_2) para prever o volume de reservas de petróleo em diferentes regiões geológicas. Abaixo estão as análises e conclusões com base nos resultados obtidos:

### Resultados

- **Região geo_data_0**:
  - Volume médio previsto de reservas: **92.59** milhares de barris
  - REQM (Root Mean Squared Error) do modelo: **37.58**

- **Região geo_data_1**:
  - Volume médio previsto de reservas: **68.73** milhares de barris
  - REQM do modelo: **0.89**

- **Região geo_data_2**:
  - Volume médio previsto de reservas: **94.97** milhares de barris
  - REQM do modelo: **40.03**

### Análise

- **Volume Médio de Reservas**:
  - A região `geo_data_2` apresentou o maior volume médio previsto de reservas, seguida pela região `geo_data_0`. A região `geo_data_1` teve o menor volume médio previsto.
  - Esses valores indicam que, em média, os poços de petróleo nas regiões `geo_data_2` e `geo_data_0` podem ser mais produtivos do que aqueles na região `geo_data_1`.

- **REQM (Erro Quadrático Médio Raiz)**:
  - O modelo para a região `geo_data_1` apresentou um REQM significativamente mais baixo em comparação com os outros dois modelos. Isso sugere que o modelo para `geo_data_1` tem uma precisão muito maior nas suas previsões.
  - As regiões `geo_data_0` e `geo_data_2`, embora apresentem volumes médios de reservas maiores, têm uma maior variação nas previsões do modelo (indicado pelos valores mais altos de REQM).

### Conclusões

- A escolha da região ideal para exploração de petróleo depende de um equilíbrio entre o volume de reservas e a precisão do modelo.
- A região `geo_data_1`, apesar de ter um volume médio de reservas mais baixo, apresenta uma maior confiabilidade nas previsões (menor REQM), o que pode ser preferível para reduzir riscos na exploração.
- Por outro lado, as regiões `geo_data_0` e `geo_data_2` prometem volumes maiores, mas com maior incerteza nas previsões.
- Uma avaliação adicional de fatores como custos de exploração e riscos associados pode ser necessária para uma decisão final mais informada.


In [14]:
total_cost_invest = 100000000
num_pit = 200
pit_revenue = 4500
min_profit = 111.1

In [15]:
def calculate_profit(preds, num_pit, pit_revenue_per_unit, total_cost_invest):
    top_pits = np.sort(preds)[-num_pit:]
    total_revenue = top_pits.sum() * pit_revenue_per_unit
    profit = total_revenue - total_cost_invest
    return profit

profits = {}
for region, preds in predictions.items():
    profits[region] = calculate_profit(preds, num_pit, pit_revenue
                    , total_cost_invest)

In [16]:
def bootstrap_profit_analysis(predictions, n_iterations, num_pit, pit_revenue, total_cost_invest):
    profits_bootstrap = {region: [] for region in predictions}

    for _ in range(n_iterations):
        for region, preds in predictions.items():
            sampled_preds = np.random.choice(preds, size=len(preds), replace=True)
            profit = calculate_profit(sampled_preds, num_pit, pit_revenue, total_cost_invest)
            profits_bootstrap[region].append(profit)

    analysis_results = {}
    for region, profits in profits_bootstrap.items():
        profits = np.array(profits)
        mean_profit = np.mean(profits)
        confidence_interval = np.percentile(profits, [2.5, 97.5])
        risk_of_loss = np.mean(profits < 0) * 100  # Risk as a percentage

        analysis_results[region] = {
            "mean_profit": mean_profit,
            "confidence_interval": confidence_interval,
            "risk_of_loss": risk_of_loss
        }

    return analysis_results
analysis_results = bootstrap_profit_analysis(predictions, 1000, num_pit, pit_revenue, total_cost_invest)
for region, result in analysis_results.items():
    print(f"Região: {region}")
    print(f"Lucro médio: {result['mean_profit']}")
    print(f"Intervalo de confiança: {result['confidence_interval']}")
    print(f"Risco de prejuízo: {result['risk_of_loss']}%\n")

Região: geo_data_0
Lucro médio: 39952128.93403224
Intervalo de confiança: [38768734.41900249 41223356.79197794]
Risco de prejuízo: 0.0%

Região: geo_data_1
Lucro médio: 24855055.84500065
Intervalo de confiança: [24805990.75186306 24904811.63552998]
Risco de prejuízo: 0.0%

Região: geo_data_2
Lucro médio: 33206976.31405101
Intervalo de confiança: [32300466.50659681 34232805.05962819]
Risco de prejuízo: 0.0%



### Análise das Regiões: geo_data_0, geo_data_1, e geo_data_2

#### 1. Lucro Médio
- **Região geo_data_0**
  - Lucro Médio: `39.95 milhões`
- **Região geo_data_1**
  - Lucro Médio: `24.86 milhões`
- **Região geo_data_2**
  - Lucro Médio: `33.19 milhões`

#### 2. Intervalo de Confiança
- **Região geo_data_0**
  - Intervalo: `38.79 milhões - 41.16 milhões`
- **Região geo_data_1**
  - Intervalo: `24.80 milhões - 24.91 milhões`
- **Região geo_data_2**
  - Intervalo: `32.25 milhões - 34.20 milhões`

#### 3. Risco de Prejuízo
- **Todas as Regiões**
  - Risco de Prejuízo: `0.0%`

#### Conclusão
- A região **geo_data_0** é a mais lucrativa, seguida por **geo_data_2** e **geo_data_1**.
- Apesar de **geo_data_1** ter o menor lucro médio, apresenta alta consistência nos retornos (intervalo de confiança estreito).
- A escolha da região para investimento deve considerar também outros fatores como custos operacionais e logística.
