# Baixe e prepare os dados.

In [1]:
# importando bibliotecas
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np

In [2]:
# neste trecho de código, uma lista de tuplas chamada "arquivos" é criada. Cada tupla contém o caminho do arquivo local e o caminho do arquivo da practicum.
arquivos = [('Downloads/geo_data_0.csv', '/datasets/geo_data_0.csv'),
            ('Downloads/geo_data_1.csv', '/datasets/geo_data_1.csv'),
            ('Downloads/geo_data_2.csv', '/datasets/geo_data_2.csv')]

# aqui, uma lista vazia chamada "df_list" é criada para armazenar os três conjuntos de dados depois de serem lidos.
# o próximo passo é iterar sobre a lista de tuplas "arquivos", abrindo cada arquivo CSV e armazenando-o como um DataFrame.
# se houver um erro ao abrir o arquivo local, o código tentará abrir o arquivo da practicum.
# cada DataFrame é adicionado à lista "df_list".
df_list = []
for local, dataset in arquivos:
    try:
        df = pd.read_csv(local)
    except:
        df = pd.read_csv(dataset)

    df_list.append(df)

# por fim, os três conjuntos de dados são atribuídos às variáveis df1, df2 e df3.
df0, df1, df2 = df_list

In [3]:
# verificando DataFrame
print(df0.head())
print()
print(df0.info())
print('Número de duplicatas:', df0.duplicated().sum())

      id        f0        f1        f2     product
0  txEyH  0.705745 -0.497823  1.221170  105.280062
1  2acmU  1.334711 -0.340164  4.365080   73.037750
2  409Wp  1.022732  0.151990  1.419926   85.265647
3  iJLyR -0.032172  0.139033  2.978566  168.620776
4  Xdl7t  1.988431  0.155413  4.751769  154.036647

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None
Número de duplicatas: 0


In [4]:
# verificando DataFrame
print(df1.head())
print()
print(df1.info())
print('Número de duplicatas:', df1.duplicated().sum())

      id         f0         f1        f2     product
0  kBEdx -15.001348  -8.276000 -0.005876    3.179103
1  62mP7  14.272088  -3.475083  0.999183   26.953261
2  vyE1P   6.263187  -5.948386  5.001160  134.766305
3  KcrkZ -13.081196 -11.506057  4.999415  137.945408
4  AHL4O  12.702195  -8.147433  5.004363  134.766305

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None
Número de duplicatas: 0


In [5]:
# verificando DataFrame
print(df2.head())
print()
print(df2.info())
print('Número de duplicatas:', df2.duplicated().sum())

      id        f0        f1        f2     product
0  fwXo0 -1.146987  0.963328 -0.828965   27.758673
1  WJtFt  0.262778  0.269839 -2.530187   56.069697
2  ovLUW  0.194587  0.289035 -5.586433   62.871910
3  q6cA6  2.236060 -0.553760  0.930038  114.572842
4  WPMUX -0.515993  1.716266  5.899011  149.600746

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None
Número de duplicatas: 0


# Treine e teste o modelo para cada região

In [6]:
# função para modelo de Regressão Linear
def linear_regression(df):

    # separando conjunto de caracteristicas do alvo
    features = df.drop(['id', 'product'], axis=1)
    target = df['product']

    # dividir os dados em treinamento e validação
    features_train, features_valid, target_train, target_valid = train_test_split(
        features, target, test_size=0.25, random_state=12345)

    # criação de um modelo de Regressão Linear
    model_linear_regression = LinearRegression()

    # treinamento do modelo utilizando o conjunto de dados de treinamento
    model_linear_regression.fit(features_train, target_train)

    # realização de predições no conjunto de dados de validação
    valid_predicted = model_linear_regression.predict(features_valid)

    # realizando calculo do REQM
    result = mean_squared_error(target_valid, valid_predicted)**0.5

    # retorna as variaveis result, valid_predicted, target_valid
    return result, valid_predicted, target_valid

In [7]:
# aplicando função salvando nas variaveis rmse0, predict0, target_valid0
rmse0, predict0, target_valid0 = linear_regression(df0)

# imprindo a váriavel rmse0 e imprimindo a média da váriavel predict0
print(f'Local 0\nRmse: {rmse0}\nMédia da predição: {predict0.mean()}')

Local 0
Rmse: 37.5794217150813
Média da predição: 92.59256778438035


In [8]:
# aplicando função salvando nas variaveis rmse1, predict1, target_valid1
rmse1, predict1, target_valid1 = linear_regression(df1)

# imprindo a váriavel reqm1 e imprimindo a média da váriavel predict1
print(f'Local 1\nRmse: {rmse1}\nMédia da predição: {predict1.mean()}')

Local 1
Rmse: 0.893099286775617
Média da predição: 68.728546895446


In [9]:
# aplicando função salvando nas variaveis rmse2, predict2, target_valid2
rmse2, predict2, target_valid2 = linear_regression(df2)

# imprindo a váriavel rmse1 e imprimindo a média da váriavel predict1
print(f'Local 2\nRmse: {rmse2}\nMédia da predição: {predict2.mean()}')

Local 2
Rmse: 40.02970873393434
Média da predição: 94.96504596800489


**Analise dos resultados**

Podemos observar que os valores de RMSE variam de acordo com o local. O local 1 apresenta o menor RMSE (0.893), indicando que o modelo teve um bom desempenho na previsão das reservas nesse local. Já o local 0 apresenta um RMSE intermediário (37.579), enquanto o local 2 apresenta o maior RMSE (40.029), indicando que o modelo teve um desempenho inferior na previsão das reservas nesses locais.

Além disso, a média da predição também varia de acordo com o local, sendo a maior média no local 2 e a menor no local 1. Isso pode indicar que o modelo tem mais dificuldade em prever reservas em locais onde há mais variação nos dados.

# Prepare-se para o cálculo de lucro

- Analisar 500 pontos e pegar os 200 melhores pontos para calcular o lucro.
- O orçamento para os 200 melhores poços de petróleo é 100 milhões de dólares.
-  A receita de uma unidade de produto é 4.500 dólares.

O custo de desenvolvimento de um único poço pode ser calculado dividindo o orçamento total pelo número de poços.
A receita de uma unidade de produto é de 4.500 dólares americanos, portanto, para determinar o volume de petróleo necessário para recuperar o custo de desenvolvimento de um novo poço, podemos dividir o custo do poço pela receita por volume.

In [10]:
# 500 pontos
qtd_points = 500

# 200 melhores pontos
qtd_best_points = 200

# oraçamento de 100 milhões de dólares
budget = 100000000

# uma unidade do produto é 4.500 dólares
unit_revanue = 4500

# custo dividido para os 200 melhores pontos
cost = budget / qtd_best_points

# minimo de volume para cada poço
min_volume = cost / unit_revanue

min_volume

111.11111111111111

Isso significa que para recuperar o custo do desenvolvimento de um novo poço, precisamos produzir pelo menos 111,11 barris de petróleo desse poço. Se produzirmos menos do que essa quantidade, não geraremos receita suficiente para cobrir o custo de desenvolvimento do poço e teremos prejuízos.

**Obs:** Pela média das predições até o momento já podemos concluir que o investimento vai causar prejuizo.

In [11]:
# Comparando o valor recebido com o valor médio de reservas em cada região
print(
    f'Média de volume da região 0: {df0["product"].mean()}\nMédia de volume da região 1: {df1["product"].mean()}\nMédia de volume da região 2: {df2["product"].mean()}\nValor mínimo de volume: {min_volume}'
)

Média de volume da região 0: 92.50000000000001
Média de volume da região 1: 68.82500000000002
Média de volume da região 2: 95.00000000000004
Valor mínimo de volume: 111.11111111111111


Podemos ver que todas as regiões não tem o volume médio necessário para recuperar o custo do desenvolvimento de um novo poço.

# Escreva uma função para calcular lucro de um conjunto de poços de petróleo selecionados e predições do modelo

In [12]:
# a função 'revenue' calcula a receita gerada pelos melhores poços de petróleo selecionados
def revenue(target, predict):

    # transforma o array-like predict em um pandas Series para executar o sort_values
    predict = pd.Series(predict)

    # define um índice de referência no DataFrame target para que possa ser alinhado com o predict
    target = target.reset_index(drop=True)

    # classifica em ordem decrescente a série 'predict', ou seja, os valores mais altos aparecem primeiro.
    predict_sorted = predict.sort_values(ascending=False)

    # seleciona os 200 melhores poços da lista de alvo
    select = target[predict_sorted.index][:qtd_best_points]

    # calcula a receita gerada pela exploração dos 200 melhores poços, subtraindo os custos do desenvolvimento desses poços
    return (select.sum() * unit_revanue) - (cost * qtd_best_points)

**Explicando a formula:** *(select.sum() * unit_revenue) - (cost * qtd_best_points)*

**select.sum():** Somamos o valor de produção de cada poço selecionado na lista "select". Esses poços foram escolhidos com base nas maiores probabilidades previstas pelo modelo. O resultado dessa soma é o valor total de produção dos poços selecionados.

**unit_revenue:** É o valor de receita gerado por unidade de produto, ou seja, nesse caso, por barril de petróleo produzido.

Multiplicamos o valor total de produção (resultado da soma de select.sum()) pelo valor de receita por unidade de produto (unit_revenue). Isso nos dá a receita total gerada pelos poços selecionados.

**cost:** É o custo de desenvolvimento de um único poço de petróleo, que foi calculado como o orçamento total (budget) dividido pelo número de poços selecionados (qtd_best_points).

Multiplicamos o custo de desenvolvimento de um único poço (cost) pelo número de poços selecionados (qtd_best_points). Isso nos dá o custo total de desenvolvimento dos poços.

Subtraímos o custo total de desenvolvimento dos poços (resultado da multiplicação de cost por qtd_best_points) da receita total gerada pelos poços selecionados (resultado da multiplicação de select.sum() por unit_revenue). 

**O resultado dessa subtração é o lucro gerado pelos poços selecionados, ou seja calcula o lucro líquido estimado.**

# Calcule riscos e lucro para cada região:

In [13]:
# definindo a função 'boot_revenue'
def boot_revenue(target, predictions):

    # resetando o índice da tabela target para evitar conflitos com o índice de predictions
    target = target.reset_index(drop=True)

    # definindo um estado aleatório para gerar subconjuntos de dados aleatórios
    state = np.random.RandomState(12345)

    # criando uma lista vazia para armazenar os valores de receita
    values = []

    # executando a função 'revenue' para 1000 subconjuntos aleatórios
    for i in range(1000):

        # selecionando aleatoriamente 'qtd_points' amostras com substituição da tabela target
        target_subsample = target.sample(n=qtd_points,
                                         replace=True,
                                         random_state=state)

        # selecionando os predictions correspondentes às amostras selecionadas acima
        predictions_subsample = predictions[target_subsample.index]

        # calculando a receita para as 'qtd_best_points' amostras com as maiores probabilidades
        revenue_value = revenue(target_subsample, predictions_subsample)

        # adicionando o valor de receita à lista 'values'
        values.append(revenue_value)

    # retorna a lista 'values' como um objeto pd.Series
    return pd.Series(values)

In [14]:
# usando a função para calcular a receita para cada um dos 3 conjuntos de validação usando a função 'boot_revenue' e armazenando os resultados em variáveis diferentes
revanue0 = boot_revenue(target_valid0, predict0)
revanue1 = boot_revenue(target_valid1, predict1)
revanue2 = boot_revenue(target_valid2, predict2)

In [15]:
# esta função retorna os valores dos quantis 2.5% e 97.5% de uma lista de receitas.
def quantile(revenues):
    return np.quantile(revenues, [0.025, 0.975])


# esta função retorna a proporção de receitas negativas em uma lista de receitas.
def risk(revenues):
    return np.mean(revenues < 0)

In [16]:
# usando a função quantile para calcular o intervalo de confiança dos 3 revanues
confidence_interval0 = quantile(revanue0)
confidence_interval1 = quantile(revanue1)
confidence_interval2 = quantile(revanue2)

# usando a função risk para calcular o risco de prejuizo dos 3 revanues
risk_of_harm0 = risk(revanue0)
risk_of_harm1 = risk(revanue1)
risk_of_harm2 = risk(revanue2)

In [17]:
# Lista de dados de cada local
local_data = [
    {
        'name': 'Local 0',
        'revanue': revanue0,
        'confidence_interval': confidence_interval0,
        'risk_of_harm': risk_of_harm0
    },
    {
        'name': 'Local 1',
        'revanue': revanue1,
        'confidence_interval': confidence_interval1,
        'risk_of_harm': risk_of_harm1
    },
    {
        'name': 'Local 2',
        'revanue': revanue2,
        'confidence_interval': confidence_interval2,
        'risk_of_harm': risk_of_harm2
    },
]

# Loop para imprimir os resultados de cada local
for data in local_data:
    print(f'{data["name"]}')
    print(f'Lucro médio: {data["revanue"].mean()}')
    print(f'Intervalo de confiança de 95%: {data["confidence_interval"]}')
    print(f'Risco de prejuízo: {data["risk_of_harm"]}\n')

Local 0
Lucro médio: 3961649.8480237117
Intervalo de confiança de 95%: [-1112155.45890496  9097669.41553423]
Risco de prejuízo: 0.069

Local 1
Lucro médio: 4560451.057866608
Intervalo de confiança de 95%: [ 338205.09398985 8522894.53866035]
Risco de prejuízo: 0.015

Local 2
Lucro médio: 4044038.665683568
Intervalo de confiança de 95%: [-1633504.133956  9503595.749238]
Risco de prejuízo: 0.076



**Conclusão**

Podemos observar que o Local 1 é o mais promissor para o desenvolvimento de novos poços de petróleo. Ele apresenta o lucro médio mais alto e o menor risco de prejuízo, com apenas 1,5% de chance de obter uma receita negativa. Além disso, o intervalo de confiança de 95% é relativamente estreito, indicando uma maior confiabilidade nos resultados.

Já os Locais 0 e 2 apresentam riscos de prejuízo relativamente altos, de 6,9% e 7,6%, respectivamente. Além disso, o intervalo de confiança de 95% é mais amplo, o que pode indicar uma maior incerteza nos resultados.

Outro ponto a ser considerado é que para recuperar o custo do desenvolvimento de um novo poço, precisamos produzir pelo menos 111,11 barris de petróleo desse poço. Portanto, é importante avaliar a quantidade de petróleo que pode ser extraída em cada local, além de considerar outros fatores como o acesso, as condições geográficas e ambientais, a disponibilidade de mão de obra, entre outros.

Por fim, é importante ressaltar que o modelo utilizado para calcular os lucros e riscos pode ter limitações, uma vez que apenas a regressão linear foi utilizada para o treinamento. 