# Projeto de Análise Exploratória 

Esse projeto vai utilizar com dataset a base de dados dos poços ativos, oferecida pela ANP (Agência Nacional de Petróleo) de 2018.

Essa base de dados pode ser encontrada no Kaggle no seguinte link: 

https://www.kaggle.com/dtommasini/oil-gas-wells-brazil



In [100]:
# Carregando as bibliotecas
import numpy as np 
import pandas as pd 
import seaborn as sns
import cufflinks as cf
import matplotlib.pyplot as plt
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot
import plotly.offline as py
import plotly.graph_objs as go
%matplotlib inline
init_notebook_mode(connected=True)
cf.go_offline()

In [101]:
# Carregando a base de dados
Anp_dataset=pd.read_excel('datasets/tabela_de_pocos_janeiro_2018.xlsx')
# Exibindo os primeiros 5 itens do data set 
Anp_dataset.head(5)

Unnamed: 0,POCO,CADASTRO,OPERADOR,POCO_OPERADOR,ESTADO,BACIA,BLOCO,SIG_CAMPO,CAMPO,TERRA_MAR,...,TABELA_TEMPO_PROFUNDIDADE,DADOS_DIRECIONAIS,TESTE_A_CABO,TESTE_DE_FORMACAO,CANHONEIO,TESTEMUNHO,GEOQUIMICA,SIG_SONDA,NOM_SONDA,DHA_ATUALIZACAO
0,7-RO-123HP-RJS,74281026087,Petrobras,7RO123HPRJS,RJ,Campos,,RO,RONCADOR,M,...,,Existe,Existe,,,,,SS-49,SEDCO 707,2018-01-28 05:00:06
1,1-BP-7-RJS,74281026107,BP Energy,ANU,RJ,Campos,C-M-473,,,M,...,,Existe,Existe,,,,,DS4,Deep Ocean Clarion,2018-01-28 05:00:06
2,7-ARGO-4H-ESS,34281026170,Shell Brasil,7ARGO4HESS,ES,Campos,,ARGO,ARGONAUTA,M,...,,Existe,,,,,,NB2,Bully 2,2018-01-28 05:00:06
3,7-ARGO-5H-ESS,34281026180,Shell Brasil,7ARGO5HESS,ES,Campos,,ARGO,ARGONAUTA,M,...,,Existe,,,,,,NB2,Bully 2,2018-01-28 05:00:06
4,8-ARGO-6H-ESS,34281026210,Shell Brasil,8ARGO6HESS,ES,Campos,,ARGO,ARGONAUTA,M,...,,Existe,,,,,,NB2,Bully 2,2018-01-28 05:00:06


In [102]:
# Analisando as informações de cada variavel do Dataset
Anp_dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29575 entries, 0 to 29574
Data columns (total 59 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   POCO                        29575 non-null  object        
 1   CADASTRO                    29575 non-null  int64         
 2   OPERADOR                    26643 non-null  object        
 3   POCO_OPERADOR               28870 non-null  object        
 4   ESTADO                      29575 non-null  object        
 5   BACIA                       29575 non-null  object        
 6   BLOCO                       26254 non-null  object        
 7   SIG_CAMPO                   24954 non-null  object        
 8   CAMPO                       24954 non-null  object        
 9   TERRA_MAR                   29575 non-null  object        
 10  POCO_POS_ANP                29575 non-null  object        
 11  TIPO                        29575 non-null  object    

Nessa base de dados, temos muitos dados Técnicos e por isso vou selecionar apenas algumas das colunas.

In [103]:
Anp_dataset=Anp_dataset[['POCO','BACIA','CAMPO','ESTADO','OPERADOR','TERRA_MAR','SITUACAO','TIPO','CATEGORIA','LAMINA_D_AGUA_M']]
Anp_dataset.head()

Unnamed: 0,POCO,BACIA,CAMPO,ESTADO,OPERADOR,TERRA_MAR,SITUACAO,TIPO,CATEGORIA,LAMINA_D_AGUA_M
0,7-RO-123HP-RJS,Campos,RONCADOR,RJ,Petrobras,M,PRODUTOR,Explotatório,Desenvolvimento,1827.0
1,1-BP-7-RJS,Campos,,RJ,BP Energy,M,ABANDONADO POR LOGÍSTICA EXPLORATÓRIA,Exploratório,Pioneiro,2730.0
2,7-ARGO-4H-ESS,Campos,ARGONAUTA,ES,Shell Brasil,M,ABANDONADO DEFINITIVAMENTE,Explotatório,Desenvolvimento,1705.84
3,7-ARGO-5H-ESS,Campos,ARGONAUTA,ES,Shell Brasil,M,PRODUTOR,Explotatório,Desenvolvimento,1705.35
4,8-ARGO-6H-ESS,Campos,ARGONAUTA,ES,Shell Brasil,M,INJETOR,Explotatório,Injeção,1653.56


In [104]:
# Informations of the dataset
Anp_dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29575 entries, 0 to 29574
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   POCO             29575 non-null  object 
 1   BACIA            29575 non-null  object 
 2   CAMPO            24954 non-null  object 
 3   ESTADO           29575 non-null  object 
 4   OPERADOR         26643 non-null  object 
 5   TERRA_MAR        29575 non-null  object 
 6   SITUACAO         28751 non-null  object 
 7   TIPO             29575 non-null  object 
 8   CATEGORIA        29575 non-null  object 
 9   LAMINA_D_AGUA_M  13466 non-null  float64
dtypes: float64(1), object(9)
memory usage: 2.3+ MB


### Como podemos observar nas informações do Dataset, vemos que temos muitos valores nulos, mas no entanto como estou apenas fazendo uma análise exploratória nesse data set

In [105]:
Anp_dataset['LAMINA_D_AGUA_M'].head(5)

0    1827.00
1    2730.00
2    1705.84
3    1705.35
4    1653.56
Name: LAMINA_D_AGUA_M, dtype: float64

## Quantas Bacias de Exploração temos no pais?

In [106]:
# Para conhecer a quantidade de bacias existentes, basta fazer uma contagem de valores unicos, utilizando com referencia a coluna "BACIA" do dataset
Anp_dataset['BACIA'].nunique()

37

## Qual das Bacias possui a maior quantidade de poços?

In [107]:
# Para fazer essa contagem, agora precisamos contar a quantidade de vezes que cada bacia esta sendo referenciada no dataset
Anp_dataset['BACIA'].value_counts()

Potiguar                9187
Recôncavo               6694
Sergipe                 4707
Campos                  3418
Espírito Santo          1997
Alagoas                  935
Santos                   706
Solimões                 364
Ceará                    228
Amazonas                 218
Parnaíba                 163
Tucano Sul               136
Paraná                   125
Barreirinhas             123
Camamu                    96
Foz do Amazonas           95
São Francisco             59
Mucuri                    56
Cumuruxatiba              48
Jequitinhonha             40
Pará - Maranhão           34
Almada                    24
Pelotas                   20
São Luís                  19
Marajó                    18
Pantanal                  13
Tucano Central            13
Acre                      11
Parecis - Alto Xingu       6
Rio do Peixe               5
Tucano Norte               5
Pernambuco - Paraíba       3
Jatobá                     2
Bragança - Vizeu           2
Tacutu        

In [108]:
# Para termos mais uma confirmação das quantidades acima, podemos utilizar o comando groupby e fazer a contagem de valores unicos considerando o poço como referencia 
Anp_dataset.groupby('BACIA')['POCO'].nunique().sort_values( ascending=False)

BACIA
Potiguar                9187
Recôncavo               6694
Sergipe                 4707
Campos                  3417
Espírito Santo          1997
Alagoas                  935
Santos                   706
Solimões                 364
Ceará                    228
Amazonas                 218
Parnaíba                 163
Tucano Sul               136
Paraná                   125
Barreirinhas             123
Camamu                    96
Foz do Amazonas           95
São Francisco             59
Mucuri                    56
Cumuruxatiba              48
Jequitinhonha             40
Pará - Maranhão           34
Almada                    24
Pelotas                   20
São Luís                  19
Marajó                    18
Pantanal                  13
Tucano Central            13
Acre                      11
Parecis - Alto Xingu       6
Tucano Norte               5
Rio do Peixe               5
Pernambuco - Paraíba       3
Jatobá                     2
Bragança - Vizeu           2
Araripe 

In [109]:
fig=Anp_dataset['BACIA'].value_counts().iplot(kind='bar')


## Quantas operadoras diferentes operam no pais?

In [110]:
# Para saber a quantidades de operadores diferentes temos em nosso pais, podemos fazer os unique
Anp_dataset['OPERADOR'].nunique()

81

## Quais operadoras possuem mais de 20 poços sob exploração?

In [111]:
lista_operadores=Anp_dataset.groupby('OPERADOR')['POCO'].nunique().sort_values( ascending=False)
lista_operadores_up_20=lista_operadores[lista_operadores.values>20]
print(lista_operadores_up_20)

OPERADOR
Petrobras               25142
Petrosynergy              142
Parnaíba Gás Natural      121
Dommo Energia             115
Shell Brasil              115
Statoil Brasil O&G        105
Chevron Frade              65
Imetame                    61
Nova Petróleo Rec          57
PetroRio O&G               52
Partex Brasil              52
Santana                    47
Petrogal Brasil            43
Recôncavo E&P              41
SHB                        40
Petra Energia              28
Norteoleum                 23
Name: POCO, dtype: int64


Como podemos observar, a Petrobrás possui a maioria dos poços de petróleo. No gráfico abaixo podemos ter uma melhor visualização dessa supremacia da Petrobrás.

In [112]:
fig=lista_operadores_up_20.iplot(kind='bar')


No intuito de melhor visualizar as outras operadoras que possuem mais de 20 poços, eu removi a Petrobrás da lista e repeti o mesmo plot.

In [113]:
lista_operadores_up_20_sem_petrobras=lista_operadores_up_20.drop('Petrobras')
fig=lista_operadores_up_20_sem_petrobras.iplot(kind='bar')

## Como esta distribuido a quantidade de poços ?

In [114]:
dist_pocos=Anp_dataset.groupby('TERRA_MAR')['POCO'].count()
dist_pocos

TERRA_MAR
M     6649
T    22926
Name: POCO, dtype: int64

In [115]:
cores = ['#0000FF','#D2691E']

trace = go.Pie(labels = dist_pocos.index,
               values = dist_pocos.values,
               marker = {'colors': cores, 
                         'line' : {'color':'#000000','width':2}
                        },
               hoverinfo='label+percent+value',
               pull=[0,0.2], #esse paramêtro diz quanto quero destacar desse parâmetro
               direction='clockwise'
              )

# Armazenando gráfico em uma lista

data = [trace]

# Criando Layout

layout = go.Layout(title='Classificação dos Tipos de Poços( Terra (T) e Mar (M) )')

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

## Quantas Bacias existem em cada estado?

In [116]:
Estados_Bacia_unique = Anp_dataset[['ESTADO', 'BACIA']].groupby('ESTADO')['BACIA'].nunique()
Estados_Bacia_unique.sort_values(ascending=False)

ESTADO
BA    13
PA     6
MA     4
MT     3
SC     3
AM     3
AP     3
CE     3
ES     3
PE     3
MS     2
AL     2
GO     2
SP     2
PI     2
PR     2
RJ     2
RS     2
MG     1
SE     1
PB     1
RN     1
RR     1
AC     1
Name: BACIA, dtype: int64

In [117]:
trace0 = go.Bar(y=Estados_Bacia_unique.values,
                x=Estados_Bacia_unique.index,
                marker = {'color': 'lightblue',
                         'line': {'color': '#333',
                                  'width': 2}
                        },
                orientation='v'
              )

data = [trace0]

# Criando Layout
configuracoes_layout = go.Layout(title='Quantidade de Bacias por Estado',
                   xaxis=dict(
                         titlefont=dict(
                                   size=40,
                                   color='lightgrey'),
                   tickangle=75),
                   yaxis={'title': 'Quantidade de Bacias'})

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
py.iplot(fig)

## Quantos Campos existem em cada estado?

In [118]:
Estados_Campo_unique = Anp_dataset[['ESTADO', 'CAMPO']].groupby('ESTADO')['CAMPO'].nunique()
Estados_Campo_unique.sort_values(ascending=False)

ESTADO
BA    143
RN    119
ES     88
RJ     71
SE     46
AL     24
AM     14
SP     13
MA     10
CE      8
PR      5
SC      2
PA      1
AP      0
GO      0
MT      0
MG      0
MS      0
PB      0
PE      0
PI      0
RR      0
RS      0
AC      0
Name: CAMPO, dtype: int64

In [119]:
trace0 = go.Bar(y=Estados_Campo_unique.values,
                x=Estados_Campo_unique.index,
                marker = {'color': 'lightblue',
                         'line': {'color': '#333',
                                  'width': 2}
                        },
                orientation='v'
              )

data = [trace0]

# Criando Layout
configuracoes_layout = go.Layout(title='Quantidade de Campos por Estado',
                   xaxis=dict(
                         titlefont=dict(
                                   size=40,
                                   color='lightgrey'),
                   tickangle=75),
                   yaxis={'title': 'Quantidade de Campos'})

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
py.iplot(fig)

## Como esta distribuída a variável "Lamina de agua" ?

A primeira coisa a se fazer, é criar um filtro nas localizações dos poços, uma vez que só existe lamina de água em poços que estão no mar.

Depois disso eu criei um boxplot para termos uma melhor avaliação de como esta as laminas de água 

In [120]:
Anp_dataset[Anp_dataset['TERRA_MAR']=='M'].LAMINA_D_AGUA_M.iplot(kind='box')

## Qual são as situações do Poços?


In [121]:
situacao=Anp_dataset.groupby('SITUACAO')['POCO'].nunique().sort_values( ascending=False)
situacao

SITUACAO
PRODUTOR                                                                               9912
ABANDONADO DEFINITIVAMENTE                                                             5074
ABANDONADO AGUARDANDO ABANDONO DEFINITIVO/ARRASAMENTO                                  3120
EM INTERVENÇÃO PARA AVALIAÇÃO, COMPLETAÇÃO OU RESTAURAÇÃO                              2711
INJETOR                                                                                2653
ARRASADO                                                                               2193
DEVOLVIDO                                                                              1446
ABANDONADO POR LOGÍSTICA EXPLORATÓRIA                                                   719
CEDIDO PARA PRODUÇÃO DE ÁGUA                                                            262
ABANDONADO/PARADO AGUARDANDO INTERVENÇÃO PARA AVALIAÇÃO, COMPLETAÇÃO OU RESTAURAÇÃO     253
PRODUÇÃO DE AGUA PARA INJEÇÃO                                          

## Quais são os tipos de Poços?

In [122]:
tipo_poco=Anp_dataset.groupby('TIPO')['POCO'].nunique().sort_values( ascending=False)

In [123]:
data = [go.Bar(x=tipo_poco.index,
               y=tipo_poco.values,
               marker = {'color': 'lightblue',
                         'line': {'color': '#333',
                                  'width': 2}
                        },
               opacity= 0.7
              )
       ]

# Criando Layout
configuracoes_layout = go.Layout(title='Distribuição dos tipos de poços',
                                 yaxis={'title':'Quantidade de Poços'},
                                 xaxis={'title':'Tipo de Poço'})

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
py.iplot(fig)

- Poço Exploratório: Aquele perfurado em área de exploração. PORTARIA ANP Nº 283, DE 14/11/2001

- Poço Explotatório de Produção: Identificado com o código 7, é aquele que visa drenar uma ou mais jazidas de um campo. PORTARIA ANP Nº 75, DE 03/05/2000

## Quais são as categorias dos Poços?

In [124]:
categorias_pocos=Anp_dataset.groupby('CATEGORIA')['POCO'].nunique().sort_values( ascending=False)

In [125]:
trace0 = go.Bar(y=categorias_pocos.values,
                x=categorias_pocos.index,
                marker = {'color': 'lightblue',
                'line': {'color': '#333',
                                  'width': 2}
                                  },
                orientation='v',
                opacity= 0.7
              )

data = [trace0]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas por categoria de Produtos',
                   xaxis=dict(
                         titlefont=dict(
                                   size=40,
                                   color='lightblue'),
                   tickangle=45),
                   yaxis={'title': 'Quantidade vendida'})

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
py.iplot(fig)

## Poços do Tipo MAR ou TERRA, possuem alguma predominancia nas direções dos Poços?

In [53]:
direcao_mar=Anp_dataset[Anp_dataset['TERRA_MAR']=='M'].DIRECAO.value_counts()
direcao_terra=Anp_dataset[Anp_dataset['TERRA_MAR']=='T'].DIRECAO.value_counts()

In [71]:
# Criando gráfico
# gráfico de pizza é legal pq tem poucas classificações, caso tivesse muitas classificações poderiamos usar o caso de barras
trace = go.Pie(labels = direcao_mar.index,
               values = direcao_mar.values,
            marker = {'line' : {'color':'#000000','width':2}},
               hoverinfo='label+value',
               pull=[0.2,0,0], #esse paramêtro diz quanto quero destacar desse parâmetro 
               direction='clockwise'
              )

# Armazenando gráfico em uma lista

data = [trace]

trace1 = go.Pie(labels = direcao_terra.index,
               values = direcao_terra.values,
            marker = {'line' : {'color':'#000000','width':2}},
               hoverinfo='label+value', 
               pull=[0.2,0,0], #esse paramêtro diz quanto quero destacar desse parâmetro 
               direction='clockwise'
              )

# Armazenando gráfico em uma lista

data1 = [trace1]

# Criando Layout

layout1 = go.Layout(title='Classificação das Direções dos Poços TERRA')

layout = go.Layout(title='Classificação das Direções dos Poços MAR')

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)
fig1 = go.Figure(data=data1, layout=layout1)

py.iplot(fig)
py.iplot(fig1)

Podemos observar uma predominancia de poços verticais em ambos locais (Terra e Mar).

No entanto, vale ressaltar que no Mar temos uma quantidade expressiva de poços com direção Horizontal.