# **Configuração Geral**

## Imports

In [39]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from fractions import Fraction

## Funções

In [40]:
# Converte uma string que representa polegadas para um float
def polegadas(value):

    # Divide a string recebida
    value = value.strip()

    # Se a string tem mais de uma parte, obtém a parte inteira e calcula a parte decimal
    if ' ' in value:
        inteiro, decimal = value.split(' ') # a parte inteira é o que está antes do ' ', a parte decimal é o que está depois
        polegadas = float(inteiro) + float(Fraction(decimal))

    else:
        polegadas = float(value)
    
    return polegadas

# -------------------------------


# **Carregando Dados**

In [41]:
# Carregando dados csv
df = pd.read_csv('data/dados_pocos.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,Nome do Poço,Fase,Tipo Poço,LDA (Lâmina D'Água),Diâmetro Fase,Metragem,NFases
0,0,6C5G4M,1,VERTICAL,598.0,26,607.0,4
1,1,6C5G4M,2,VERTICAL,598.0,17 1/2,1306.0,4
2,2,6C5G4M,3,VERTICAL,598.0,12 1/4,1201.0,4
3,3,6C5G4M,4,VERTICAL,598.0,8 1/2,1445.0,4
4,4,8030JC,1,VERTICAL,0.0,17 1/2,410.0,3


# **Limpeza dos Dados**
- Tratamento de valores ausentes
- Remoção de outliers
- Correção de tipos de dados
- Normalização e padronização dos dados

In [42]:
# Renomear as colunas para o padrão PEP8
df.columns = ['index', 'nome_do_poco', 'fase', 'tipo_poco', 'lda_lamina_d_agua', 'diametro_fase', 'metragem', 'nfases']

# Remover a coluna de índices 'Unnamed: 0'
df = df.drop(columns=['index'])

# Exibir df
df.head()

Unnamed: 0,nome_do_poco,fase,tipo_poco,lda_lamina_d_agua,diametro_fase,metragem,nfases
0,6C5G4M,1,VERTICAL,598.0,26,607.0,4
1,6C5G4M,2,VERTICAL,598.0,17 1/2,1306.0,4
2,6C5G4M,3,VERTICAL,598.0,12 1/4,1201.0,4
3,6C5G4M,4,VERTICAL,598.0,8 1/2,1445.0,4
4,8030JC,1,VERTICAL,0.0,17 1/2,410.0,3


In [43]:
# Verificar tipos de cada coluna
print(df.dtypes)

nome_do_poco          object
fase                   int64
tipo_poco             object
lda_lamina_d_agua    float64
diametro_fase         object
metragem             float64
nfases                 int64
dtype: object


In [44]:
# Verificar quantidade de valores ausentes por coluna
missing_values = df.isna().sum()
missing_values_percentage = (missing_values / len(df)) * 100
missing_values_df = pd.DataFrame({'valores_nulos': missing_values, 'percentual': missing_values_percentage})
print(missing_values_df)

                   valores_nulos  percentual
nome_do_poco                   0         0.0
fase                           0         0.0
tipo_poco                      0         0.0
lda_lamina_d_agua              0         0.0
diametro_fase                  0         0.0
metragem                       0         0.0
nfases                         0         0.0


In [45]:
# Verificar quantidade de duplicados
duplicate_count = df.duplicated().sum()
print(f'Quantidade de duplicados: {duplicate_count}')

Quantidade de duplicados: 0


In [46]:
# Converte coluna de string para float
df['diametro_fase_polegadas'] = df['diametro_fase'].apply(polegadas)
df.drop(columns='diametro_fase', inplace=True)
df.dtypes

nome_do_poco                object
fase                         int64
tipo_poco                   object
lda_lamina_d_agua          float64
metragem                   float64
nfases                       int64
diametro_fase_polegadas    float64
dtype: object

In [47]:
df.head()

Unnamed: 0,nome_do_poco,fase,tipo_poco,lda_lamina_d_agua,metragem,nfases,diametro_fase_polegadas
0,6C5G4M,1,VERTICAL,598.0,607.0,4,26.0
1,6C5G4M,2,VERTICAL,598.0,1306.0,4,17.5
2,6C5G4M,3,VERTICAL,598.0,1201.0,4,12.25
3,6C5G4M,4,VERTICAL,598.0,1445.0,4,8.5
4,8030JC,1,VERTICAL,0.0,410.0,3,17.5


In [48]:
# Gravar dataframe limpo
df.to_csv('data/df_cleaned.csv')
print('Dataframe limpo gravado com sucesso!')

Dataframe limpo gravado com sucesso!


# **Análise Exploratória de Dados (EDA)**
- Estatísticas descritivas
- Distribuições de variáveis
- Análise de correlação
- Visualizações (histogramas, scatter plots, heatmaps, etc.)

# **Feature Engineering**
- Criação de novas variáveis
- Seleção de variáveis
- Transformações de variáveis
- Codificação de variáveis categóricas

# **Pré-processamento dos Dados**
- Divisão dos dados em treino e teste
- Escalonamento de características
- Preparação de dados para modelagem

# **Modelagem** (Machine Learning)
- Escolha dos modelos
- Treinamento dos modelos
- Avaliação de desempenho dos modelos
- Ajuste de hiperparâmetros

# **Avaliação do Modelo**
- Métricas de avaliação (precision, recall, F1-score, etc.)
- Curvas ROC e AUC
- Análise de erros

# **Deploy do Modelo**
- Gravação do modelo treinado
- Carregamento do modelo para previsões futuras

# **Conclusões**
- Sumário dos resultados
- Recomendações
- Próximos passos

# **Referências**
- Citações e referências utilizadas