### Análise de Dados - Correlação de Poços (MySQL)

### Instalação dos pacotes necessários


In [1]:

pip install pandas pymysql scikit-learn mysql-connector-python

Note: you may need to restart the kernel to use updated packages.


### Criando a tabela no MySQL

In [2]:
import mysql.connector

# Configuração da Conexão com MySQL
conexao = mysql.connector.connect(
    host = "localhost",
    user = "root",
    password = "Th@is1909",
    database = "dados_pocos"
)

# Criando cursor para a conexão
cursor = conexao.cursor()

# Criando tabela 
cursor.execute('''
                CREATE TABLE IF NOT EXISTS dados_pocos (
                Nome VARCHAR(255),
                Fase INT,
                Tipo_Poco VARCHAR(255),
                LDA FLOAT,
                Diametro_Fase FLOAT,
                Metragem FLOAT,
                NFases INT
                )
                ''')

# Fechar conexão
cursor.close()
conexao.close()


### Importando os Dados para MySQL

In [3]:
import pandas as pd

# Carregando os dados do arquivo "dados_pocos.csv"
dados_pocos = pd.read_csv('dados_pocos.csv')


# Visualizando estrutura 
dados_pocos.head()


Unnamed: 0.1,Unnamed: 0,Nome do Poço,Fase,Tipo Poço,LDA (Lâmina D'Água),Diâmetro Fase,Metragem,NFases
0,0,6C5G4M,1,VERTICAL,598.0,26,607.0,4
1,1,6C5G4M,2,VERTICAL,598.0,17 1/2,1306.0,4
2,2,6C5G4M,3,VERTICAL,598.0,12 1/4,1201.0,4
3,3,6C5G4M,4,VERTICAL,598.0,8 1/2,1445.0,4
4,4,8030JC,1,VERTICAL,0.0,17 1/2,410.0,3


### Tratamentos dos dados 

In [4]:
# Verificando a existência de valores nulos

dados_pocos.isnull().sum()

Unnamed: 0             0
Nome do Poço           0
Fase                   0
Tipo Poço              0
LDA (Lâmina D'Água)    0
Diâmetro Fase          0
Metragem               0
NFases                 0
dtype: int64

In [5]:
# Função para conversão do diâmetro fase de polegadas para metros
from fractions import Fraction

def converter_para_metros(diametro):
    fator_conversao = 0.0254
    if isinstance(diametro, str):
        partes = diametro.split(' ')

    if len(partes) == 2:
        inteiro = int(partes[0])
        fracao_str = partes[1]
        fracao = float(Fraction(fracao_str))
        valor_total_polegadas = inteiro + fracao
    else:
        inteiro = 0
        fracao_str = partes[0]
        fracao = float(Fraction(fracao_str))
        valor_total_polegadas = inteiro + fracao

    metros = valor_total_polegadas * fator_conversao
    return metros

#Convertendo os valores
dados_pocos['Diâmetro Fase (m)'] = dados_pocos['Diâmetro Fase'].apply(converter_para_metros)

# Conferindo os dados convertidos
dados_pocos.head()

Unnamed: 0.1,Unnamed: 0,Nome do Poço,Fase,Tipo Poço,LDA (Lâmina D'Água),Diâmetro Fase,Metragem,NFases,Diâmetro Fase (m)
0,0,6C5G4M,1,VERTICAL,598.0,26,607.0,4,0.6604
1,1,6C5G4M,2,VERTICAL,598.0,17 1/2,1306.0,4,0.4318
2,2,6C5G4M,3,VERTICAL,598.0,12 1/4,1201.0,4,0.3048
3,3,6C5G4M,4,VERTICAL,598.0,8 1/2,1445.0,4,0.2032
4,4,8030JC,1,VERTICAL,0.0,17 1/2,410.0,3,0.4318


In [6]:
# Restabelecendo a conexão com o banco de dados MySQL
conexao = mysql.connector.connect(
    host = "localhost",
    user = "root",
    password = "Th@is1909",
    database = "dados_pocos"
)

# Criando o cursor após a reconexão
cursor = conexao.cursor()

# Inserindo os dados na banco de dados criado no MySQL
for _, row in dados_pocos.iterrows():
   cursor.execute('''
                   INSERT INTO dados_pocos
                   (Nome, Fase, Tipo_Poco, LDA, Diametro_Fase, Metragem, NFases)
                   VALUES (%s, %s, %s, %s, %s, %s, %s)
                   ''', (row['Nome do Poço'], row['Fase'], row['Tipo Poço'], row["LDA (Lâmina D'Água)"], row['Diâmetro Fase (m)'], row['Metragem'], row['NFases']))

# Commit e fechar conexão    
conexao.commit()
cursor.close()
conexao.close()

 ### Desenvolvendo os modelos de correlação e Treinamento

In [7]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler

# Restabelecendo a conexão com o banco de dados MySQL
conexao = mysql.connector.connect(
    host = "localhost",
    user = "root",
    password = "Th@is1909",
    database = "dados_pocos"
)

# Criando o cursor após a reconexão
cursor = conexao.cursor()

# Carregando dados do banco de dados 
query = 'SELECT * FROM  dados_pocos'
cursor.execute(query)
dados = cursor.fetchall()

# Fechar conexão
cursor.close()
conexao.close()

# Preparando os dados para modelo de Machine Learning
dados_pocos = pd.DataFrame(dados, columns=['Nome', 'Fase', 'Tipo_Poco', 'LDA', 'Diametro_Fase (m)', 'Metragem', 'NFases'])
X = dados_pocos[['Fase', 'LDA', 'Metragem', 'NFases']].values
y = dados_pocos['Nome'].values

# Normalizando os dados
scaler = StandardScaler()
X_normalized = scaler.fit_transform(X)

# Separando os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X_normalized, y, test_size=0.33, random_state=42)


# Inicializando o Modelo KNN 
knn = KNeighborsClassifier(n_neighbors=4)

# Treinando o modelo
knn.fit(X_train, y_train)



### Avaliando o desempenho do modelo

In [8]:
from sklearn.metrics import accuracy_score, precision_score, recall_score

#Previsões do Modelo KNN
y_pred = knn.predict(X_test)

#Cálculo das métricas
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='micro')
recall = recall_score(y_test, y_pred, average='micro')

#Visualizando os resultados da avalição
print(f"Acurácia: {accuracy:.2f}")
print(f"Precisão: {precision:.2f}")
print(f"Recall: {recall:.2f}")

Acurácia: 0.30
Precisão: 0.30
Recall: 0.30


### Criando um DataFrame para o poço de entrada teste

In [9]:

# Dados do novo poço
novo_poco = pd.DataFrame({
    'Nome':['2JAUCG', '2JAUCG', '2JAUCG', '2JAUCG'],
    'Fase': [1, 2, 3, 4],
    'Tipo Poco': ["VERTICAL", "VERTICAL", "VERTICAL", "VERTICAL"],
    'LDA': [598.0, 598.0, 598.0, 598.0],
    'Diâmetro Fase': ['26', '17 1/2', '12 1/4', '8 1/2'],
    'Metragem': [607.0, 1306.0, 1201.0, 1445.0],
    'NFases': [4, 4, 4, 4]
})

# Visualizando o dados do novo poço
novo_poco

Unnamed: 0,Nome,Fase,Tipo Poco,LDA,Diâmetro Fase,Metragem,NFases
0,2JAUCG,1,VERTICAL,598.0,26,607.0,4
1,2JAUCG,2,VERTICAL,598.0,17 1/2,1306.0,4
2,2JAUCG,3,VERTICAL,598.0,12 1/4,1201.0,4
3,2JAUCG,4,VERTICAL,598.0,8 1/2,1445.0,4


In [10]:
# Convertendo os valores
novo_poco['Diâmetro Fase'] = novo_poco['Diâmetro Fase'].apply(converter_para_metros)

novo_poco.rename(columns={'Diâmetro Fase':'Diâmetro Fase (m)'}, inplace = True)

novo_poco


Unnamed: 0,Nome,Fase,Tipo Poco,LDA,Diâmetro Fase (m),Metragem,NFases
0,2JAUCG,1,VERTICAL,598.0,0.6604,607.0,4
1,2JAUCG,2,VERTICAL,598.0,0.4445,1306.0,4
2,2JAUCG,3,VERTICAL,598.0,0.31115,1201.0,4
3,2JAUCG,4,VERTICAL,598.0,0.2159,1445.0,4


### Padronizando os dados de entrada para passa-los pelo modelo KNN para encontrar os pocos mais correlatos

In [11]:
# Extraindo e preparando os dados 
dados_novos = novo_poco[['LDA', 'Diâmetro Fase (m)', 'Metragem', 'NFases']].values

# Normalizando os dados
dados_novos_normalized = scaler.transform(dados_novos)

# Usando o modelo treinado para encontrar os 4 poços mais correlatos
#para cada fase do poço de entrada
pocos_correlatos = {}

for i, features in enumerate(dados_novos_normalized):
    fase = novo_poco.iloc[i]['Fase']
    knn_model = knn.kneighbors([features], n_neighbors=4, return_distance=False)
    pocos_correlatos[fase] = knn_model[0].tolist()
    
# Buscando nomes dos poços
nome_pocos_correlatos = {fase: [dados_pocos.iloc[idx]['Nome'] for idx in indices] for fase, indices in pocos_correlatos.items()}

# Imprimindo os poços correlatos identificando por nomes
for fase, nomes_correlatos in nome_pocos_correlatos.items():
    print(f"Fase {fase} - Poços correlatos: {nomes_correlatos}")

Fase 1 - Poços correlatos: ['66LE70', '52P841', '371503', 'OKBG61']
Fase 2 - Poços correlatos: ['G23620', '671X16', 'S6C6TB', '075UXF']
Fase 3 - Poços correlatos: ['G23620', '671X16', 'S6C6TB', '075UXF']
Fase 4 - Poços correlatos: ['G23620', '671X16', 'S6C6TB', '075UXF']


### Vizualizando os resultados 

In [13]:
# analise detalhada dos pocos correlatos
# Selecionar um par de características
feature1 = 'LDA'
feature2 = 'Diâmetro Fase (m)'

# Plotar o gráfico de dispersão
plt.scatter(dados_pocos[feature1][pocos_correlatos[1]], dados_pocos[feature2][pocos_correlatos[1]], label='Fase 2')
plt.xlabel(feature1)
plt.ylabel(feature2)
plt.legend()
plt.show()


KeyError: 'Diâmetro Fase (m)'