In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import statsmodels.api as sm
from statsmodels.formula.api import ols
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn import metrics
pd.options.mode.chained_assignment = None  
import warnings
warnings.filterwarnings("ignore")

In [83]:
df_sisagua_2024 = pd.read_csv('sisagua_ceara_2024.csv', decimal = ',')

In [3]:
df_sisagua_2024.shape

(254733, 34)

In [4]:
df_sisagua_2024.dtypes

regiao_geografica                  object
uf                                 object
regional_de_saude                  object
municipio                          object
codigo_ibge                       float64
numero_da_amostra                  object
motivo_da_coleta                   object
tipo_da_forma_de_abastecimento     object
codigo_forma_de_abastecimento      object
nome_da_forma_de_abastecimento     object
nome_da_eta_uta                    object
ano                                 int64
mes                                 int64
data_da_coleta                     object
hora_da_coleta                     object
data_do_laudo                      object
data_de_registro_no_sisagua        object
procedencia_da_coleta              object
ponto_de_coleta                    object
descricao_do_local                 object
zona                               object
categoria_area                     object
area                               object
tipo_do_local                     

In [5]:
df_sisagua_2024.head(15)

Unnamed: 0,regiao_geografica,uf,regional_de_saude,municipio,codigo_ibge,numero_da_amostra,motivo_da_coleta,tipo_da_forma_de_abastecimento,codigo_forma_de_abastecimento,nome_da_forma_de_abastecimento,...,local,latitude,longitude,parametro,analise_realizada,data_da_analise,ld,lq,resultado,providencia
0,NORDESTE,CE,16 REGIONAL DE SAUDE CAMOCIM,GRANJA,,241607000316,Rotina,SAA,S230470000001,SAAE GRANJA,...,,,,Cloro residual livre (mg/L),,,,,550,
1,NORDESTE,CE,22 REGIONAL DE SAUDE CASCAVEL,CHOROZINHO,,240141000247,Rotina,SAA,S230395000001,CAGECE CHOROZINHO,...,,,,Escherichia coli,,,,,AUSENTE,
2,NORDESTE,CE,08 REGIONAL DE SAUDE QUIXADA,BANABUIU,,240815000162,Rotina,SAI,I230185000013,RIO BANABUIU,...,,,,Turbidez (uT),,,,,182,
3,NORDESTE,CE,06 REGIONAL DE SAUDE ITAPIPOCA,ITAPIPOCA,,240611000152,Rotina,SAI,I230640000009,VILA BARRENTO,...,,,,Turbidez (uT),,,,,11,
4,NORDESTE,CE,05 REGIONAL DE SAUDE CANINDE,CARIDADE,,240509000176,Rotina,SAA,S230300000001,CAGECE CARIDADE,...,,,,Turbidez (uT),,,,,05,
5,NORDESTE,CE,18 REGIONAL DE SAUDE IGUATU,IGUATU,,241814000002,Rotina,SAA,S230550000001,SAAE IGUATU,...,,,,Cloro residual livre (mg/L),,,,,20,
6,NORDESTE,CE,11 REGIONAL DE SAUDE SOBRAL,COREAU,,241127000178,Rotina,SAA,S230880000001,SISTEMA COREAU MORAUJO,...,,,,Fluoreto (mg/L),,,,,02,
7,NORDESTE,CE,16 REGIONAL DE SAUDE CAMOCIM,CAMOCIM,,241606000182,Rotina,SAA,S230260000001,SAAE CAMOCIM,...,,,,Turbidez (uT),,,,,03,
8,NORDESTE,CE,17 REGIONAL DE SAUDE ICO,CEDRO,,241710000212,Rotina,SAA,S230380000001,CAGECE CEDRO,...,,,,pH,,,,,7,
9,NORDESTE,CE,14 REGIONAL DE SAUDE TAUA,AIUABA,,241407000170,Rotina,SAA,S230040000003,SAAE DE AIUABA,...,,,,Cloro residual livre (mg/L),,,,,025,


In [6]:
df_sisagua_2024.columns

Index(['regiao_geografica', 'uf', 'regional_de_saude', 'municipio',
       'codigo_ibge', 'numero_da_amostra', 'motivo_da_coleta',
       'tipo_da_forma_de_abastecimento', 'codigo_forma_de_abastecimento',
       'nome_da_forma_de_abastecimento', 'nome_da_eta_uta', 'ano', 'mes',
       'data_da_coleta', 'hora_da_coleta', 'data_do_laudo',
       'data_de_registro_no_sisagua', 'procedencia_da_coleta',
       'ponto_de_coleta', 'descricao_do_local', 'zona', 'categoria_area',
       'area', 'tipo_do_local', 'local', 'latitude', 'longitude', 'parametro',
       'analise_realizada', 'data_da_analise', 'ld', 'lq', 'resultado',
       'providencia'],
      dtype='object')

In [7]:
# Verificando se todos os anos estão presentes no dataframe consolidado
df_sisagua_2024['ano'].value_counts().sort_index(ascending=True)

ano
2024    254733
Name: count, dtype: int64

In [8]:
df_sisagua_2024.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 254733 entries, 0 to 254732
Data columns (total 34 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   regiao_geografica               254733 non-null  object 
 1   uf                              254733 non-null  object 
 2   regional_de_saude               254733 non-null  object 
 3   municipio                       254733 non-null  object 
 4   codigo_ibge                     119 non-null     float64
 5   numero_da_amostra               254733 non-null  object 
 6   motivo_da_coleta                254733 non-null  object 
 7   tipo_da_forma_de_abastecimento  254733 non-null  object 
 8   codigo_forma_de_abastecimento   254733 non-null  object 
 9   nome_da_forma_de_abastecimento  254733 non-null  object 
 10  nome_da_eta_uta                 2505 non-null    object 
 11  ano                             254733 non-null  int64  
 12  mes             

In [10]:
# Selecionando as colunas que serão utilizadas na análise, tendo em vista que tem colunas com valor NaN
colunas_seleciondas = ['municipio','tipo_da_forma_de_abastecimento', 'nome_da_forma_de_abastecimento', 'parametro', 'resultado']

In [None]:
# Atribuindo as colunas selecionadas ao df_sisagua_2024
df_sisagua_2024 = df_sisagua_2024[colunas_seleciondas]

In [12]:
df_sisagua_2024

Unnamed: 0,municipio,tipo_da_forma_de_abastecimento,nome_da_forma_de_abastecimento,parametro,resultado
0,GRANJA,SAA,SAAE GRANJA,Cloro residual livre (mg/L),550
1,CHOROZINHO,SAA,CAGECE CHOROZINHO,Escherichia coli,AUSENTE
2,BANABUIU,SAI,RIO BANABUIU,Turbidez (uT),182
3,ITAPIPOCA,SAI,VILA BARRENTO,Turbidez (uT),11
4,CARIDADE,SAA,CAGECE CARIDADE,Turbidez (uT),05
...,...,...,...,...,...
254728,CARIDADE,SAA,CAGECE CARIDADE,Turbidez (uT),05
254729,ITAPIPOCA,SAI,VILA BARRENTO,Turbidez (uT),11
254730,BANABUIU,SAI,RIO BANABUIU,Turbidez (uT),182
254731,CHOROZINHO,SAA,CAGECE CHOROZINHO,Escherichia coli,AUSENTE


In [13]:
df_sisagua_2024.shape

(254733, 5)

In [14]:
df_sisagua_2024.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 254733 entries, 0 to 254732
Data columns (total 5 columns):
 #   Column                          Non-Null Count   Dtype 
---  ------                          --------------   ----- 
 0   municipio                       254733 non-null  object
 1   tipo_da_forma_de_abastecimento  254733 non-null  object
 2   nome_da_forma_de_abastecimento  254733 non-null  object
 3   parametro                       254733 non-null  object
 4   resultado                       254733 non-null  object
dtypes: object(5)
memory usage: 9.7+ MB


In [15]:
# Verificando municipios unicos
verificacao = df_sisagua_2024['municipio'].unique() 
verificacao

array(['GRANJA', 'CHOROZINHO', 'BANABUIU', 'ITAPIPOCA', 'CARIDADE',
       'IGUATU', 'COREAU', 'CAMOCIM', 'CEDRO', 'AIUABA', 'ITAICABA',
       'PACOTI', 'ITAREMA', 'BATURITE', 'PACUJA', 'IPUEIRAS', 'MERUOCA',
       'ACARAU', 'GROAIRAS', 'MUCAMBO', 'MASSAPE', 'NOVA OLINDA', 'ICO',
       'CARIRE', 'TURURU', 'JUAZEIRO DO NORTE', 'URUOCA', 'PEDRA BRANCA',
       'ARACATI', 'IPAUMIRIM', 'FORTALEZA', 'ASSARE',
       'JIJOCA DE JERICOACOARA', 'TAUA', 'ITAPIUNA', 'GRANJEIRO',
       'SENADOR POMPEU', 'ACOPIARA', 'CRATO', 'SAO LUIS DO CURU',
       'NOVA RUSSAS', 'ERERE', 'INDEPENDENCIA', 'MILAGRES', 'AURORA',
       'PORANGA', 'PENTECOSTE', 'MARCO', 'SOBRAL', 'MORADA NOVA',
       'VICOSA DO CEARA', 'PACATUBA', 'FORQUILHA', 'HORIZONTE', 'ARATUBA',
       'LIMOEIRO DO NORTE', 'CAMPOS SALES', 'GUAIUBA', 'UMARI',
       'TEJUCUOCA', 'SALITRE', 'BELA CRUZ', 'BARBALHA', 'BARRO', 'MILHA',
       'VARJOTA', 'RUSSAS', 'FARIAS BRITO', 'IRAUCUBA', 'QUIXELO',
       'JAGUARIBARA', 'GUARAMIRANGA', 'AR

In [16]:
# Contando a quantidade de municipios que enviaram resultados. É para ter 184 municipios
quantidade_municipios = len(verificacao)
quantidade_municipios

184

In [17]:
# Quais parâmetros reportados no sisagua em 2024?
df_sisagua_2024['parametro'].value_counts()

parametro
Turbidez (uT)                      50580
Escherichia coli                   50361
Coliformes totais                  50162
Cloro residual livre (mg/L)        47552
Cor Aparente (uH)                  34117
Fluoreto (mg/L)                    13537
pH                                  8403
Cloro residual combinado (mg/L)       19
Dióxido de Cloro (mg/L)                2
Name: count, dtype: int64

In [18]:
# Tipos de forma de abastecimento
df_sisagua_2024['tipo_da_forma_de_abastecimento'].value_counts()

tipo_da_forma_de_abastecimento
SAA           232500
SAC            14572
SAI             7049
CARRO-PIPA       612
Name: count, dtype: int64

In [19]:
# Filtrando de df_saa_2024 somente os tipos de abastecimento de agua SAA
df_saa_2024 = df_sisagua_2024[df_sisagua_2024['tipo_da_forma_de_abastecimento'] == 'SAA'].copy()

In [20]:
# Verificando novo shape
df_saa_2024.shape

(232500, 5)

In [26]:
# Criando a coluna resultado_num e convertendo os valores numéricos com vírgula para float
df_saa_2024['resultado_num'] = pd.to_numeric(df_saa_2024['resultado'].str.replace(',', '.'), errors='coerce')

In [27]:
# Criando função de classificação a partir dos valores maximos permitidos pela portaria 888/2021 do Ministerio da Saude

def classificar_conformidade(row):
    parametro = str(row['parametro']).strip().upper()
    valor = str(row['resultado']).strip().upper()
    valor_num = row['resultado_num']
    try:
        if parametro == 'TURBIDEZ (UT)':
            return 'CONFORME' if valor_num <= 5 else 'NÃO CONFORME'
        elif parametro == 'ESCHERICHIA COLI':
            return 'CONFORME' if valor == 'AUSENTE' else 'NÃO CONFORME'
        elif parametro == 'COLIFORMES TOTAIS':
            return 'CONFORME' if valor == 'AUSENTE' else 'NÃO CONFORME'
        elif parametro == 'CLORO RESIDUAL LIVRE (MG/L)':
            return 'CONFORME' if 0.2 <= valor_num <= 5.0 else 'NÃO CONFORME'
        elif parametro == 'PH':
            return 'CONFORME' if 6 <= valor_num <= 9.5 else 'NÃO CONFORME'
        elif parametro == 'COR APARENTE (UH)':
            return 'CONFORME' if valor_num < 15 else 'NÃO CONFORME'
        elif parametro == 'FLUORETO (MG/L)':
            return 'CONFORME' if valor_num <= 1.5 else 'NÃO CONFORME'
    except:
        return 'ERRO'
    return 'IGNORADO'

In [28]:
# Criando a colunas de conformidade e aplicando a função classificar_conformidade no df_saa_2024
df_saa_2024['conformidade'] = df_saa_2024.apply(classificar_conformidade, axis=1)
df_saa_2024.head(5)

Unnamed: 0,municipio,tipo_da_forma_de_abastecimento,nome_da_forma_de_abastecimento,parametro,resultado,resultado_num,conformidade
0,GRANJA,SAA,SAAE GRANJA,Cloro residual livre (mg/L),550,5.5,NÃO CONFORME
1,CHOROZINHO,SAA,CAGECE CHOROZINHO,Escherichia coli,AUSENTE,,CONFORME
4,CARIDADE,SAA,CAGECE CARIDADE,Turbidez (uT),05,0.5,CONFORME
5,IGUATU,SAA,SAAE IGUATU,Cloro residual livre (mg/L),20,2.0,CONFORME
6,COREAU,SAA,SISTEMA COREAU MORAUJO,Fluoreto (mg/L),02,0.2,CONFORME


In [29]:
# Criando função de classificação por tipo de análise

def classificar_tipo_analise(parametro):
    parametro = str(parametro).strip().upper()
    if parametro in ['COLIFORMES TOTAIS', 'ESCHERICHIA COLI']:
        return 'Microbiológica'
    elif parametro in ['TURBIDEZ (UT)', 'CLORO RESIDUAL LIVRE (MG/L)', 'PH', 'COR APARENTE (UH)', 'FLUORETO (MG/L)']:
        return 'Físico-Química'
    return 'Outros'

In [30]:
# Criando a coluna tipo_analise e aplicando a função classificar_tipo_analise no df_saa_2024
df_saa_2024['tipo_analise'] = df_saa_2024['parametro'].apply(classificar_tipo_analise)
df_saa_2024.head(5)

Unnamed: 0,municipio,tipo_da_forma_de_abastecimento,nome_da_forma_de_abastecimento,parametro,resultado,resultado_num,conformidade,tipo_analise
0,GRANJA,SAA,SAAE GRANJA,Cloro residual livre (mg/L),550,5.5,NÃO CONFORME,Físico-Química
1,CHOROZINHO,SAA,CAGECE CHOROZINHO,Escherichia coli,AUSENTE,,CONFORME,Microbiológica
4,CARIDADE,SAA,CAGECE CARIDADE,Turbidez (uT),05,0.5,CONFORME,Físico-Química
5,IGUATU,SAA,SAAE IGUATU,Cloro residual livre (mg/L),20,2.0,CONFORME,Físico-Química
6,COREAU,SAA,SISTEMA COREAU MORAUJO,Fluoreto (mg/L),02,0.2,CONFORME,Físico-Química


In [31]:
import matplotlib.pyplot as plt
import seaborn as sns

In [50]:
# Filtrando valores suspeitos
suspeitos_cloro = df_saa_2024[
    (df_saa_2024['parametro'] == 'Cloro residual livre (mg/L)') & 
    (df_saa_2024['resultado_num'] > 5)]

if not suspeitos_cloro.empty:
    print("\nValores suspeitos (> 5 mg/L):")
    display(suspeitos_cloro[['municipio', 'parametro', 'resultado_num']].sort_values(by='resultado_num', ascending=False))
else:
    print("✅ Nenhum valor suspeito (> 5 mg/L) encontrado.")


Valores suspeitos (> 5 mg/L):


Unnamed: 0,municipio,parametro,resultado_num
198389,ITAPIPOCA,Cloro residual livre (mg/L),1421.00
49814,FORTIM,Cloro residual livre (mg/L),1045.00
27824,ITAPIPOCA,Cloro residual livre (mg/L),1015.00
33269,CANINDE,Cloro residual livre (mg/L),783.00
188645,CRATEUS,Cloro residual livre (mg/L),720.00
...,...,...,...
41355,HIDROLANDIA,Cloro residual livre (mg/L),5.01
8867,VARJOTA,Cloro residual livre (mg/L),5.01
224179,HIDROLANDIA,Cloro residual livre (mg/L),5.01
223330,GROAIRAS,Cloro residual livre (mg/L),5.01


In [51]:
# Filtrando valores suspeitos (pH fora da faixa ideal: < 6 ou > 9.5)
suspeitos_ph = df_saa_2024[
    (df_saa_2024['parametro'] == 'pH') & 
    ((df_saa_2024['resultado_num'] < 6) | (df_saa_2024['resultado_num'] > 9.5))
]

if not suspeitos_ph.empty:
    print("\nValores suspeitos (pH < 6 ou > 9.5):")
    display(suspeitos_ph[['municipio', 'parametro', 'resultado_num']].sort_values(by='resultado_num', ascending=False))
else:
    print("✅ Nenhum valor suspeito (pH < 6 ou > 9.5) encontrado.")



Valores suspeitos (pH < 6 ou > 9.5):


Unnamed: 0,municipio,parametro,resultado_num
4996,PINDORETAMA,pH,5.99
4781,PINDORETAMA,pH,5.87
36798,PINDORETAMA,pH,5.87
146190,PINDORETAMA,pH,5.87
112298,PINDORETAMA,pH,5.87
...,...,...,...
50158,SENADOR POMPEU,pH,0.00
57944,POTIRETAMA,pH,0.00
88986,HORIZONTE,pH,0.00
157559,ARARIPE,pH,0.00


In [52]:
# Filtrando valores suspeitos (Turbidez (uT) fora da faixa ideal: <= 5)
suspeitos_turbidez = df_saa_2024[
    (df_saa_2024['parametro'] == 'Turbidez (ut)') & 
    ((df_saa_2024['resultado_num'] > 5))
]

if not suspeitos_turbidez.empty:
    print("\nValores suspeitos (pH < 6 ou > 9.5):")
    display(suspeitos_turbidez[['municipio', 'parametro', 'resultado_num']].sort_values(by='resultado_num', ascending=False))
else:
    print("✅ Nenhum valor suspeito de Turbidez encontrado.")

✅ Nenhum valor suspeito de Turbidez encontrado.


In [53]:
# Filtrando valores suspeitos (Cor aparente (uH) fora da faixa ideal: < 15)
suspeitos_cor = df_saa_2024[
    (df_saa_2024['parametro'] == 'Cor aparente (uH)') & 
    ((df_saa_2024['resultado_num'] > 15))
]

if not suspeitos_cor.empty:
    print("\nValores suspeitos (Cor aparente > 15):")
    display(suspeitos_cor[['municipio', 'parametro', 'resultado_num']].sort_values(by='resultado_num', ascending=False))
else:
    print("✅ Nenhum valor suspeito de Cor Aparente encontrado.")

✅ Nenhum valor suspeito de Cor Aparente encontrado.


In [54]:
# Filtrando apenas os dados dentro dos intervalos aceitáveis
df_filtrado = df_saa_2024[
    (
        # Cloro: <= 5 mg/L
        ((df_saa_2024['parametro'] == 'Cloro residual livre (mg/L)') & (df_saa_2024['resultado_num'] <= 5)) |
        # pH: entre 6 e 9.5
        ((df_saa_2024['parametro'] == 'pH') & (df_saa_2024['resultado_num'] >= 6) & (df_saa_2024['resultado_num'] <= 9.5)) |
        # Turbidez: <= 5 uT
        ((df_saa_2024['parametro'] == 'Turbidez (ut)') & (df_saa_2024['resultado_num'] <= 5)) |
        # Cor aparente: >= 15 uH
        ((df_saa_2024['parametro'] == 'Cor aparente (uH)') & (df_saa_2024['resultado_num'] >= 15))
    )
]

In [55]:
df_filtrado.shape

(48086, 8)

In [57]:
df_filtrado.head(5)

Unnamed: 0,municipio,tipo_da_forma_de_abastecimento,nome_da_forma_de_abastecimento,parametro,resultado,resultado_num,conformidade,tipo_analise
5,IGUATU,SAA,SAAE IGUATU,Cloro residual livre (mg/L),20,2.0,CONFORME,Físico-Química
8,CEDRO,SAA,CAGECE CEDRO,pH,7,7.0,CONFORME,Físico-Química
9,AIUABA,SAA,SAAE DE AIUABA,Cloro residual livre (mg/L),25,0.25,CONFORME,Físico-Química
10,ITAICABA,SAA,SISTEMA ITAICABA,Cloro residual livre (mg/L),35,3.5,CONFORME,Físico-Química
16,PACUJA,SAA,CAGECE PACUJA,Cloro residual livre (mg/L),225,2.25,CONFORME,Físico-Química


Modelos de Machine Learning

In [None]:
from sklearn.preprocessing import LabelEncoder

# Transformando as colunas categóricas
label_encoder = LabelEncoder()

df_filtrado['municipio'] = label_encoder.fit_transform(df_filtrado['municipio'])
df_filtrado['parametro'] = label_encoder.fit_transform(df_filtrado['parametro'])
df_filtrado['tipo_da_forma_de_abastecimento'] = label_encoder.fit_transform(df_filtrado['tipo_da_forma_de_abastecimento'])
df_filtrado['nome_da_forma_de_abastecimento'] = label_encoder.fit_transform(df_filtrado['nome_da_forma_de_abastecimento'])

In [77]:
# Convertendo para string primeiro, caso necessário
df_filtrado['resultado_num'] = df_filtrado['resultado_num'].astype(str)

# Substituindo a vírgula por ponto
df_filtrado['resultado_num'] = df_filtrado['resultado_num'].str.replace(',', '.').astype(float)

In [80]:
# Verificando o tipo de dado
print(df_filtrado['resultado_num'].dtype)

# Se for string, substitui vírgula por ponto
if df_filtrado['resultado_num'].dtype == 'object':
    df_filtrado['resultado_num'] = df_filtrado['resultado_num'].str.replace(',', '.').astype(float)

# Verificando se a conversão foi bem-sucedida
print(df_filtrado['resultado_num'].dtype)

# Verificando se há valores inválidos (se o erro persistir)
print(df_filtrado['resultado_num'].unique())

float64
float64
[2.    7.    0.25  3.5   2.25  6.    4.    1.    0.64  0.13  2.2   0.86
 2.82  1.91  1.4   5.    1.29  2.91  4.3   2.49  2.04  1.2   2.66  4.5
 4.8   7.2   1.51  3.65  3.84  8.2   0.    1.25  1.68  4.77  1.49  1.35
 6.12  1.11  3.4   3.55  1.1   1.36  0.6   2.63  0.57  1.13  0.5   4.05
 3.    2.6   0.56  0.71  0.22  0.94  0.9   3.6   2.43  3.18  2.02  3.49
 0.45  1.02  4.7   1.12  3.24  1.67  0.7   0.27  1.61  1.55  2.71  1.89
 1.5   1.54  3.36  0.92  2.97  2.3   2.74  0.99  1.22  2.5   4.15  0.61
 2.87  1.65  1.96  0.8   2.84  0.69  2.42  1.07  6.8   0.2   0.37  3.09
 3.3   2.62  1.28  0.49  0.02  0.89  0.17  2.85  0.31  0.26  4.73  0.85
 1.77  2.9   8.    0.14  2.07  4.65  1.8   0.01  2.64  2.03  2.28  3.42
 1.19  2.1   0.04  2.65  4.08  0.4   3.15  1.43  0.28  0.19  1.82  1.78
 0.98  0.24  0.36  1.39  4.54  3.92  3.8   3.9   1.7   2.48  0.12  2.36
 0.54  0.41  1.3   7.6   2.33  4.9   4.1   1.88  1.94  2.46  1.53  0.42
 2.09  1.9   3.27  2.01  4.23  0.33  3.82  0.16  

In [81]:
from sklearn.model_selection import train_test_split

X = df_filtrado.drop(columns=['resultado_num'])
y = df_filtrado['resultado_num']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [87]:
print(df_filtrado['resultado_num'].unique())

[2.    7.    0.25  3.5   2.25  6.    4.    1.    0.64  0.13  2.2   0.86
 2.82  1.91  1.4   5.    1.29  2.91  4.3   2.49  2.04  1.2   2.66  4.5
 4.8   7.2   1.51  3.65  3.84  8.2   0.    1.25  1.68  4.77  1.49  1.35
 6.12  1.11  3.4   3.55  1.1   1.36  0.6   2.63  0.57  1.13  0.5   4.05
 3.    2.6   0.56  0.71  0.22  0.94  0.9   3.6   2.43  3.18  2.02  3.49
 0.45  1.02  4.7   1.12  3.24  1.67  0.7   0.27  1.61  1.55  2.71  1.89
 1.5   1.54  3.36  0.92  2.97  2.3   2.74  0.99  1.22  2.5   4.15  0.61
 2.87  1.65  1.96  0.8   2.84  0.69  2.42  1.07  6.8   0.2   0.37  3.09
 3.3   2.62  1.28  0.49  0.02  0.89  0.17  2.85  0.31  0.26  4.73  0.85
 1.77  2.9   8.    0.14  2.07  4.65  1.8   0.01  2.64  2.03  2.28  3.42
 1.19  2.1   0.04  2.65  4.08  0.4   3.15  1.43  0.28  0.19  1.82  1.78
 0.98  0.24  0.36  1.39  4.54  3.92  3.8   3.9   1.7   2.48  0.12  2.36
 0.54  0.41  1.3   7.6   2.33  4.9   4.1   1.88  1.94  2.46  1.53  0.42
 2.09  1.9   3.27  2.01  4.23  0.33  3.82  0.16  1.63  0.73  3.95

In [90]:
print(df_filtrado['resultado_num'].dtype)

float64


In [91]:
print(df_filtrado['resultado_num'].describe())

count    48086.000000
mean         2.540488
std          2.273363
min          0.000000
25%          0.720000
50%          1.900000
75%          3.810000
max          8.400000
Name: resultado_num, dtype: float64


In [92]:
print(df_filtrado['resultado_num'].isna().sum())

0


In [98]:
print(X_train.dtypes)

municipio                           int64
tipo_da_forma_de_abastecimento      int64
nome_da_forma_de_abastecimento      int64
parametro                           int64
resultado                         float64
conformidade                        int64
tipo_analise                        int64
dtype: object


In [95]:
print(y_train.dtypes)

float64


In [97]:
X_train['resultado'] = pd.to_numeric(X_train['resultado'].str.replace(',', '.'), errors='coerce')

In [99]:
from sklearn.linear_model import LinearRegression
model_lr = LinearRegression()
model_lr.fit(X_train, y_train)


In [100]:
from xgboost import XGBRegressor
model_xgb = XGBRegressor()
model_xgb.fit(X_train, y_train)


In [104]:
# Split dos dados em X e Y
X = df_filtrado[['tipo_da_forma_de_abastecimento','nome_da_forma_de_abastecimento', 'conformidade']].values
y = df_filtrado.resultado_num.values.reshape(-1,1)

In [105]:
#Split em treino e teste
x_treino, x_teste, y_treino, y_teste = train_test_split(X, y, test_size= 0.2, random_state= 0)

In [106]:
len(x_treino)

38468

In [107]:
len(y_treino)

38468

In [108]:
len(x_teste)

9618

In [109]:
len(y_teste)

9618

In [110]:
#Esala nos dados de treino. Fazemos o Fit somente com dados de treino
scaler = StandardScaler()
scaler.fit(x_treino)

In [111]:
#Aplicamos o scaler nos dados de treino e teste
x_treino_scaled = scaler.transform(x_treino)
x_teste_scaled = scaler.transform(x_teste)

In [112]:
x_treino_scaled

array([[ 0.        , -0.78762943, -0.30855398],
       [ 0.        , -0.74739371, -0.30855398],
       [ 0.        , -0.41976003, -0.30855398],
       ...,
       [ 0.        , -0.96006821, -0.30855398],
       [ 0.        , -0.59219881,  3.24092402],
       [ 0.        ,  1.90241559, -0.30855398]], shape=(38468, 3))

In [113]:
x_teste_scaled

array([[ 0.        , -0.98306005, -0.30855398],
       [ 0.        , -0.85660494, -0.30855398],
       [ 0.        ,  1.82769212, -0.30855398],
       ...,
       [ 0.        ,  1.13793699, -0.30855398],
       [ 0.        , -0.20133757, -0.30855398],
       [ 0.        ,  2.10934214, -0.30855398]], shape=(9618, 3))

In [114]:
#Cria modelo
modelo_lr_v1 = LinearRegression()

In [115]:
#Treinamento do modelo
modelo_lr_v1.fit(x_treino_scaled, y_treino)

In [116]:
#O que o modelo aprendeu
print("Coeficientes: \n", modelo_lr_v1.coef_)

Coeficientes: 
 [[ 0.          0.03777297 -0.76371844]]


In [117]:
# Previsões com dados de treino
y_pred_treino = modelo_lr_v1.predict(x_treino_scaled)

In [118]:
# Print das métricas em treino
print('Mean Absolute Error:', metrics.mean_absolute_error(y_treino, y_pred_treino))
print('Mean Squared Error:', metrics.mean_squared_error(y_treino, y_pred_treino))
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_treino, y_pred_treino)))
print('R2 Score:', metrics.r2_score(y_treino, y_pred_treino))

Mean Absolute Error: 1.681608245253231
Mean Squared Error: 4.536047307893951
Root Mean Squared Error: 2.129799828127975
R2 Score: 0.11411076570878775


In [None]:
#Sugestão DeepSeak

from sklearn.preprocessing import (OneHotEncoder, StandardScaler, 
                                 FunctionTransformer)
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Definir tipos de colunas
categorical_features = ['municipio', 'tipo_da_forma_de_abastecimento', 
                       'tipo_analise']
high_cardinality_features = ['nome_da_forma_de_abastecimento']
binary_features = ['conformidade']
numeric_features = ['parametro', 'resultado']

# Pipeline para alta cardinalidade (agregação)
def aggregate_high_cardinality(X):
    # Substitui pelo valor médio do target para cada categoria
    agg_values = X.groupby('nome_da_forma_de_abastecimento')['resultado_num'].mean()
    return X['nome_da_forma_de_abastecimento'].map(agg_values).values.reshape(-1, 1)

preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features),
        ('high_card', FunctionTransformer(aggregate_high_cardinality), high_cardinality_features),
        ('binary', 'passthrough', binary_features),
        ('num', StandardScaler(), numeric_features)
    ])

#Engenharia de Features Avançada:
# Criando novas features antes do pré-processamento
df_filtrado['interaction'] = df_filtrado['conformidade'] * df_filtrado['tipo_analise']
df_filtrado['parametro_norm'] = (df_filtrado['parametro'] - df_filtrado['parametro'].mean()) / df_filtrado['parametro'].std()

# Para alta cardinalidade, criar agregações
group_stats = df_filtrado.groupby('nome_da_forma_de_abastecimento').agg({
    'resultado_num': ['mean', 'std', 'count']
})
df = df_filtrado.merge(group_stats, on='nome_da_forma_de_abastecimento', how='left')

#Modelagem Melhorada
from sklearn.ensemble import HistGradientBoostingRegressor
from sklearn.model_selection import cross_val_score

# Pipeline completo
pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('model', HistGradientBoostingRegressor(
        categorical_features=[True]*len(categorical_features),
        max_iter=200,
        learning_rate=0.05
    ))
])

# Validação cruzada
scores = cross_val_score(pipeline, X_train, y_train, cv=5, scoring='r2')
print(f"R2 médio: {scores.mean():.2f} (+/- {scores.std():.2f})")

MergeError: Not allowed to merge between different levels. (1 levels on the left, 2 on the right)