# Projeto de Descoberta de Fraudes no consumo de Água com Deep Learning💧

## Empresa parceira: Aegea Saneamento

- Abaixo você irá encontrar descrições sobre a problemática relacionada ao projeto e o nosso objetivo e benefícios que esperamos alcançar. 👇

#### Problemática base 🚨

A fraude no consumo de água é um grande desafio enfrentado pela empresa e qualquer empresa de prestação de serviços de saneamento. Esse problema afeta tanto o faturamento e a arrecadação da empresa, quanto a qualidade do serviço de abastecimento de água.

A fraude acontece quando um consumidor manipula o instrumento de medição de consumo de água, chamado hidrômetro, realiza ligações clandestinas ou qualquer forma de adulteração que reduza ou até mesmo elimine os valores cobrados pelo consumo real.

As práticas acima descritas, além de causarem perdas econômicas para Aegea, também geram impactos na qualidade do abastecimento de água à população, comprometendo a eficiência e a integridade física da infraestrutura de distribuição de água.

#### Impactos 📊

- Danos a tubulações resultando em vazamentos, resultando em perda de água e alteração na pressão da rede de distribuição de água.
- Intermitência no abastecimento de água à população.
- Redução de valores faturados e, consequentemente, diminuição de receita.
- Aumento do risco de contaminação da água, uma vez que métodos fraudulentos não seguem padrões de segurança, possibilitando a presença de contaminantes nas redes de abastecimento.

#### Mediação 🔍

Para combater esse problema, atualmente existem diversas estratégias aplicadas na empresa, desde verificar alterações no padrão de consumo dos clientes até apontamentos de agentes de campo. Em todos os casos existem equipes especializadas em fiscalizar e sanar quaisquer fraudes que sejam detectadas. A atuação dessas equipes é delimitada diariamente por uma lista de alvos para fiscalização.

Diante do cenário acima descrito, deseja-se o desenvolvimento de uma aplicação que melhore a assertividade da atuação da Aegea na detecção de fraudes em seu âmbito de atuação, construindo um modelo de Machine Learning que demonstre eficácia nos processos de negócio.

### Objetivo e Benefícios esperados ✅


- Determinar a probabilidade de um comportamento do consumo ser fraudulento ou não, considerando, de maneira holística, dados históricos de consumo e, caso necessário, a influência de variáveis exógenas, como índices macroeconômicos, climáticos, geográficos, dentre outros.

- Melhorar a capacidade de detecção e predição de fraudes de consumo de água dos consumidores nas áreas de atuação da Aegea. Compreender melhor elementos importantes para detecção e predição de fraudes nos clientes da Aegea

## **Integrantes do Grupo** 🚀
- Camila Anacleto
- Henri Harari
- Patrick Victorino
- Pedro Rezende
- Sophia Dias
- Vitória Rodrigues

---
# Sobre o notebook 🥸

## Objetivo 🎯

O objetivo principal do desenvolvimento deste notebook é realizar uma análise detalhada dos dados de consumo de água, abrangendo o período de 2019 a 2024, juntamente com a base de dados de fraudes identificadas nesse intervalo. 

Essa análise visa fornecer uma compreensão profunda dos padrões de consumo e detectar possíveis anomalias que possam indicar práticas fraudulentas. Utilizando métodos avançados de análise de dados, o notebook busca identificar variáveis e padrões críticos que podem ser usados para melhorar a capacidade preditiva e a assertividade da Aegea na detecção de fraudes, contribuindo assim para a eficácia das ações de combate a esse problema.

# Setup

## Importação de biliotecas

In [1]:
%pip install -q -r requirements.txt

Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
import plotly.subplots as sp
import plotly.express as px
import os
from plotly.subplots import make_subplots
from datetime import datetime
import gdown

## Importação das bases

In [2]:
# ID do arquivo no Google Drive a ser utilizado como base
file_fraudes = '1LwGdM21RGsPNon_wU1wvI00jzh8_otIJ'

!gdown {file_fraudes}

Downloading...
From: https://drive.google.com/uc?id=1LwGdM21RGsPNon_wU1wvI00jzh8_otIJ
To: c:\Users\pedro\OneDrive\Documentos\C.1 - GitHub\M11_Projeto1\2024-2A-T04-SI11-G01\src\FRAUDE_tratado.csv

  0%|          | 0.00/92.4M [00:00<?, ?B/s]
  1%|          | 524k/92.4M [00:00<01:22, 1.11MB/s]
  1%|          | 1.05M/92.4M [00:00<00:55, 1.65MB/s]
  2%|▏         | 1.57M/92.4M [00:00<00:43, 2.09MB/s]
  2%|▏         | 2.10M/92.4M [00:01<00:43, 2.05MB/s]
  3%|▎         | 2.62M/92.4M [00:01<00:35, 2.51MB/s]
  3%|▎         | 3.15M/92.4M [00:01<00:35, 2.51MB/s]
  4%|▍         | 3.67M/92.4M [00:01<00:35, 2.48MB/s]
  5%|▍         | 4.19M/92.4M [00:01<00:34, 2.58MB/s]
  5%|▌         | 4.72M/92.4M [00:01<00:30, 2.83MB/s]
  6%|▌         | 5.24M/92.4M [00:02<00:29, 2.93MB/s]
  6%|▌         | 5.77M/92.4M [00:02<00:30, 2.88MB/s]
  7%|▋         | 6.29M/92.4M [00:02<00:26, 3.23MB/s]
  7%|▋         | 6.82M/92.4M [00:02<00:29, 2.93MB/s]
  8%|▊         | 7.34M/92.4M [00:02<00:32, 2.64MB/s]
  9%|▊         | 7.

In [2]:
# ID do arquivo no Google Drive a ser utilizado como base
file_consumo_geral = '17p5UBI3WU_O2Zv-5n7tpJUPgq3MamZNw'

!gdown {file_consumo_geral}

Downloading...
From (original): https://drive.google.com/uc?id=17p5UBI3WU_O2Zv-5n7tpJUPgq3MamZNw
From (redirected): https://drive.google.com/uc?id=17p5UBI3WU_O2Zv-5n7tpJUPgq3MamZNw&confirm=t&uuid=27443ccf-2662-4b29-8ba5-481527144b64
To: c:\Users\pedro\OneDrive\Documentos\C.1 - GitHub\M11_Projeto1\2024-2A-T04-SI11-G01\src\CONSUMO_2020.csv

  0%|          | 0.00/1.03G [00:00<?, ?B/s]
  0%|          | 524k/1.03G [00:00<09:01, 1.90MB/s]
  0%|          | 1.05M/1.03G [00:00<08:58, 1.91MB/s]
  0%|          | 1.57M/1.03G [00:00<08:39, 1.97MB/s]
  0%|          | 2.62M/1.03G [00:01<05:47, 2.95MB/s]
  0%|          | 3.67M/1.03G [00:01<04:36, 3.71MB/s]
  1%|          | 5.24M/1.03G [00:01<03:07, 5.46MB/s]
  1%|          | 6.82M/1.03G [00:01<02:29, 6.84MB/s]
  1%|          | 7.86M/1.03G [00:01<02:20, 7.28MB/s]
  1%|          | 8.91M/1.03G [00:01<02:20, 7.24MB/s]
  1%|          | 10.5M/1.03G [00:01<02:01, 8.35MB/s]
  1%|          | 12.1M/1.03G [00:02<01:49, 9.25MB/s]
  1%|▏         | 13.1M/1.03G [00:

# Tratamento dos dados

Para o nosso projeto, foram cridos pré-processamentos com o intuito de garantir que os dados estejam em um formato adequado para alimentar o modelo de deep learning, otimizando o processo de aprendizado e aumentando a precisão das previsões. Este processo inclui várias etapas cruciais, que são fundamentais para preparar os dados de forma consistente e padronizada, visando garantir que o modelo possa extrair padrões significativos e fornecer previsões mais precisas e confiáveis:

* Normalização: A normalização será aplicada para escalar os dados dentro de um intervalo específico, entre 0 e 1. Isso é essencial para assegurar que todas as características tenham a mesma importância durante o treinamento do modelo, evitando que atributos com valores mais altos dominem o aprendizado e ajudando a acelerar a convergência do algoritmo.

* Tratamento de Texto: Para uniformizar os dados textuais, todo o texto será convertido para maiúsculas e caracteres especiais serão removidos. Essas transformações são necessárias para garantir consistência na forma como as palavras são processadas, eliminando variações que possam confundir o modelo.

* One Hot Encoding: As variáveis categóricas serão convertidas em uma representação numérica utilizando o One Hot Encoding. Essa técnica é crucial para transformar dados categóricos em um formato compatível com o modelo de deep learning, garantindo que as categorias sejam tratadas de maneira uniforme, sem a criação de hierarquias falsas, e permitindo que o modelo interprete cada categoria como uma entidade independente.

### Normalização

Normalização dos dados para garantir que todas as variáveis tivessem uma escala comparável, evitando que alguma variável dominasse o modelo devido a valores mais altos.

In [None]:
def normalize_column(df, column_name):

  column_values = df[column_name]

  # Calcula os valores maximos e minimos
  min_value = column_values.min()
  max_value = column_values.max()

  # normaliza o valor
  normalized_values = (column_values - min_value) / (max_value - min_value)

  # retorna a coluna com dados normalizados
  df_normalized = df.copy()
  df_normalized[column_name] = normalized_values

  return df_normalized["CONS_MEDIDO"]


In [None]:
normalize_column(merged_df, "CONS_MEDIDO")

### Padronização do texto
Padronização das colunas de texto de forma a evitar possiveis problemas causados por textos mal formatados.

In [None]:
def padronizar_texto(df, column_name):

  # Cria uma cópia da coluna para evitar modificações no DataFrame original
  new_column = df[column_name].copy()

  # Converte todos os textos para maiúsculas
  new_column = new_column.str.upper()

  # Remove caracteres especiais
  new_column = new_column.apply(lambda x: re.sub(r'[^a-zA-Z0-9]', '', str(x)))

  return new_column

In [None]:
padronizar_texto(df_consumo,"DSC_SIMULTANEA")

Vale mencionar que a função realiza tanto a padronização dos textos para maiusculos tanto a remoção de qualquer carctere especial, segue abaixo o teste dessa função:

### One hot encoding

Codificação One-Hot para garantir que as variáveis categóricas sejam representadas de forma adequada no modelo, evitando que o algoritmo interprete erroneamente as categorias.

In [None]:
def one_hot_encoding(df, column_name):
  df_encoded = pd.get_dummies(df, columns=[column_name], prefix=[column_name])
  return df_encoded

df_encoded = one_hot_encoding(df_consumo, "COD_GRUPO")
df_encoded.head()

In [None]:
one_hot_encoding(df_consumo,"DSC_SIMULTANEA")

### Criação de categoria de consumo

Tramento para criação de categorias de consumo, que podem sem utilizadas para ánalise

In [None]:
def categorizar_consumo(df, column_name):


  # Criação novas colunas para as categorias de consumo
  df['Consumo_Alto'] = 0
  df['Consumo_Medio'] = 0
  df['Consumo_Baixo'] = 0

  # Categorizando o consumo
  df.loc[df[column_name] > 0.7, 'Consumo_Alto'] = 1
  df.loc[(df[column_name] >= 0.2) & (df[column_name] <= 0.7), 'Consumo_Medio'] = 1
  df.loc[df[column_name] < 0.2, 'Consumo_Baixo'] = 1

  return df


In [None]:
df_teste = df_consumo.copy()
df_teste["CONS_MEDIDO"] = normalize_column(df_teste, "CONS_MEDIDO")
categorizar_consumo(df_teste, "CONS_MEDIDO")
resultado_teste = ['Consumo_Alto', 'Consumo_Medio', 'Consumo_Baixo', 'CONS_MEDIDO']
df_teste = df_teste[resultado_teste]

df_teste

## Pipeline de tratamento dos dados

Para garantir que os dados sejam processados corretamente, foi desenvolvida uma pipeline de pré-processamento robusta e flexível, capaz de se adaptar a diferentes data frames. Essa pipeline foi projetada para executar de forma automática todos os tratamentos necessários, conforme descrito no tópico de pré-processamento de dados. Com isso, assegura-se que cada conjunto de dados seja tratado de maneira adequada e consistente, independentemente das suas particularidades ou formatos, assim sendo adaptavel as nescecidades de cada dataframe e possibilitando a adição de novas bases ao projeto.

In [None]:
def pipeline_tratamento(df, colunas_normalizar, colunas_padronizar, colunas_onehot, coluna_consumo):

  # Normalização
  for coluna in colunas_normalizar:
    df[coluna] = normalize_column(df, coluna)

  # Padronização de texto
  for coluna in colunas_padronizar:
    df[coluna] = padronizar_texto(df, coluna)

  # One-hot encoding
  for coluna in colunas_onehot:
    df = one_hot_encoding(df, coluna)

  # Criação de categorias de consumo
  df = categorizar_consumo(df, coluna_consumo)

  return df

In [None]:
df_pipe = df_consumo.copy()
colunas_normalizar = ["CONS_MEDIDO"]
colunas_padronizar = ["DSC_SIMULTANEA"]
colunas_onehot = ["DSC_SIMULTANEA"]
coluna_consumo = "CONS_MEDIDO"

df_pipe = pipeline_tratamento(df_pipe, colunas_normalizar, colunas_padronizar, colunas_onehot, coluna_consumo)
df_pipe

## Análise inicial das bases

In [None]:
df_consumo = pd.read_parquet('CONSUMO_GERAL.parquet', engine='pyarrow', columns = ["MATRICULA", "CONS_MEDIDO", "DAT_LEITURA", "CATEGORIA", "SEQ_RESPONSAVEL"])
df_consumo.head()

In [4]:
df_consumo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24774819 entries, 0 to 24774818
Data columns (total 5 columns):
 #   Column           Dtype         
---  ------           -----         
 0   MATRICULA        Int64         
 1   CONS_MEDIDO      Int64         
 2   DAT_LEITURA      datetime64[ns]
 3   CATEGORIA        object        
 4   SEQ_RESPONSAVEL  Int64         
dtypes: Int64(3), datetime64[ns](1), object(1)
memory usage: 1016.0+ MB


In [None]:
df_fraudes = pd.read_csv('FRAUDE_tratado.csv', usecols = lambda column : column in ["DESCRICAO", "MATRICULA", "ANOMES"])
df_fraudes.head()

In [6]:
df_fraudes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 225997 entries, 0 to 225996
Data columns (total 3 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   ANOMES     225997 non-null  object
 1   MATRICULA  225997 non-null  int64 
 2   DESCRICAO  225997 non-null  object
dtypes: int64(1), object(2)
memory usage: 5.2+ MB


## Junção das bases de `Consumo Medido` e `Fraudes`

In [None]:
df_consumo['MATRICULA'] = df_consumo['MATRICULA'].astype(int)
df_fraudes['MATRICULA'] = df_fraudes['MATRICULA'].astype(int)

df_consumo['ANOMES'] = df_consumo['DAT_LEITURA'].apply(lambda x: x.strftime('%m/%y') if pd.notnull(x) else None)

merged_df = pd.merge(df_consumo, df_fraudes, how='left', on=['MATRICULA', 'ANOMES'])

merged_df.head()


In [8]:
merged_df['DESCRICAO'] = np.where(merged_df['DESCRICAO'] == 'IRREGULARIDADE IDENTIFICADA', 1, 0)

In [None]:
merged_df.head()

# Análise exploratória

A análise exploratória de dados (AED) é uma etapa fundamental para entender o comportamento dos dados e identificar padrões que possam indicar fraudes no consumo de água. Neste projeto, exploramos diversas variáveis relacionadas ao consumo de água, categorias de clientes, tendências temporais e distribuições geográficas, com o objetivo de detectar anomalias e comportamentos suspeitos, além dos dados que identificam fraudes. A AED nos fornece insights críticos que guiarão o desenvolvimento de um modelo preditivo eficaz, capaz de identificar fraudes de maneira precisa, e apoiar decisões estratégicas da Aegea para mitigar perdas e melhorar a qualidade do serviço.

## Consumo Medido

### Big Numbers

In [10]:
df_consumo['Year'] = df_consumo['DAT_LEITURA'].dt.year

df_totals = df_consumo.groupby(['Year', 'CATEGORIA']).agg({
    'CONS_MEDIDO': ['sum', 'mean']
}).reset_index()

df_totals.columns = ['Year', 'CATEGORIA', 'Total_Consumo', 'Media_Consumo']

df_totals_sorted = df_totals.sort_values(by=['Year', 'CATEGORIA'])

fig_total = px.bar(df_totals_sorted, x='Year', y='Total_Consumo', color='CATEGORIA',
                   title='Total de Consumo por Categoria e Ano',
                   labels={'Total_Consumo': 'Consumo Total (m³)', 'Year': 'Ano', 'CATEGORIA': 'Categoria'},
                   barmode='stack')

fig_total.update_layout(xaxis_title='Ano', yaxis_title='Consumo Total (m³)')
fig_total.show()

In [11]:
fig_media = px.line(df_totals_sorted, x='Year', y='Media_Consumo', color='CATEGORIA',
                    title='Média de Consumo por Categoria e Ano',
                    labels={'Media_Consumo': 'Média de Consumo (m³/m²)', 'Year': 'Ano', 'CATEGORIA': 'Categoria'})

fig_media.update_layout(xaxis_title='Ano', yaxis_title='Média de Consumo (m³/m²)')
fig_media.show()


Media_Consumo:
- COMERCIAL: Em 2024, a média de consumo comercial é a mais alta entre os anos, com 13.08 m³, superando os valores de anos anteriores. Isso sugere uma continuidade no aumento de eficiência ou consumo dentro dessa categoria. O valor menor observado em 2024 é parcialmente devido ao fato de que o ano ainda não terminou, e esses números devem crescer conforme o ano avança.

- INDUSTRIAL: A categoria industrial teve sua média de consumo aumentando consistentemente desde 2021, atingindo 20.10 m³ em 2024, apesar de ser um ano incompleto. Isso pode indicar uma retomada na produção ou um aumento na demanda industrial.

- PÚBLICA: O consumo médio na categoria pública varia ao longo dos anos, com um pico notável em 2023. O valor para 2024, embora menor, reflete a mesma condição de dados incompletos.

- RESIDENCIAL: O consumo médio na categoria residencial diminuiu gradualmente desde 2020, com uma leve recuperação em 2024 (11.49 m³). O valor mais baixo de 2024 deve ser visto como provisório até que o ano termine.

Total_Consumo:
- COMERCIAL: O consumo total na categoria comercial teve um pico em 2023, atingindo 5.37 milhões de m³, antes de cair em 2024. Essa queda, como explicado, é devido aos dados incompletos deste ano.

- INDUSTRIAL: A categoria industrial apresenta um padrão de consumo total relativamente estável, com uma leve queda em 2024, que também é influenciada pelos dados incompletos.

- PÚBLICA: O consumo na categoria pública teve um pico significativo em 2023 (3.98 milhões de m³), refletindo um aumento de atividades ou demanda antes de uma queda em 2024.

- RESIDENCIAL: A categoria residencial, sendo a maior consumidora, mostrou uma redução em 2024 para 28.66 milhões de m³, em comparação com os anos anteriores. Novamente, isso é devido ao ano ainda estar em andamento.

### Série temporal
Identificar picos e quedas súbitas no consumo de água ao longo do tempo.

In [12]:
df_consumo['DAT_LEITURA'] = pd.to_datetime(df_consumo['DAT_LEITURA'])

df_consumo['Year'] = df_consumo['DAT_LEITURA'].dt.to_period('Y').astype(str)

subcategorias = df_consumo['CATEGORIA'].unique()

fig = sp.make_subplots(rows=2, cols=2, subplot_titles=subcategorias[:4])

for i, subcategoria in enumerate(subcategorias[:4]):
    df_year_cat = df_consumo[df_consumo['CATEGORIA'] == subcategoria].groupby('Year')['CONS_MEDIDO'].sum().reset_index()

    fig_cat = px.line(df_year_cat, x='Year', y='CONS_MEDIDO', title=f'Consumo Medido por {subcategoria}')

    for trace in fig_cat.data:
        row = (i // 2) + 1
        col = (i % 2) + 1
        fig.add_trace(trace, row=row, col=col)

fig.update_layout(height=800, width=1000, title_text="Consumo Medido por Ano e Categoria")
fig.show()


Neste gráfico, observamos o comportamento do consumo de água ao longo dos anos em quatro categorias principais: RESIDENCIAL, COMERCIAL, INDUSTRIAL, e PÚBLICA. A categoria RESIDENCIAL domina o consumo total, com um aumento significativo entre 2019 e 2020, o período de pandemia do Covid 19 que iniciou-se em 2020 e pode explicar este aumento, mantendo-se elevado até 2023, quando começa a declinar. É importante notar que, embora haja uma queda em 2024, isso não deve ser interpretado como uma tendência de redução no consumo, mas sim como um reflexo de dados parciais para o ano de 2024.

A categoria COMERCIAL segue uma tendência similar, com um aumento perceptível até 2023, e uma queda em 2024, novamente, explicada pela incompletude dos dados. INDUSTRIAL e PÚBLICA mostram picos em 2020 e 2023, respectivamente, antes de apresentarem declínios em 2024. A observação geral é que o consumo aumenta consistentemente até 2023, sugerindo uma demanda crescente em todas as categorias, possivelmente devido ao crescimento econômico, aumento da população, ou expansão das atividades comerciais e industriais.

### Média de Consumo por m³ por categoria e ano

In [13]:
df_consumo['DAT_LEITURA'] = pd.to_datetime(df_consumo['DAT_LEITURA'])

df_consumo['Year'] = df_consumo['DAT_LEITURA'].dt.to_period('Y').astype(str)

df_consumo_cat = df_consumo.groupby(['Year', 'CATEGORIA']).agg({
    'CONS_MEDIDO': 'sum',
    'SEQ_RESPONSAVEL': 'nunique'
}).reset_index()

df_consumo_cat['CONS_MEDIDO_M2'] = df_consumo_cat['CONS_MEDIDO'] / df_consumo_cat['SEQ_RESPONSAVEL']

subcategorias = df_consumo_cat['CATEGORIA'].unique()
fig = sp.make_subplots(rows=2, cols=2, subplot_titles=subcategorias[:4])

for i, subcategoria in enumerate(subcategorias[:4]):
    df_plot = df_consumo_cat[df_consumo_cat['CATEGORIA'] == subcategoria]

    fig_mean = px.bar(df_plot, x='Year', y='CONS_MEDIDO_M2', title=f'Média de Consumo por m² por {subcategoria}')

    for trace in fig_mean.data:
        row = (i // 2) + 1
        col = (i % 2) + 1
        fig.add_trace(trace, row=row, col=col)

fig.update_layout(height=800, width=1000, title_text="Média de Consumo por m² por Ano e Categoria")
fig.show()

Este gráfico nos dá uma perspectiva diferente, focando na eficiência do consumo ao considerar o volume médio consumido por ligação (`MATRÍCULA` + `SEQ_RESPONSAVEL`) em cada categoria.

COMERCIAL e RESIDENCIAL mostram um padrão relativamente estável na média de consumo por ligação ao longo dos anos, com ligeiras flutuações que podem refletir mudanças nas práticas de consumo ou eficiência no uso da água.
A categoria INDUSTRIAL tem um pico expressivo em 2020, sugerindo um período de alta produção ou utilização intensiva dos recursos disponíveis, o que pode ser explicado pela pandemia.

PÚBLICA mostra um padrão de consumo médio que varia mais dramaticamente, com um pico em 2023, possivelmente indicando grandes projetos públicos ou eventos que requereram um maior uso de água.

A queda em 2024 em todas as categorias, embora influenciada pela parcialidade dos dados, também sugere que os padrões de consumo podem estar mudando, possivelmente devido a novas regulamentações ou avanços tecnológicos que promovem a eficiência hídrica.

## Consumo medido X Fraudes

### Distribuição do Consumo Medido por Descrição

In [14]:
import pandas as pd
import plotly.graph_objects as go

merged_df['FRAUDE'] = merged_df['DESCRICAO'].apply(lambda x: 'Com Fraude' if x == 1 else 'Sem Fraude')

category_fraud_sums = merged_df.groupby(['CATEGORIA', 'FRAUDE'])['CONS_MEDIDO'].sum().unstack(fill_value=0)

if 'Com Fraude' not in category_fraud_sums.columns:
    category_fraud_sums['Com Fraude'] = 0

if 'Sem Fraude' not in category_fraud_sums.columns:
    category_fraud_sums['Sem Fraude'] = 0

category_fraud_sums['Total'] = category_fraud_sums.sum(axis=1)

category_fraud_sums = category_fraud_sums.sort_values(by='Total', ascending=False)

fig = go.Figure()

fig.add_trace(go.Waterfall(
    name='Sem Fraude',
    orientation="v",
    measure=["relative"] * len(category_fraud_sums) + ["total"],
    x=list(category_fraud_sums.index) + ['Total'],
    y=list(category_fraud_sums['Sem Fraude']) + [category_fraud_sums['Sem Fraude'].sum()],
    text=list(category_fraud_sums['Sem Fraude']) + [category_fraud_sums['Sem Fraude'].sum()],
    textposition="outside",
    decreasing={"marker": {"color": "green"}},
))

fig.add_trace(go.Waterfall(
    name='Com Fraude',
    orientation="v",
    measure=["relative"] * len(category_fraud_sums) + ["total"],
    x=list(category_fraud_sums.index) + ['Total'],
    y=list(category_fraud_sums['Com Fraude']) + [category_fraud_sums['Com Fraude'].sum()],
    text=list(category_fraud_sums['Com Fraude']) + [category_fraud_sums['Com Fraude'].sum()],
    textposition="outside",
    increasing={"marker": {"color": "red"}},
))

fig.update_layout(
    title='Consumo Medido por Categoria e Fraude - Gráfico de Cascata',
    xaxis_title='Categoria',
    yaxis_title='Consumo Medido (CONS_MEDIDO)',
    waterfallgap=0.3,
    showlegend=True,
    legend_title='Tipo de Consumo'
)

fig.show()


O gráfico de cascata nos fornece uma visão clara da distribuição do consumo entre atividades "Com Fraude" e "Sem Fraude" em cada categoria.

A categoria RESIDENCIAL não apenas domina o consumo total, mas também é onde a maior parte das fraudes é detectada. Isso pode ser reflexo do grande número de usuários residenciais e da dificuldade em monitorar individualmente cada unidade. COMERCIAL e PÚBLICA também apresentam fraudes, mas em menor escala, o que pode indicar um melhor monitoramento ou menor oportunidade para práticas fraudulentas nessas categorias.

A diferença entre o consumo legítimo e o fraudulento é mais evidente em RESIDENCIAL, destacando a necessidade de fortalecer a detecção e a prevenção de fraudes nesta categoria. INDUSTRIAL, por outro lado, mostra um consumo quase todo legítimo, sugerindo que fraudes são menos comuns ou mais difíceis de realizar nesta categoria, apesar de que os valores das contas das categorias INDUSTRIAL e PÚBLICA são experessivos, segundo à Aegea no KickOff, o que não descarta a necessidade de identificar as fraudes dessas categorias no projeto.

### Comportamento de Matrículas Fraudadoras por Número de Anos de Fraude

In [15]:
merged_df['FRAUDE'] = merged_df['DESCRICAO'].apply(lambda x: 'Com Fraude' if x == 1 else 'Sem Fraude')

fraud_df = merged_df[merged_df['FRAUDE'] == 'Com Fraude']
fraud_df['Year'] = fraud_df['DAT_LEITURA'].dt.to_period('Y').astype(str)

fraud_counts = fraud_df.groupby('MATRICULA')['Year'].nunique().reset_index()
fraud_counts.columns = ['MATRICULA', 'Years_Frauded']

merged_fraud_df = pd.merge(fraud_df, fraud_counts, on='MATRICULA')

behavior_df = merged_fraud_df.groupby(['Year', 'Years_Frauded']).agg({
    'CONS_MEDIDO': 'sum',
    'MATRICULA': 'nunique'
}).reset_index()

behavior_df['Avg_Consumo_Per_Matricula'] = behavior_df['CONS_MEDIDO'] / behavior_df['MATRICULA']

fig = px.line(behavior_df, x='Year', y='Avg_Consumo_Per_Matricula', color='Years_Frauded',
              title='Comportamento de Matrículas Fraudadoras por Número de Anos de Fraude',
              labels={'Years_Frauded': 'Anos de Fraude', 'Avg_Consumo_Per_Matricula': 'Consumo Médio por Matrícula (m³)'})

fig.show()



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Neste gráfico, exploramos o comportamento dos consumidores fraudulentos categorizados pelo número de anos em que foram detectados praticando fraudes.

Clientes que fraudaram por mais de 2 anos mostram uma tendência de diminuição no consumo ao longo do tempo, o que pode ser um indicativo de detecção e intervenção. Esses clientes podem ter sido forçados a reduzir suas práticas fraudulentas devido ao aumento da fiscalização ou penalidades.

A persistência de fraudes por vários anos pode sugerir que, embora os sistemas de detecção sejam eficazes, ainda há brechas que permitem que essas práticas continuem por um longo período antes de serem completamente interrompidas.

A diminuição geral do consumo entre fraudadores ao longo dos anos sugere que a implementação de medidas de controle está começando a mostrar resultados, embora ainda haja um caminho a percorrer.

### Comportamento ao longo dos anos e meses de três clientes fraudadores da categoria residencial


In [16]:
merged_df['FRAUDE'] = merged_df['DESCRICAO'].apply(lambda x: 'Com Fraude' if x == 1 else 'Sem Fraude')

residencial_fraud_df = merged_df[(merged_df['FRAUDE'] == 'Com Fraude') & (merged_df['CATEGORIA'] == 'RESIDENCIAL')]

residencial_fraud_df['Year'] = residencial_fraud_df['DAT_LEITURA'].dt.to_period('Y').astype(str)

fraud_years_count = residencial_fraud_df.groupby('MATRICULA')['Year'].nunique().reset_index()
fraud_years_count.columns = ['MATRICULA', 'Years_Frauded']

fraud_years_count = fraud_years_count[fraud_years_count['Years_Frauded'] > 2]

recent_matriculas = residencial_fraud_df[residencial_fraud_df['MATRICULA'].isin(fraud_years_count['MATRICULA'])].sort_values(by='DAT_LEITURA', ascending=False)['MATRICULA'].unique()[:3]

clientes_df = residencial_fraud_df[residencial_fraud_df['MATRICULA'].isin(recent_matriculas)]

clientes_df['YearMonth'] = clientes_df['DAT_LEITURA'].dt.to_period('M').astype(str)

clientes_consumo_df = clientes_df.groupby(['MATRICULA', 'YearMonth']).agg({
    'CONS_MEDIDO': 'sum'
}).reset_index()

fig = px.line(clientes_consumo_df, x='YearMonth', y='CONS_MEDIDO', color='MATRICULA',
              title=f'Consumo Mensal ao Longo dos Anos para 3 Clientes com Fraude por Mais de 2 Anos',
              labels={'YearMonth': 'Ano/Mês', 'CONS_MEDIDO': 'Consumo Medido (m³)', 'MATRICULA': 'Matrícula'})

fig.update_layout(xaxis_title='Ano/Mês', yaxis_title='Consumo Medido (m³)', xaxis_tickangle=-45)
fig.show()




A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Este gráfico foca em três clientes específicos que foram identificados como fraudulentos por mais de dois anos.

Observamos que, enquanto um dos clientes apresenta um pico de consumo significativo em 2024, os outros dois mantêm um consumo mais estável. Este pico pode indicar uma tentativa de maximizar a fraude antes de uma possível detecção ou pode ser um reflexo de padrões de consumo específicos para este cliente.
A variabilidade entre os padrões de consumo desses clientes sugere que as fraudes não seguem um padrão uniforme, o que torna a detecção ainda mais desafiadora.

O comportamento anômalo do consumo para um dos clientes em 2024 também pode sinalizar uma necessidade urgente do consumidor que gerou a fraude, enquanto os outros dois demonstram como as fraudes podem se manifestar de forma sutil e prolongada ao longo do tempo.

## Conclusão

A análise detalhada revelou que a categoria **RESIDENCIAL** é a maior consumidora de água e também a mais afetada por fraudes. As fraudes nessa categoria representam uma significativa perda financeira para a Aegea e ocorrem de forma prolongada, muitas vezes permanecendo indetectáveis por anos.

Diante disso, os próximos passos no desenvolvimento da rede neural de deep learning serão focados na categoria **RESIDENCIAL**. O modelo será treinado com dados históricos de consumo residencial e incluirá variáveis exógenas para melhorar a precisão na detecção de fraudes. Esse foco permitirá uma maior assertividade na identificação de padrões anômalos, reduzindo perdas e otimizando os recursos operacionais da Aegea.

A implementação inicial na categoria **RESIDENCIAL** é estratégica, pois terá o maior impacto na redução de fraudes e na melhoria do faturamento da empresa.