# Projeto de Descoberta de Fraudes no consumo de √Ågua com Deep Learningüíß

## Empresa parceira: Aegea Saneamento

- Abaixo voc√™ ir√° encontrar descri√ß√µes sobre a problem√°tica relacionada ao projeto e o nosso objetivo e benef√≠cios que esperamos alcan√ßar. üëá

#### Problem√°tica base üö®

A fraude no consumo de √°gua √© um grande desafio enfrentado pela empresa e qualquer empresa de presta√ß√£o de servi√ßos de saneamento. Esse problema afeta tanto o faturamento e a arrecada√ß√£o da empresa, quanto a qualidade do servi√ßo de abastecimento de √°gua.

A fraude acontece quando um consumidor manipula o instrumento de medi√ß√£o de consumo de √°gua, chamado hidr√¥metro, realiza liga√ß√µes clandestinas ou qualquer forma de adultera√ß√£o que reduza ou at√© mesmo elimine os valores cobrados pelo consumo real.

As pr√°ticas acima descritas, al√©m de causarem perdas econ√¥micas para Aegea, tamb√©m geram impactos na qualidade do abastecimento de √°gua √† popula√ß√£o, comprometendo a efici√™ncia e a integridade f√≠sica da infraestrutura de distribui√ß√£o de √°gua.

#### Impactos üìä

- Danos a tubula√ß√µes resultando em vazamentos, resultando em perda de √°gua e altera√ß√£o na press√£o da rede de distribui√ß√£o de √°gua.
- Intermit√™ncia no abastecimento de √°gua √† popula√ß√£o.
- Redu√ß√£o de valores faturados e, consequentemente, diminui√ß√£o de receita.
- Aumento do risco de contamina√ß√£o da √°gua, uma vez que m√©todos fraudulentos n√£o seguem padr√µes de seguran√ßa, possibilitando a presen√ßa de contaminantes nas redes de abastecimento.

#### Media√ß√£o üîç

Para combater esse problema, atualmente existem diversas estrat√©gias aplicadas na empresa, desde verificar altera√ß√µes no padr√£o de consumo dos clientes at√© apontamentos de agentes de campo. Em todos os casos existem equipes especializadas em fiscalizar e sanar quaisquer fraudes que sejam detectadas. A atua√ß√£o dessas equipes √© delimitada diariamente por uma lista de alvos para fiscaliza√ß√£o.

Diante do cen√°rio acima descrito, deseja-se o desenvolvimento de uma aplica√ß√£o que melhore a assertividade da atua√ß√£o da Aegea na detec√ß√£o de fraudes em seu √¢mbito de atua√ß√£o, construindo um modelo de Machine Learning que demonstre efic√°cia nos processos de neg√≥cio.

### Objetivo e Benef√≠cios esperados ‚úÖ


- Determinar a probabilidade de um comportamento do consumo ser fraudulento ou n√£o, considerando, de maneira hol√≠stica, dados hist√≥ricos de consumo e, caso necess√°rio, a influ√™ncia de vari√°veis ex√≥genas, como √≠ndices macroecon√¥micos, clim√°ticos, geogr√°ficos, dentre outros.

- Melhorar a capacidade de detec√ß√£o e predi√ß√£o de fraudes de consumo de √°gua dos consumidores nas √°reas de atua√ß√£o da Aegea. Compreender melhor elementos importantes para detec√ß√£o e predi√ß√£o de fraudes nos clientes da Aegea

## **Integrantes do Grupo** üöÄ
- Camila Anacleto
- Henri Harari
- Patrick Victorino
- Pedro Rezende
- Sophia Dias
- Vit√≥ria Rodrigues

---
# Sobre o notebook ü•∏

## Objetivo üéØ

O objetivo principal do desenvolvimento deste notebook √© realizar uma an√°lise detalhada dos dados de consumo de √°gua, abrangendo o per√≠odo de 2019 a 2024, juntamente com a base de dados de fraudes identificadas nesse intervalo. 

Essa an√°lise visa fornecer uma compreens√£o profunda dos padr√µes de consumo e detectar poss√≠veis anomalias que possam indicar pr√°ticas fraudulentas. Utilizando m√©todos avan√ßados de an√°lise de dados, o notebook busca identificar vari√°veis e padr√µes cr√≠ticos que podem ser usados para melhorar a capacidade preditiva e a assertividade da Aegea na detec√ß√£o de fraudes, contribuindo assim para a efic√°cia das a√ß√µes de combate a esse problema.

# Setup

## Importa√ß√£o de biliotecas

In [1]:
%pip install -q -r requirements.txt

Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
import plotly.subplots as sp
import plotly.express as px
import os
from plotly.subplots import make_subplots
from datetime import datetime
import gdown

## Importa√ß√£o das bases

In [2]:
# ID do arquivo no Google Drive a ser utilizado como base
file_fraudes = '1LwGdM21RGsPNon_wU1wvI00jzh8_otIJ'

!gdown {file_fraudes}

Downloading...
From: https://drive.google.com/uc?id=1LwGdM21RGsPNon_wU1wvI00jzh8_otIJ
To: c:\Users\pedro\OneDrive\Documentos\C.1 - GitHub\M11_Projeto1\2024-2A-T04-SI11-G01\src\FRAUDE_tratado.csv

  0%|          | 0.00/92.4M [00:00<?, ?B/s]
  1%|          | 524k/92.4M [00:00<01:22, 1.11MB/s]
  1%|          | 1.05M/92.4M [00:00<00:55, 1.65MB/s]
  2%|‚ñè         | 1.57M/92.4M [00:00<00:43, 2.09MB/s]
  2%|‚ñè         | 2.10M/92.4M [00:01<00:43, 2.05MB/s]
  3%|‚ñé         | 2.62M/92.4M [00:01<00:35, 2.51MB/s]
  3%|‚ñé         | 3.15M/92.4M [00:01<00:35, 2.51MB/s]
  4%|‚ñç         | 3.67M/92.4M [00:01<00:35, 2.48MB/s]
  5%|‚ñç         | 4.19M/92.4M [00:01<00:34, 2.58MB/s]
  5%|‚ñå         | 4.72M/92.4M [00:01<00:30, 2.83MB/s]
  6%|‚ñå         | 5.24M/92.4M [00:02<00:29, 2.93MB/s]
  6%|‚ñå         | 5.77M/92.4M [00:02<00:30, 2.88MB/s]
  7%|‚ñã         | 6.29M/92.4M [00:02<00:26, 3.23MB/s]
  7%|‚ñã         | 6.82M/92.4M [00:02<00:29, 2.93MB/s]
  8%|‚ñä         | 7.34M/92.4M [00:02<00:32, 2.64M

In [2]:
# ID do arquivo no Google Drive a ser utilizado como base
file_consumo_geral = '17p5UBI3WU_O2Zv-5n7tpJUPgq3MamZNw'

!gdown {file_consumo_geral}

Downloading...
From (original): https://drive.google.com/uc?id=17p5UBI3WU_O2Zv-5n7tpJUPgq3MamZNw
From (redirected): https://drive.google.com/uc?id=17p5UBI3WU_O2Zv-5n7tpJUPgq3MamZNw&confirm=t&uuid=27443ccf-2662-4b29-8ba5-481527144b64
To: c:\Users\pedro\OneDrive\Documentos\C.1 - GitHub\M11_Projeto1\2024-2A-T04-SI11-G01\src\CONSUMO_2020.csv

  0%|          | 0.00/1.03G [00:00<?, ?B/s]
  0%|          | 524k/1.03G [00:00<09:01, 1.90MB/s]
  0%|          | 1.05M/1.03G [00:00<08:58, 1.91MB/s]
  0%|          | 1.57M/1.03G [00:00<08:39, 1.97MB/s]
  0%|          | 2.62M/1.03G [00:01<05:47, 2.95MB/s]
  0%|          | 3.67M/1.03G [00:01<04:36, 3.71MB/s]
  1%|          | 5.24M/1.03G [00:01<03:07, 5.46MB/s]
  1%|          | 6.82M/1.03G [00:01<02:29, 6.84MB/s]
  1%|          | 7.86M/1.03G [00:01<02:20, 7.28MB/s]
  1%|          | 8.91M/1.03G [00:01<02:20, 7.24MB/s]
  1%|          | 10.5M/1.03G [00:01<02:01, 8.35MB/s]
  1%|          | 12.1M/1.03G [00:02<01:49, 9.25MB/s]
  1%|‚ñè         | 13.1M/1.03G [0

# Tratamento dos dados

Para o nosso projeto, foram cridos pr√©-processamentos com o intuito de garantir que os dados estejam em um formato adequado para alimentar o modelo de deep learning, otimizando o processo de aprendizado e aumentando a precis√£o das previs√µes. Este processo inclui v√°rias etapas cruciais, que s√£o fundamentais para preparar os dados de forma consistente e padronizada, visando garantir que o modelo possa extrair padr√µes significativos e fornecer previs√µes mais precisas e confi√°veis:

* Normaliza√ß√£o: A normaliza√ß√£o ser√° aplicada para escalar os dados dentro de um intervalo espec√≠fico, entre 0 e 1. Isso √© essencial para assegurar que todas as caracter√≠sticas tenham a mesma import√¢ncia durante o treinamento do modelo, evitando que atributos com valores mais altos dominem o aprendizado e ajudando a acelerar a converg√™ncia do algoritmo.

* Tratamento de Texto: Para uniformizar os dados textuais, todo o texto ser√° convertido para mai√∫sculas e caracteres especiais ser√£o removidos. Essas transforma√ß√µes s√£o necess√°rias para garantir consist√™ncia na forma como as palavras s√£o processadas, eliminando varia√ß√µes que possam confundir o modelo.

* One Hot Encoding: As vari√°veis categ√≥ricas ser√£o convertidas em uma representa√ß√£o num√©rica utilizando o One Hot Encoding. Essa t√©cnica √© crucial para transformar dados categ√≥ricos em um formato compat√≠vel com o modelo de deep learning, garantindo que as categorias sejam tratadas de maneira uniforme, sem a cria√ß√£o de hierarquias falsas, e permitindo que o modelo interprete cada categoria como uma entidade independente.

### Normaliza√ß√£o

Normaliza√ß√£o dos dados para garantir que todas as vari√°veis tivessem uma escala compar√°vel, evitando que alguma vari√°vel dominasse o modelo devido a valores mais altos.

In [None]:
def normalize_column(df, column_name):

  column_values = df[column_name]

  # Calcula os valores maximos e minimos
  min_value = column_values.min()
  max_value = column_values.max()

  # normaliza o valor
  normalized_values = (column_values - min_value) / (max_value - min_value)

  # retorna a coluna com dados normalizados
  df_normalized = df.copy()
  df_normalized[column_name] = normalized_values

  return df_normalized["CONS_MEDIDO"]


In [None]:
normalize_column(merged_df, "CONS_MEDIDO")

### Padroniza√ß√£o do texto
Padroniza√ß√£o das colunas de texto de forma a evitar possiveis problemas causados por textos mal formatados.

In [None]:
def padronizar_texto(df, column_name):

  # Cria uma c√≥pia da coluna para evitar modifica√ß√µes no DataFrame original
  new_column = df[column_name].copy()

  # Converte todos os textos para mai√∫sculas
  new_column = new_column.str.upper()

  # Remove caracteres especiais
  new_column = new_column.apply(lambda x: re.sub(r'[^a-zA-Z0-9]', '', str(x)))

  return new_column

In [None]:
padronizar_texto(df_consumo,"DSC_SIMULTANEA")

Vale mencionar que a fun√ß√£o realiza tanto a padroniza√ß√£o dos textos para maiusculos tanto a remo√ß√£o de qualquer carctere especial, segue abaixo o teste dessa fun√ß√£o:

### One hot encoding

Codifica√ß√£o One-Hot para garantir que as vari√°veis categ√≥ricas sejam representadas de forma adequada no modelo, evitando que o algoritmo interprete erroneamente as categorias.

In [None]:
def one_hot_encoding(df, column_name):
  df_encoded = pd.get_dummies(df, columns=[column_name], prefix=[column_name])
  return df_encoded

df_encoded = one_hot_encoding(df_consumo, "COD_GRUPO")
df_encoded.head()

In [None]:
one_hot_encoding(df_consumo,"DSC_SIMULTANEA")

### Cria√ß√£o de categoria de consumo

Tramento para cria√ß√£o de categorias de consumo, que podem sem utilizadas para √°nalise

In [None]:
def categorizar_consumo(df, column_name):


  # Cria√ß√£o novas colunas para as categorias de consumo
  df['Consumo_Alto'] = 0
  df['Consumo_Medio'] = 0
  df['Consumo_Baixo'] = 0

  # Categorizando o consumo
  df.loc[df[column_name] > 0.7, 'Consumo_Alto'] = 1
  df.loc[(df[column_name] >= 0.2) & (df[column_name] <= 0.7), 'Consumo_Medio'] = 1
  df.loc[df[column_name] < 0.2, 'Consumo_Baixo'] = 1

  return df


In [None]:
df_teste = df_consumo.copy()
df_teste["CONS_MEDIDO"] = normalize_column(df_teste, "CONS_MEDIDO")
categorizar_consumo(df_teste, "CONS_MEDIDO")
resultado_teste = ['Consumo_Alto', 'Consumo_Medio', 'Consumo_Baixo', 'CONS_MEDIDO']
df_teste = df_teste[resultado_teste]

df_teste

## Pipeline de tratamento dos dados

Para garantir que os dados sejam processados corretamente, foi desenvolvida uma pipeline de pr√©-processamento robusta e flex√≠vel, capaz de se adaptar a diferentes data frames. Essa pipeline foi projetada para executar de forma autom√°tica todos os tratamentos necess√°rios, conforme descrito no t√≥pico de pr√©-processamento de dados. Com isso, assegura-se que cada conjunto de dados seja tratado de maneira adequada e consistente, independentemente das suas particularidades ou formatos, assim sendo adaptavel as nescecidades de cada dataframe e possibilitando a adi√ß√£o de novas bases ao projeto.

In [None]:
def pipeline_tratamento(df, colunas_normalizar, colunas_padronizar, colunas_onehot, coluna_consumo):

  # Normaliza√ß√£o
  for coluna in colunas_normalizar:
    df[coluna] = normalize_column(df, coluna)

  # Padroniza√ß√£o de texto
  for coluna in colunas_padronizar:
    df[coluna] = padronizar_texto(df, coluna)

  # One-hot encoding
  for coluna in colunas_onehot:
    df = one_hot_encoding(df, coluna)

  # Cria√ß√£o de categorias de consumo
  df = categorizar_consumo(df, coluna_consumo)

  return df

In [None]:
df_pipe = df_consumo.copy()
colunas_normalizar = ["CONS_MEDIDO"]
colunas_padronizar = ["DSC_SIMULTANEA"]
colunas_onehot = ["DSC_SIMULTANEA"]
coluna_consumo = "CONS_MEDIDO"

df_pipe = pipeline_tratamento(df_pipe, colunas_normalizar, colunas_padronizar, colunas_onehot, coluna_consumo)
df_pipe

## An√°lise inicial das bases

In [None]:
df_consumo = pd.read_parquet('CONSUMO_GERAL.parquet', engine='pyarrow', columns = ["MATRICULA", "CONS_MEDIDO", "DAT_LEITURA", "CATEGORIA", "SEQ_RESPONSAVEL"])
df_consumo.head()

In [4]:
df_consumo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24774819 entries, 0 to 24774818
Data columns (total 5 columns):
 #   Column           Dtype         
---  ------           -----         
 0   MATRICULA        Int64         
 1   CONS_MEDIDO      Int64         
 2   DAT_LEITURA      datetime64[ns]
 3   CATEGORIA        object        
 4   SEQ_RESPONSAVEL  Int64         
dtypes: Int64(3), datetime64[ns](1), object(1)
memory usage: 1016.0+ MB


In [None]:
df_fraudes = pd.read_csv('FRAUDE_tratado.csv', usecols = lambda column : column in ["DESCRICAO", "MATRICULA", "ANOMES"])
df_fraudes.head()

In [6]:
df_fraudes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 225997 entries, 0 to 225996
Data columns (total 3 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   ANOMES     225997 non-null  object
 1   MATRICULA  225997 non-null  int64 
 2   DESCRICAO  225997 non-null  object
dtypes: int64(1), object(2)
memory usage: 5.2+ MB


## Jun√ß√£o das bases de `Consumo Medido` e `Fraudes`

In [None]:
df_consumo['MATRICULA'] = df_consumo['MATRICULA'].astype(int)
df_fraudes['MATRICULA'] = df_fraudes['MATRICULA'].astype(int)

df_consumo['ANOMES'] = df_consumo['DAT_LEITURA'].apply(lambda x: x.strftime('%m/%y') if pd.notnull(x) else None)

merged_df = pd.merge(df_consumo, df_fraudes, how='left', on=['MATRICULA', 'ANOMES'])

merged_df.head()


In [8]:
merged_df['DESCRICAO'] = np.where(merged_df['DESCRICAO'] == 'IRREGULARIDADE IDENTIFICADA', 1, 0)

In [None]:
merged_df.head()

# An√°lise explorat√≥ria

A an√°lise explorat√≥ria de dados (AED) √© uma etapa fundamental para entender o comportamento dos dados e identificar padr√µes que possam indicar fraudes no consumo de √°gua. Neste projeto, exploramos diversas vari√°veis relacionadas ao consumo de √°gua, categorias de clientes, tend√™ncias temporais e distribui√ß√µes geogr√°ficas, com o objetivo de detectar anomalias e comportamentos suspeitos, al√©m dos dados que identificam fraudes. A AED nos fornece insights cr√≠ticos que guiar√£o o desenvolvimento de um modelo preditivo eficaz, capaz de identificar fraudes de maneira precisa, e apoiar decis√µes estrat√©gicas da Aegea para mitigar perdas e melhorar a qualidade do servi√ßo.

## Consumo Medido

### Big Numbers

In [10]:
df_consumo['Year'] = df_consumo['DAT_LEITURA'].dt.year

df_totals = df_consumo.groupby(['Year', 'CATEGORIA']).agg({
    'CONS_MEDIDO': ['sum', 'mean']
}).reset_index()

df_totals.columns = ['Year', 'CATEGORIA', 'Total_Consumo', 'Media_Consumo']

df_totals_sorted = df_totals.sort_values(by=['Year', 'CATEGORIA'])

fig_total = px.bar(df_totals_sorted, x='Year', y='Total_Consumo', color='CATEGORIA',
                   title='Total de Consumo por Categoria e Ano',
                   labels={'Total_Consumo': 'Consumo Total (m¬≥)', 'Year': 'Ano', 'CATEGORIA': 'Categoria'},
                   barmode='stack')

fig_total.update_layout(xaxis_title='Ano', yaxis_title='Consumo Total (m¬≥)')
fig_total.show()

In [11]:
fig_media = px.line(df_totals_sorted, x='Year', y='Media_Consumo', color='CATEGORIA',
                    title='M√©dia de Consumo por Categoria e Ano',
                    labels={'Media_Consumo': 'M√©dia de Consumo (m¬≥/m¬≤)', 'Year': 'Ano', 'CATEGORIA': 'Categoria'})

fig_media.update_layout(xaxis_title='Ano', yaxis_title='M√©dia de Consumo (m¬≥/m¬≤)')
fig_media.show()


Media_Consumo:
- COMERCIAL: Em 2024, a m√©dia de consumo comercial √© a mais alta entre os anos, com 13.08 m¬≥, superando os valores de anos anteriores. Isso sugere uma continuidade no aumento de efici√™ncia ou consumo dentro dessa categoria. O valor menor observado em 2024 √© parcialmente devido ao fato de que o ano ainda n√£o terminou, e esses n√∫meros devem crescer conforme o ano avan√ßa.

- INDUSTRIAL: A categoria industrial teve sua m√©dia de consumo aumentando consistentemente desde 2021, atingindo 20.10 m¬≥ em 2024, apesar de ser um ano incompleto. Isso pode indicar uma retomada na produ√ß√£o ou um aumento na demanda industrial.

- P√öBLICA: O consumo m√©dio na categoria p√∫blica varia ao longo dos anos, com um pico not√°vel em 2023. O valor para 2024, embora menor, reflete a mesma condi√ß√£o de dados incompletos.

- RESIDENCIAL: O consumo m√©dio na categoria residencial diminuiu gradualmente desde 2020, com uma leve recupera√ß√£o em 2024 (11.49 m¬≥). O valor mais baixo de 2024 deve ser visto como provis√≥rio at√© que o ano termine.

Total_Consumo:
- COMERCIAL: O consumo total na categoria comercial teve um pico em 2023, atingindo 5.37 milh√µes de m¬≥, antes de cair em 2024. Essa queda, como explicado, √© devido aos dados incompletos deste ano.

- INDUSTRIAL: A categoria industrial apresenta um padr√£o de consumo total relativamente est√°vel, com uma leve queda em 2024, que tamb√©m √© influenciada pelos dados incompletos.

- P√öBLICA: O consumo na categoria p√∫blica teve um pico significativo em 2023 (3.98 milh√µes de m¬≥), refletindo um aumento de atividades ou demanda antes de uma queda em 2024.

- RESIDENCIAL: A categoria residencial, sendo a maior consumidora, mostrou uma redu√ß√£o em 2024 para 28.66 milh√µes de m¬≥, em compara√ß√£o com os anos anteriores. Novamente, isso √© devido ao ano ainda estar em andamento.

### S√©rie temporal
Identificar picos e quedas s√∫bitas no consumo de √°gua ao longo do tempo.

In [12]:
df_consumo['DAT_LEITURA'] = pd.to_datetime(df_consumo['DAT_LEITURA'])

df_consumo['Year'] = df_consumo['DAT_LEITURA'].dt.to_period('Y').astype(str)

subcategorias = df_consumo['CATEGORIA'].unique()

fig = sp.make_subplots(rows=2, cols=2, subplot_titles=subcategorias[:4])

for i, subcategoria in enumerate(subcategorias[:4]):
    df_year_cat = df_consumo[df_consumo['CATEGORIA'] == subcategoria].groupby('Year')['CONS_MEDIDO'].sum().reset_index()

    fig_cat = px.line(df_year_cat, x='Year', y='CONS_MEDIDO', title=f'Consumo Medido por {subcategoria}')

    for trace in fig_cat.data:
        row = (i // 2) + 1
        col = (i % 2) + 1
        fig.add_trace(trace, row=row, col=col)

fig.update_layout(height=800, width=1000, title_text="Consumo Medido por Ano e Categoria")
fig.show()


Neste gr√°fico, observamos o comportamento do consumo de √°gua ao longo dos anos em quatro categorias principais: RESIDENCIAL, COMERCIAL, INDUSTRIAL, e P√öBLICA. A categoria RESIDENCIAL domina o consumo total, com um aumento significativo entre 2019 e 2020, o per√≠odo de pandemia do Covid 19 que iniciou-se em 2020 e pode explicar este aumento, mantendo-se elevado at√© 2023, quando come√ßa a declinar. √â importante notar que, embora haja uma queda em 2024, isso n√£o deve ser interpretado como uma tend√™ncia de redu√ß√£o no consumo, mas sim como um reflexo de dados parciais para o ano de 2024.

A categoria COMERCIAL segue uma tend√™ncia similar, com um aumento percept√≠vel at√© 2023, e uma queda em 2024, novamente, explicada pela incompletude dos dados. INDUSTRIAL e P√öBLICA mostram picos em 2020 e 2023, respectivamente, antes de apresentarem decl√≠nios em 2024. A observa√ß√£o geral √© que o consumo aumenta consistentemente at√© 2023, sugerindo uma demanda crescente em todas as categorias, possivelmente devido ao crescimento econ√¥mico, aumento da popula√ß√£o, ou expans√£o das atividades comerciais e industriais.

### M√©dia de Consumo por m¬≥ por categoria e ano

In [13]:
df_consumo['DAT_LEITURA'] = pd.to_datetime(df_consumo['DAT_LEITURA'])

df_consumo['Year'] = df_consumo['DAT_LEITURA'].dt.to_period('Y').astype(str)

df_consumo_cat = df_consumo.groupby(['Year', 'CATEGORIA']).agg({
    'CONS_MEDIDO': 'sum',
    'SEQ_RESPONSAVEL': 'nunique'
}).reset_index()

df_consumo_cat['CONS_MEDIDO_M2'] = df_consumo_cat['CONS_MEDIDO'] / df_consumo_cat['SEQ_RESPONSAVEL']

subcategorias = df_consumo_cat['CATEGORIA'].unique()
fig = sp.make_subplots(rows=2, cols=2, subplot_titles=subcategorias[:4])

for i, subcategoria in enumerate(subcategorias[:4]):
    df_plot = df_consumo_cat[df_consumo_cat['CATEGORIA'] == subcategoria]

    fig_mean = px.bar(df_plot, x='Year', y='CONS_MEDIDO_M2', title=f'M√©dia de Consumo por m¬≤ por {subcategoria}')

    for trace in fig_mean.data:
        row = (i // 2) + 1
        col = (i % 2) + 1
        fig.add_trace(trace, row=row, col=col)

fig.update_layout(height=800, width=1000, title_text="M√©dia de Consumo por m¬≤ por Ano e Categoria")
fig.show()

Este gr√°fico nos d√° uma perspectiva diferente, focando na efici√™ncia do consumo ao considerar o volume m√©dio consumido por liga√ß√£o (`MATR√çCULA` + `SEQ_RESPONSAVEL`) em cada categoria.

COMERCIAL e RESIDENCIAL mostram um padr√£o relativamente est√°vel na m√©dia de consumo por liga√ß√£o ao longo dos anos, com ligeiras flutua√ß√µes que podem refletir mudan√ßas nas pr√°ticas de consumo ou efici√™ncia no uso da √°gua.
A categoria INDUSTRIAL tem um pico expressivo em 2020, sugerindo um per√≠odo de alta produ√ß√£o ou utiliza√ß√£o intensiva dos recursos dispon√≠veis, o que pode ser explicado pela pandemia.

P√öBLICA mostra um padr√£o de consumo m√©dio que varia mais dramaticamente, com um pico em 2023, possivelmente indicando grandes projetos p√∫blicos ou eventos que requereram um maior uso de √°gua.

A queda em 2024 em todas as categorias, embora influenciada pela parcialidade dos dados, tamb√©m sugere que os padr√µes de consumo podem estar mudando, possivelmente devido a novas regulamenta√ß√µes ou avan√ßos tecnol√≥gicos que promovem a efici√™ncia h√≠drica.

## Consumo medido X Fraudes

### Distribui√ß√£o do Consumo Medido por Descri√ß√£o

In [14]:
import pandas as pd
import plotly.graph_objects as go

merged_df['FRAUDE'] = merged_df['DESCRICAO'].apply(lambda x: 'Com Fraude' if x == 1 else 'Sem Fraude')

category_fraud_sums = merged_df.groupby(['CATEGORIA', 'FRAUDE'])['CONS_MEDIDO'].sum().unstack(fill_value=0)

if 'Com Fraude' not in category_fraud_sums.columns:
    category_fraud_sums['Com Fraude'] = 0

if 'Sem Fraude' not in category_fraud_sums.columns:
    category_fraud_sums['Sem Fraude'] = 0

category_fraud_sums['Total'] = category_fraud_sums.sum(axis=1)

category_fraud_sums = category_fraud_sums.sort_values(by='Total', ascending=False)

fig = go.Figure()

fig.add_trace(go.Waterfall(
    name='Sem Fraude',
    orientation="v",
    measure=["relative"] * len(category_fraud_sums) + ["total"],
    x=list(category_fraud_sums.index) + ['Total'],
    y=list(category_fraud_sums['Sem Fraude']) + [category_fraud_sums['Sem Fraude'].sum()],
    text=list(category_fraud_sums['Sem Fraude']) + [category_fraud_sums['Sem Fraude'].sum()],
    textposition="outside",
    decreasing={"marker": {"color": "green"}},
))

fig.add_trace(go.Waterfall(
    name='Com Fraude',
    orientation="v",
    measure=["relative"] * len(category_fraud_sums) + ["total"],
    x=list(category_fraud_sums.index) + ['Total'],
    y=list(category_fraud_sums['Com Fraude']) + [category_fraud_sums['Com Fraude'].sum()],
    text=list(category_fraud_sums['Com Fraude']) + [category_fraud_sums['Com Fraude'].sum()],
    textposition="outside",
    increasing={"marker": {"color": "red"}},
))

fig.update_layout(
    title='Consumo Medido por Categoria e Fraude - Gr√°fico de Cascata',
    xaxis_title='Categoria',
    yaxis_title='Consumo Medido (CONS_MEDIDO)',
    waterfallgap=0.3,
    showlegend=True,
    legend_title='Tipo de Consumo'
)

fig.show()


O gr√°fico de cascata nos fornece uma vis√£o clara da distribui√ß√£o do consumo entre atividades "Com Fraude" e "Sem Fraude" em cada categoria.

A categoria RESIDENCIAL n√£o apenas domina o consumo total, mas tamb√©m √© onde a maior parte das fraudes √© detectada. Isso pode ser reflexo do grande n√∫mero de usu√°rios residenciais e da dificuldade em monitorar individualmente cada unidade. COMERCIAL e P√öBLICA tamb√©m apresentam fraudes, mas em menor escala, o que pode indicar um melhor monitoramento ou menor oportunidade para pr√°ticas fraudulentas nessas categorias.

A diferen√ßa entre o consumo leg√≠timo e o fraudulento √© mais evidente em RESIDENCIAL, destacando a necessidade de fortalecer a detec√ß√£o e a preven√ß√£o de fraudes nesta categoria. INDUSTRIAL, por outro lado, mostra um consumo quase todo leg√≠timo, sugerindo que fraudes s√£o menos comuns ou mais dif√≠ceis de realizar nesta categoria, apesar de que os valores das contas das categorias INDUSTRIAL e P√öBLICA s√£o experessivos, segundo √† Aegea no KickOff, o que n√£o descarta a necessidade de identificar as fraudes dessas categorias no projeto.

### Comportamento de Matr√≠culas Fraudadoras por N√∫mero de Anos de Fraude

In [15]:
merged_df['FRAUDE'] = merged_df['DESCRICAO'].apply(lambda x: 'Com Fraude' if x == 1 else 'Sem Fraude')

fraud_df = merged_df[merged_df['FRAUDE'] == 'Com Fraude']
fraud_df['Year'] = fraud_df['DAT_LEITURA'].dt.to_period('Y').astype(str)

fraud_counts = fraud_df.groupby('MATRICULA')['Year'].nunique().reset_index()
fraud_counts.columns = ['MATRICULA', 'Years_Frauded']

merged_fraud_df = pd.merge(fraud_df, fraud_counts, on='MATRICULA')

behavior_df = merged_fraud_df.groupby(['Year', 'Years_Frauded']).agg({
    'CONS_MEDIDO': 'sum',
    'MATRICULA': 'nunique'
}).reset_index()

behavior_df['Avg_Consumo_Per_Matricula'] = behavior_df['CONS_MEDIDO'] / behavior_df['MATRICULA']

fig = px.line(behavior_df, x='Year', y='Avg_Consumo_Per_Matricula', color='Years_Frauded',
              title='Comportamento de Matr√≠culas Fraudadoras por N√∫mero de Anos de Fraude',
              labels={'Years_Frauded': 'Anos de Fraude', 'Avg_Consumo_Per_Matricula': 'Consumo M√©dio por Matr√≠cula (m¬≥)'})

fig.show()



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Neste gr√°fico, exploramos o comportamento dos consumidores fraudulentos categorizados pelo n√∫mero de anos em que foram detectados praticando fraudes.

Clientes que fraudaram por mais de 2 anos mostram uma tend√™ncia de diminui√ß√£o no consumo ao longo do tempo, o que pode ser um indicativo de detec√ß√£o e interven√ß√£o. Esses clientes podem ter sido for√ßados a reduzir suas pr√°ticas fraudulentas devido ao aumento da fiscaliza√ß√£o ou penalidades.

A persist√™ncia de fraudes por v√°rios anos pode sugerir que, embora os sistemas de detec√ß√£o sejam eficazes, ainda h√° brechas que permitem que essas pr√°ticas continuem por um longo per√≠odo antes de serem completamente interrompidas.

A diminui√ß√£o geral do consumo entre fraudadores ao longo dos anos sugere que a implementa√ß√£o de medidas de controle est√° come√ßando a mostrar resultados, embora ainda haja um caminho a percorrer.

### Comportamento ao longo dos anos e meses de tr√™s clientes fraudadores da categoria residencial


In [16]:
merged_df['FRAUDE'] = merged_df['DESCRICAO'].apply(lambda x: 'Com Fraude' if x == 1 else 'Sem Fraude')

residencial_fraud_df = merged_df[(merged_df['FRAUDE'] == 'Com Fraude') & (merged_df['CATEGORIA'] == 'RESIDENCIAL')]

residencial_fraud_df['Year'] = residencial_fraud_df['DAT_LEITURA'].dt.to_period('Y').astype(str)

fraud_years_count = residencial_fraud_df.groupby('MATRICULA')['Year'].nunique().reset_index()
fraud_years_count.columns = ['MATRICULA', 'Years_Frauded']

fraud_years_count = fraud_years_count[fraud_years_count['Years_Frauded'] > 2]

recent_matriculas = residencial_fraud_df[residencial_fraud_df['MATRICULA'].isin(fraud_years_count['MATRICULA'])].sort_values(by='DAT_LEITURA', ascending=False)['MATRICULA'].unique()[:3]

clientes_df = residencial_fraud_df[residencial_fraud_df['MATRICULA'].isin(recent_matriculas)]

clientes_df['YearMonth'] = clientes_df['DAT_LEITURA'].dt.to_period('M').astype(str)

clientes_consumo_df = clientes_df.groupby(['MATRICULA', 'YearMonth']).agg({
    'CONS_MEDIDO': 'sum'
}).reset_index()

fig = px.line(clientes_consumo_df, x='YearMonth', y='CONS_MEDIDO', color='MATRICULA',
              title=f'Consumo Mensal ao Longo dos Anos para 3 Clientes com Fraude por Mais de 2 Anos',
              labels={'YearMonth': 'Ano/M√™s', 'CONS_MEDIDO': 'Consumo Medido (m¬≥)', 'MATRICULA': 'Matr√≠cula'})

fig.update_layout(xaxis_title='Ano/M√™s', yaxis_title='Consumo Medido (m¬≥)', xaxis_tickangle=-45)
fig.show()




A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Este gr√°fico foca em tr√™s clientes espec√≠ficos que foram identificados como fraudulentos por mais de dois anos.

Observamos que, enquanto um dos clientes apresenta um pico de consumo significativo em 2024, os outros dois mant√™m um consumo mais est√°vel. Este pico pode indicar uma tentativa de maximizar a fraude antes de uma poss√≠vel detec√ß√£o ou pode ser um reflexo de padr√µes de consumo espec√≠ficos para este cliente.
A variabilidade entre os padr√µes de consumo desses clientes sugere que as fraudes n√£o seguem um padr√£o uniforme, o que torna a detec√ß√£o ainda mais desafiadora.

O comportamento an√¥malo do consumo para um dos clientes em 2024 tamb√©m pode sinalizar uma necessidade urgente do consumidor que gerou a fraude, enquanto os outros dois demonstram como as fraudes podem se manifestar de forma sutil e prolongada ao longo do tempo.

## Conclus√£o

A an√°lise detalhada revelou que a categoria **RESIDENCIAL** √© a maior consumidora de √°gua e tamb√©m a mais afetada por fraudes. As fraudes nessa categoria representam uma significativa perda financeira para a Aegea e ocorrem de forma prolongada, muitas vezes permanecendo indetect√°veis por anos.

Diante disso, os pr√≥ximos passos no desenvolvimento da rede neural de deep learning ser√£o focados na categoria **RESIDENCIAL**. O modelo ser√° treinado com dados hist√≥ricos de consumo residencial e incluir√° vari√°veis ex√≥genas para melhorar a precis√£o na detec√ß√£o de fraudes. Esse foco permitir√° uma maior assertividade na identifica√ß√£o de padr√µes an√¥malos, reduzindo perdas e otimizando os recursos operacionais da Aegea.

A implementa√ß√£o inicial na categoria **RESIDENCIAL** √© estrat√©gica, pois ter√° o maior impacto na redu√ß√£o de fraudes e na melhoria do faturamento da empresa.