<a href="https://colab.research.google.com/github/rodrigorissettoterra/Analise-de-inconsistencias/blob/main/An%C3%A1lise_de_inconsist%C3%AAncias_da_base_de_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Objetivo deste trabalho

O objetivo deste trabalho é analisar e validar a integridade dos dados de transações de vendas disponibilizados.

A análise será conduzida com foco na identificação de possíveis inconsistências presentes no conjunto de dados, tais como:

- **Valores nulos:** Ausência de informações críticas em colunas específicas, como <code>COD_CLI</code>, <code>PRODUTO</code>, <code>VALOR_FATURADO</code> e <code>LOCAL</code>.
- **Registros duplicados:** Verificação de linhas repetidas que podem comprometer a qualidade dos dados.
- **Correspondência entre tabelas:**
  - Validação se os produtos presentes na tabela de transações estão corretamente mapeados na tabela de produtos.
  - Verificação se os códigos de locais utilizados na tabela de transações estão presentes na tabela de locais.
- **Outros problemas:** Observação de quaisquer valores fora do padrão, como <code>VALOR_FATURADO</code> negativo ou outras anomalias.

# Metodologia

Para a realização deste trabalho, utilizarei as seguintes ferramentas e métodos:

- Linguagem Python com foco na biblioteca Pandas para tratamento e análise de dados.
- Carregamento do arquivo direto do GitHub utilizando o link bruto (raw).

As etapas de análise incluem:
  - Leitura e exploração inicial dos dados.
  - Verificação de valores nulos e registros duplicados.
  - Validação cruzada entre tabelas de transações, locais e produtos.
  - Consolidação das inconsistências identificadas em um relatório final.

# Resultados Esperados

O trabalho visa fornecer um diagnóstico claro sobre a qualidade dos dados, apontando inconsistências identificadas e oferecendo sugestões para correção.

Esse diagnóstico poderá servir como base para melhorias no processo de coleta, tratamento e armazenamento de dados de transações.

# Bibliotecas utilizadas

In [1]:
import pandas as pd

# Carregamento do arquivo

**Observação:** É importante ressaltar que os dados utilizados neste trabalho são fictícios e foram disponibilizados exclusivamente para fins de prática. Dessa forma, não houve qualquer preocupação com questões de segurança, privacidade ou confidencialidade, uma vez que as informações contidas no conjunto de dados não correspondem a indivíduos ou transações reais.

URL do arquivo armazenado no meu repositório do Github.

In [2]:
url_github = "https://github.com/rodrigorissettoterra/Analise-de-inconsistencias/raw/refs/heads/main/Transa%C3%A7%C3%B5es%20de%20venda%20sem%20m%C3%A9tricas.xlsx"

Carregando a planilha em um ExcelFile

In [3]:
xls = pd.ExcelFile(url_github)

Verificando as abas carregadas

In [4]:
print("Abas do arquivo:", xls.sheet_names)

Abas do arquivo: ['Transações', 'Base Locais', 'Base Produtos']


Carregando cada aba em um dataframe diferente

In [5]:
df_transacoes = pd.read_excel(url_github, sheet_name='Transações')
df_locais = pd.read_excel(url_github, sheet_name='Base Locais')
df_produtos = pd.read_excel(url_github, sheet_name='Base Produtos')

Visualizando as primeiras linhas de cada dataframe criado

In [6]:
print("Transações:")
display(df_transacoes.head())

Transações:


Unnamed: 0,COD_CLI,DATA_COMPRA,DT_ENTREGA,PRODUTO,VALOR_FATURADO,LOCAL
0,1352.0,1993-09-16,1993-09-16 00:00:00,XSZZ2,4470.29,17.0
1,4885.0,1993-09-16,1993-09-16 00:00:00,LMFF3,1784.83,45.0
2,8650.0,1993-09-16,1993-09-16 00:00:00,JNDD2,4779.9,21.0
3,11720.0,1993-09-16,1993-09-16 00:00:00,JNDD1,4011.93,23.0
4,10876.0,1993-09-18,1993-09-18 00:00:00,JNDD3,2251.07,20.0


In [7]:
print("Base Locais:")
display(df_locais.head())

Base Locais:


Unnamed: 0,1,Aricanduva
0,2,Butantã
1,3,Campo Limpo
2,8,Capela do Socorro
3,9,Casa Verde
4,10,Cidade Ademar


In [8]:
print("Base Produtos:")
display(df_produtos.head())

Base Produtos:


Unnamed: 0,BVAA0,Água Sanitária
0,XSZZ2,Álcool
1,BVAA2,Álcool em Gel Acendedor
2,QSOP4,Alvejantes
3,OKTT1,Amaciante e Passa Roupas
4,WDFE2,Baldes e Bacias


# Análise exploratória dos dados

## Verificação de dados nulos

Para df_transacoes

In [9]:
print("Valores nulos na tabela Transações:")
print(df_transacoes.isnull().sum())

Valores nulos na tabela Transações:
COD_CLI            203
DATA_COMPRA          0
DT_ENTREGA         288
PRODUTO            841
VALOR_FATURADO    1162
LOCAL              665
dtype: int64


Para df_locais

In [10]:
print("Valores nulos na tabela Base Locais:")
print(df_locais.isnull().sum())

Valores nulos na tabela Base Locais:
1             0
Aricanduva    0
dtype: int64


Para df_produtos

In [11]:
print("Valores nulos na tabela Base Produtos:")
print(df_produtos.isnull().sum())

Valores nulos na tabela Base Produtos:
BVAA0             0
Água Sanitária    0
dtype: int64


## Verificação de dados duplicados

Para o df_transacoes

In [12]:
print("Duplicados na tabela Transações:", df_transacoes.duplicated().sum())

Duplicados na tabela Transações: 0


Para o df_locais

In [13]:
print("Duplicados na tabela Base Locais:", df_locais.duplicated().sum())

Duplicados na tabela Base Locais: 0


Para o df_produtos

In [14]:
print("Duplicados na tabela Base Produtos:", df_produtos.duplicated().sum())

Duplicados na tabela Base Produtos: 0


## Verificação de produtos inválidos

Verificando agora, se os produtos cadastrados no dataframe df_transações são encontrados no dataframe df_produtos, aqueles que não forem encontrados serão considerados inválidos.

In [15]:
produtos_invalidos = ~df_transacoes['PRODUTO'].isin(df_produtos.iloc[:, 0])
print("Quantidade de produtos inválidos:", produtos_invalidos.sum())

Quantidade de produtos inválidos: 3152


## Verificação de locais inválidos

A mesma lógica se aplica para os locais cadastrados no dataframe df_transações. Aqueles locais que não forem encontrados no dataframe df_locais, serão considerados inválidos.

In [16]:
locais_invalidos = ~df_transacoes['LOCAL'].isin(df_locais.iloc[:, 0])
print("Quantidade de locais inválidos:", locais_invalidos.sum())

Quantidade de locais inválidos: 4562


# Parecer final

In [17]:
print("###### PARECER FINAL ######\n")
print(f"Valores nulos em 'Transações':")
print(df_transacoes.isnull().sum())
print(f"\nRegistros duplicados em 'Transações': {df_transacoes.duplicated().sum()}")
print(f"Produtos inválidos em 'Transações': {produtos_invalidos.sum()}")
print(f"Locais inválidos em 'Transações': {locais_invalidos.sum()}")

###### PARECER FINAL ######

Valores nulos em 'Transações':
COD_CLI            203
DATA_COMPRA          0
DT_ENTREGA         288
PRODUTO            841
VALOR_FATURADO    1162
LOCAL              665
dtype: int64

Registros duplicados em 'Transações': 0
Produtos inválidos em 'Transações': 3152
Locais inválidos em 'Transações': 4562




---


A análise realizada sobre o conjunto de dados de transações de vendas revelou uma série de inconsistências que comprometem a integridade e a confiabilidade das informações disponíveis. Inicialmente, observou-se a presença significativa de valores nulos em colunas críticas, como <code>COD_CLI</code>, <code>PRODUTO</code>, <code>LOCAL</code>, e <code>VALOR_FATURADO</code>. **Esses valores podem indicar falhas no processo de coleta de dados ou lacunas no preenchimento, o que dificulta a análise aprofundada e a utilização do conjunto de dados para decisões estratégicas**.

</br>Além disso, identificou-se produtos e locais inválidos em relação às tabelas de referência fornecidas. Aproximadamente 3.152 registros possuem códigos de produtos que não estão mapeados na base oficial de produtos, enquanto cerca de 4.562 registros apresentam códigos de locais inexistentes. **Esses problemas sugerem possíveis falhas no processo de validação durante a inserção dos dados, permitindo o uso de identificadores incorretos ou ausentes**.

</br>Por outro lado, não foram identificados registros duplicados em nenhuma das tabelas analisadas, o que é um ponto positivo em termos de consistência estrutural. No entanto, a ausência de registros duplicados não compensa os problemas relacionados à integridade referencial e aos valores ausentes.

</br>Em termos gerais, o diagnóstico revela que o conjunto de dados está longe de ser plenamente confiável para uso analítico, exigindo ações corretivas em diferentes frentes. Os problemas encontrados apontam para uma necessidade urgente de revisão dos processos que geram, coletam e armazenam as informações, garantindo que elas atendam aos padrões mínimos de qualidade de dados.


---



# Sugestões para correções dos problemas encontrados

Com base nos problemas identificados, sugerimos as seguintes ações para melhorar a integridade e a confiabilidade do conjunto de dados:

###1. Tratar Valores Nulos

- **Implementar validação obrigatória:** Certifique-se de que as informações essenciais (como <code>COD_CLI</code>, <code>PRODUTO</code>, <code>LOCAL</code> e <code>VALOR_FATURADO</code>) sejam preenchidas no momento do registro.
- **Revisar dados históricos:** Tentar identificar fontes alternativas de informação para preencher os valores ausentes, como registros paralelos ou bases externas.

**Estratégias de imputação:**
  - Para campos como <code>VALOR_FATURADO</code>, considere usar a média ou mediana de valores similares para preencher os registros nulos.
  - Para <code>COD_CLI</code> ou <code>PRODUTO</code>, avalie se há padrões nos dados que permitam inferir o valor correto.

###2. Corrigir Produtos e Locais Inválidos

- **Revisar a tabela de transações:** Identifique e corrija os registros que possuem códigos inválidos de produtos e locais. Utilize validação automática para impedir a inserção de valores inexistentes.
- **Atualizar tabelas de referência:** Verifique se a base de produtos e a base de locais estão completas e atualizadas, e sincronize-as com a tabela de transações.
- **Treinamento de equipes:** Garanta que os responsáveis pelo preenchimento de dados conheçam as tabelas de referência e utilizem apenas os códigos válidos.

###3. Prevenção de Problemas Futuros

- **Automatização de processos:** Adote sistemas de entrada de dados que validem automaticamente os valores inseridos, cruzando-os com as tabelas de referência em tempo real.
- **Monitoramento contínuo:** Implemente um sistema de auditoria para identificar e corrigir inconsistências em tempo hábil.
- **Padronização:** Garanta que os dados sejam inseridos de forma padronizada, eliminando variações que possam causar problemas (como diferentes formatos de datas ou códigos).

###4. Melhoria na Governança de Dados

- **Políticas de qualidade de dados:** Estabeleça políticas claras para o gerenciamento e a manutenção da integridade das bases de dados.
- **Revisão periódica:** Realize auditorias frequentes nos dados para identificar problemas antes que se tornem críticos.
- **Centralização das tabelas de referência:** Certifique-se de que produtos e locais sejam gerenciados de forma centralizada, evitando inconsistências causadas por múltiplas versões.

### 5. Documentação

- Desenvolva uma documentação detalhada sobre o fluxo de dados e as tabelas de referência, permitindo que todos os envolvidos no processo compreendam as regras e padrões aplicados.

# Relatório final

Criação do arquivo de texto que irá armazenar o parecer final e as sugestões de melhoria para os dados analisados.

**OBERVAÇÃO:** Todos os textos utilizados abaixo foram apresentados anteriormente.

In [18]:
parecer_final = """
A análise realizada sobre o conjunto de dados de transações de vendas revelou uma série de inconsistências que comprometem a integridade e a confiabilidade das informações disponíveis. Inicialmente, observou-se a presença significativa de valores nulos em colunas críticas, como <code>COD_CLI</code>, <code>PRODUTO</code>, <code>LOCAL</code>, e <code>VALOR_FATURADO</code>. **Esses valores podem indicar falhas no processo de coleta de dados ou lacunas no preenchimento, o que dificulta a análise aprofundada e a utilização do conjunto de dados para decisões estratégicas**.
</br>Além disso, identificou-se produtos e locais inválidos em relação às tabelas de referência fornecidas. Aproximadamente 3.152 registros possuem códigos de produtos que não estão mapeados na base oficial de produtos, enquanto cerca de 4.562 registros apresentam códigos de locais inexistentes. **Esses problemas sugerem possíveis falhas no processo de validação durante a inserção dos dados, permitindo o uso de identificadores incorretos ou ausentes**.
</br>Por outro lado, não foram identificados registros duplicados em nenhuma das tabelas analisadas, o que é um ponto positivo em termos de consistência estrutural. No entanto, a ausência de registros duplicados não compensa os problemas relacionados à integridade referencial e aos valores ausentes.
</br>Em termos gerais, o diagnóstico revela que o conjunto de dados está longe de ser plenamente confiável para uso analítico, exigindo ações corretivas em diferentes frentes. Os problemas encontrados apontam para uma necessidade urgente de revisão dos processos que geram, coletam e armazenam as informações, garantindo que elas atendam aos padrões mínimos de qualidade de dados.
"""

sugestoes_melhorias = """
Com base nos problemas identificados, sugerimos as seguintes ações para melhorar a integridade e a confiabilidade do conjunto de dados:\n
###1. Tratar Valores Nulos

- **Implementar validação obrigatória:** Certifique-se de que as informações essenciais (como <code>COD_CLI</code>, <code>PRODUTO</code>, <code>LOCAL</code> e <code>VALOR_FATURADO</code>) sejam preenchidas no momento do registro.
- **Revisar dados históricos:** Tentar identificar fontes alternativas de informação para preencher os valores ausentes, como registros paralelos ou bases externas.

**Estratégias de imputação:**
  - Para campos como <code>VALOR_FATURADO</code>, considere usar a média ou mediana de valores similares para preencher os registros nulos.
  - Para <code>COD_CLI</code> ou <code>PRODUTO</code>, avalie se há padrões nos dados que permitam inferir o valor correto.\n\n
###2. Corrigir Produtos e Locais Inválidos

- **Revisar a tabela de transações:** Identifique e corrija os registros que possuem códigos inválidos de produtos e locais. Utilize validação automática para impedir a inserção de valores inexistentes.
- **Atualizar tabelas de referência:** Verifique se a base de produtos e a base de locais estão completas e atualizadas, e sincronize-as com a tabela de transações.
- **Treinamento de equipes:** Garanta que os responsáveis pelo preenchimento de dados conheçam as tabelas de referência e utilizem apenas os códigos válidos.\n\n
###3. Prevenção de Problemas Futuros

- **Automatização de processos:** Adote sistemas de entrada de dados que validem automaticamente os valores inseridos, cruzando-os com as tabelas de referência em tempo real.
- **Monitoramento contínuo:** Implemente um sistema de auditoria para identificar e corrigir inconsistências em tempo hábil.
- **Padronização:** Garanta que os dados sejam inseridos de forma padronizada, eliminando variações que possam causar problemas (como diferentes formatos de datas ou códigos).\n\n
###4. Melhoria na Governança de Dados

- **Políticas de qualidade de dados:** Estabeleça políticas claras para o gerenciamento e a manutenção da integridade das bases de dados.
- **Revisão periódica:** Realize auditorias frequentes nos dados para identificar problemas antes que se tornem críticos.
- **Centralização das tabelas de referência:** Certifique-se de que produtos e locais sejam gerenciados de forma centralizada, evitando inconsistências causadas por múltiplas versões.\n\n
### 5. Documentação

- Desenvolva uma documentação detalhada sobre o fluxo de dados e as tabelas de referência, permitindo que todos os envolvidos no processo compreendam as regras e padrões aplicados.
"""

assinatura_final = "Equipe de análise de dados"

# Criar o arquivo txt e adicionar o conteúdo
with open("relatorio_final.txt", "w", encoding="utf-8") as file:
    file.write("### Relatório Final de Análise de Dados ###\n\n")
    file.write(f"Valores nulos em 'Transações':")
    file.write(df_transacoes.isnull().sum().to_string())
    file.write(f"\nRegistros duplicados em 'Transações': {df_transacoes.duplicated().sum()}")
    file.write(f"Produtos inválidos em 'Transações': {produtos_invalidos.sum()}")
    file.write(f"Locais inválidos em 'Transações': {locais_invalidos.sum()}")

    file.write("PARECER FINAL:\n")
    file.write(parecer_final)
    file.write("\n\nSugestões para a melhoria:\n")
    file.write(sugestoes_melhorias)
    file.write("\n\nEquipe responsável:\n")
    file.write(assinatura_final)

print("O arquivo 'relatorio_final.txt' foi criado com sucesso.")


O arquivo 'relatorio_final.txt' foi criado com sucesso.
