# Projeto - Cálculo de Entropia
Este projeto tem como objetivo calcular a entropia de uma coluna específica de um dataset relacionado a pagamentos bancários. A análise da entropia visa medir o grau de incerteza ou aleatoriedade presente nos dados dessa coluna, permitindo, a partir disso, obter insights e conclusões relevantes sobre o comportamento do dataset.

## Entropia: 
O cálculo de entropia é uma técnica estatística usada para medir a incerteza ou aleatoriedade de uma variável. Este projeto utiliza dados de um dataset bancário para calcular a entropia de uma coluna específica e, assim, obter insights sobre a distribuição e a variabilidade das informações contidas nela.

## Teste com apenas um coluna   
Nesta seção, realizamos o cálculo da entropia para apenas uma coluna do dataset.

### Importação das tabelas:

In [2]:
import pandas as pd
import numpy as np

### Análise dos Dados:
Verifica-se a presença de valores nulos, os tipos de dados e geramos um resumo estatístico da coluna de interesse. Isso nos permite entender melhor a distribuição dos dados e identificar possíveis problemas a serem corrigidos

In [4]:
df = pd.read_csv('OCRB.csv')
coluna = df['AcctName']

In [5]:
quant = df['AcctName'].unique()
quant

array(['BANCO BRADESCO S.A.', 'ITAÚ UNIBANCO S.A.',
       'NU PAGAMENTOS S.A. (NUBANK)', 'BANCO INTER S.A.',
       'BANCO SANTANDER (BRASIL) S.A.', 'BANCO COOPERATIVO SICREDI S.A.',
       'BANCO BOZANO, SIMONSEN S.A. ',
       'BANCO COOPERATIVO DO BRASIL S.A. – BANCOOB', 'PAGSEGURO',
       'CAIXA ECONÔMICA FEDERAL', 'BANCO C6 S.A.', 'BANCO BS2 S.A.',
       'BANCO BTG PACTUAL S.A.', 'CORA SOCIEDADE DE CRÉDITO DIRETO S.A.',
       'BANCO DO BRASIL S.A.', 'MERCADO PAGO',
       'COOPERATIVA CENTRAL DE CRÉDITO - AILOS (VIACRED)'], dtype=object)

In [6]:
quant.shape

(17,)

In [7]:
def calculo_porcentagem(coluna):
  frequencias = coluna.value_counts(normalize=True)
  return frequencias

In [8]:
coluna = df['AcctName']
porcentagem_coluna = calculo_porcentagem(coluna)
print(porcentagem_coluna)

AcctName
ITAÚ UNIBANCO S.A.                                  0.507576
BANCO BRADESCO S.A.                                 0.106061
NU PAGAMENTOS S.A. (NUBANK)                         0.083333
BANCO INTER S.A.                                    0.060606
BANCO SANTANDER (BRASIL) S.A.                       0.045455
BANCO C6 S.A.                                       0.037879
BANCO DO BRASIL S.A.                                0.037879
BANCO COOPERATIVO SICREDI S.A.                      0.022727
CAIXA ECONÔMICA FEDERAL                             0.022727
CORA SOCIEDADE DE CRÉDITO DIRETO S.A.               0.015152
BANCO COOPERATIVO DO BRASIL S.A. – BANCOOB          0.015152
MERCADO PAGO                                        0.007576
PAGSEGURO                                           0.007576
BANCO BTG PACTUAL S.A.                              0.007576
BANCO BS2 S.A.                                      0.007576
BANCO BOZANO, SIMONSEN S.A.                         0.007576
COOPERATIVA CEN

### Cálculo da Entropia:
A entropia de Shannon é calculada a partir da probabilidade de ocorrência de cada valor distinto na coluna selecionada. Esse cálculo nos dá uma medida da incerteza ou variabilidade dos dados, que pode ser usada para inferir a previsibilidade dos valores de pagamento registrados no dataset

In [11]:
def calcular_entropia(coluna):
    frequencias = coluna.value_counts(normalize=True)
    entropia = -np.sum(frequencias * np.log2(frequencias))
    return entropia

In [12]:
df = pd.read_csv('OCRB.csv')
coluna = df['AcctName']
entropia_coluna = calcular_entropia(coluna)
print(f'A entropia da coluna é: {entropia_coluna}')

A entropia da coluna é: 2.6957310630553093


### Conclusões:

É possível tirar algumas conclusões sobre a entropia calculada (2.70) da coluna "AcctName" do dataset:

   - A entropia de 2.70 sugere uma distribuição moderadamente diversificada entre os nomes das instituições financeiras (bancos) presentes na coluna. Valores mais próximos de zero indicariam uma concentração maior (ou seja, um domínio de um ou poucos bancos), enquanto valores mais altos indicariam uma distribuição mais uniforme.
   - No caso deste dataset, o Itaú Unibanco representa mais de 50% da coluna "AcctName", seguido por Bradesco com 10%, Nubank com 8%, e os demais bancos com proporções muito menores. Isso indica que, apesar de existirem várias instituições, a maior parte dos dados está concentrada em poucas delas.
   - Observa-se que o Itaú Unibanco tem uma presença majoritária no dataset, o que contribui para uma menor entropia em relação ao que seria esperado em uma distribuição mais uniforme.
   - Mesmo com a presença de várias instituições, poucas dominam o conjunto de dados, o que implica uma previsibilidade maior do que se todas tivessem distribuições similares.
   - A entropia de 2.70 mostra que, embora exista uma diversidade razoável de bancos, a incerteza não é tão alta. Ou seja, ao observar os dados, há uma probabilidade significativa de que uma entrada seja do Itaú Unibanco.
   - Essa medida de entropia indica que, se os dados fossem utilizados para uma análise preditiva ou classificatória, seria mais fácil prever a instituição responsável pela transação com base na sua frequência no dataset.

## Teste com todas as colunas   
Nesta seção, realizamos o cálculo da entropia para todas as colunas do dataset.

In [13]:
def calcular_entropia_df(df):
  for coluna in df.columns:
    coluna = df[coluna]
    frequencias = coluna.value_counts(normalize=True)
    entropia = -np.sum(frequencias * np.log2(frequencias))
    print(f'A entropia da coluna {coluna.name} é: {entropia}')

In [14]:
df = pd.read_csv('OCRB.csv')
calcular_entropia_df(df)

A entropia da coluna CardCode é: 6.8928789678433
A entropia da coluna LineNum é: 0.38705142139219784
A entropia da coluna County é: -0.0
A entropia da coluna BankCode é: 2.6957310630553093
A entropia da coluna Branch é: 5.7500969494615735
A entropia da coluna Account é: 6.8871601231299415
A entropia da coluna AcctName é: 2.6957310630553093
