<img src='celestial sphere.png'>

# Lei de Benford

A **Lei de Benford**, também chamada de **lei do primeiro dígito**, **lei de Newcomb-Benford** e **lei números anômalos** refere-se à distribuição de dígitos em várias fontes de casos reais. Ao contrário da homogeneidade esperada, a lei afirma que em muitas coleções de números que ocorrem naturalmente, o primeiro dígito significativo provavelmente será pequeno. Sem homogeneidade, esta distribuição mostra que o dígito 1 tem 30% de chance de aparecer em um conjunto de dados estatísticos enquanto valores maiores tem menos possibilidade de aparecer.
Descoberta completamente ao acaso em 1881, a lei de Benford foi observada pela primeira vez pelo astrônomo canadense Simon Newcomb. Ele reparou que o livro de logaritmos que utilizava para seus cálculos estava com as primeiras páginas mais gastas do que as páginas próximas ao final.

Frank Benford demonstrou que esse resultado se aplica a uma ampla variedade de conjuntos de dados, incluindo contas de eletricidade, endereços, preços de ações, preços de casas, números de população, taxas de mortalidade, comprimentos de rios, constantes físicas e matemáticas. pelas leis de potência (que são muito comuns na natureza). Todas essas afirmações são calculadas ou definidas junto a uma escala logarítmica.

## Tabela

<img src='benford_table.JPG'>

## Distribuição da Lei de Benford
<img src='distribuicao_benford.jpg'>


## Lei de Benford em Data Science

A Lei de Benford é útil para a área de ciência de dados pois é uma maneira simples e eficiente de identificar anomalias na base de dados, demonstrando indícios de fraude.
Este <a href = 'https://www.researchgate.net/publication/227450787_Difficulties_Detecting_Fraud_The_Use_of_Benford%27s_Law_on_Regression_Tables'>paper</a> mostra como utilizar a Lei de Benford para identifcação de fraudes.

Análise de fraude contábil, análise de preços e até como prova judicial.

Fonte: <a href = 'https://pt.wikipedia.org/wiki/Lei_de_Benford'>Wikipedia</a>

In [None]:
#importando bibliotecas
import pandas as pd
import numpy as np
import math
import matplotlib.pyplot as plt
import matplotlib.style as style
import seaborn as sns
%matplotlib inline

# setting up plot style 
style.use('seaborn-poster')
style.use('fivethirtyeight')

In [None]:
#importando dataset
df_youtube = pd.read_csv('youtube.csv')

In [None]:
df_youtube.head()

In [None]:
#função para extração do primeiro dígito
def primeiro_digito(numero):
    return str(numero)[0]

In [None]:
df_youtube['likes']

In [None]:
#aplicando função da coluna de likes
df_youtube['likes'].apply(primeiro_digito)

In [None]:
df_youtube['likes'].apply(primeiro_digito).value_counts(normalize = True).plot.bar(ylabel = 'Percentual',
xlabel = 'Primeiro Dígito', title = 'Distribuição do Primeiro Dígito')
plt.show()

Podemos observar que a distribuição se assemelha bastante com a Lei de Benford. Este é um indício de que os dados são verídicos.

Vamos incrementar nossa função para receber uma coluna numérica de um dataset e retornar a frequência dos dígitos.

In [None]:
#função para receber a coluna de um dataframe e retornar a frequência do primeiro dígito
def frequencia_digitos(coluna):
    filtro = coluna.apply(primeiro_digito) != '0'
    return coluna.loc[filtro].apply(primeiro_digito).value_counts(normalize = True)

In [None]:
#teste
frequencia_digitos(df_youtube['likes'])

## Fórmula da Lei de Benford

$$log_{10}\left ( 1 + \frac{1}{d} \right )$$


In [None]:
#exemplo
digito = 3
math.log10(1+1/digito)

Vamos criar uma lista com a frequência esperada de cada número de acordo com a Lei de Benford.

In [None]:
lista_num = [1,2,3,4,5,6,7,8,9]
frequencia_esperada = [ math.log10(1+1/digito) for digito in lista_num ]
frequencia_esperada

In [None]:
#função para comparar a frequência esperada com a frequência obtida
def benford(coluna):
    df_final = pd.DataFrame(index= [ str(digito) for digito in lista_num ])
    df_final['esperado'] = frequencia_esperada
    df_final['real'] = frequencia_digitos(coluna)
    df_final.plot.bar(ylabel = 'Percentual', xlabel = 'Primeiro Dígito', title = 'DISTRIBUIÇÃO DO PRIMEIRO DÍGITO \n'
                      'Real x Esperado')
    
    return df_final

In [None]:
#testando em uma coluna
benford(df_youtube['dislikes'])

In [None]:
benford(df_youtube['views'])

In [None]:
benford(df_youtube['comment_count'])

Analisando os gráficos acima das colunas numéricas, podemos perceber que a frequência obtida do primeiro dígito acompanha a frequência esperada, a Lei de Benford.

### Testando com outro dataset

In [None]:
#número de casos notificados da Covid
df_covid = pd.read_csv('covid_mundo.csv')
df_covid.head()

In [None]:
#printando todas as colunas
print(df_covid.columns.tolist())

In [None]:
benford(df_covid['Brazil'])

Podemos ver que nesse caso, os números não acompanham a Lei de Benford. Uma causa possível seria a falta defasagem nas testagens no país e subnotificações.

Vejamos os dados de alguns países cujo monitoramento da Covid-19 foi feito de forma mais ampla e próxima do ideal (testagens altas e baixo índice de subnotificação).

In [None]:
#Nova Zelândia
benford(df_covid['New Zealand'])

In [None]:
#Coreia do Sul
benford(df_covid['China'])

A diferença dos países que rastrearam melhor o vírus acabam tendo uma representação mais próxima da Lei de Benford na distribuição da frequência do primeiro dígito.