# Loi de Benford et Protéome humain
Ce script à pour but de vérifier si le protéome humain suit la loi de Benford.
## Récupération des données

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import pybenford as benford

In [None]:
data = pd.read_csv("uniprot-proteome_UP000005640_reviewed_yes.tab", sep = "\t", index_col=0)
data.head()

In [None]:
data.describe()

## Distribution de la longeur des protéines du protéome humain :

In [None]:
plt.hist(data["Length"], bins=range(0,5000,100));

In [None]:
data[data["Length"] > 5000].shape

## Analyse des $1^{er}$ digit de la longeur des protéines du protéome humain

In [None]:
f_benford = benford.get_theoretical_freq_benford()
d_obs = benford.count_first_digit(data["Length"])

### Histogramme de la fréquence des first digit de la loi de Benford et de la taille de l'ensemble des protéines du protéome humain

In [None]:
benford.build_hist_freq_ben(benford.normalize_first_digit(d_obs), f_benford, nb_digit=1,
                            title=(f"First digit distribution of the {data.shape[0]} "
                            "proteins of human proteome"))

### Test statistique par la procédure "bootstrap"

In [None]:
 statistics, P_val = benford.calculate_bootstrap_chi2(data["Length"], f_benford, nb_digit=1)

Le résultat du test montre que le premier chiffre significatif de la taille des protéines du protéome humain ne suit pas la loi de Benford pour un risque $\alpha = 5\%$.

## Analyse des deux $1^{er}$ digit de la longeur des protéines du protéome humain

In [None]:
f_benford = benford.get_theoretical_freq_benford(2)
d_obs = benford.count_first_digit(data["Length"],2)

### Histogramme de la fréquence des first digit de la loi de Benford et de la taille de l'ensemble des protéines du protéome humain

In [None]:
benford.build_hist_freq_ben(benford.normalize_first_digit(d_obs), f_benford, nb_digit=2,
                            title=(f"First digit distribution of the {data.shape[0]} "
                            "proteins of human proteome"), legend="UniProt", 
                            size=(40, 15))

### Test statistique par la procédure "bootstrap"

In [None]:
 statistics, P_val = benford.calculate_bootstrap_chi2(data["Length"], f_benford, nb_digit=2)

Le résultat du test montre que les deux premiers chiffres significatifs de la taille des protéines du protéome humain ne suit pas la loi de Benford pour un risque $\alpha = 5\%$.