# Analyse exploratoire des données (EDA)

Ce notebook présente une analyse exploratoire des fichiers :
- `bdd_nomenclatures_et_définitions.xlsx`
- `textes_feedipedia.xlsx`

1. Import des librairies
2. Chargement des fichiers
3. Aperçu des données : exemples de textes, dimensions, types.
4. Analyse des valeurs manquantes

## 1. Import des librairies

In [21]:
# Import des librairies nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## 2. Chargement des fichiers

In [22]:
# Chargement de toutes les feuilles du fichier Excel dans un dictionnaire de DataFrames
excel_nomenclatures = pd.ExcelFile('../bdd_nomenclatures_et_définitions.xlsx')
dfs_nomenclatures = {sheet: excel_nomenclatures.parse(sheet) for sheet in excel_nomenclatures.sheet_names}
df_feedipedia = pd.read_excel('../textes_feedipedia.xlsx')

In [23]:
# Feuilles disponibles dans le fichier Excel
sheets_nomenclatures = pd.ExcelFile('../bdd_nomenclatures_et_définitions.xlsx').sheet_names
print('Feuilles disponibles dans bdd_nomenclatures_et_définitions.xlsx :')
print(sheets_nomenclatures)

Feuilles disponibles dans bdd_nomenclatures_et_définitions.xlsx :
['FEEDS', 'PARAMETERS', 'TERMS', 'KEYWORDS', 'Feuil1']


## 3. Aperçu des données : exemples de textes, dimensions, types.

In [24]:
# Aperçu des premières lignes de chaque feuille du fichier nomenclatures et du fichier feedipedia
for sheet, df in dfs_nomenclatures.items():
    print(f"\n--- Feuille : {sheet} ---")
    display(df.head())
print('Textes Feedipedia :')
display(df_feedipedia.head())


--- Feuille : FEEDS ---


Unnamed: 0,FEED_CAT_CODE,FEED_CAT_NAME,FEED_CL_CODE,FEED_CLASS.FEED_CL_NAME,FEED_CODE,FEED.FEED_NAME,FEED.FEED_DEF,FEED_CAT_NAME_ENGLISH,FEED_CLASS_WORLD.FEED_CL_NAME,FEED_WORLD.FEED_NAME,FEED_WORLD.FEED_DEF
0,1,Céréales,1010,Blé,13,Blé tendre,Grain de blé tendre (Triticum aestivum L.). Le...,Cereal grains,Wheat,"Wheat, soft",Soft wheat grain (Triticum aestivum L.). This ...
1,1,Céréales,1010,Blé,203,Blé tendre germé,Grain de blé tendre (Triticum aestivum L.) aya...,Cereal grains,Wheat,"Wheat, germinated","Wheat grain (Triticum aestivum L.), germinated."
2,1,Céréales,1010,Blé,204,Blé dur germé,Grain de blé dur (Triticum durum L.) ayant com...,Cereal grains,Wheat,"Wheat, durum, germinated",Germinated durum wheat grain (Triticum durum L...
3,1,Céréales,1010,Blé,458,"Blé tendre, poids spécifique < 69 kg/hl",Grain de blé tendre (Triticum aestivum L.) don...,Cereal grains,Wheat,"Wheat, specific weight < 69 kg/hl","Wheat grain (Triticum aestivum L.), with a spe..."
4,1,Céréales,1010,Blé,1475,Blé floconné,Grain de blé (Triticum aestivum L.) ayant subi...,Cereal grains,Wheat,"Wheat, flaked","Wheat grain (Triticum aestivum L.), flaked."



--- Feuille : PARAMETERS ---


Unnamed: 0,PAR_TYPE_NAME,PAR_TYPE_NAME_ENGLISH,PAR_CL_CODE,PARAMETER_CLASS.PAR_CL_NAME,PAR_CODE,PAR_ORDER,PARAMETER.PAR_SHORT,PARAMETER.PAR_NAME,PARAMETER.PAR_DEF,PARAMETER_CLASS_WORLD.PAR_CL_NAME,PARAMETER_WORLD.PAR_SHORT,PARAMETER_WORLD.PAR_NAME,PARAMETER_WORLD.PAR_DEF
0,Chimique,Chemical,1,Analyses principales,3,1.0,MS,Matière sèche,"Matière sèche, différence entre le produit bru...",Main analysis,DM,Dry matter,"Dry matter, difference between the total weigh..."
1,Chimique,Chemical,1,Analyses principales,34,3.0,Hum,Humidité,Teneur en eau du produit brut. Obtenue en géné...,Main analysis,Moisture,Moisture,"Moisture, usually obtained by oven-drying, tho..."
2,Chimique,Chemical,1,Analyses principales,1,4.0,MAT,Protéines brutes,"Azote total multiplié par 6,25. L'azote est ob...",Main analysis,CP,Crude protein,"Crude protein, calculated as mineral N x 6.25...."
3,Chimique,Chemical,1,Analyses principales,2,5.0,CB,Cellulose brute,"Cellulose dite ""de Weende"", résidu insoluble d...",Main analysis,CF,Crude fibre,"Crude fibre, also known as Weende cellulose, i..."
4,Chimique,Chemical,1,Analyses principales,4,8.0,MGR,Matières grasses brutes,Matières grasses extraites à l'éther diéthyliq...,Main analysis,Fat,Crude fat,"Crude fat, extracted by diethyl ether, petrole..."



--- Feuille : TERMS ---


Unnamed: 0,TERM_CODE,TERM.TERM,TERM.TERM_DEF,TERM_WORLD.TERM,TERM_WORLD.TERM_DEF
0,1,Acacia,Genre d'arbres et d'arbustes dont certaines es...,Acacia,Large genus of shrubs and trees. Some species ...
1,2,Acide oléique,Acide organique non saturé C17H33COOH (C18:1) ...,Oleic acid,Unsaturated fatty acid (C18:1).
2,3,Acide stéarique,Acide gras saturé (C18:0) abondant dans le sui...,Stearic acid,Saturated fatty acid (C18:0) found in beef and...
3,4,Adzuki,L'adzuki (ou azuki) est une légumineuse asiati...,Adzuki,The adzuki (or azuki) (Vigna angularis (Willd....
4,5,American jointvetch,Légumineuse fourragère d'Amérique du Sud (Aesc...,American jointvetch,Aeschynomene (Aeschynomene americana) is a Sou...



--- Feuille : KEYWORDS ---


Unnamed: 0,KEYWORD_CODE,KEYWORD.KEYWORD,KEYWORD_WORLD.KEYWORD
0,1,Tourteau de colza,Rapeseed meal
1,2,Energie digestible porc,Digestible energy for pigs
2,3,"Colza ""00""","Rapeseed ""00"""
3,4,Acides aminés,Amino acids
4,5,Seigle,Rye



--- Feuille : Feuil1 ---


Unnamed: 0,UNIT_CODE,UNIT.UNIT,UNIT.UNIT_LONG,UNIT_WORLD.UNIT,UNIT_WORLD.UNIT_LONG
0,0,-,Unité non applicable,-,No unit
1,1,%,Pourcentage,%,Percentage
2,2,kcal/kg,Kilocalorie/kg,kcal/kg,Kilocalorie/kg
3,3,mg/kg,Milligramme par kg,mg/kg,Milligram per kg
4,5,ppb,Partie par milliard (en anglais : billion),ppb,Part per billion


Textes Feedipedia :


Unnamed: 0,ds_id,ds_name,dsfield_name,dsfield_content
0,23,Cocoa (Theobroma cacao) beans and by-products,Common names,"<p>Cacao, cacaoyer, cocoa, cacaoeiro, cacau</p>"
1,23,Cocoa (Theobroma cacao) beans and by-products,Description,"<p>A tree indigenous to South America, but now..."
2,23,Cocoa (Theobroma cacao) beans and by-products,Distribution,"<p>Indigenous to South America, but now cultiv..."
3,23,Cocoa (Theobroma cacao) beans and by-products,Processes,<p>The beans are embedded in a white mucilage ...
4,23,Cocoa (Theobroma cacao) beans and by-products,Nutritional attributes,"<p>Cocoa shells, beans and oilcake all have hi..."


In [25]:
# Aperçu détaillé des données textuelles pour chaque feuille du fichier nomenclatures et pour feedipedia
print("="*80)
print("APERÇU DES DONNÉES TEXTUELLES")
print("="*80)

# 1. Dimensions des DataFrames
for sheet, df in dfs_nomenclatures.items():
    print(f"\nFeuille : {sheet} - Dimensions : {df.shape[0]} lignes x {df.shape[1]} colonnes")
print(f"Feedipedia : {df_feedipedia.shape[0]} lignes x {df_feedipedia.shape[1]} colonnes")

# 2. Types de données
for sheet, df in dfs_nomenclatures.items():
    print(f"\nFeuille : {sheet} - Types de données :")
    display(df.dtypes)
print("\nFeedipedia :")
display(df_feedipedia.dtypes)

# 3. Informations sur les valeurs uniques (si la colonne existe)
for sheet, df in dfs_nomenclatures.items():
    if 'FEED_CODE' in df.columns:
        print(f"\nFeuille : {sheet} - Nombre d'aliments uniques : {df['FEED_CODE'].nunique()}")
print(f"Feedipedia - Nombre de ds_id uniques : {df_feedipedia['ds_id'].nunique()}")
print(f"Feedipedia - Types de champs (dsfield_name) : {df_feedipedia['dsfield_name'].nunique()}")
print("\nTypes de champs Feedipedia :")
display(df_feedipedia['dsfield_name'].value_counts())

APERÇU DES DONNÉES TEXTUELLES

Feuille : FEEDS - Dimensions : 6870 lignes x 11 colonnes

Feuille : PARAMETERS - Dimensions : 1293 lignes x 13 colonnes

Feuille : TERMS - Dimensions : 5439 lignes x 5 colonnes

Feuille : KEYWORDS - Dimensions : 2493 lignes x 3 colonnes

Feuille : Feuil1 - Dimensions : 91 lignes x 5 colonnes
Feedipedia : 5608 lignes x 4 colonnes

Feuille : FEEDS - Types de données :


FEED_CAT_CODE                     int64
FEED_CAT_NAME                    object
FEED_CL_CODE                      int64
FEED_CLASS.FEED_CL_NAME          object
FEED_CODE                         int64
FEED.FEED_NAME                   object
FEED.FEED_DEF                    object
FEED_CAT_NAME_ENGLISH            object
FEED_CLASS_WORLD.FEED_CL_NAME    object
FEED_WORLD.FEED_NAME             object
FEED_WORLD.FEED_DEF              object
dtype: object


Feuille : PARAMETERS - Types de données :


PAR_TYPE_NAME                         object
PAR_TYPE_NAME_ENGLISH                 object
PAR_CL_CODE                            int64
PARAMETER_CLASS.PAR_CL_NAME           object
PAR_CODE                               int64
PAR_ORDER                            float64
PARAMETER.PAR_SHORT                   object
PARAMETER.PAR_NAME                    object
PARAMETER.PAR_DEF                     object
PARAMETER_CLASS_WORLD.PAR_CL_NAME     object
PARAMETER_WORLD.PAR_SHORT             object
PARAMETER_WORLD.PAR_NAME              object
PARAMETER_WORLD.PAR_DEF               object
dtype: object


Feuille : TERMS - Types de données :


TERM_CODE               int64
TERM.TERM              object
TERM.TERM_DEF          object
TERM_WORLD.TERM        object
TERM_WORLD.TERM_DEF    object
dtype: object


Feuille : KEYWORDS - Types de données :


KEYWORD_CODE              int64
KEYWORD.KEYWORD          object
KEYWORD_WORLD.KEYWORD    object
dtype: object


Feuille : Feuil1 - Types de données :


UNIT_CODE                int64
UNIT.UNIT               object
UNIT.UNIT_LONG          object
UNIT_WORLD.UNIT         object
UNIT_WORLD.UNIT_LONG    object
dtype: object


Feedipedia :


ds_id               int64
ds_name            object
dsfield_name       object
dsfield_content    object
dtype: object


Feuille : FEEDS - Nombre d'aliments uniques : 6870
Feedipedia - Nombre de ds_id uniques : 776
Feedipedia - Types de champs (dsfield_name) : 17

Types de champs Feedipedia :


dsfield_name
Description               748
Common names              699
Ruminants                 645
Distribution              526
Nutritional attributes    467
Potential constraints     436
Environmental impact      386
Rabbits                   361
Poultry                   297
Forage management         291
Pigs                      285
Processes                 152
Fish                      144
Horses                     72
Crustaceans                53
Other species              41
Minks                       5
Name: count, dtype: int64

## 4. Analyse des valeurs manquantes

In [26]:
# Analyse des valeurs manquantes pour chaque feuille du fichier nomenclatures et pour feedipedia
for sheet, df in dfs_nomenclatures.items():
    print(f"\n--- Feuille : {sheet} ---")
    display(df.isnull().sum())
print('\nValeurs manquantes Textes Feedipedia :')
display(df_feedipedia.isnull().sum())


--- Feuille : FEEDS ---


FEED_CAT_CODE                    0
FEED_CAT_NAME                    0
FEED_CL_CODE                     0
FEED_CLASS.FEED_CL_NAME          0
FEED_CODE                        0
FEED.FEED_NAME                   0
FEED.FEED_DEF                    1
FEED_CAT_NAME_ENGLISH            0
FEED_CLASS_WORLD.FEED_CL_NAME    0
FEED_WORLD.FEED_NAME             0
FEED_WORLD.FEED_DEF              1
dtype: int64


--- Feuille : PARAMETERS ---


PAR_TYPE_NAME                         0
PAR_TYPE_NAME_ENGLISH                 0
PAR_CL_CODE                           0
PARAMETER_CLASS.PAR_CL_NAME           0
PAR_CODE                              0
PAR_ORDER                            11
PARAMETER.PAR_SHORT                   0
PARAMETER.PAR_NAME                    0
PARAMETER.PAR_DEF                    51
PARAMETER_CLASS_WORLD.PAR_CL_NAME     0
PARAMETER_WORLD.PAR_SHORT             1
PARAMETER_WORLD.PAR_NAME              0
PARAMETER_WORLD.PAR_DEF              39
dtype: int64


--- Feuille : TERMS ---


TERM_CODE              0
TERM.TERM              0
TERM.TERM_DEF          3
TERM_WORLD.TERM        0
TERM_WORLD.TERM_DEF    4
dtype: int64


--- Feuille : KEYWORDS ---


KEYWORD_CODE             0
KEYWORD.KEYWORD          0
KEYWORD_WORLD.KEYWORD    0
dtype: int64


--- Feuille : Feuil1 ---


UNIT_CODE                0
UNIT.UNIT                0
UNIT.UNIT_LONG          34
UNIT_WORLD.UNIT          0
UNIT_WORLD.UNIT_LONG    19
dtype: int64


Valeurs manquantes Textes Feedipedia :


ds_id              0
ds_name            0
dsfield_name       0
dsfield_content    0
dtype: int64