# Étude de marché: entreprise IAA souhaitant exporter du poulet

*Etude data - Projet 5 - Nalron (novembre 2019) / ENSAE-ENSAI Formation Continue*

*Data source* [FAO](http://www.fao.org/faostat/fr/#data)\
*Industrie Agroalimentaire (en abrégé IAA)* 

---

### Hypothèses de sélection des pays

*Ces hypothèses tiennent compte des corrélations entre nos variables*, comme nous avons pu le voir dans le cercle des corrélations. Pour rappel, il se dégage deux tendances qui est celle du *régime alimentaire*, et celle du *business de l'import et de l'élevage de poulets*.

- **H0 : Les pays cibles ont un régime alimentaire riche en protéines animales.**
- **H1 : Les pays cibles ont un régime alimentaire pauvre en protéines animales.**
- **H2 : Les pays cibles enregistrent un PIB/habitant potentiellement prometteur.**
- **H3 : Les pays cibles pratiquant l'import de poulets avec peu d'élevage.**


**Solutions possibles en réponse à nos hypothèses de recherche**
- L'hypothèse nulle n'est pas rejetée pour les pays membres des clusters 2 et 3.
- L'hypothèse nulle n'est pas rejetée en faveur de l'hypothèse alternative H1 pour les clusters 0 et 1.
- L'hypothèse H2 n'est pas rejetée pour le cluster 2 et 3.
- L'hypothèse H3 n'est pas rejetée pour le cluster 2.

### En conclusion, mes recommandations de pays à clibler :

**Première solution, un développement "plus rapide" tourné vers l'UE avec des pays à fort potientiel :**

A partir des hypothèses proposées, et à partir de leur représentation dans l'inertie totale, dans un premier temps les pays cibles seraient : **Pays-Bas, Belgique, Luxembourg, Pologne, Norvège, Allemagne, Autriche**. 

Ces pays sont non seulement dans l'Union Européenne (facilité monétaire, logistique, etc…), et répondent à une position dominante en termes de dispo. en protéines animales, PIB/habitant, mais aussi sur la capacité d'importation de poulets vivants pour les Pays-Bas.

**Seconde solution, un développement tourné vers des pays hors UE :**
Toujours sur la même logique, des pays comme les **États-Unis d'Amérique, Islande, Ukraine** peuvent s'avérer intéressants, mais des freins monétaires, transport, etc… sont à prévoir, la mécanique ne sera pas la même.

---

### Nos groupes sont-ils réellement distincts? 

**Test d'adéquation de Kolmogorov-Smirnov :**

On peut tester l’adéquation de la 'Disponibilité alimentaire (Kcal/personne/jour)' à une loi normale à l’aide de *Kolmogorov-Smirnov*. Le test sera doublé par celui de *Shapiro-Wilk*.

In [127]:
from scipy.stats import ks_2samp

stat, p = ks_2samp(df_subset['Disponibilité alimentaire (Kcal/personne/jour)'],
          list(np.random.normal(np.mean(df_subset['Disponibilité alimentaire (Kcal/personne/jour)']), 
          np.std(df_subset['Disponibilité alimentaire (Kcal/personne/jour)']), 1000)))
print('Statistics=%.3f, p=%.3f' % (stat, p))

#Interprétation
alpha = 0.05
if p > alpha:
    print('On ne peut pas rejeter H0 pour des niveaux de test de 5%')
else:
    print('H0 est rejetée à un niveau de test de 5%')

Statistics=0.062, p=0.980
On ne peut pas rejeter H0 pour des niveaux de test de 5%


-> Le test de la variable 'Disponibilité de alimentaire exprimée en Kcal' répond positivement à une loi normale. 

**Test d'adéquation de Shapiro-Wilk :**

*Recommandé pour tester la normalité dans le cas de petits échantillons.

In [128]:
from scipy.stats import shapiro

stat, p = shapiro(df_subset['Disponibilité alimentaire (Kcal/personne/jour)'])

print('Statistics=%.3f, p=%.3f' % (stat, p))

#Interprétation
alpha = 0.05
if p > alpha:
    print('On ne peut pas rejeter H0 pour des niveaux de test de 5%')
else:
    print('H0 est rejetée pour des niveaux de test de 5%')

Statistics=0.981, p=0.529
On ne peut pas rejeter H0 pour des niveaux de test de 5%


-> Le Test de Shapiro-Wilk est plus précis que celui de Kolmogorov-Smirnov, et également plus adapté dans notre cas de petit échantillonnage. La variable 'Disponibilité de alimentaire exprimée en Kcal' suit une loi normale.

**Test de comparaison de deux clusters dans le cas gaussien.**

**La variable 'Disponibilité alimentaire (Kcal/personne/jour)' suit une loi normale et sera par conséquent choisie pour le test.**

In [131]:
cluster_test1 = df_cls4[df_cls4['cluster'] == 1]['Disponibilité alimentaire (Kcal/personne/jour)']
cluster_test2 = df_cls4[df_cls4['cluster'] == 0]['Disponibilité alimentaire (Kcal/personne/jour)']

In [132]:
#On teste tout d’abord l’égalité des variances à l’aide de la commande
from scipy.stats import bartlett
stat, p = bartlett(cluster_test1, cluster_test2)
print('Statistics=%.3f, p=%.3f' % (stat, p))

#Interprétation
alpha = 0.05
if p > alpha:
    print('On ne rejette donc pas H0, l’égalité des variances au niveau de test 5%')
else:
    print('H0 est rejetée au niveau de test 5%')

Statistics=0.186, p=0.667
On ne rejette donc pas H0, l’égalité des variances au niveau de test 5%


In [133]:
#On teste ensuite l’égalité des moyennes à l’aide de la commande
from scipy.stats import ttest_ind
stat, p = ttest_ind(cluster_test1, cluster_test2, equal_var=True)
print('Statistics=%.3f, p=%.9f' % (stat, p))

#Interprétation
alpha = 0.05
if p > alpha:
    print('On ne rejette donc pas H0, l’égalité des moyennes de nos 2 clusters au niveau de test 5%')
else:
    print('H0 l\'hypothèse d’égalité des moyennes est rejetée au niveau de test 5%')

Statistics=-6.127, p=0.000000139
H0 l'hypothèse d’égalité des moyennes est rejetée au niveau de test 5%


-> On rejette que nos deux clusters suivent la même distribution, on a en effet rejeté l’hypothèse d’égalité des moyennes.

**Les tests statistiques réalisés permettent de vérifier que nos clusters ne suivent pas la même distribution, en effet l'hypothèse d'égalité des moyennes a été rejetée dans le cadre du test précédent. Les clusters identifiés sont distincts.**