# P3 Concevez une application au service de la santé publique 

L'agence <span style='color:blue'> <a href = "http://www.santepubliquefrance.fr/">"*Santé publique France*" </a></span> a lancé un appel à projets pour trouver des idées innovantes d’applications en lien avec l'alimentation. <br>
Vous souhaitez y participer et proposer une idée d’application.

Le jeu de données <font color='orange'>Open Food Facts</font> est disponible sur le <a href = "https://world.openfoodfacts.org/">site officiel</a> (ou disponible à <a href ="https://s3-eu-west-1.amazonaws.com/static.oc-static.com/prod/courses/files/parcours-data-scientist/P2/fr.openfoodfacts.org.products.csv.zip">ce lien</a> en téléchargement).
<br>
Les variables sont définies à <a href = "https://world.openfoodfacts.org/data/data-fields.txt">cette adresse</a>

Les champs sont séparés en quatre sections :

- Les informations générales sur la fiche du produit : nom, date de modification, etc.
- Un ensemble de tags : catégorie du produit, localisation, origine, etc.
- Les ingrédients composant les produits et leurs additifs éventuels.
- Des informations nutritionnelles : quantité en grammes d’un nutriment pour 100 grammes du produit.

In [1]:
%matplotlib inline

import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
import pandas as pd
import numpy as np
import os

In [None]:
%%time
openfoodfacts = pd.read_csv("openfoodfacts_cleaned.csv",sep='\t')

In [4]:
openfoodfacts.head()

Unnamed: 0,code,url,creator,created_t,created_datetime,last_modified_t,last_modified_datetime,product_name,generic_name,quantity,...,ph_100g,fruits-vegetables-nuts_100g,collagen-meat-protein-ratio_100g,cocoa_100g,chlorophyl_100g,carbon-footprint_100g,nutrition-score-fr_100g,nutrition-score-uk_100g,glycemic-index_100g,water-hardness_100g
0,3087,http://world-fr.openfoodfacts.org/produit/0000...,openfoodfacts-contributors,1474103866,2016-09-17T09:17:46Z,1474103893,2016-09-17T09:18:13Z,Farine de blé noir,,1kg,...,,,,,,,,,,
1,4530,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489069957,2017-03-09T14:32:37Z,1489069957,2017-03-09T14:32:37Z,Banana Chips Sweetened (Whole),,,...,,,,,,,14.0,14.0,,
2,4559,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489069957,2017-03-09T14:32:37Z,1489069957,2017-03-09T14:32:37Z,Peanuts,,,...,,,,,,,0.0,0.0,,
3,16087,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489055731,2017-03-09T10:35:31Z,1489055731,2017-03-09T10:35:31Z,Organic Salted Nut Mix,,,...,,,,,,,12.0,12.0,,
4,16094,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489055653,2017-03-09T10:34:13Z,1489055653,2017-03-09T10:34:13Z,Organic Polenta,,,...,,,,,,,,,,


%%time
from pandas_profiling import ProfileReport
profile = ProfileReport(openfoodfacts.sample(int(round(openfoodfacts.shape[0]*0.01,ndigits=0))), title="Pandas Profiling Report")
profile.to_file("output.html")

In [6]:
openfoodfacts.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 320772 entries, 0 to 320771
Columns: 162 entries, code to water-hardness_100g
dtypes: float64(106), object(56)
memory usage: 396.5+ MB


Le fichier comtient 106 variables numeriques et 56 varriables catégoriques

In [5]:
nbLigne, nbCol = openfoodfacts.shape
nbLigne, nbCol

(320772, 162)

### Machine Learning

#### Création matrix de données 

In [None]:
X = dataset.iloc[:, :-1].values #.values permet d'obtenir un objet
y = dataset.iloc[:, 3].values

#### Echantillonnage

In [None]:
# Splitting the dataset into the Training set and Test set
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,  y, 
                                                    test_size = 0.2, # 20% du jeux de données réservé pour test la qualité du model
                                                    random_state = 0)

#### Valeurs manquantes

In [None]:
# Taking care of missing data
from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
imputer = imputer.fit(X_train[:, 1:3])
X_train[:, 1:3] = imputer.transform(X_train[:, 1:3])


#### Encodage données categorique

In [None]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

# Encoding the Independent Variable
labelencoder_X = LabelEncoder()
X_train[:, 0] = labelencoder_X.fit_transform(X_train[:, 0])

onehotencoder = OneHotEncoder(categorical_features = [0])
X_train = onehotencoder.fit_transform(X_train).toarray()

# Encoding the Dependent Variable
labelencoder_y = LabelEncoder()
y_train = labelencoder_y.fit_transform(y_train)

#### Centrage réduction

In [None]:
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

sc_y = StandardScaler()
y_train = sc_y.fit_transform(y_train)

## Regression lineaire

In [None]:
from sklearn import linear_model
reglin = linear_model.LinearRegression(fit_intercept = False #car les données sont centrés et réduit z = (x - u) / s
                                      )

In [None]:
# entrainement du model
reglin.fit(X_train,y_train) 

In [None]:
#Le coefficient de determination de la prediction
reg.score(X_test, y_test)

## KNN

In [None]:
### KNN
from sklearn import neighbors

#### fine tuning

In [None]:
kmintest = 2
kmaxtotest = 15
errors = []
for k in range(kmintest,kmaxtotest):
    knn = neighbors.KNeighborsClassifier(n_neighbors=k)
    
    # cross validation
    errors.append(100 * (1-knn.fit(X_train,Y_train).score(X_val,Y_val)
                         
plt.plot(range(kmintest,kmaxtotest),errors, 'o-'))
plt.show()

#### meilleur modele

In [None]:
modelKNN = neighbors.KNeighborsClassifier(n_neighbors=k_best).fit(X_train,Y_train)

#### performance modele

In [None]:
modelKNN.score(X_test, y_test)

In [None]:
error = round((1 - modelKNN.score(xtest, ytest)) *100,ndigits=2)
print('Erreur: %f' % error)

In [1]:
wait

NameError: name 'wait' is not defined