# Enoncé 


Vous conseillez une entreprise nationnale de camion à pizza. Afin de l'aider dans son développement en France, vous voulez l'aider à déterminer dans quelles villes il doit s'implanter en priorité. 

👉 Le jeu de données :
- `population` population des villes en millier d'habitants 
- `CA` chiffre d'affaire du camion pizza en millier d'euros
    
👉 Objectif :
- Prédire le chiffre d'affaire dans des nouvelles villes 

## Setup 💻

Importer les librairies 

In [None]:
import pandas as pd 
import seaborn as sns

## C'est parti 💪

## 1. Import des données 

**Importez le jeu de donnée contenu dans `data/data.csv` dans un DataFrame**


In [None]:
# votre code ici

<details><summary>Solution</summary>

```python 
data = pd.read_csv("data/data.csv")
```
</details>

## 2. Exploration des données 

**Explorez le jeu de données :**
- analysez les données sur les premières lignes 
- regardez le type des valeurs 
- regardez combien il y a de ligne dans le jeu de donnée 

In [None]:
# Votre code ici 

<details><summary>Solution</summary>

```python 
data.head()
data.describe()
data.info()
```
</details>

**Dessinez sur un graphique le chiffre d'affaire en fonction de la population des villes**

In [None]:
# Votre code ici

<details><summary>Solution</summary>

```python 
sns.scatterplot(x='population', y='CA', data=data)
```
</details>

**Quel est le coefficient de corrélation de ces deux variables ?**

👉 [Documentation sur la méthode corr](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html)

In [None]:
# Votre code ici

<details><summary>Solution</summary>

```python 
data["CA"].corr(data["population"])```
</details>

Nous choisissons donc d'utiliser une régression linéaire pour modéliser le CA d'un camion à pizza dans une ville 

## 3. Apprentissage 

### 3.1 Création d'un jeu de données de test 

**Créez un jeu de donnée d'apprentissage et un jeu de donnée de test pour évaluer notre modèle.** 

Utilisez le random_state 2 pour ce projet 

👉 Documentation de la fonction [train_test_split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

In [None]:
# Votre code ici

<details><summary>Solution</summary>

```python 
from sklearn.model_selection import train_test_split

train_data, test_data = train_test_split(data, test_size=0.3, random_state = 2)
```
</details>

### 3.2 Préparation des variables

Créez les variables `X_train`, `X_test`, `y_train` et `y_test`

In [None]:
Votre code ici

<details><summary>Solution</summary>

```python 
X_train = train_data[["population"]]
X_test = test_data[["population"]]
y_train = train_data["CA"]
y_test = test_data["CA"]
```
</details>

### 3.3 Apprentissage du modèle 

**Entrainez une régression linéaire pour prédire le `chiffre d'affaire` en fonction de la `population` d'une ville.**  
👉 [Documentation de la régression linéaire](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)

In [None]:
# Votre code ici

<details><summary>Solution</summary>

```python 
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
```
</details>

**Analysez les paramètres du modèles** 

- coefficient d'interpolation 

In [None]:
# Votre code ici 

<details><summary>Solution</summary>

```python 
model.coef_
```
</details>

- ordonnée à l'origine 

In [None]:
# Votre code ici 

<details><summary>Solution</summary>

```python 
model.intercept_
```
</details>

## 4. Evaluation

**Evaluez la performance du modèle sur les données d'entrainement**

In [None]:
# Votre code ici

<details><summary>Solution</summary>

```python 
model.score(X_train, y_train)
```
</details>

**Evaluez la performance du modèle sur les données de test**

In [None]:
# Votre code ici

<details><summary>Solution</summary>

```python 
model.score(X_test, y_test)
```
</details>

## 5. Prédiction 

L'expérience de votre client permet d'établir qu'un camion à pizza avec un employé est rentable à partir d'un chiffre d'affaire de 10 000€

👉 Retrouvez sur [ville-france.com](https://www.ville-france.com/classement-population) la population des villes 

**Est-il intéressant de lancer un camion à pizza à l'`Isle sur la Sorgue` ?** 

In [None]:
# Votre code ici 

<details><summary>Solution</summary>

```python 
model.predict([[18.900]])
```
</details>

**Est-il intéressant de lancer un camion à pizza à `Fuveau` ?**

In [None]:
# Votre code ici 

<details><summary>Solution</summary>

```python 
model.predict([[9.100]])
```
</details>