# Préparation et Analyse des projets retenus lors des [Concours i-Nov](https://www.enseignementsup-recherche.gouv.fr/fr/le-concours-i-nov-49817) (2017)

Dans ce notebook, nous allons préparer et analyser nos données sur les projets retenus lors des Concours i-Nov. Cela concerne les 10 vagues (2017-2023) dont chaque ligne concerne un projet retenu. 

In [1]:
import pandas as pd
import plotnine as plt
import numpy as np

## Importation des données
Dans cette partie, nous allons importer les données pour qu'on puisse les préparer. Elle se trouve sous le nom de *i_nov_vag_1_10_somm_inf.csv* qui est dans le dossier *Data*.

In [3]:
# Application de l'importation (après avoir observé avec cat i_nov_vag_1_10_somm_inf.csv dans le terminal)
dataset = pd.read_csv("../Data/i_nov_vag_1_10_somm_inf.csv",
        sep = ";")

In [None]:
# Vérification du succès de l'opération
dataset.head()

Unnamed: 0,ENTREPRISES,PROJETS,THEMATIQUE,PAGE,VAGUE,URL_FICH_ORIGINE,REALISATION_DEBUT,REALISATION_FIN,MONTANT,AIDE,DEPT
0,AB Tasty,Personnalisation,NUMÉRIQUE,57,1,../Data/vague_1_6/i-nov-palmar-s-vague-1-19087...,2018,2020.0,3590054,,75
1,AB7 Industries,Terrabios,AGRICULTURE INNOVANTE,38,1,../Data/vague_1_6/i-nov-palmar-s-vague-1-19087...,2018,2020.0,626806,197565.0,31
2,ACCENTA,ACCENTA.AI,"ÉNERGIES RENOUVELABLES, STOCKAGE ET SYSTÈMES É...",7,1,../Data/vague_1_6/i-nov-palmar-s-vague-1-19087...,2018,2021.0,790331,355649.0,91
3,Aenitis Technologies,ALI-S,SANTÉ,80,1,../Data/vague_1_6/i-nov-palmar-s-vague-1-19087...,2018,2021.0,2451391,,75 77 49 39 59
4,AIRWEB,TICKET_UNIVERSEL,TRANSPORT ET MOBILITÉ DURABLE,24,1,../Data/vague_1_6/i-nov-palmar-s-vague-1-19087...,2018,2019.0,671932,302369.0,92


In [5]:
# Pour les dernières lignes
dataset.tail()

Unnamed: 0,ENTREPRISES,PROJETS,THEMATIQUE,PAGE,VAGUE,URL_FICH_ORIGINE,REALISATION_DEBUT,REALISATION_FIN,MONTANT,AIDE,DEPT
634,SAS Open Stent Solution,NESTO,SANTÉ,78,10,../Data/vague_7_10/i-nov-palmar-s-vague-10-286...,2023,2024.0,3554476,1599514.0,80
635,Sensome,SPELL,SANTÉ,80,10,../Data/vague_7_10/i-nov-palmar-s-vague-10-286...,2023,2026.0,3512413,1580584.0,91
636,Swallis Medical,Handy-Swallow III,SANTÉ,72,10,../Data/vague_7_10/i-nov-palmar-s-vague-10-286...,2022,2025.0,1690500,760725.0,31
637,Therapanacea,ProphesIA,SANTÉ,79,10,../Data/vague_7_10/i-nov-palmar-s-vague-10-286...,2023,2025.0,4855096,2184792.0,75
638,WAINVAM-E,WELFA-DeNV,SANTÉ,83,10,../Data/vague_7_10/i-nov-palmar-s-vague-10-286...,2023,2025.0,1168795,525956.0,56


In [None]:
# Observer les noms des différentes colonnes
dataset.columns

Index(['ENTREPRISES', 'PROJETS', 'THEMATIQUE', 'PAGE', 'VAGUE',
       'URL_FICH_ORIGINE', 'REALISATION_DEBUT', 'REALISATION_FIN', 'MONTANT',
       'AIDE', 'DEPT'],
      dtype='object')

In [None]:
# Observer leurs colonnes et leurs types
dataset.dtypes

ENTREPRISES           object
PROJETS               object
THEMATIQUE            object
PAGE                   int64
VAGUE                  int64
URL_FICH_ORIGINE      object
REALISATION_DEBUT      int64
REALISATION_FIN      float64
MONTANT               object
AIDE                 float64
DEPT                  object
dtype: object

## Préparation des données 

### Pour les années de réalisations 
Observation des valeurs manquantes au niveau de **REALISATION_FIN** et remplacement par leurs valeurs de **REALISATION_DEBUT**.

In [10]:
# Regarder les valeurs manquantes 
dataset[pd.isna(dataset["REALISATION_FIN"])]

Unnamed: 0,ENTREPRISES,PROJETS,THEMATIQUE,PAGE,VAGUE,URL_FICH_ORIGINE,REALISATION_DEBUT,REALISATION_FIN,MONTANT,AIDE,DEPT
259,SAS Consilium,NeuroChain,NUMÉRIQUE DEEP TECH,57,4,../Data/vague_1_6/i-nov-palmar-s-vague-4-19078...,2020,,605858,272636.0,75
374,Inovadea,SPEEED,PERFORMANCE ENVIRONNEMENTALE DES BÂTIMENTS,30,6,../Data/vague_1_6/i-nov-palmar-s-vague-6-19072...,2021,,665000,299250.0,6


In [28]:
# Remplacer les valeurs manquantes par les valeurs REALISATION_DEBUT
valeurs_manquantes = dataset[pd.isna(dataset["REALISATION_FIN"])]

In [33]:
# Vérification du succès de l'opération
valeurs_manquantes

Unnamed: 0,ENTREPRISES,PROJETS,THEMATIQUE,PAGE,VAGUE,URL_FICH_ORIGINE,REALISATION_DEBUT,REALISATION_FIN,MONTANT,AIDE,DEPT
259,SAS Consilium,NeuroChain,NUMÉRIQUE DEEP TECH,57,4,../Data/vague_1_6/i-nov-palmar-s-vague-4-19078...,2020,,605858,272636.0,75
374,Inovadea,SPEEED,PERFORMANCE ENVIRONNEMENTALE DES BÂTIMENTS,30,6,../Data/vague_1_6/i-nov-palmar-s-vague-6-19072...,2021,,665000,299250.0,6


In [35]:
# Remplacer les valeurs manquantes
dataset.REALISATION_FIN = dataset.REALISATION_FIN.fillna(dataset.REALISATION_DEBUT)

In [None]:
# Vérification du succès de l'opération
dataset[pd.isna(dataset["REALISATION_FIN"])]

Unnamed: 0,ENTREPRISES,PROJETS,THEMATIQUE,PAGE,VAGUE,URL_FICH_ORIGINE,REALISATION_DEBUT,REALISATION_FIN,MONTANT,AIDE,DEPT


### Changer les types de variables
On peut observer dans l'attribut *dtypes* que nous avons plusieurs colonnes avec le mauvais type. Nous allons modifier cela.

In [41]:
# Changement de type
dataset["REALISATION_FIN"] = dataset["REALISATION_FIN"].astype('int64')

In [42]:
# Vérification du succès de l'opération
dataset.dtypes

ENTREPRISES           object
PROJETS               object
THEMATIQUE            object
PAGE                   int64
VAGUE                  int64
URL_FICH_ORIGINE      object
REALISATION_DEBUT      int64
REALISATION_FIN        int64
MONTANT               object
AIDE                 float64
DEPT                  object
dtype: object

In [43]:
# Changement de type pour le montant
dataset["MONTANT"].astype("float64")

ValueError: could not convert string to float: '4,4e+12'

In [62]:
# Observation de l'erreur (remplacer l'erreur par une autre valeur)
dataset.loc[204, "MONTANT"] = 4400000000000

In [65]:
# Changement de type de valeur
dataset["MONTANT"] = dataset["MONTANT"].astype("float64")

In [66]:
# Vérification du succès de l'opération
dataset.dtypes

ENTREPRISES           object
PROJETS               object
THEMATIQUE            object
PAGE                   int64
VAGUE                  int64
URL_FICH_ORIGINE      object
REALISATION_DEBUT      int64
REALISATION_FIN        int64
MONTANT              float64
AIDE                 float64
DEPT                  object
dtype: object

## Analyse des données (à faire plus tard)