# Projet Python pour la data science 2024 - 2025
*HADDOUCHE Théo, GOURVENNEC Jules, MATHÉ Cyprien, BROCHET Lison*

# Introduction
Depuis les Jeux Olympiques de Paris 2024, un certain nombre de jeunes se sont pris de passion pour le tennis de table et la natation. Cependant, cet engouement s’est heurté au manque d’infrastructure, à leur vétusté et au manque d’encadrant. Cela a de nouveau mis en lumière ce que nous avons appelé les « déserts sportifs ». A l’instar des « déserts médicaux », les « déserts sportifs » sont des zones géographiques souvent rurales, où les infrastructures sportives et les encadrants manquent et où infrastructures existantes sont pour la plupart vétustes et mal équipées. Cela qui constitue un obstacle à la pratique sportive des habitants de ces zones.

Pourtant, il semble exister un consensus sur les bienfaits d’une pratique sportive régulière, en cela qu’elle permet de prévenir un grand nombre de maladies notamment cardiovasculaires ; mais aussi en tant que facteur d’intégration sociale. Aussi, nous avons souhaité questionner cette notion de « désert sportif » sur la base du recensement des équipements sportifs en France. Pour cela, il nous a semblé pertinent d’analyser plusieurs variables telles que la vétusté des infrastructures étudiées, l’offre de sport selon les territoires, l’accessibilité aux infrastructures via des transports en commun.

Notre projet a donc pour objectif de répondre à la problématique suivante : A quel point la situation géographique d’un individu est-elle déterminante dans sa capacité à poursuivre une activité sportive régulière ?


# I/ Récupération et traitement des données

## A. Nettoyage des données

Nos données proviennent d'une API. Pour ce qui est du nettoyage, nous avons remarqué que de nombreux doublons apparaissaient initialement dans la base de données utilisée. Cela s'explique par le fait que plusieurs activités sportives sont proposées au sein d'un même endroit. Par exemple, il est fréquent d'avoir deux lignes pour une piscine comptant deux bassins. Pour remédier à ce problème, nous n'avons gardé qu'une ligne pour chaque lieu puis nous avons créé une nouvelle variable nous permettant de compter le nombre de lignes qu'il y avait avant. 
Autrement, les données étaient plutôt propres toutefois, nous pouvons noter un nombre important de cases n'ayant pas été renseignées.  

Les données sont à disposition sur le site data.gouv, ainsi elles sont dotées d'une licence ouverte. Le jeu contient environ 330 000 lignes, qui correspondent à des infrastructures sportives recensées sur le territoire national par le ministère chargé des sports, et il est mis à disposition de tous afin "d’aider à une meilleure perception des inégali­tés ter­ri­to­ria­les dans leur répar­ti­tion", ce à quoi nous allons essayer de contribuer.
D'abord, nous chargeons le jeu de données à partir de l'url, qui fournit un fichier csv. Des 117 variables, nous n'en gardons que 30, qui seront utilisables pour nos analyses futures.
Parmi les variables que nous avons sélectionné : ...

In [2]:
import pandas as pd

url = "https://www.data.gouv.fr/fr/datasets/r/ea4f5879-af40-4e3e-949d-812d6eeb5e02"

data = pd.read_csv(url, delimiter=';')

recensement = data[['inst_numero', 'inst_nom', 'dep_nom', 'new_code', 'new_name', 'inst_etat', 
                    'inst_date_creation', 'inst_date_etat', 'inst_date_valid', 'inst_acc_handi_bool', 
                    'inst_trans_bool', 'equip_numero', 'equip_nom', 'equip_type_code', 
                    'equip_type_name', 'equip_type_famille', 'equip_x', 'equip_y', 
                    'equip_etat', 'equip_eclair', 'equip_douche', 'equip_sanit', 
                    'equip_pmr_aire', 'equip_pmr_douche', 'equip_pmr_sanit', 
                    'equip_travaux_date', 'equip_service_date', 'equip_travaux_type', 
                    'equip_energie', 'equip_prop_type', 'dens_lib', 'zrr_simp']]

print(recensement.head(10))

  data = pd.read_csv(url, delimiter=';')


  inst_numero                         inst_nom                  dep_nom  \
0  I042090005  Complexe sportif Daniel Maffren  Alpes-de-Haute-Provence   
1  I042090005  Complexe sportif Daniel Maffren  Alpes-de-Haute-Provence   
2  I042090009               Poney club du Thor  Alpes-de-Haute-Provence   
3  I042090010      Site d'escalade de La Baume  Alpes-de-Haute-Provence   
4  I042090010      Site d'escalade de La Baume  Alpes-de-Haute-Provence   
5  I042090010      Site d'escalade de La Baume  Alpes-de-Haute-Provence   
6  I042090010      Site d'escalade de La Baume  Alpes-de-Haute-Provence   
7  I042090010      Site d'escalade de La Baume  Alpes-de-Haute-Provence   
8  I042090014               Piscine Municipale  Alpes-de-Haute-Provence   
9  I042090015              Boulodrome Val Gele  Alpes-de-Haute-Provence   

  new_code  new_name inst_etat inst_date_creation inst_date_etat  \
0     4209  Sisteron  Attribué         2005-09-22     2021-01-26   
1     4209  Sisteron  Attribué        

Nous remarquons dans le jeu de données, que les lignes ne correspondent pas forcément à un seul site, mais si le site possède plusieurs infrastructures, il est dupliqué autant de fois que nécessaires. Nous avons décidé de ne garder qu'une seule ligne par adresse postale, et de compter combien de fois cette même adresse apparaît dans le jeu de données.

In [3]:
doublons = (recensement
            .groupby(['inst_nom', 'new_code'])
            .size()
            .reset_index(name='n')
            .query('n > 0'))
distinct = recensement.drop_duplicates(subset=['inst_nom', 'new_code'], keep='first')
df_epure = pd.merge(distinct, doublons, on=['inst_nom', 'new_code'], how='outer')

## B. Création de nouvelles variables 

# II/ Analyse descriptive et représentation graphique

## A. Description de la base de données utilisée

## B. Grandes tendances observées

# III/ Modélisation