# TP3-4: Vers une aide à la décision pour l'investissement immobilier basée sur l'analyse des données foncières

Vous êtes mandaté par une entreprise de gestion de portefeuilles immobiliers qui souhaite investir sur la ville de Toulouse. En tant que miagiste, l'entreprise vous demande d'utiliser vos compétences en Python pour étudier les opportunités du marché immobilier sur la ville de Toulouse et construire un outil d'aide à la décision pour l'investissement immobilier.

La direction générale des finances publiques (DGIF) publie et produit un jeu de données « Demandes de valeurs foncières », qui permet de connaître les transactions immobilières intervenues au cours des cinq dernières années sur le territoire métropolitain et les DOM-TOM, à l’exception de l’Alsace, de la Moselle et de Mayotte. Les données contenues sont issues des actes notariés et des informations cadastrales : 
https://www.data.gouv.fr/fr/datasets/5c4ae55a634f4117716d5656/

La DGIF précise que l'utilisation de ces données impose des obligations légales que vous devez respecter :
```
Propos liminaires
Conformément au décret n° 2018‑1350 du 28 décembre 2018 relatif à la publication sous forme électronique des informations portant sur les valeurs foncières déclarées à l’occasion des mutations immobilières, le présent fichier DVF est désormais disponible en open data.
La publication de ces données répond à l’objectif de transparence des marchés fonciers et immobiliers.

Le fichier DVF contient des données à caractère personnel et la DGFiP attire votre attention sur les obligations légales qui en découlent :
• L’article R112 A-3 du Livre des procédures fiscales prévoit que l’utilisation de ces fichiers ne doit pas permettre la ré-identification des personnes concernées, de manière indirecte.
• La réutilisation des données ne doit pas permettre l’indexation des données depuis les moteurs de recherche externes.

Veuillez lire attentivement les Conditions générales d’utilisation.
```
La direction interministérielle du numérique (DINUM) propose une amélioration à ce jeu de donnée en l'enrichissant : 
https://www.data.gouv.fr/fr/datasets/demandes-de-valeurs-foncieres-geolocalisees/

Le jeu de donnée de la DINUM (https://files.data.gouv.fr/geo-dvf/latest/) permet d'accéder rapidement via des URL aux données par année, par commune puis par code de commune.

Le code "31555" correspond à la ville de Toulouse. Ainsi, l'adresse https://files.data.gouv.fr/geo-dvf/latest/csv/2017/communes/31/31555.csv vous donne accès à l'ensemble des transactions immobilières qui ont eu lieues à Toulouse en 2017.

Les données sont disponibles de 2017 à 2022 :
* https://files.data.gouv.fr/geo-dvf/latest/csv/2017/communes/31/31555.csv
* https://files.data.gouv.fr/geo-dvf/latest/csv/2018/communes/31/31555.csv
* https://files.data.gouv.fr/geo-dvf/latest/csv/2019/communes/31/31555.csv
* https://files.data.gouv.fr/geo-dvf/latest/csv/2020/communes/31/31555.csv
* https://files.data.gouv.fr/geo-dvf/latest/csv/2021/communes/31/31555.csv
* https://files.data.gouv.fr/geo-dvf/latest/csv/2022/communes/31/31555.csv

Chaque ligne d'un fichier csv correspond à une transaction immobilière et repose sur un format précisé par la DINUM :
* id_mutation : Identifiant de mutation (non stable, sert à grouper les lignes)
* date_mutation : Date de la mutation au format ISO-8601 (YYYY-MM-DD)
* numero_disposition : Numéro de disposition
* nature_mutation : Nature de la mutation
* valeur_fonciere : Valeur foncière (séparateur décimal = point)
* adresse_numero : Numéro de l'adresse
* adresse_suffixe : Suffixe du numéro de l'adresse (B, T, Q)
* adresse_code_voie : Code FANTOIR de la voie (4 caractères)
* adresse_nom_voie : Nom de la voie de l'adresse
* code_postal : Code postal (5 caractères)
* code_commune : Code commune INSEE (5 caractères)
* nom_commune : Nom de la commune (accentué)
* ancien_code_commune : Ancien code commune INSEE (si différent lors de la mutation)
* ancien_nom_commune : Ancien nom de la commune (si différent lors de la mutation)
* code_departement : Code département INSEE (2 ou 3 caractères)
* id_parcelle : Identifiant de parcelle (14 caractères)
* ancien_id_parcelle : Ancien identifiant de parcelle (si différent lors de la mutation)
* numero_volume : Numéro de volume
* lot_1_numero : Numéro du lot 1
* lot_1_surface_carrez : Surface Carrez du lot 1
* lot_2_numero : Numéro du lot 2
* lot_2_surface_carrez : Surface Carrez du lot 2
* lot_3_numero : Numéro du lot 3
* lot_3_surface_carrez : Surface Carrez du lot 3
* lot_4_numero : Numéro du lot 4
* lot_4_surface_carrez : Surface Carrez du lot 4
* lot_5_numero : Numéro du lot 5
* lot_5_surface_carrez : Surface Carrez du lot 5
* nombre_lots : Nombre de lots
* code_type_local : Code de type de local
* type_local : Libellé du type de local
* surface_reelle_bati : Surface réelle du bâti
* nombre_pieces_principales : Nombre de pièces principales
* code_nature_culture : Code de nature de culture
* nature_culture : Libellé de nature de culture
* code_nature_culture_speciale : Code de nature de culture spéciale
* nature_culture_speciale : Libellé de nature de culture spéciale
* surface_terrain : Surface du terrain
* longitude : Longitude du centre de la parcelle concernée (WGS-84)
* latitude : Latitude du centre de la parcelle concernée (WGS-84)

## Partie 1: Visualiser l'évolution de l'immobilier 
A partir de ces fichiers, on souhaite étudier l'évolution du prix de l'immobilier pour chacun des quartiers de Toulouse, un quartier étant défini par son code postal. On souhaite :
    
    1) Visualiser la distribution des prix de vente (valeur_fonciere) des maisons par quartier pour une année donnée 
    
    2) Visualiser la distribution des prix de vente (valeur_fonciere) au m² (surface_reelle_bati) des maisons par quartier pour une année donnée 
    
    3) Visualiser la distribution des prix de vente (valeur_fonciere) des appartements par quartier pour une année donnée 
    
    4) Visualiser la distribution des prix de vente (valeur_fonciere) au m² (surface_reelle_bati) des appartements par quartier pour une année donnée 
    
    5) Visualiser l'évolution du prix de vente au m² moyen des maisons par quartier entre 2018 et 2022
    
    6) Visualiser l'évolution du prix de vente au m² moyen des appartements par quartier entre 2018 et 2022
    
    7) Visualiser l'évolution du prix de vente au m² médian des maisons par quartier entre 2018 et 2022
    
    8) Visualiser l'évolution du prix de vente au m² médian des appartements par quartier entre 2018 et 2022



## 0.a Explorer les données pour comprendre leur structure
Dans un premier temps, explorez les données en écrivant et testant une fonction qui va récupérer les données contenues dans le fichier https://files.data.gouv.fr/geo-dvf/latest/csv/2017/communes/31/31555.csv et qui affichera les 10 premières lignes de transactions.

Pour chacune de ces lignes, vous devrez comprendre où sont situées les informations. Notre étude exploitera principalement les informations concernant :
- la nature de la mutation, 
- le code postal, 
- le type de local
- le prix de vente (valeur foncière)
- la surface du local (du bati)

(aidez vous de la description des données fournie par la DINUM).

## 1.a Choisir sa (ou ses) structure(s) de données

On souhaite exploiter les données des transactions foncières pour calculer et visualiser un ensemble d'indicateurs. Il nous faut donc choisir une manière efficace de stocker nos données pour faciliter leur exploitation. 

Proposez une ou des structures de données pour stocker les informations de vente utiles (cf question précédente) contenues dans les fichiers suivants (année différente):
* https://files.data.gouv.fr/geo-dvf/latest/csv/2017/communes/31/31555.csv
* https://files.data.gouv.fr/geo-dvf/latest/csv/2018/communes/31/31555.csv
* https://files.data.gouv.fr/geo-dvf/latest/csv/2019/communes/31/31555.csv
* https://files.data.gouv.fr/geo-dvf/latest/csv/2020/communes/31/31555.csv
* https://files.data.gouv.fr/geo-dvf/latest/csv/2021/communes/31/31555.csv
* https://files.data.gouv.fr/geo-dvf/latest/csv/2022/communes/31/31555.csv

<div class="alert alert-block alert-warning">
<b>⚠️:</b> Avant de coder votre (ou vos) structures de données, réalisez un schéma ou une représentation textuelle de votre structure, et discutez en avec votre enseignant ou vos camarades.
</div>

## 1.b Tester sa (ou ses) structure(s) de données

Maintenant que vous avez construit une ou plusieurs structures de données, tester la facilité que vous allez avoir à accéder à des informations sur des exemples simples. Il n'est pas nécessaire d'implémenter toutes les fonctions données en exemple, mais il faut se poser la question de comment on pourra accéder aux données et les filtrer en fonction de nos besoins. 

Par exemple:
* Comment accéder uniquement aux transactions de 2017 ?
* Comment accéder uniquement aux transactions concernant des appartements ? 
* Comment accéder uniquement aux informations concernant le code postal 31100 ? 
* Combien de ventes de maisons ont eu lieu en 2020 ?

Vous vous questionnerez sur la complexité de vos requêtes: Est-ce que l'accès à l'information est immédiat (*0(1)*), est-ce que je dois parcourir l'intégralité de la structure de donnée (*O(n)*), ou est-ce que je dois faire de la combinatoire (*O(n²)*).

## 1.c Construire les fonctions permettant de calculer les indicateurs

On souhaite visualiser plusieurs données qui prennent la forme d'indicateurs. Pour une liste de transactions (qui auront préalablement été filtrées par année, type, ou quartier), on souhaite pouvoir obtenir :
* La liste des prix de vente (valeur_fonciere) 
* La liste des prix de vente (valeur_fonciere) au m² (surface_reelle_bati)
* Le prix de vente au m² moyen (*mean* du module statistics)
* Le prix de vente au m² médian (*median* du module statistics)
<div class="alert alert-block alert-warning">
<b>⚠️:</b> Certaines transactions n'ont pas de prix ou de surface, les supprimer de la liste résultat.
</div>

## 1.d Tester le calcul des indicateurs

Testez vos fonctions de calcul d'indicateur sur des exemples simples

## 1.e Construire les visualisations des données

Maintenant que nous disposons de structures de données et des fonctions permettant le calcul des indicateurs, on peut réaliser nos visualisations. 

<div class="alert alert-block alert-info">
<b>Attention:</b> Il sera peut être nécessaire de rajouter des fonctions pour filtrer nos données et ne retenir uniquement que les transations qui nous intéressent
</div>

### 1.e.1 Visualiser la distribution des prix de vente (valeur_fonciere) des maisons par quartier pour une année donnée 

### 1.e.2 Visualiser la distribution des prix de vente (valeur_fonciere) au m² (surface_reelle_bati) des maisons par quartier pour une année donnée 

## Partie 2: Aide à la décision pour l'investissement 
### 2.a : Une heuristique d'investissement
Une fois ces visualisations établies et les données prêtes pour le traitement, on souhaite proposer un algorithme d'aide à la décision à l'investissement immobilier. 
On dispose d'un somme *n* d'argent que l'on souhaite investir pour acheter un maximum de biens dans des quartiers de Toulouse.
On souhaite maximiser le retour sur investissement à 4 ans, c'est à dire le prix que l'on obtiendra en revendant les biens dans 4 ans. 
On basera notre hypothèse d'évolution du marché sur la variation moyenne du marché observé sur les 4 dernières année (entre 2018 et 2020).
Cette algorithme devra fournir à l'utilisateur une proposition d'investissement pour chaque quartier, c'est à dire répondre aux questions suivantes :
* Quel est le rendement attendu pour le quartier dans 4 ans ?
* Vaut-il mieux y acheter un appartement ou une maison ?
* En prenant en compte le prix moyen de vente, combien de biens je pourrais acheter avec mon capital *n* ?
* En précisant une surface minimum et maximum, et en tenant compte du prix moyen au m², combien de biens de chaque type puis-je acheter ? 

<div class="alert alert-block alert-warning">
<b>⚠️:</b> Avant de coder, discutez avec votre enseignant et vos camarades de la stratégie (heuristique) que vous allez utiliser pour votre investissement.
</div>

## 2.b Performance

L'exemple ci-dessous vous montre comment mesurer le temps d'execution d'une fonction:

In [11]:
import time

def ma_fonction(size:int):
    for i in range(0,size):
        pass

# Initialisation du chronomètre
start = time.time()

# Execution de la fonction
ma_fonction(1000000)

# Calcul du temps d'execution
end = time.time()
elapsed = end - start
print(f'Temps d\'exécution : {elapsed:.2}ms')

Temps d'exécution : 0.017ms


En vous inspirant de cet exemple, mesurez le temps d'exécution de votre fonction, puis essayez d'améliorer ses performances.