## üéì Persona : L√©a, jeune investisseuse √©tudiante

**Profil :**
- üë© 24 ans, dipl√¥m√©e de l'EM Lyon
- üíº Premi√®re exp√©rience professionnelle apr√®s 2 ans d'alternance
- üí∞ Aide parentale pour le financement + √©pargne personnelle (~15 000 ‚Ç¨)
- üéØ Objectif : r√©aliser un **premier investissement locatif** dans une **ville √©tudiante dynamique**

---

### üí° Objectif d'investissement
> Trouver le **meilleur investissement locatif √©tudiant** possible avec un **budget global de 200 000 ‚Ç¨**,  
> en ciblant un **studio √† Lille**, tout en comparant bri√®vement avec un **T1 √† Angers ou Nancy**.

---

### üí∞ Hypoth√®ses financi√®res
| √âl√©ment | Montant estim√© |
|----------|----------------|
| Prix d'achat vis√© | 160 000 ‚Äì 180 000 ‚Ç¨ |
| Apport personnel | 15 000 ‚Ç¨ |
| Pr√™t immobilier estim√© | 180 000 ‚Ç¨ sur 20 ans |
| Budget total (frais inclus) | **‚âà 200 000 ‚Ç¨** |
| Objectif de rentabilit√© brute | **‚â• 5 %** |

---

### üèôÔ∏è Cibles principales
| Ville | Type de bien | Prix moyen au m¬≤ | Loyer moyen mensuel | Observations |
|-------|---------------|------------------|---------------------|---------------|
| **Lille** | Studio (20‚Äì25 m¬≤) | ~4 500 ‚Ç¨/m¬≤ | 550‚Äì600 ‚Ç¨ | March√© √©tudiant tendu, forte demande locative |
| **Angers** | T1 (25‚Äì30 m¬≤) | ~3 200 ‚Ç¨/m¬≤ | 450‚Äì500 ‚Ç¨ | Ville tr√®s dynamique, bonne rentabilit√© brute |
| **Nancy** | T1 (25‚Äì30 m¬≤) | ~2 800 ‚Ç¨/m¬≤ | 420‚Äì470 ‚Ç¨ | March√© abordable, bon rapport prix/rentabilit√© |

---

### üîç Besoins data de L√©a
- Identifier **les quartiers les plus rentables** √† Lille (ou dans des villes comparables)
- Comparer avec **la rentabilit√© moyenne en France**
- Analyser l'**√©volution du prix au m¬≤ et des loyers √©tudiants** depuis 5 ans
- Calculer la **rentabilit√© locative brute et nette** par quartier
- Visualiser les **zones √† forte concentration √©tudiante**
- Fournir une **recommandation finale : "o√π investir avec 200k‚Ç¨ ?"**
- √âvaluer le **taux de vacance locative** par quartier pour anticiper les p√©riodes creuses (notamment l'√©t√© o√π les √©tudiants quittent les logements)
- Analyser la **proximit√© des transports en commun** et des universit√©s/grandes √©coles pour identifier les zones les plus attractives pour les √©tudiants
- Estimer les **charges de copropri√©t√© moyennes** par type de bien et par quartier pour affiner le calcul de rentabilit√© nette
- Identifier les **opportunit√©s de biens n√©cessitant des travaux** (d√©cote √† l'achat) pour maximiser la plus-value √† long terme

---

### üß≠ Objectif du notebook
Cr√©er un outil interactif permettant √† L√©a de :
1. Comparer la rentabilit√© d'un **studio √† Lille** avec celle d'un **T1 √† Angers ou Nancy**  
2. Explorer visuellement les **zones √† potentiel locatif √©lev√©**  
3. Obtenir une **recommandation automatique** en fonction de son budget et de ses pr√©f√©rences

## Import des biblioth√®ques ##

In [None]:
import os
import pandas as pd
import matplotlib.pyplot as plt
import requests, zipfile
from io import BytesIO
from geopy.geocoders import Nominatim
from geopy.extra.rate_limiter import RateLimiter
import plotly.express as px

### 1e vision : Analyse g√©n√©rale en France ###

Etude de la rentabilit√© moyenne en France

In [None]:
print("Partie Valentine")

Evolution du prix au m¬≤ et des loyers √©tudiants depuis 5 ans en France

In [None]:
# --- √âtape 1 : T√©l√©charger et extraire le dossier temporairement ---
url_zip = "https://huggingface.co/datasets/analysedonneesfoncieresdata/analyse_fonciere_data/resolve/main/data_loyer.zip"
folder = "data_loyer"

response = requests.get(url_zip)
if response.status_code == 200:
    with zipfile.ZipFile(BytesIO(response.content)) as zip_ref:
        zip_ref.extractall(folder)
else:
    raise Exception(f"‚ùå Erreur lors du t√©l√©chargement (code {response.status_code})")

# --- V√©rification du dossier ---
if not os.path.exists(folder):
    raise FileNotFoundError(f"‚ùå Dossier introuvable : {folder}")


# --- Liste pour stocker les donn√©es de chaque ville ---
all_data = []

# --- Lecture de tous les fichiers CSV ---
for file in os.listdir(folder):
    if file.endswith(".csv"):
        city_name = file.split("_")[-1].replace(".csv", "")  # extrait le nom de la ville
        df = pd.read_csv(os.path.join(folder, file), sep=";", encoding="ISO-8859-1")

        # Calcul du loyer moyen mensuel
        if "moyenne_loyer_mensuel" in df.columns:
            # Remplacement de la virgule par un point pour √©viter les erreurs de conversion
            df["moyenne_loyer_mensuel"] = df["moyenne_loyer_mensuel"].astype(str).str.replace(",", ".")
            df["moyenne_loyer_mensuel"] = pd.to_numeric(df["moyenne_loyer_mensuel"], errors="coerce")
            mean_rent = df["moyenne_loyer_mensuel"].dropna().mean()
            all_data.append({"Ville": city_name, "Loyer_moyen": mean_rent})

# --- Cr√©ation du DataFrame final ---
df_villes = pd.DataFrame(all_data)

# --- Tri par ordre alphab√©tique des villes ---
df_villes = df_villes.sort_values(by="Ville")

# --- Visualisation ---
plt.figure(figsize=(10,6))
plt.bar(df_villes["Ville"], df_villes["Loyer_moyen"], color='cornflowerblue')
plt.title("Loyer mensuel moyen par ville (2024)")
plt.ylabel("Loyer moyen (‚Ç¨ / mois)")
plt.xticks(rotation=45, ha="right")
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()


Visualiser les zones √† forte concentration √©tudiante en France

In [None]:
url_df_pop_communales = "https://huggingface.co/datasets/analysedonneesfoncieresdata/analyse_fonciere_data/resolve/main/POPULATION_MUNICIPALE_COMMUNES_FRANCE.xlsx"

df_populations_communales = pd.read_excel(url_df_pop_communales)

df_populations_communales.head()

In [None]:
df_populations_communales.drop(['p13_pop', 'p14_pop', 'p15_pop', 'p16_pop', 'p17_pop', 'p18_pop', 'p19_pop', 'p20_pop'], axis=1, inplace=True)

# Garde les lignes o√π la colonne 'dep' contient le mot "Arrondissement"
df_filtered = df_populations_communales[df_populations_communales['libgeo'].str.contains("Arrondissement")]

df_filtered

In [None]:
df = df_populations_communales.copy()

df['libgeo'] = df['libgeo'].replace(
    to_replace = [r'Paris.*', r'Lyon.*', r'Marseille.*'], 
    value = ['Paris', 'Lyon', 'Marseille'], 
    regex=True
)

treated_df = df.groupby('libgeo', as_index=False).agg({
    'objectid': 'first',   # garde le premier ID (ou autre logique)
    'reg': 'first',        # garde la premi√®re r√©gion
    'dep': 'first',        # idem pour d√©partement
    'cv': 'first', 
    'codgeo': 'first',
    'p21_pop': 'sum'
})

treated_df

In [None]:
df_pop_100k = treated_df[treated_df['p21_pop'] > 100000]

df_pop_100k.sort_values(by='p21_pop', ascending=False)

In [None]:
url_df_enseignement_sup = "https://huggingface.co/datasets/analysedonneesfoncieresdata/analyse_fonciere_data/resolve/main/fr-esr-atlas_regional-effectifs-d-etudiants-inscrits-detail_etablissements.csv"

df_enseignement_sup = pd.read_csv(url_df_enseignement_sup, delimiter=';')

df_enseignement_sup.head()

In [None]:
# 1Ô∏è‚É£ Exclure les lignes avec "√âtranger"
df_enseignement_sup = df_enseignement_sup[~df_enseignement_sup['d√©partement'].str.contains("√âtranger")]

# 2Ô∏è‚É£ Garder uniquement les 2 premiers chiffres
df_enseignement_sup['dep'] = df_enseignement_sup['d√©partement'].str[:2]

# 3Ô∏è‚É£ Optionnel : supprimer les espaces et convertir en int
df_enseignement_sup['dep'] = df_enseignement_sup['dep'].str.strip()

df_enseignement_sup.head()

In [None]:
df_enseignement_sup_treated = df_enseignement_sup.groupby('dep', as_index=False)[[
    'nombre total d‚Äô√©tudiants inscrits hors doubles inscriptions universit√©/CPGE',
    'dont femmes',
    'dont hommes'
]].sum()

df_enseignement_sup_treated.head()

In [None]:
df_joined = pd.merge(df_pop_100k, df_enseignement_sup_treated, on='dep', how='inner')

df_joined.head()

In [None]:
df_joined['Densit√© √©tudiante'] = df_joined['nombre total d‚Äô√©tudiants inscrits hors doubles inscriptions universit√©/CPGE'] / df_joined['p21_pop']

df_joined.head()

In [None]:
# Initialiser le g√©ocodeur
geolocator = Nominatim(user_agent="adam_geocoder_ece_paris")

# Limiteur de requ√™tes pour √©viter les erreurs 429
geocode = RateLimiter(geolocator.geocode, min_delay_seconds=1)

def get_coordinates(ville):
    try:
        if pd.isna(ville):
            return pd.Series([None, None])
        location = geocode(f"{ville}, France")  # ajoute "France" pour plus de pr√©cision
        if location:
            return pd.Series([location.latitude, location.longitude])
        else:
            return pd.Series([None, None])
    except Exception as e:
        print(f"Erreur pour la ville '{ville}': {e}")
        return pd.Series([None, None])

# Appliquer √† la colonne des villes
df_joined[["latitude", "longitude"]] = df_joined["libgeo"].apply(get_coordinates)

In [None]:
df_top_students = df_joined.sort_values(
    by='nombre total d‚Äô√©tudiants inscrits hors doubles inscriptions universit√©/CPGE',
    ascending=False
).head(20)

df_top_density = df_joined.sort_values(
    by='Densit√© √©tudiante',
    ascending=False
).head(20)

In [None]:
plt.figure(figsize=(10, 6)) # Taille du graphique 
plt.bar(df_top_students['libgeo'], df_top_students['nombre total d‚Äô√©tudiants inscrits hors doubles inscriptions universit√©/CPGE']) 
plt.title('Top 20 villes par nombre d‚Äô√©tudiants (population > 100k)') 
plt.xlabel('Villes') 
plt.xticks(rotation=45, ha='right', rotation_mode='anchor') 
plt.ylabel('Nombre d‚Äô√©tudiants (en million)') 
plt.grid(False) 

plt.figure(figsize=(10, 6)) # Taille du graphique 
plt.bar(df_top_density['libgeo'], df_top_density['Densit√© √©tudiante']) 
plt.title('Histogramme avec courbe de densit√© pour la colonne X') 
plt.xlabel('Villes') 
plt.xticks(rotation=45, ha='right', rotation_mode='anchor') 
plt.ylabel('Densit√© Etudiante') 
plt.grid(False) 
plt.show()

In [None]:
# Carte interactive avec Plotly
fig = px.scatter_map(
    df_joined,
    lat="latitude",
    lon="longitude",
    hover_name="libgeo",
    hover_data=["nombre total d‚Äô√©tudiants inscrits hors doubles inscriptions universit√©/CPGE", "Densit√© √©tudiante"],
    size="Densit√© √©tudiante",
    zoom=5,
    height=600
)

# Style cartographique (n√©cessite une Mapbox style)
fig.update_layout(mapbox_style="open-street-map")
fig.update_layout(title="R√©partition g√©ographique des √©tudiants en France")

fig.show()

√âvaluer le taux de vacance locative en France, et les zones propices √† un taux √©lev√©

In [None]:
print("Partie Lucien")