# Importation du txt

In [None]:
import pandas as pd

df = pd.read_csv('data/valeursfoncieres-2022.txt', delimiter='|')

pd.set_option('display.max_columns', 43)
df

# Pour vérifier les valeurs qui sont entièrement NaN ou pas

In [None]:
nan_full = df['Nature culture speciale'].isna().all()

print(nan_full)

# Suppression des colonnes qui sont entièrement NaN

In [None]:
df.dropna(axis=1, how='all', inplace=True)

# Ajout d'une colonne date en int

In [None]:
df['Date mutation'] = pd.to_datetime(df['Date mutation'], format='%d/%m/%Y')
df['Date en int'] = df['Date mutation'].dt.year * 10000 + df['Date mutation'].dt.month * 100 + df['Date mutation'].dt.day

print(df[['Date mutation', 'Date en int']].head())

# Vérifier combien de valeurs sont NaN

In [None]:
nan_counts = df.isna().sum()

nan_counts = nan_counts[nan_counts > 0]

print(nan_counts)

# Suppression des colonnes inutiles

In [None]:
colonnes_inutiles = [
    '3eme lot', 'Surface Carrez du 3eme lot',
    '4eme lot', 'Surface Carrez du 4eme lot',
    '5eme lot', 'Surface Carrez du 5eme lot',
    'Nature culture', 'Nature culture speciale',
    'Code type local', 'Prefixe de section',
    'No Volume', 'B/T/Q', 'No disposition'
]
df = df.drop(columns=colonnes_inutiles, axis=1)

# Vérification des doublons

In [None]:
doublons = df[df.duplicated(keep=False)]

print(doublons)


# Suppression des doublons en gardant la 1ère occurence

In [None]:
df = df.drop_duplicates(keep='first')

# Exploration

In [None]:
print(df.describe())


In [None]:
print(df.dtypes)


In [None]:
import matplotlib.pyplot as plt

df.boxplot(column=['Nombre pieces principales'])
plt.show()

In [None]:
Q1 = df['Nombre pieces principales'].quantile(0.25)
Q3 = df['Nombre pieces principales'].quantile(0.75)
IQR = Q3 - Q1

filtre = (df['Nombre pieces principales'] < (Q1 - 1.5 * IQR)) | (df['Nombre pieces principales'] > (Q3 + 1.5 * IQR))
valeurs_aberrantes = df[filtre]
print(valeurs_aberrantes)


In [None]:
ligne_specifique = df.loc[4832]

print(ligne_specifique)


In [None]:
df

# MySQL

In [None]:
from sqlalchemy import create_engine

url = f'mysql+mysqlconnector://root:Psg1308m@localhost/data_centric'
engine = create_engine(url)

In [None]:
transactions = df[['Date mutation', 'Nature mutation', 'Valeur fonciere']]
lot = df[['1er lot', 'Surface Carrez du 1er lot', '2eme lot', 'Surface Carrez du 2eme lot', 'Nombre de lots']]
biens = df[['Surface reelle bati', 'Nombre pieces principales', 'Surface terrain', 'Type local', 'Section', 'No plan']]
localisation = df[['No voie', 'Type de voie', 'Code voie', 'Voie']]
departement = df[['Code departement', 'Commune', 'Code postal', 'Code commune']]

transactions.to_sql('Transactions', con=engine, if_exists='append', index=False)
lot.to_sql('Lot', con=engine, if_exists='append', index=False)
biens.to_sql('Biens', con=engine, if_exists='append', index=False)
localisation.to_sql('Localisation', con=engine, if_exists='append', index=False)
departement.to_sql('Département', con=engine, if_exists='append', index=False)


# PostgreSQL

In [None]:
database_url = 'postgresql://guillaumedemerges:@localhost:5433/data_centric'

engine = create_engine(database_url)


In [None]:
transactions = df[['Date mutation', 'Nature mutation', 'Valeur fonciere', 'Date en int']]
lot = df[['1er lot', 'Surface Carrez du 1er lot', '2eme lot', 'Surface Carrez du 2eme lot', 'Nombre de lots']]
biens = df[['Surface reelle bati', 'Nombre pieces principales', 'Surface terrain', 'Type local', 'Section', 'No plan']]
localisation = df[['No voie', 'Type de voie', 'Code voie', 'Voie']]
departement = df[['Code departement', 'Commune', 'Code postal', 'Code commune']]

transactions.to_sql('transactions', con=engine, if_exists='append', index=False)
lot.to_sql('lot', con=engine, if_exists='append', index=False)
biens.to_sql('biens', con=engine, if_exists='append', index=False)
localisation.to_sql('localisation', con=engine, if_exists='append', index=False)
departement.to_sql('département', con=engine, if_exists='append', index=False)

# Création d'un dataframe pour avoir l'adresse complète

In [None]:
loc = df[['No voie', 'Type de voie', 'Voie', 'Commune', 'Code postal']]

In [None]:
loc = loc.assign(Pays="France") # J'ajoute une colonne Pays et applique pour toutes les lignes

# Conversion des types et remplacement des valeurs manquantes

In [None]:
loc['Code postal'] = loc['Code postal'].fillna(0)
loc['Code postal'] = loc['Code postal'].astype(int)

loc['No voie'] = loc['No voie'].fillna(0)
loc['No voie'] = loc['No voie'].astype(int)

In [None]:
loc

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt
import plotly.express as px

# Récupération des adresses pour avoir les latitudes et longitudes

In [None]:
from geopy.geocoders import Nominatim

geolocator = Nominatim(user_agent="data_centric", timeout=10)

loc['Adresse complète'] = loc.apply(lambda row: f"{row['No voie']} {row['Type de voie']} {row['Voie']} {row['Code postal']} {row['Commune']} {row['Pays']}", axis=1)
loc_temp = loc.head(100)

for index, row in loc_temp.iterrows():
    adresse_complete = row['Adresse complète']
    location = geolocator.geocode(adresse_complete)

    if location is not None:
        print(f"Latitude: {location.latitude}, Longitude: {location.longitude}")
    else:
        print("Adresse non trouvée")

# Ajout des coordonnées dans le dataframe

In [None]:
import time

latitudes = []
longitudes = []

for adresse in loc['Adresse complète'].head(10):
    try:
        location = geolocator.geocode(adresse)
        time.sleep(5)

        if location:
            latitudes.append(location.latitude)
            longitudes.append(location.longitude)
        else:
            latitudes.append(None)
            longitudes.append(None)
    except Exception as e:
        print(f"Erreur lors du géocodage de l'adresse : {adresse} | Erreur : {e}")
        latitudes.append(None)
        longitudes.append(None)

df.loc[df.index < 10, 'Latitude'] = latitudes
df.loc[df.index < 10, 'Longitude'] = longitudes

print(df.head(10))

# Création d'une maps par rapport aux valeurs foncières

In [None]:
df['Valeur fonciere'] = (
    df['Valeur fonciere']
    .astype(str)
    .str.replace(',', '.')
    .str.replace(' ', '')
    .str.strip()
)

df['Valeur fonciere'] = pd.to_numeric(df['Valeur fonciere'], errors='coerce').fillna(min_size)

df_head = df.head(10).copy()
df_head['Valeur fonciere'] = df_head['Valeur fonciere'].apply(lambda x: max(x, min_size))

fig = px.scatter_mapbox(df_head, lat="Latitude", lon="Longitude",
                        color="Valeur fonciere",
                        zoom=10, mapbox_style="carto-positron")

fig.show()


In [None]:
pieces_par_type = df.groupby("Type local")["Nombre pieces principales"].sum().reset_index()

plt.figure(figsize=(8, 5))
plt.bar(pieces_par_type["Type local"], pieces_par_type["Nombre pieces principales"], color='salmon')
plt.title('Total du nombre de pieces principales" par le type de local')
plt.xlabel('Type local')
plt.ylabel('Total Nombre pieces principales')
plt.grid(axis='y', alpha=0.75)
plt.show()


In [None]:
plt.figure(figsize=(10, 6))
df.boxplot(column="Valeur fonciere", by="Type local", patch_artist=True)
plt.title('Boxplot de la valeur fonciere par le type de local')
plt.suptitle('')
plt.xlabel('Type local')
plt.ylabel('Valeur fonciere')
plt.grid(axis='y', alpha=0.75)
plt.show()

In [None]:
import seaborn as sns

correlation = df[['Valeur fonciere', 'Surface reelle bati', 'Nombre pieces principales']].corr()

plt.figure(figsize=(8, 6))
sns.heatmap(correlation, annot=True, cmap='coolwarm', linewidths=.5)
plt.title('Correlation Heatmap')
plt.show()


In [None]:
types_local_counts = df["Type local"].value_counts()

plt.figure(figsize=(8, 8))
types_local_counts.plot(kind='pie', autopct='%1.1f%%', startangle=140, colors=['lightblue', 'lightgreen'])
plt.title('Transactions par "Type local"')
plt.ylabel('')
plt.show()

plt.figure(figsize=(10, 6))
plt.scatter(df["Surface reelle bati"], df["Valeur fonciere"], color='purple', alpha=0.5)
plt.title('"Valeur fonciere" vs. "Surface reelle bati"')
plt.xlabel('Surface reelle bati')
plt.ylabel('Valeur fonciere')
plt.grid(True)
plt.show()
