# <center>Code de préparation en Pyhon de la base de données SQL</center>

Voici le script détailé des étapes réalisées pour effectuer la préparation des données pour pouvoir créer une base de données immobilières.

## Importation des librairies nécessaire

In [None]:
import pandas as pd
import numpy as np

## Importation de mes données Excel dans un dataframe nommé "df"

In [None]:
original = pd.read_excel("DAN-P3-data.xlsx")

df = original.copy()

## Appel du nom des colonnes pour voir leurs noms

In [None]:
df.columns

## Retrait des colonnes inutiles

In [None]:
df = df[["Date mutation", "Nature mutation", "Valeur fonciere",
         "Type local", "Surface reelle bati", "Nombre pieces principales", 
            "Surface Carrez du 1er lot", "Nature culture", "Surface terrain",
            "No voie", "B/T/Q", "Type de voie", "Voie", "Code postal", "Commune", 
            "Code departement"]].copy()

## Duplication de "df" pour créer "localite" et "mutation" + retrait des colonnes inutiles

In [None]:
localite = df.copy()

localite.drop(["Date mutation", "Nature mutation", "Valeur fonciere","Type local", "Surface reelle bati", 
               "Nombre pieces principales", "Surface Carrez du 1er lot", "Nature culture", "Surface terrain"], axis = 1, 
              inplace = True)

In [None]:
mutation = df.copy()

mutation.drop(["No voie", "B/T/Q", "Type de voie", "Voie", "Code postal", "Commune", "Code departement", "Type local", 
               "Surface reelle bati", "Nombre pieces principales", "Surface Carrez du 1er lot", "Nature culture", 
               "Surface terrain"], axis = 1, inplace = True)

## Retrait des doublons pour "localite" et "df"

In [None]:
localite = localite.drop_duplicates()

mutation = mutation.drop_duplicates(subset=["Date mutation", "Nature mutation", "Valeur fonciere"])

## Creation d'un index pour "localite" et "df"

In [None]:
localite.index = np.arange(1, len(localite)+1)
localite.reset_index(inplace=True)
localite = localite.rename(columns = {'index':'id_localite'})

In [None]:
mutation.index = np.arange(1, len(mutation)+1)
mutation.reset_index(inplace=True)
mutation = mutation.rename(columns = {'index':'id_mutation'})

In [None]:
df.index = np.arange(1, len(df)+1)
df.reset_index(inplace=True)
df = df.rename(columns = {'index':'id_biens'})

## Jointure de "localite" et "df" via les colonnes de "localite"

In [None]:
df = pd.merge(localite, df, on=["No voie", "B/T/Q", "Type de voie", "Voie", "Code postal", "Commune", "Code departement"], 
              how='inner')

## Jointure sur les colonnes de biens car une mutation concerne un biens

In [None]:
mutation = pd.merge(df, mutation, on=["Date mutation", "Nature mutation", "Valeur fonciere"], how='inner')

mutation = mutation.drop_duplicates(subset=["Date mutation", "Nature mutation", "Valeur fonciere"])

mutation.drop(["id_localite","Type local", "Surface reelle bati", "Nombre pieces principales", "Surface Carrez du 1er lot", 
               "Nature culture", "Surface terrain","No voie", "B/T/Q", "Type de voie", "Voie", "Code postal", "Commune", 
               "Code departement"], axis = 1, inplace = True)

df.drop(["Date mutation", "Nature mutation", "Valeur fonciere","No voie", "B/T/Q", "Type de voie", "Voie", "Code postal", 
         "Commune", "Code departement"], axis = 1, inplace = True)

df = df.drop_duplicates(subset=["Type local", "Surface reelle bati", "Nombre pieces principales", 
                                "Surface Carrez du 1er lot", "Nature culture", "Surface terrain"])

## Renommage de "df" en "biens" 

### (df renommé "biens", car il est relié à "localite")

In [None]:
biens = df.copy()

## Renommer les colonnes

In [None]:
mutation.rename(columns={'Date mutation': 'date_mutation'}, inplace=True)
mutation.rename(columns={'Nature mutation': 'nature_mutation'}, inplace=True)
mutation.rename(columns={'Valeur fonciere': 'valeur_fonciere'}, inplace=True)

In [None]:
biens.rename(columns={'Type local': 'type_local'}, inplace=True)
biens.rename(columns={'Surface reelle bati': 'surface_reelle_bati'}, inplace=True)
biens.rename(columns={'Nombre pieces principales': 'nombre_pieces_principales'}, inplace=True)
biens.rename(columns={'Surface Carrez du 1er lot': 'surface_carrez'}, inplace=True)
biens.rename(columns={'Nature culture': 'nature_culture'}, inplace=True)
biens.rename(columns={'Surface terrain': 'surface_terrain'}, inplace=True)

In [None]:
localite.rename(columns={'No voie': 'n_voie'}, inplace=True)
localite.rename(columns={'B/T/Q': 'indice_repetition'}, inplace=True)
localite.rename(columns={'Type de voie': 'type_de_voie'}, inplace=True)
localite.rename(columns={'Voie': 'voie'}, inplace=True)
localite.rename(columns={'Code postal': 'code_postale'}, inplace=True)
localite.rename(columns={'Commune': 'commune'}, inplace=True)
localite.rename(columns={'Code departement': 'departements'}, inplace=True)

## Corriger la syntax

### Recherche ici à retirer surtout les aphostrophes présentes dans certaines colonnes, car elles crées des erreurs

In [None]:
localite["voie"] = localite["voie"].str.replace('[^\w\s]','')
localite["commune"] = localite["commune"].str.replace('[^\w\s]','')

## Changement de place de l'ordre de mes colonnes

In [None]:
mutation = mutation[['id_mutation', 'date_mutation', 'nature_mutation', 'valeur_fonciere', 'id_biens']]

In [None]:
biens = biens[['id_biens', 'type_local', 'surface_reelle_bati', 'nombre_pieces_principales', 'surface_carrez', 
               'nature_culture', 'surface_terrain', 'id_localite']]

In [None]:
localite = localite[['id_localite', 'n_voie', 'indice_repetition', 'type_de_voie', 'voie', 'code_postale', 'commune', 
                     'departements']]

## Enregistrer et Convertir en CSV

In [None]:
mutation.to_csv(r'C:\Users\DjamelAyari\OneDrive\DATA SCIENCE\OCR\Data Analyst\Projet 3\CSV\mutation.csv', index = False)
biens.to_csv(r'C:\Users\DjamelAyari\OneDrive\DATA SCIENCE\OCR\Data Analyst\Projet 3\CSV\biens.csv', index = False)
localite.to_csv(r'C:\Users\DjamelAyari\OneDrive\DATA SCIENCE\OCR\Data Analyst\Projet 3\CSV\localite.csv', index = False)