In [4]:
import pandas as pd
import psycopg2
import duckdb
from sqlalchemy import create_engine

In [5]:
# Connexion à la base de données
engine = create_engine('postgresql+psycopg2://postgres:1234@localhost:5432/Immobilier')
pgcon = engine.connect()

In [6]:
ta = 'zone_geographique'
ty = 'type_logement'
ca = 'caracteristique'

def read_data(nom_table: object):
    """ 
        Fonction permettant de lire les tables de données dans une base de données postgresql
        param: nom de la table de données
        output: table de données lue
    """
    data = pd.read_sql_query(f'SELECT * FROM {nom_table}', engine)
    return data

In [7]:
geographique = read_data(ta)
geographique.head(5)

Unnamed: 0,code_departement,nom_departement,code_region,nom_region
0,1,Ain,84,Auvergne-Rhône-Alpes
1,2,Aisne,32,Hauts-de-France
2,3,Allier,84,Auvergne-Rhône-Alpes
3,4,Alpes-de-Haute-Provence,93,Provence-Alpes-Côte d'Azur
4,5,Hautes-Alpes,93,Provence-Alpes-Côte d'Azur


In [8]:
logement = read_data(ty)
logement.head(3)

Unnamed: 0,nombre_de_lots,code_type_local,type_local,surface_reelle_bati,nombre_pieces,id_log
0,1,2.0,Appartement,24.0,1.0,0
1,0,,,,,1
2,0,,,,,2


In [9]:
caracteristique = read_data(ca)
caracteristique.head(3)


Unnamed: 0,no_disposition,date_mutation,nature_mutation,valeur_fonciere,code_voie,voie,code_postal,commune,code_departement,code_commune,id_log
0,1,2022-01-03,Vente,55000.0,2280,DE LA LIBERTE,1000.0,BOURG-EN-BRESSE,1,53,0
1,1,2022-01-03,Vente,143000.0,B010,CHAMP COCHET,1480.0,SAVIGNEUX,1,398,1
2,1,2022-01-03,Vente,143000.0,B010,CHAMP COCHET,1480.0,SAVIGNEUX,1,398,2


Trouver le prix moyen et le nombre de logement disponilble dans la base de données caractéristique: 

In [6]:
(
    pd.read_sql_query(
                    '''
                      SELECT 
                        AVG(valeur_fonciere) AS prix_moy, 
                        COUNT(id_log) AS nbrs_log 
                      FROM caracteristique
                    ''', 
                    engine)
)

Unnamed: 0,prix_moy,nbrs_log
0,2825906.0,4617590


Trouver le nombre de vente par commune et donner les 10 communes ayant fait le plus de ventes: 

In [7]:
(
    pd.read_sql_query(
        """ 
            SELECT 
                commune,
                COUNT(*) AS nbrs_ventes
            FROM caracteristique
            GROUP BY commune
            ORDER BY nbrs_ventes DESC
        """,
        engine
    )
    .head(10)
)

Unnamed: 0,commune,nbrs_ventes
0,TOULOUSE,33567
1,NICE,26624
2,MONTPELLIER,19512
3,NANTES,18854
4,VANNES,17346
5,BORDEAUX,16229
6,SAINT-ETIENNE,14804
7,LORIENT,13808
8,RENNES,12921
9,LILLE,12769


Trouver le prix total des logement par type de nature de mutation : 


In [8]:
(
    pd.read_sql_query(
        ''' 
            SELECT
                nature_mutation,
                CAST(SUM(valeur_fonciere) AS REAL) AS Prix_tot_num
            FROM caracteristique
            GROUP BY nature_mutation   
        ''',
        engine
    )
)

Unnamed: 0,nature_mutation,prix_tot_num
0,Adjudication,1897505000.0
1,Echange,3273984000.0
2,Expropriation,36637460.0
3,Vente,12461700000000.0
4,Vente en l'état futur d'achèvement,482311800000.0
5,Vente terrain à bâtir,11647400000.0


# Recupérer une table comptenant les dates de ventes, nature mutation, valeur fonciere, commune, nom de la region, nom du département, type_local, surface_reelle_bati, nombre_pieces

In [10]:
Tab_imo  = (
                pd.read_sql_query(
                    """ 
                        SELECT
                            ca.id_log,
                            ca.date_mutation,
                            ca.nature_mutation,
                            ca.valeur_fonciere,
                            ca.commune,
                            go.code_departement,
                            go.nom_departement,
                            go.code_region,
                            go.nom_region,
                            ty.type_local,
                            ty.surface_reelle_bati,
                            ty.nombre_pieces
                        FROM caracteristique as ca
                        LEFT JOIN zone_geographique as go 
                        USING(code_departement)
                        LEFT JOIN type_logement as ty
                        USING(id_log)
                        ORDER BY id_log ASC
                        
                    """,
                    engine
                )
            )

Prix moyen des logements en région d'île de France et le nombre de vente réaliser dans chaque département:

In [10]:
Prix_moy =  (
                """
                    SELECT
                        nom_departement,
                        CAST(MEAN(valeur_fonciere) AS INTEGER) AS prix_moy,
                    FROM Tab_imo
                    WHERE nom_region = 'Île-de-France'
                    GROUP BY nom_departement

                """
            )
duckdb.query(Prix_moy)

┌───────────────────┬──────────┐
│  nom_departement  │ prix_moy │
│      varchar      │  int32   │
├───────────────────┼──────────┤
│ Essonne           │   770507 │
│ Val-de-Marne      │  1321980 │
│ Seine-Saint-Denis │  2868114 │
│ Val-d'Oise        │   597660 │
│ Paris             │  3441770 │
│ Seine-et-Marne    │   856099 │
│ Yvelines          │  1185512 │
│ Hauts-de-Seine    │  3956037 │
└───────────────────┴──────────┘

On peut voir que en 2022, le prix moyen des logements dans l'Essonne, le Val-d'Oise et la Seine-et-Marne était inférieur à 1.000.000€. On remarque aussi que les logements coutent beaucoup plus
cher dans le Hauts-de-Seine près de 4 million €.

Quel est le prix moyen des logements en France et les départements ayant réaliser plus de 50.000 ventes ? 

In [11]:
# Premère Méthode 
Prix_moy_nbrs_vente = (
                         """ WITH moy_nbrs_vente AS 
                                 (
                                     SELECT 
                                       nom_departement,
                                       CAST(MEAN(valeur_fonciere) AS INTEGER) AS prix_moy,
                                       COUNT(*) AS nb_ventes
                                    FROM Tab_imo
                                    GROUP BY nom_departement
                                 )
                              SELECT *
                              FROM moy_nbrs_vente
                              WHERE nb_ventes > 50000
                              ORDER BY prix_moy DESC
                              
                         """
                      )
duckdb.query(Prix_moy_nbrs_vente)

┌───────────────────┬───────────┬───────────┐
│  nom_departement  │ prix_moy  │ nb_ventes │
│      varchar      │   int32   │   int64   │
├───────────────────┼───────────┼───────────┤
│ Morbihan          │ 107071470 │     93077 │
│ Côtes-d'Armor     │   6649699 │     70624 │
│ Hauts-de-Seine    │   3956037 │     80027 │
│ Paris             │   3441770 │     97971 │
│ Seine-Saint-Denis │   2868114 │     59900 │
│ Val-de-Marne      │   1321980 │     56382 │
│ Yvelines          │   1185512 │     70108 │
│ Bouches-du-Rhône  │   1110808 │    108534 │
│ Seine-et-Marne    │    856099 │     84333 │
│ Rhône             │    789803 │    106519 │
│   ·               │       ·   │       ·   │
│   ·               │       ·   │       ·   │
│   ·               │       ·   │       ·   │
│ Pas-de-Calais     │    326124 │     71079 │
│ Loire-Atlantique  │    321228 │    100589 │
│ Calvados          │    304717 │     58688 │
│ Maine-et-Loire    │    289639 │     61253 │
│ Isère             │    289544 │ 

On voit rappidement que le prix moyen des biens à Morbihan est de 107.071.470€. En faisant un filtre uniquement dans cette commune, on voit que le prix des logements tournenent autours de 
337.200.416€. 

In [27]:
Tab_imo = Tab_imo.drop_duplicates()

In [28]:
Tab_imo_1 = (
            """
                SELECT
                nature_mutation,
                valeur_fonciere,
                nom_departement,
                type_local
                FROM Tab_imo
                WHERE nom_departement = 'Morbihan'
                ORDER BY valeur_fonciere DESC
            """
)
duckdb.query(Tab_imo_1)

┌─────────────────┬─────────────────┬─────────────────┬─────────────┐
│ nature_mutation │ valeur_fonciere │ nom_departement │ type_local  │
│     varchar     │     double      │     varchar     │   varchar   │
├─────────────────┼─────────────────┼─────────────────┼─────────────┤
│ Vente           │     337200416.0 │ Morbihan        │ Dépendance  │
│ Vente           │     337200416.0 │ Morbihan        │ Dépendance  │
│ Vente           │     337200416.0 │ Morbihan        │ Dépendance  │
│ Vente           │     337200416.0 │ Morbihan        │ Dépendance  │
│ Vente           │     337200416.0 │ Morbihan        │ Appartement │
│ Vente           │     337200416.0 │ Morbihan        │ Dépendance  │
│ Vente           │     337200416.0 │ Morbihan        │ Appartement │
│ Vente           │     337200416.0 │ Morbihan        │ Appartement │
│ Vente           │     337200416.0 │ Morbihan        │ Maison      │
│ Vente           │     337200416.0 │ Morbihan        │ Maison      │
│   ·             │ 

In [29]:
# Deuxième méhtode : 
Prix_moy_nbrs_vente = (
                         """    
                            SELECT 
                              nom_departement,
                              CAST(MEAN(valeur_fonciere) AS INTEGER) AS prix_moy,
                              COUNT(*) AS nb_ventes
                            FROM Tab_imo
                            GROUP BY nom_departement
                            HAVING nb_ventes > 50000
                            ORDER BY prix_moy DESC
                              
                         """
                      )
duckdb.query(Prix_moy_nbrs_vente).df().head(10)

Unnamed: 0,nom_departement,prix_moy,nb_ventes
0,Morbihan,107071470,93077
1,Côtes-d'Armor,6649699,70624
2,Hauts-de-Seine,3956037,80027
3,Paris,3441770,97971
4,Seine-Saint-Denis,2868114,59900
5,Val-de-Marne,1321980,56382
6,Yvelines,1185512,70108
7,Bouches-du-Rhône,1110808,108534
8,Seine-et-Marne,856099,84333
9,Rhône,789803,106519


Quels sont les logements dont le prix moyen est supérieur au prix moyen par département ?

In [34]:
log_moy = (
            """
                WITH prix_moy_imo AS
                (
                    SELECT 
                        CAST(MEAN(valeur_fonciere) AS INTEGER) AS moy_prix
                    FROM Tab_imo
                )
                SELECT
                nom_departement,
                CAST(MEAN(valeur_fonciere) AS INTEGER) AS prix_moy
                FROM Tab_imo,
                GROUP BY nom_departement
                HAVING prix_moy > (SELECT * FROM prix_moy_imo)
            """
          )
duckdb.query(log_moy)

┌───────────────────┬───────────┐
│  nom_departement  │ prix_moy  │
│      varchar      │   int32   │
├───────────────────┼───────────┤
│ Morbihan          │ 107071470 │
│ Seine-Saint-Denis │   2868114 │
│ Côtes-d'Armor     │   6649699 │
│ Paris             │   3441770 │
│ Hauts-de-Seine    │   3956037 │
└───────────────────┴───────────┘

Trouver les prix des logements en île de France, les affichier par département et trouver également le prix par mettre carrée.

In [43]:
IDF_tab_imo = (
                """ 
                    SELECT
                    nom_departement,
                    valeur_fonciere,
                    type_local,
                    CAST((valeur_fonciere/surface_reelle_bati) AS INTEGER) AS prix_metre_carree,
                    surface_reelle_bati
                    FROM Tab_imo
                    WHERE (nom_region = 'Île-de-France') AND (nom_departement = 'Seine-et-Marne')    
                """
              )


In [59]:
k = duckdb.query(IDF_tab_imo).df().head(20)

Quels sont les logements dans la région IDF dont la moyenne des valeurs foncières par département est supérieur à la moyenne de tous les logements vendu en IDF ?

In [32]:
Prix_moy_m =(
                """
                WITH IDF_imo AS (
                    SELECT
                    CAST(MEAN(valeur_fonciere) AS INTEGER) AS prix_moy_IDF,
                    FROM Tab_imo
                )
                
                SELECT
                nom_departement,
                CAST(MEAN(valeur_fonciere) AS INTEGER) AS prix_moy_dep
                FROM Tab_imo
                WHERE (nom_region = 'Île-de-France') 
                GROUP BY nom_departement
                HAVING prix_moy_dep > (SELECT prix_moy_IDF FROM IDF_imo) 

                """
            )

duckdb.query(Prix_moy_m)

┌───────────────────┬──────────────┐
│  nom_departement  │ prix_moy_dep │
│      varchar      │    int32     │
├───────────────────┼──────────────┤
│ Hauts-de-Seine    │      3956037 │
│ Seine-Saint-Denis │      2868114 │
│ Paris             │      3441770 │
└───────────────────┴──────────────┘

Quels sont le type d'appartement le plus vendu en IDF

In [54]:
T   =   (
            """
            SELECT
            type_local,
            COUNT(*) AS nbrs_logement
            FROM Tab_imo
            WHERE nom_region = 'Île-de-France'
            GROUP BY type_local
            """
        )
k =duckdb.query(T).df()

In [56]:
k

Unnamed: 0,type_local,nbrs_logement
0,Local industriel. commercial ou assimilé,22796
1,,114923
2,Maison,60411
3,Dépendance,214876
4,Appartement,144217


In [58]:
Tab_imo.to_sql('Tab_imo', engine, if_exists = 'replace', index = False)

590

In [57]:
Tab_imo

Unnamed: 0,id_log,date_mutation,nature_mutation,valeur_fonciere,commune,code_departement,nom_departement,code_region,nom_region,type_local,surface_reelle_bati,nombre_pieces
0,0,2022-01-03,Vente,55000.0,BOURG-EN-BRESSE,01,Ain,84,Auvergne-Rhône-Alpes,Appartement,24.0,1.0
1,1,2022-01-03,Vente,143000.0,SAVIGNEUX,01,Ain,84,Auvergne-Rhône-Alpes,,,
2,2,2022-01-03,Vente,143000.0,SAVIGNEUX,01,Ain,84,Auvergne-Rhône-Alpes,,,
3,3,2022-01-03,Vente,143000.0,SAVIGNEUX,01,Ain,84,Auvergne-Rhône-Alpes,Appartement,140.0,3.0
4,4,2022-01-04,Vente,300.0,MESSIMY SUR SAONE,01,Ain,84,Auvergne-Rhône-Alpes,,,
...,...,...,...,...,...,...,...,...,...,...,...,...
4617585,4617585,2022-11-10,Adjudication,188100.0,PARIS 16,75,Paris,11,Île-de-France,Dépendance,0.0,0.0
4617586,4617586,2022-11-10,Adjudication,2145000.0,PARIS 16,75,Paris,11,Île-de-France,Appartement,210.0,6.0
4617587,4617587,2022-11-10,Adjudication,2145000.0,PARIS 16,75,Paris,11,Île-de-France,Dépendance,0.0,0.0
4617588,4617588,2022-12-14,Vente,111000.0,PARIS 06,75,Paris,11,Île-de-France,Appartement,24.0,2.0
