# Test technique Aurélien Allard

Ce test a pour but de regrouper les annonces disponibles sur [ce lien Google Sheet](https://docs.google.com/spreadsheets/d/1XUjqeXVgjZJ8jVNAn9MeIb9zHLhVj4mwRs-hk1P050o/edit).

## Connexion à la table Google Sheet

Tout d'abord nous désirons importer l'ensemble des données sous un format exploitable par Pandas, afin de pouvoir les manipuler et analyser.

Nous redéfinissons pour cela un extrait csv de la table en réécrivant son url.

In [378]:
import numpy as np
import pandas as pd

# Définition des variables
sheet_url = "https://docs.google.com/spreadsheets/d/1XUjqeXVgjZJ8jVNAn9MeIb9zHLhVj4mwRs-hk1P050o/edit#gid=1762609115"
csv_url = sheet_url.replace("/edit#gid=", "/export?format=csv&gid=")

# Extraction du csv dans un dataframe Pandas
raw_df = pd.read_csv(csv_url,
                   # Nous attribuons l'index  des lignes à la colonne ID
                   index_col=0,
                  )

# Visualisation du résultat
raw_df.head(2)

Unnamed: 0_level_0,URL,CRAWL_SOURCE,PROPERTY_TYPE,NEW_BUILD,DESCRIPTION,IMAGES,SURFACE,LAND_SURFACE,BALCONY_SURFACE,TERRACE_SURFACE,...,DEALER_NAME,DEALER_TYPE,CITY_ID,CITY,ZIP_CODE,DEPT_CODE,PUBLICATION_START_DATE,PUBLICATION_END_DATE,LAST_CRAWL_DATE,LAST_PRICE_DECREASE_DATE
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
22c05930-0eb5-11e7-b53d-bbead8ba43fe,http://www.avendrealouer.fr/location/levallois...,A_VENDRE_A_LOUER,APARTMENT,False,"Au rez de chaussée d'un bel immeuble récent,ap...","[""https://cf-medias.avendrealouer.fr/image/_87...",72.0,,,,...,Lamirand Et Associes,AGENCY,54178039,Levallois-Perret,92300.0,92,2017-03-22T04:07:56.095,,2017-04-21T18:52:35.733,
8d092fa0-bb99-11e8-a7c9-852783b5a69d,https://www.bienici.com/annonce/ag440414-16547...,BIEN_ICI,APARTMENT,False,Je vous propose un appartement dans la rue Col...,"[""http://photos.ubiflow.net/440414/165474561/p...",48.0,,,,...,Proprietes Privees,MANDATARY,54178039,Levallois-Perret,92300.0,92,2018-09-18T11:04:44.461,,2019-06-06T10:08:10.89,2018-09-25


<details>
<summary>Autre méthode</summary>
<br>
Avec l'accès aux credentials, nous pourrions imaginer nous connecter via l'API Google, voire nous aider d'une librairie telle que gspread.
</details>

## Analyse

Nous désirons nous faire une idée générale des colonnes présentes ainsi que du nombre d'entrée (2164 pour cet extrait).

Nous en profitons pour faire un récapitulatif statistique permettant d'apprécier les grandes tendances.

In [379]:
raw_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2164 entries, 22c05930-0eb5-11e7-b53d-bbead8ba43fe to f3ae8be0-9fcf-11e9-ab3e-47ec2b68d334
Data columns (total 56 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   URL                         2164 non-null   object 
 1   CRAWL_SOURCE                2164 non-null   object 
 2   PROPERTY_TYPE               2164 non-null   object 
 3   NEW_BUILD                   1973 non-null   object 
 4   DESCRIPTION                 2160 non-null   object 
 5   IMAGES                      2164 non-null   object 
 6   SURFACE                     2050 non-null   float64
 7   LAND_SURFACE                3 non-null      float64
 8   BALCONY_SURFACE             0 non-null      float64
 9   TERRACE_SURFACE             25 non-null     float64
 10  ROOM_COUNT                  1835 non-null   float64
 11  BEDROOM_COUNT               696 non-null    float64
 12  BATHROOM_COUNT              

In [380]:
raw_df.describe()

Unnamed: 0,SURFACE,LAND_SURFACE,BALCONY_SURFACE,TERRACE_SURFACE,ROOM_COUNT,BEDROOM_COUNT,BATHROOM_COUNT,LUNCHROOM_COUNT,TOILET_COUNT,FIREPLACE,...,GREENHOUSE_GAS_CONSUMPTION,PRICE,PRICE_M2,RENTAL_EXPENSES,DEPOSIT,FEES,CITY_ID,ZIP_CODE,DEPT_CODE,PUBLICATION_END_DATE
count,2050.0,3.0,0.0,25.0,1835.0,696.0,0.0,0.0,0.0,0.0,...,0.0,2104.0,1991.0,441.0,55.0,94.0,2164.0,2163.0,2164.0,0.0
mean,128.136068,30.0,,31.3636,2.243597,1.847701,,,,,...,,426114.2,5483.77342,406.687347,2988.506,1531.935957,54178039.0,92300.0,92.0,
std,423.339898,8.660254,,57.467242,1.715621,1.104508,,,,,...,,648660.3,5384.760624,1329.451157,8071.172419,6269.06513,0.0,0.0,0.0,
min,6.0,25.0,,5.59,0.0,1.0,,,,,...,,33.0,1.78,2.0,70.0,29.5,54178039.0,92300.0,92.0,
25%,36.2,25.0,,13.0,1.0,1.0,,,,,...,,1600.0,32.375,60.0,860.5,378.0,54178039.0,92300.0,92.0,
50%,55.0,25.0,,18.0,2.0,1.0,,,,,...,,220000.0,7586.21,100.0,1350.0,639.67,54178039.0,92300.0,92.0,
75%,93.0,32.5,,26.0,3.0,2.0,,,,,...,,609750.0,10056.75,151.0,2450.0,806.7,54178039.0,92300.0,92.0,
max,10287.0,40.0,,300.0,10.0,8.0,,,,,...,,6000000.0,89000.0,14287.33,60000.0,60000.0,54178039.0,92300.0,92.0,


## Nettoyage

Rendons la donnée plus lisible en éliminant les colonnes n'apportant aucun élément de comparaison probants entre deux biens immobilier, ainsi que les colonnes de lieu contenant une information similaire.

Notons que nous retirons ici les images: les filigrannes et l'incertitude d'avoir des photographies similaires nous en décourage.


In [381]:
# Colonnes non-pertinentes à enlever
col_to_drop = ['URL', 'CRAWL_SOURCE', 'CRAWL_SOURCE', 'IMAGES', 'PRICE_EVENTS', 'FEES', 'FEES_INCLUDED', 'DEALER_NAME',
 'DEALER_TYPE', 'CITY_ID', 'CITY', 'DEPT_CODE', 'PUBLICATION_START_DATE', 'PUBLICATION_END_DATE',
 'LAST_CRAWL_DATE', 'LAST_PRICE_DECREASE_DATE']

df = raw_df.drop(col_to_drop, axis=1)

Toujours en vue d'alléger le processus, nous enlevons les colonnes n'ayant pas  ou peu d'informations.

In [382]:
# On retire les colonnes vides ou contenant peu déléments comparables
df.dropna(axis=1, thresh=0.1*len(df), inplace=True)
df.sort_index(axis=1, inplace=True)
df.count()

BEDROOM_COUNT                696
CARETAKER                    247
CONSTRUCTION_YEAR            503
DESCRIPTION                 2160
ELEVATOR                     552
EXCLUSIVE_MANDATE           2164
FLOOR                        660
FLOOR_COUNT                  465
FURNISHED                    467
HEATING_MODE                 653
HEATING_TYPES               2164
MARKETING_TYPE              2164
NEW_BUILD                   1973
OCCUPIED                    1209
PARKING                     2164
PRICE                       2104
PRICE_M2                    1991
PROPERTY_TYPE               2164
RENTAL_EXPENSES              441
RENTAL_EXPENSES_INCLUDED     600
ROOM_COUNT                  1835
SURFACE                     2050
ZIP_CODE                    2163
dtype: int64

## Regroupement

Nous pourrions éléminer l'ensemble des entrées n'ayant aucun doublon "remarquables", telle que la surface, mais décidons ici de traiter l'ensemble de la table d'un seul coup, étant donné le nombre limité d'enregistrements.

Pour ce faire, plusieurs méthodologies seraient envisageables (nlp, etc.). Nous imaginons ici un besoin de résultat rapide et allons comparer les similitudes entre les lignes à l'aide de leur distance euclidienne.

A noter qu'il nous faudrait imaginer entrainer le modèle sur un dataset dont les regroupements sont connus pour estimer sa fiabilité. Nous serons donc conservateurs, en privilégiant la précision sur le recall, avec un seuil de ressemblance de 70%.

In [383]:
from scipy.spatial.distance import pdist, squareform

# Création d'une matrice de comparaison des offres une à une
comp_1 = pd.DataFrame(
    1 - squareform(pdist(df, lambda u,v: (u != v).mean())),
    columns = df.index.values,
    index = df.index.values
)

In [384]:
# Nous créons une table de comparaison deux à deux des biens, mis en lien avec le score
comp_2 = comp_1.unstack().to_frame().reset_index().set_axis(['Bien A', 'Bien B', 'Score'], axis=1)

# Conditions sur le score pour être considéré comme dupliqué
comp_2 = comp_2[(comp_2['Score'] < 1) & (comp_2['Score'] > 0.7)]

# On retire toutes les entrées similaires (ex: A-B ou B-A)
comp_2['check_string'] = comp_2.apply(lambda row: ''.join(sorted([row['Bien A'], row['Bien B']])), axis=1)
comp_2 = comp_2.drop_duplicates('check_string').drop(['check_string'], axis=1)

Nous obtenons ci-dessous en résultat des couples de biens semblant similaires.

In [385]:
comp_2.sort_values(by='Bien A', ascending=False, axis=0)

Unnamed: 0,Bien A,Bien B,Score
249330,ffc30ed0-81c3-11e9-a3ea-ffe50e0986b0,99efb670-8188-11e9-a3ea-ffe50e0986b0,0.782609
614443,fe9c3190-a850-11e9-aa5e-8b8909b4f047,053730e0-ae5f-11e9-9fab-c3006e339e11,0.739130
2470775,fdc18e60-c7c7-11e8-a690-852783b5a69d,c0a126e0-c7a8-11e8-a690-852783b5a69d,0.739130
2470320,fdc18e60-c7c7-11e8-a690-852783b5a69d,08c98a90-0596-11e9-8321-1350c9447565,0.739130
2535540,fd1526b0-d6a1-11e7-9a1c-0fee3e6b9b80,6c8c2c00-e084-11e7-a8f5-5d2fe6a4377f,0.782609
...,...,...,...
2475555,04cb8da0-78db-11e8-9715-3760d659752c,dbe80e20-f294-11e8-9c01-a577da129fbb,0.739130
2182353,03699de0-a8ae-11e9-aa5e-8b8909b4f047,6e1d4990-a8de-11e9-96d9-fb3253f8fc6c,0.739130
2183414,03699de0-a8ae-11e9-aa5e-8b8909b4f047,5f7022f0-a9b5-11e9-aa5e-8b8909b4f047,0.782609
2751757,035e9270-afe2-11e9-81e9-5f24299f2ef3,c150f140-afcb-11e9-81e9-5f24299f2ef3,0.782609


Nous allons regrouper ces biens à l'aide d'une nouvelle colonne 'ID DUPLICATES', et d'un identifiant commun.
Ainsi la table finale se voudra directement exploitable par l'utilisateur, qu'il y ait regroupement ou non.

Tout d'abord, créons un dictionnaire reliant chacun de ces biens à un identifiants de regroupement.

In [386]:
duplicated_col = {}
counter = 0

# Création d'un dictionnaire d'id de regroupements sous l forme {index: batch de regroupement}
for i, r in comp_2.sort_values(by='Bien A').iterrows():
    if not r['Bien A'] in duplicated_col:
        counter += 1
        duplicated_col[r['Bien A']] = counter
        duplicated_col[r['Bien B']] = counter
    else:
        duplicated_col[r['Bien B']] = duplicated_col[r['Bien A']]

Nous réassignons alors ces identifiants à la nouvelle colonnes, puis nettoyons chaque regroupement pour s'assurer qu'ils contiennent des enregistrements similaires vis-à-vis des métrics principales.

A noter qu'une de nos hypothèses part du principe que différents agents peuvent parfois ne pas remplir de manière exhaustive certaines informations (nombre de salle de bain, etc), alors que d'autres paraissent immuables (surface, étage en cas d'appartements situés dans le même immeuble, etc).

In [387]:
final_df = df
final_df['ID DUPLICATES'] = np.nan
final_df['ID DUPLICATES'] = final_df['ID DUPLICATES'].astype('Int64')

# On assigne les id de regroupement à une nouvelle colonne 'ID DUPLICATES'
for k, v in duplicated_col.items():
    final_df.loc[k, 'ID DUPLICATES'] = v
    
# On consolide les regroupements en vérifiant les grandes métrics immobilières pour chaque
checked_col = ['CONSTRUCTION_YEAR', 'FLOOR_COUNT', 'SURFACE', 'PRICE_M2', 'PROPERTY_TYPE', 'SURFACE']

# Vérification de l'existente d'au moins un duplicat par regroupement, correction dans le cas contraire
for i, r in final_df.iterrows():
    if type(r['ID DUPLICATES']) == int:
        duplicates = final_df.loc[final_df['ID DUPLICATES'] == r['ID DUPLICATES']].duplicated(checked_col)
        for j, v in duplicates.iloc[1:].to_frame().iterrows():
            if not v[0]:
                final_df.loc[j, 'ID DUPLICATES'] = np.nan

Nous obtenons alors la table finale, prête au partage via son intégration au sein d'une API, contenant l'ensemble des biens, dont les ceux dupliqués (dernière colonne).

In [388]:
final_df.sort_values(['ID DUPLICATES'], ascending=False).head(10)

Unnamed: 0_level_0,BEDROOM_COUNT,CARETAKER,CONSTRUCTION_YEAR,DESCRIPTION,ELEVATOR,EXCLUSIVE_MANDATE,FLOOR,FLOOR_COUNT,FURNISHED,HEATING_MODE,...,PARKING,PRICE,PRICE_M2,PROPERTY_TYPE,RENTAL_EXPENSES,RENTAL_EXPENSES_INCLUDED,ROOM_COUNT,SURFACE,ZIP_CODE,ID DUPLICATES
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
99efb670-8188-11e9-a3ea-ffe50e0986b0,1.0,,1950.0,"BOULEVARD BINEAU, dans un bel immeuble ancien ...",True,False,2.0,,False,,...,False,1430.0,26.05,APARTMENT,80.0,True,2.0,54.9,92300.0,112
ffc30ed0-81c3-11e9-a3ea-ffe50e0986b0,1.0,,1950.0,"BOULEVARD BINEAU, dans un bel immeuble ancien ...",True,False,2.0,,False,,...,False,1430.0,26.05,APARTMENT,80.0,True,2.0,54.9,92300.0,112
fe9c3190-a850-11e9-aa5e-8b8909b4f047,2.0,False,2001.0,"Dans un immeuble très récent, à côté du Parc d...",True,False,2.0,6.0,,INDIVIDUAL,...,True,830000.0,11527.78,APARTMENT,,,3.0,72.0,92300.0,111
fdc18e60-c7c7-11e8-a690-852783b5a69d,1.0,False,2012.0,Dans une copropriété de grand standing de 2012...,True,False,,5.0,,COLLECTIVE,...,False,449000.0,9212.15,APARTMENT,,,2.0,48.74,92300.0,110
c0a126e0-c7a8-11e8-a690-852783b5a69d,1.0,,2012.0,Dans une copropriété de grand standing de 2012...,True,False,,5.0,,COLLECTIVE,...,False,449000.0,9212.15,APARTMENT,,,2.0,48.74,92300.0,110
fd1526b0-d6a1-11e7-9a1c-0fee3e6b9b80,1.0,,1990.0,LEVALLOIS | PONT DE LEVALLOIS | 2 PIÈCES Appar...,True,False,4.0,5.0,,INDIVIDUAL,...,False,520000.0,10400.0,APARTMENT,,,2.0,50.0,92300.0,109
6c8c2c00-e084-11e7-a8f5-5d2fe6a4377f,1.0,False,1990.0,LEVALLOIS | PONT DE LEVALLOIS | 2 PIECES Appar...,True,False,4.0,5.0,,INDIVIDUAL,...,False,520000.0,10400.0,APARTMENT,,,2.0,50.0,92300.0,109
fa2296f0-ff44-11e8-a522-11b900e7785d,1.0,,1930.0,Levallois / Victor Hugo - Spécial Investisseur...,False,False,3.0,6.0,,INDIVIDUAL,...,False,265000.0,7794.12,APARTMENT,,,1.0,34.0,92300.0,108
72a8d9c0-ff38-11e8-84f5-374944e977fb,1.0,False,1930.0,Levallois / Victor Hugo - Spécial Investisseur...,False,False,3.0,6.0,,INDIVIDUAL,...,False,265000.0,7794.12,APARTMENT,,,1.0,34.0,92300.0,108
3bd70ba0-a60f-11e9-aa5e-8b8909b4f047,,,,"A 2 pas de la Gare Clichy Levallois, et proche...",True,False,6.0,,True,COLLECTIVE,...,False,1004.0,26.42,APARTMENT,100.0,True,2.0,38.0,92300.0,107


## Conclusion

Il semble que les données internes à Yanport permettent de visualiser le regroupement grâce aux douze derniers caractères de l'ID. Ces données ne sont pas supposées exister lors de l'extraction, nous n'avons donc pas creusé en ce sens.

A l'aide de ce modèle, nous avons trouvé 104 biens en doublons, pour 208 entrées.

In [389]:
print(final_df['ID DUPLICATES'].count())
print(len(final_df['ID DUPLICATES'].unique()))

208
104


## Outro

Il est bien sûr toujours possible d'aller plus loin, par exemple :
- Vérifier la précision du modèle sur un dataset connu
- Pousser la recherche des colonnes pertinentes
- Mettre en place d'autres modèles
- comparer les description
- Charger le tout au sein d'un ETL ou d'un workflow