In [17]:
import json 
import pandas as pd

In [76]:
cols = ["price", "size_and_rooms", "location"]

import re

def read(path: str) -> pd.DataFrame:
    data = []
    with open(path, "r", encoding="utf8") as file:
        for line in file:
            data.append(json.loads(line))

    return pd.DataFrame.from_records(data)


def _room_and_size(s, index=0, sep1=",", sep2=" "):
    if s is None:
        return 
    
    try:
        return int(s.strip().split(sep1)[index].strip().split(sep2)[0])
    except IndexError:
        return
    
def _price(p):
    num_p = re.sub(r'\D', '', p.replace("DH", "").replace("\xa0", ""))
    if not num_p:
        return 
    return int(num_p)
    

def pre_process(data: pd.DataFrame) -> pd.DataFrame:
    data.price = data.price.apply(_price)
    data["rooms"] = data.size_and_rooms.apply(lambda x: _room_and_size(x))
    data["surface"] = data.size_and_rooms.apply(lambda x: _room_and_size(x, index=1))
    data["city"] = data.location.apply(lambda x: x.split("à")[-1])
    data["district"] = data.location.apply(lambda x: x.split("à")[0])
    data.title = data.title.str.lower().str.strip()
    data.city = data.city.str.lower().str.strip()
    data.district = data.district.str.lower().str.strip()

    data.drop(columns=["location", "size_and_rooms", "images"], inplace=True)
    return data


In [77]:
df = read("data/immo_data.json")

In [78]:
df.head()

Unnamed: 0,link,property_id,price,title,size_and_rooms,location,description,images
0,https://www.mubawab.ma/fr/pa/6777728/apparteme...,6777728,250 000 DH,"Appartement de 59m² en vente, Ahl Loghlam...","2 chambres, 59 m²",Ahl Loghlam (Hay Assalam) à Casablanca,c’est au cœur de la ville nouvelle de tit mell...,[https://www.mubawab-media.com/ad/6/777/728F/m...
1,https://www.mubawab.ma/fr/pa/7157727/apparteme...,7157727,1 544 000 DH,Appartement de 78m² en vente Résidence Di...,"2 chambres, 78 m²",Maârif Extension à Casablanca,idéal pour les investisseurs ou les jeunes act...,[https://www.mubawab-media.com/ad/7/157/727F/m...
2,https://www.mubawab.ma/fr/pa/7459735/apparteme...,7459735,1 470 000 DH,Appartement de 122m² en vente avec en plu...,"3 chambres, 122 m²",Belvédère à Casablanca,chraibi immobilier est un projet résidentiel c...,[https://www.mubawab-media.com/ad/7/459/735F/m...
3,https://www.mubawab.ma/fr/pa/7623664/apparteme...,7623664,710 000 DH,"Appartement 81m² en vente, Résidence Al B...","2 chambres, 81 m²",Al Azhar à Casablanca,le complexe résidentiel al-badr propose des ap...,[https://www.mubawab-media.com/ad/7/623/664F/m...
4,https://www.mubawab.ma/fr/pa/7480730/apparteme...,7480730,1 498 000 DH,Appartement au RDC de 100m² en vente Les...,"3 chambres, 100 m²",Californie à Casablanca,"composée de 4 immeubles en r4, les allées de c...",[https://www.mubawab-media.com/ad/7/480/730F/m...


In [79]:
len(df)

7173

In [80]:
data = pre_process(df)

In [11]:
data

Unnamed: 0,link,property_id,price,title,description,rooms,surface,city,district
0,https://www.mubawab.ma/fr/pa/6777728/apparteme...,6777728,250000.0,"appartement de 59m² en vente, ahl loghlam...",c’est au cœur de la ville nouvelle de tit mell...,2.0,59.0,casablanca,ahl loghlam (hay assalam)
1,https://www.mubawab.ma/fr/pa/7157727/apparteme...,7157727,1544000.0,appartement de 78m² en vente résidence di...,idéal pour les investisseurs ou les jeunes act...,2.0,78.0,casablanca,maârif extension
2,https://www.mubawab.ma/fr/pa/7459735/apparteme...,7459735,1470000.0,appartement de 122m² en vente avec en plu...,chraibi immobilier est un projet résidentiel c...,3.0,122.0,casablanca,belvédère
3,https://www.mubawab.ma/fr/pa/7623664/apparteme...,7623664,710000.0,"appartement 81m² en vente, résidence al b...",le complexe résidentiel al-badr propose des ap...,2.0,81.0,casablanca,al azhar
4,https://www.mubawab.ma/fr/pa/7480730/apparteme...,7480730,1498000.0,appartement au rdc de 100m² en vente les...,"composée de 4 immeubles en r4, les allées de c...",3.0,100.0,casablanca,californie
...,...,...,...,...,...,...,...,...,...
7168,https://www.mubawab.ma/fr/a/7546868/vente-bel-...,7546868,1600000.0,vente bel appartement princesses,idéalement situé dans le très apprécié quartie...,,,casablanca,les princesses
7169,https://www.mubawab.ma/fr/a/7503990/appartemen...,7503990,1060000.0,appartement de 184m dont 25 terrasse bélv...,particulier met en vente un appartement situé ...,,,casablanca,belvédère
7170,https://www.mubawab.ma/fr/a/7407371/vend-appar...,7407371,1300000.0,vend appartement à ain chock. 2 pièces. c...,découvrez cet appartement à vendre. prix 1 300...,,,casablanca,ain chock
7171,https://www.mubawab.ma/fr/pa/7597957/apparteme...,7597957,3300000.0,appartement à vendre. surface de 134 m²,laissez-vous tenter par la vie dont vous en av...,,,casablanca,racine


In [140]:
data.district.value_counts().sort_values()

district
bouchentouf          1
michouar             1
jamila 3             1
derb douam           1
les crêtes           1
                  ... 
bourgogne ouest    284
aïn sebaâ          290
racine             310
maârif             313
oulfa              459
Name: count, Length: 182, dtype: int64

In [141]:
data[data['district'] == 'oulfa'].surface.describe()

count     14.000000
mean      75.428571
std       39.570219
min       40.000000
25%       54.250000
50%       57.000000
75%       82.250000
max      184.000000
Name: surface, dtype: float64

In [142]:
data_dict = data.to_dict('records')


In [143]:
data_dict

[{'link': 'https://www.mubawab.ma/fr/pa/6777728/appartement-de-59m%C2%B2-en-vente-ahl-loghlam-social-tit-mellil',
  'property_id': '6777728',
  'price': 250000.0,
  'title': 'appartement de 59m² en vente, ahl loghlam...',
  'description': 'c’est au cœur de la ville nouvelle de tit mellil, à 2mins seulement de l’autoroute périphérique et 20mins seulement de l’aéroport mohamed v, que shem’s al madina vous fait découvrir sa nouvelle résidence « ... En savoir plus',
  'rooms': 2.0,
  'surface': 59.0,
  'city': 'casablanca',
  'district': 'ahl loghlam (hay assalam)'},
 {'link': 'https://www.mubawab.ma/fr/pa/7157727/appartement-de-78m%C2%B2-en-vente-r%C3%A9sidence-diaz',
  'property_id': '7157727',
  'price': 1544000.0,
  'title': 'appartement de 78m² en vente résidence di...',
  'description': 'idéal pour les investisseurs ou les jeunes actifs à la recherche d’une acquisition, la résidence diaz, est un projet qui concilie entre centre-ville et calme inouï. avant-gardisme et confort , ... En

In [144]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=400,
    chunk_overlap=20,
    length_function=len,
    separators=["\n\n", "\n", " ", ""]
)

In [147]:
text_splitter.split_text(data_dict[0]["description"])[:2]


['c’est au cœur de la ville nouvelle de tit mellil, à 2mins seulement de l’autoroute périphérique et 20mins seulement de l’aéroport mohamed v, que shem’s al madina vous fait découvrir sa nouvelle résidence « ... En savoir plus']

In [9]:
from langchain.document_loaders import DirectoryLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings.openai import OpenAIEmbeddings
import pinecone 
from langchain.vectorstores import Pinecone
from langchain import OpenAI
from langchain.chains import RetrievalQA
import json
import glob
import os
import random

In [11]:
json_files = glob.glob('data/*.json')

data = []

for file in json_files:
    with open(file, 'r', encoding='utf-8') as f:
        for line in f:
            data.append(json.loads(line))

data = [{'price': e['price'],
         'title': e['title'],
         'size_and_rooms': e['size_and_rooms'],
         'location': e['location'],
         'description': e['description'],
         
    } for e in data]

for i in range(len(data)):
    data[i]['price'] = data[i]['price'].replace('\xa0', ' ')
    for e in ['title', 'size_and_rooms', 'location', 'description']:
        try:
            data[i][e] = data[i][e].encode('latin1').decode('utf8')
        except: pass

#data = [' '.join([f'"{key}": {e[key]};' for key in e.keys()]) for e in data]

def str_transfrom(s):
    if s is None:
        return ''
    return s

data = ["Situé à " + str_transfrom(e["location"]) + " . Ce bien est affiché au prix de " + str_transfrom(e["price"]) + " . Voici la description détaillé du bien: " + str_transfrom(e["description"]) for e in data]

In [12]:
PINECONE_API_KEY =  "c67c45bc-0478-498b-a411-36a6207a750a"
PINECONE_ENV = "us-west4-gcp-free"
OPENAI_API_KEY = "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"

os.environ['OPENAI_API_KEY'] = OPENAI_API_KEY
os.environ['PINECONE_API_KEY'] = PINECONE_API_KEY

In [16]:
pinecone.init(
    api_key=PINECONE_API_KEY,
    environment=PINECONE_ENV
)
embeddings = OpenAIEmbeddings()
data_db = Pinecone.from_texts(
    data, 
    embeddings, 
    index_name='langchain-bot'
)


KeyboardInterrupt: 

In [19]:
index = pinecone.Index("langchain-bot")

In [15]:
type(data_db)

langchain.vectorstores.pinecone.Pinecone

In [21]:
query = "un appartement de 60m2 avec un prix qui ne dépasse pas 1200000DH avec un bacon"
search_docs = data_db.similarity_search(query)
search_docs

[Document(page_content='Situé à Mandarona à Casablanca . Ce bien est affiché au prix de 600 000 DH . Voici la description détaillé du bien: ne laissez pas passer cet appartement à vendre. prix 620 000 dh. 2 chambres, 1 salle de bains, 60 m². 1 pièces. 4ème étage. moins de 20 ans. revêtement: carrelage. sécurité maximale avec porte blindée. ... En savoir plus', metadata={}),
 Document(page_content="Situé à Mandarona à Casablanca . Ce bien est affiché au prix de 680 000 DH . Voici la description détaillé du bien: faites une belle affaire en achetant cet appartement. prix 680 000 dh. 5 pièces, 2 chambres, 1 salle de bains, 60 m². 2ème étage. moins de 20 ans. type de sol: parquet. porte d'entrée blindée. le bien ... En savoir plus", metadata={}),
 Document(page_content='Situé à Mandarona à Casablanca . Ce bien est affiché au prix de 600 000 DH . Voici la description détaillé du bien: affaire à saisir pour cet appartement à vendre. prix 620 000 dh. 2 chambres, 1 salle de bains, surface 60 m

In [70]:
for it in search_docs:
    print(it.page_content)
    break

Appartement 62m2 à vendre Mandaronna Situé à Ain Chock à Casablanca . Ce bien est affiché au prix de 620 000 DH . Voici la description détaillé du bien: je mets en vente un appartement avec une superficie de 62m2, quatrième étage. elle comporte un salon, un séjour, deux chambres à coucher ( une avec un petit balcon), une douche, une cuisine et un grand ... En savoir plus


In [89]:
from langchain.chat_models import ChatOpenAI
llm = ChatOpenAI()

qa = RetrievalQA.from_chain_type(
    llm=llm, 
    chain_type='stuff',
    retriever=data_db.as_retriever(),
)

"Le prix moyen des appartements à Casa dépend de plusieurs facteurs tels que l'emplacement, la taille, le niveau de standing, etc. Les exemples de biens immobiliers que vous avez fournis ont des prix allant de 8 500 DH à 950 000 DH. Il est donc difficile de donner une réponse précise sur le prix moyen sans plus de détails."

In [86]:
from langchain.schema import (
    AIMessage,
    HumanMessage,
    SystemMessage
)

In [90]:
query = "quel le prix moyen à Casa ?"
result = qa.run(query)

result

"Le prix moyen à Casa dépend du type d'appartement et de son emplacement. Les différents biens immobiliers mentionnés dans les descriptions ont des prix différents. Par exemple, le premier appartement n'a pas de prix affiché et le prix de l'appartement à Casa Finance City est de 8 500 DH, tandis que l'appartement à Hay Hassani est affiché à 950 000 DH. Le deuxième appartement est affiché à 430 000 DH."

In [94]:
query = "Quel le prix moyen à casa ?"
content = f"Est ce que question demande un calcul: {query} \n Répondre exactement par oui ou non"
llm([HumanMessage(content=content)])

AIMessage(content='Non.', additional_kwargs={}, example=False)

In [1]:
from langchain.memory import ConversationBufferMemory

memory = ConversationBufferMemory(memory_key="chat_history")

In [2]:
from langchain.agents import load_tools

tools = load_tools(
    ["llm-math"], 
    llm=llm
)

NameError: name 'llm' is not defined