In [1]:
%config IPCompleter.use_jedi=False

In [2]:
import os
import traceback

import pyodbc
import backoff
import chromadb
import pandas as pd
from loguru import logger

from chromadb.config import Settings

In [3]:
# # Estabelecer conexão com o chroma
# chroma_client = chromadb.HttpClient(host="chroma-server", port = 8000, settings=Settings(allow_reset=True, anonymized_telemetry=False))


In [None]:
@backoff.on_exception(
    backoff.expo,
    pyodbc.Error,
    max_tries=5,
    max_time=60,
)

def get_azure_sql_connection(connection_string: str, timeout: int):
    return pyodbc.connect(connection_string, timeout=timeout)

timeout = 60

table_name = f'{os.environ["RAW_DATA_SCHEMA"]}.{os.environ["RAW_DATA_TABLE"]}'

connection_string = 'DRIVER={driver};SERVER={server};DATABASE={database};UID={username};PWD={password};Connection Timeout={timeout};'.format(
    server = os.environ["AZURE_SQL_SERVER"],
    database = os.environ["AZURE_SQL_DATABASE"],
    driver = os.environ["AZURE_SQL_DRIVER"],
    username = os.environ["AZURE_SQL_USERNAME"],
    password = os.environ["AZURE_SQL_PASSWORD"],
    timeout = timeout,
)


try:
    conn = get_azure_sql_connection(connection_string, timeout)
except pyodbc.InterfaceError:
    logger.error(f"Invalid credentials.")
except Exception as err:
    traceback_str = traceback.format_exc()
    logger.error(traceback_str)
    logger.info(f"Exception: {err}")
    logger.info(f"Exception type: {type(err)}")

In [None]:
%%time

sql_query = f'SELECT * FROM {table_name}'
# sql_query = f"""
# SELECT TOP 100 *
# FROM {table_name}
# ORDER BY NEWID();
# """

# Executar a consulta SQL e ler os resultados em um DataFrame
df = pd.read_sql(sql_query, conn)

# Fechar a conexão com o banco de dados
conn.close()

df = df.sort_values("date", ascending=False)
df['content'] = df['content'].str.split('Receba as notícias através').str[0]

df.sample(3)

In [68]:
len(df)

12542

In [69]:
df.head(3)

Unnamed: 0,id,title,author,date,snippet,link,content,thumbnail_link,thumbnail_alt,categories
6446,81fffc5e-a6f3-507e-aa3b-ca5772fd8634,Homem fica ferido em acidente envolvendo moto ...,Matheus Luis,2023-08-08,Um homem de 36 anos ficou ferido em um acident...,https://ondapocos.com.br/homem-fica-ferido-em-...,Um homem de 36 anos ficou ferido em um acident...,https://i1.wp.com/ondapocos.com.br/wp-content/...,Homem fica ferido em acidente envolvendo moto ...,Destaques|Notícias|Policial
5925,77132142-b6e2-59fc-b862-f2d165103181,PM prende dois suspeitos por tráfico de drogas...,Matheus Luis,2023-08-08,"Dois homens, ambos com 36 anos, foram presos p...",https://ondapocos.com.br/pm-prende-dois-suspei...,"Dois homens, ambos com 36 anos, foram presos p...",https://i2.wp.com/ondapocos.com.br/wp-content/...,PM prende dois suspeitos por tráfico de drogas...,Destaques|Notícias|Policial
11823,f119b08e-e89e-5135-b657-728a45312bb4,Dois presos: delegado acredita que disputa por...,Matheus Luis,2023-08-08,"Dois investigados, de 29 e 36 anos, foram pres...",https://ondapocos.com.br/dois-presos-delegado-...,"Dois investigados, de 29 e 36 anos, foram pres...",https://i1.wp.com/ondapocos.com.br/wp-content/...,Dois presos: delegado acredita que disputa por...,Destaques|Notícias|Policial


In [70]:
df.tail(3)

Unnamed: 0,id,title,author,date,snippet,link,content,thumbnail_link,thumbnail_alt,categories
9231,bba76116-6f1a-57ff-ae82-4f21882a7277,Professor acusado de importunação sexual contr...,ondapocos,2019-10-22,"Um professor de educação física, de 64 anos, é...",https://ondapocos.com.br/professor-acusado-de-...,"Um professor de educação física, de 64 anos, é...",,,Notícias|Policial
8519,ac778214-39dd-52d1-9507-b4093e79002c,Incêndio mobiliza Corpo de Bombeiros em Poços,ondapocos,2019-10-22,"Na madrugada desta terça-feira (22), militares...",https://ondapocos.com.br/incendio-mobiliza-cor...,"Na madrugada desta terça-feira (22), militares...",https://i1.wp.com/ondapocos.com.br/wp-content/...,Incêndio mobiliza Corpo de Bombeiros em Poços,Notícias|Policial
2880,3ad715d6-e7d9-5399-9950-4edd0b1e1053,NA BR-459 | Acidente grave deixa um motorista ...,ondapocos,2019-10-21,"Na manhã desta segunda-feira, 21, um homem fic...",https://ondapocos.com.br/na-br-459-acidente-gr...,"Na manhã desta segunda-feira, 21, um homem fic...",,,Notícias|Policial


In [25]:
table_name

'pocos_news_bot.raw_news'

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12542 entries, 6446 to 2880
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   id              12542 non-null  object        
 1   title           12542 non-null  object        
 2   author          12542 non-null  object        
 3   date            12542 non-null  datetime64[ns]
 4   snippet         12542 non-null  object        
 5   link            12542 non-null  object        
 6   content         12542 non-null  object        
 7   thumbnail_link  12542 non-null  object        
 8   thumbnail_alt   12542 non-null  object        
 9   categories      12542 non-null  object        
dtypes: datetime64[ns](1), object(9)
memory usage: 1.1+ MB


In [20]:
%%time

from langchain.schema import Document

metadata = df.drop(columns=["content"]).assign(date=df['date'].astype(str)).to_dict(orient="records")
content = df['content'].to_list()
documents = [Document(page_content=c, metadata=m) for c, m in zip(content, metadata)]

CPU times: user 266 ms, sys: 0 ns, total: 266 ms
Wall time: 265 ms


In [21]:
from langchain.embeddings import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(model_name="clips/mfaq")



In [22]:
%%time

import chromadb
from chromadb.config import Settings
from langchain.vectorstores import Chroma


settings = Settings(allow_reset=True, anonymized_telemetry=True, persist_directory="chroma_db",)
chroma_client = chromadb.HttpClient(host="chroma-server", port = 8000, settings=settings)


# Delete old collections
for x in chroma_client.list_collections():
    try:
        chroma_client.delete_collection(x.name)
    except:
        pass


# chroma = Chroma.from_documents(
#     documents=documents,
#     embedding=embeddings,
#     ids=df["id"].to_list(),
#     collection_name='pocos-news-embedding',
#     client=chroma_client,
#     client_settings=settings,
#     persist_directory="chroma_db",
# )

# chroma.similarity_search(query)

CPU times: user 5.16 ms, sys: 4.02 ms, total: 9.18 ms
Wall time: 60.1 ms


In [23]:
%%time
from tqdm import tqdm

vdb = Chroma(
    collection_name='pocos-news-embedding',
    embedding_function=embeddings,
    persist_directory="chroma_db",
    client_settings=settings,
    client=chroma_client,
)

for id, doc in tqdm(zip(df["id"], documents), total=len(df)):
    vdb.add_documents(documents=[doc], ids=[id])

100%|██████████| 12542/12542 [40:47<00:00,  5.13it/s]

CPU times: user 4h 4min 39s, sys: 12.6 s, total: 4h 4min 51s
Wall time: 40min 47s





# Development

In [71]:
os.environ['TOKENIZERS_PARALLELISM'] = "false"

In [39]:
from urllib import parse
from sqlalchemy import create_engine

params = parse.quote_plus(connection_string)
engine = create_engine("mssql+pyodbc:///?odbc_connect=%s" % params)
# connection = engine.connect()
# result = connection.execute("select 1+1 as res")
# for row in result:
#     print("res:", row['res'])
# connection.close()

In [64]:
# !pip install sqlalchemy

from sqlalchemy import create_engine, Column, String, DateTime, text
from sqlalchemy.orm import declarative_base
from sqlalchemy.orm import sessionmaker
import pandas as pd

from urllib import parse
from sqlalchemy import create_engine

params = parse.quote_plus(connection_string)
engine = create_engine("mssql+pyodbc:///?odbc_connect=%s" % params, connect_args={'remote login timeout': 60})


# Criar a conexão com o banco de dados
engine = create_engine("mssql+pyodbc:///?odbc_connect=%s" % params, echo=False)

# Carregar os dados do DataFrame para o banco de dados
df = pd.read_sql("SELECT Top 10 * FROM pocos_news_bot.raw_news", engine)


OperationalError: (pyodbc.OperationalError) ('HYT00', '[HYT00] [Microsoft][ODBC Driver 18 for SQL Server]Login timeout expired (0) (SQLDriverConnect)')
(Background on this error at: https://sqlalche.me/e/20/e3q8)

In [63]:

# Definir a classe de modelo
Base = declarative_base()

class RawNews(Base):
    __tablename__ = 'raw_news'

    id = Column(String(length=54), primary_key=True)
    title = Column(String(length=242))
    author = Column(String(length=22))
    date = Column(DateTime)
    snippet = Column(String(length=450))
    link = Column(String(length=280))
    content = Column(String)
    thumbnail_link = Column(String(length=410))
    thumbnail_alt = Column(String(length=242))
    categories = Column(String(length=122))

# Criar a tabela no banco de dados
# Base.metadata.create_all(engine)

# Criar uma sessão para interagir com o banco de dados
Session = sessionmaker(bind=engine)
session = Session()

# # Inserir os dados no banco de dados
# df.to_sql('raw_news', con=engine, index=False, if_exists='replace', method='multi')

# Executar consultas
result = session.query(RawNews).filter(text("categories = 'sua_categoria'")).all()

# Exemplo de como iterar pelos resultados
for row in result:
    print(row.id, row.title, row.date)

# Fechar a sessão
session.close()



2023-12-20 17:24:07,258 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-12-20 17:24:07,259 INFO sqlalchemy.engine.Engine SELECT [INFORMATION_SCHEMA].[TABLES].[TABLE_NAME] 
FROM [INFORMATION_SCHEMA].[TABLES] 
WHERE ([INFORMATION_SCHEMA].[TABLES].[TABLE_TYPE] = CAST(? AS NVARCHAR(max)) OR [INFORMATION_SCHEMA].[TABLES].[TABLE_TYPE] = CAST(? AS NVARCHAR(max))) AND [INFORMATION_SCHEMA].[TABLES].[TABLE_NAME] = CAST(? AS NVARCHAR(max)) AND [INFORMATION_SCHEMA].[TABLES].[TABLE_SCHEMA] = CAST(? AS NVARCHAR(max))
2023-12-20 17:24:07,260 INFO sqlalchemy.engine.Engine [cached since 729.6s ago] ('BASE TABLE', 'VIEW', 'raw_news', 'dbo')
2023-12-20 17:24:07,763 INFO sqlalchemy.engine.Engine 
CREATE TABLE raw_news (
	id VARCHAR(54) NOT NULL, 
	title VARCHAR(242) NULL, 
	author VARCHAR(22) NULL, 
	date DATETIME NULL, 
	snippet VARCHAR(450) NULL, 
	link VARCHAR(280) NULL, 
	content VARCHAR(max) NULL, 
	thumbnail_link VARCHAR(410) NULL, 
	thumbnail_alt VARCHAR(242) NULL, 
	categories VARCHAR(122) NUL

In [60]:
try:
    conn = get_azure_sql_connection(connection_string, timeout)
except pyodbc.InterfaceError:
    logger.error(f"Invalid credentials.")
except Exception as err:
    traceback_str = traceback.format_exc()
    logger.error(traceback_str)
    logger.info(f"Exception: {err}")
    logger.info(f"Exception type: {type(err)}")



sql_query = f"""
select *
from INFORMATION_SCHEMA.COLUMNS
where TABLE_NAME='raw_news'
"""

# Executar a consulta SQL e ler os resultados em um DataFrame
meta = pd.read_sql(sql_query, conn)


conn.close()

  meta = pd.read_sql(sql_query, conn)


In [61]:
meta

Unnamed: 0,TABLE_CATALOG,TABLE_SCHEMA,TABLE_NAME,COLUMN_NAME,ORDINAL_POSITION,COLUMN_DEFAULT,IS_NULLABLE,DATA_TYPE,CHARACTER_MAXIMUM_LENGTH,CHARACTER_OCTET_LENGTH,...,DATETIME_PRECISION,CHARACTER_SET_CATALOG,CHARACTER_SET_SCHEMA,CHARACTER_SET_NAME,COLLATION_CATALOG,COLLATION_SCHEMA,COLLATION_NAME,DOMAIN_CATALOG,DOMAIN_SCHEMA,DOMAIN_NAME
0,db-pocos-news,pocos_news_bot,raw_news,id,1,,NO,varchar,54.0,54.0,...,,,,iso_1,,,SQL_Latin1_General_CP1_CI_AS,,,
1,db-pocos-news,pocos_news_bot,raw_news,title,2,,YES,varchar,242.0,242.0,...,,,,iso_1,,,SQL_Latin1_General_CP1_CI_AS,,,
2,db-pocos-news,pocos_news_bot,raw_news,author,3,,YES,varchar,22.0,22.0,...,,,,iso_1,,,SQL_Latin1_General_CP1_CI_AS,,,
3,db-pocos-news,pocos_news_bot,raw_news,date,4,,YES,datetime,,,...,3.0,,,,,,,,,
4,db-pocos-news,pocos_news_bot,raw_news,snippet,5,,YES,varchar,450.0,450.0,...,,,,iso_1,,,SQL_Latin1_General_CP1_CI_AS,,,
5,db-pocos-news,pocos_news_bot,raw_news,link,6,,YES,varchar,280.0,280.0,...,,,,iso_1,,,SQL_Latin1_General_CP1_CI_AS,,,
6,db-pocos-news,pocos_news_bot,raw_news,content,7,,YES,varchar,-1.0,-1.0,...,,,,iso_1,,,SQL_Latin1_General_CP1_CI_AS,,,
7,db-pocos-news,pocos_news_bot,raw_news,thumbnail_link,8,,YES,varchar,410.0,410.0,...,,,,iso_1,,,SQL_Latin1_General_CP1_CI_AS,,,
8,db-pocos-news,pocos_news_bot,raw_news,thumbnail_alt,9,,YES,varchar,242.0,242.0,...,,,,iso_1,,,SQL_Latin1_General_CP1_CI_AS,,,
9,db-pocos-news,pocos_news_bot,raw_news,categories,10,,YES,varchar,122.0,122.0,...,,,,iso_1,,,SQL_Latin1_General_CP1_CI_AS,,,


In [58]:
table_name

'pocos_news_bot.raw_news'

In [51]:
f"""
select *
from INFORMATION_SCHEMA.COLUMNS
where TABLE_NAME='{table_name}'

"""

"\nselect *\nfrom INFORMATION_SCHEMA.COLUMNS\nwhere TABLE_NAME='pocos_news_bot.raw_news'\n\n"

In [14]:
chroma_client.get_collection('pocos-news-embedding').count()

100

In [16]:
chroma_client.get_collection('pocos-news-embedding').count()

100

In [139]:
chroma.persist()

In [None]:
col = chroma_client.get_collection('pocos-news-embedding')

col.count()

In [100]:


docs = chroma.similarity_search(query)

docs

[Document(page_content='', metadata={'author': 'andrevince', 'categories': 'Destaques|Geral', 'date': '2022-02-05', 'id': 'b7851592-c73f-52cb-9b99-811a9cd30539', 'link': 'https://ondapocos.com.br/defesa-civil-alerta-para-chuvas-intensas-na-regiao-nos-proximos-dias/', 'snippet': 'A Defesa Civil Nacional emitiu um alerta para a possibilidade de fortes chuvas nos quatro estados da Região Sudeste nos próximos dias. Aviso meteorológico de...', 'thumbnail_alt': 'Defesa Civil alerta para chuvas intensas na região nos próximos dias', 'thumbnail_link': 'https://i1.wp.com/ondapocos.com.br/wp-content/uploads/2022/02/1644072965709_images-4.jpeg?resize=350%2C250&ssl=1', 'title': 'Defesa Civil alerta para chuvas intensas na região nos próximos dias'}),
 Document(page_content='A Associação Mineira de Rádio e Televisão (AMIRT) reelegeu como presidente, em chapa única, Luciano Pimenta. A solenidade foi realizada nesta segunda-feira,09, na sede da AMIRT, em Belo Horizonte, seguindo as medidas sanitárias

In [99]:
# load from disk
db3 = Chroma(persist_directory="./chroma_db", embedding_function=embeddings)

query = "presidente da televisão"
docs = db3.similarity_search(query)

docs

[]

In [2]:
%%time
# from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(model_name="clips/mfaq")
vector_store = FAISS.load_local("data/vectordatabase.db", embeddings)

  from .autonotebook import tqdm as notebook_tqdm
.gitattributes: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1.65k/1.65k [00:00<00:00, 7.51MB/s]
1_Pooling/config.json: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:00<00:00, 424kB/s]
README.md: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3.74k/3.74k [00:00<00:00, 8.21MB/s]
added_tokens.json: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 48.0/48.0 [00:00<00:00, 103kB/s]
config.json: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 778/778 [00:00<00:00, 1.63MB/s]
config_sentence_transformers.json: 100%|

CPU times: user 8.32 s, sys: 8.06 s, total: 16.4 s
Wall time: 2min 12s


In [85]:
from langchain_community.chat_models import ChatOpenAI
from langchain.chains import LLMChain
from langchain.memory import ConversationSummaryBufferMemory, ChatMessageHistory

model_name = "gpt-3.5-turbo-0613"

HUMAN_PREFIX = "HUMAN INPUT"
AI_PREFIX = "AI"

llm = ChatOpenAI(model_name=model_name, temperature=0.0)

memory = ConversationSummaryBufferMemory(
    llm=llm,
    chat_history=ChatMessageHistory(),
    memory_key="chat_history",
    input_key="human_input",
    max_token_limit=500,
    human_prefix=HUMAN_PREFIX,
    ai_prefix=AI_PREFIX,
)

In [105]:
import pandas as pd


import tiktoken

query = "Quais são as notícias mais recentes"



similarity = vector_store.similarity_search(query, filter={'author': 'Aline Rodrigues'}, fetch_k=100, k=3)

print(len(similarity))

prompt_text = (
    "Voce e um chatbot que deve responder sobre as noticias de Pocos de Caldas. "
    "Em CONTEXTO, voce vai receber uma base de dados com noticias entre 2020 e 2023. "
    "Responda ao HUMAN INPUT de maneira amigável e clara. Inclua o maior número de "
    "detalhes possiveis na sua resposta. "
    "Considere o CHAT HISTORY ao criar a sua resposta.\n\n"
    "CONTEXTO:\n"
    "{contexto}\n\n"
    "CHAT HISTORY:\n"
    "{chat_history}\n\n"
    f"""{HUMAN_PREFIX}:\n"""
    "{human_input}\n\n"
    f"""{AI_PREFIX}:"""
)


contexto = "\n\n".join([x.page_content for x in similarity])


encoder = tiktoken.encoding_for_model(model_name)

n_tokens = len(encoder.encode(contexto))

print(n_tokens)


3
2086


In [106]:
from langchain.prompts import PromptTemplate

prompt = PromptTemplate(input_variables=["contexto", "chat_history", "human_input"], template=prompt_text)
chain = LLMChain(prompt=prompt, llm=llm, memory=memory, verbose=True)

In [107]:
from langchain.callbacks import get_openai_callback

var = None

with get_openai_callback() as cb:
    response = chain.predict(contexto=contexto, human_input=query)
    print(cb)
    var = cb




[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mVoce e um chatbot que deve responder sobre as noticias de Pocos de Caldas. Em CONTEXTO, voce vai receber uma base de dados com noticias entre 2020 e 2023. Responda ao HUMAN INPUT de maneira amigável e clara. Inclua o maior número de detalhes possiveis na sua resposta. Considere o CHAT HISTORY ao criar a sua resposta.

CONTEXTO:
Pela primeira vez desde 2016, houve alteração significativa no ranking de dispositivos mais utilizados nos domicílios brasileiros para acessar a Internet. Em 2021, o telefone celular continuou na liderança, sendo o principal equipamento de acesso à internet em 99,5% dos domicílios. Na segunda posição, pela primeira vez, agora aparece a televisão, opção de acesso mais utilizada em 44,4% dos domicílios, alta de 12,1 pontos percentuais frente a 2019 (32,3%). Já o uso dos microcomputadores caiu de 45,2% para 42,2% e se encontra na terceira posição. Completa a lista o tablet, que recuou 

In [111]:
var.total_cost * 5

0.021435

In [83]:
memory

ConversationSummaryBufferMemory(llm=ChatOpenAI(client=<openai.resources.chat.completions.Completions object at 0x7fe9f0c2cf10>, async_client=<openai.resources.chat.completions.AsyncCompletions object at 0x7fe9f0bc1710>, model_name='gpt-3.5-turbo-0613', temperature=0.0, openai_api_key='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', openai_proxy=''), chat_memory=ChatMessageHistory(messages=[HumanMessage(content='Quais são as notícias mais recentes'), AIMessage(content='As notícias mais recentes são sobre o acesso à internet nos domicílios brasileiros. De acordo com dados divulgados pelo IBGE, em 2021, o telefone celular continuou sendo o principal equipamento de acesso à internet em 99,5% dos domicílios. Em segundo lugar, pela primeira vez, aparece a televisão, sendo a opção mais utilizada em 44,4% dos domicílios. O uso de microcomputadores caiu para a terceira posição, enquanto o tablet teve uma queda no período. Além disso, houve um aumento no percentual de domicílios com conexã

In [46]:


# prompt = PromptTemplate(
#     input_variables=["contexto", "chat_history", "human_input"],
# )


In [34]:
{"date": pd.to_d

prompt = Promatetime("2023-01-04")} == dict(date= pd.to_datetime("2023-01-04"))

True

In [20]:
doc = Out[19][0]

In [70]:
memory

ConversationSummaryBufferMemory(llm=ChatOpenAI(client=<openai.resources.chat.completions.Completions object at 0x7fe9f0c2cf10>, async_client=<openai.resources.chat.completions.AsyncCompletions object at 0x7fe9f0bc1710>, model_name='gpt-3.5-turbo-0613', temperature=0.0, openai_api_key='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', openai_proxy=''), chat_memory=ChatMessageHistory(messages=[HumanMessage(content='Quais são as notícias mais recentes'), AIMessage(content='As notícias mais recentes são sobre o acesso à internet nos domicílios brasileiros. De acordo com dados divulgados pelo IBGE, em 2021, o telefone celular continuou sendo o principal equipamento de acesso à internet em 99,5% dos domicílios. Em segundo lugar, pela primeira vez, aparece a televisão, sendo a opção mais utilizada em 44,4% dos domicílios. O uso de microcomputadores caiu para a terceira posição, enquanto o tablet teve uma queda no período. Além disso, houve um aumento no percentual de domicílios com conexã