In [27]:
import pandas as pd
from zenml import step

@step
def soccer_data_loader() -> pd.DataFrame:
    # Nome real do arquivo no dataset "Brazilian Soccer Database"
    df = pd.read_csv("Brasileirao_matches.csv")
    
    # Padronização básica (ex: nomes de colunas para minúsculo)
    df.columns = [c.lower() for c in df.columns]
    return df

In [28]:
from zenml import step

@step
def create_sport_narratives(df: pd.DataFrame) -> list:
    documents = []
    for _, row in df.iterrows():
        # Criando um texto natural baseado nas suas colunas
        narrativa = (
            f"Na temporada de {row['season']}, pela {row['round']}ª rodada, "
            f"o {row['home_team']} ({row['home_team_state']}) enfrentou o "
            f"{row['away_team']} ({row['away_team_state']}). "
            f"O jogo terminou em {row['home_goal']} a {row['away_goal']} "
            f"para o {row['home_team']}. A partida ocorreu em {row['datetime']}."
        )
        documents.append(narrativa)
    return documents


In [None]:
from langchain_ollama import OllamaEmbeddings, OllamaLLM
from langchain_community.document_loaders.csv_loader import CSVLoader
from langchain_community.vectorstores import Chroma
from langchain_core.prompts import ChatPromptTemplate
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain.chains import create_retrieval_chain

# 1. Configuração do Modelo (Phi-3)
# O Ollama precisa estar rodando em 127.0.0.1:11434
llm = OllamaLLM(model="phi3:latest")
embeddings = OllamaEmbeddings(model="phi3:latest")

# 2. Carregamento dos dados CSV
# Verifique o delimitador! Se o seu CSV usa ';' em vez de ',', 
# adicione: csv_args={'delimiter': ';'}
loader = CSVLoader(file_path='Brasileirao_matches.csv', encoding='utf-8')
docs = loader.load()

# 3. Armazenamento Vetorial (ChromaDB)
# Criando o banco em memória para ser rápido, ou defina persist_directory
vectorstore = Chroma.from_documents(
    documents=docs, 
    embedding=embeddings, 
    persist_directory="./db_dados_csv" 
)
retriever = vectorstore.as_retriever()

# 4. Prompt para o Phi-3
template = """Você é um analista de dados. Use o contexto abaixo para responder:
Contexto: {context}
Pergunta: {input}
Resposta:"""

prompt = ChatPromptTemplate.from_template(template)

# 5. Montagem da Chain
combine_docs_chain = create_stuff_documents_chain(llm, prompt)
retrieval_chain = create_retrieval_chain(retriever, combine_docs_chain)

# 6. Teste de Pergunta
print("\n--- Consultando o CSV com Phi-3 ---")
pergunta = "Qual é o nome da coluna referente ao item Palmeiras?"
response = retrieval_chain.invoke({"input": pergunta})

print(f"\nResposta: {response['answer']}")

[37mAnonymized telemetry enabled. See                     [0m[34mhttps://docs.trychroma.com/telemetry[37m for more information.[0m
