# üöÇ Sistema Ollama + FastAPI
## Modelos de IA para An√°lise de Transporte Ferrovi√°rio

Este notebook permite usar modelos de linguagem local para an√°lises de transporte:
- **TinyLLama**: Modelo r√°pido e leve (1.1B par√¢metros)
- **Qwen2:1.5b**: Modelo mais preciso (1.5B par√¢metros) - pode ser lento em CPU
- **Qwen3:1.7b**: Modelo mais preciso (1.5B par√¢metros) - pode ser lento em CPU

### ‚ö†Ô∏è Notas importantes:
- **IMPORTANTE**: Certifique-se de que o Docker esteja rodando: `docker compose up -d`
- Os modelos podem demorar 30-700s para responder
- Se der timeout, tente novamente ou use o TinyLLama
- Primeiro download dos modelos pode demorar v√°rios minutos

In [None]:
# 1. CONFIGURA√á√ÉO INICIAL
from chat_client import ChatClient
import time

# Configurar cliente
client = ChatClient(base_url="http://localhost:8000")

print("‚úÖ Cliente configurado")
print("‚úÖ URL da API:", client.base_url)

# Verificar status da API
try:
    health = client.health_check()
    print("‚úÖ API funcionando:", health)
except:
    print("‚ùå API n√£o est√° respondendo. Execute: docker compose up -d dentro de service")

# ESCOLHA OS MEDELOS PARA BAIXAR E FAZER TESTES

In [None]:
modelos_a_baixar = ["tinyllama:latest", "tinydolphin:latest", "qwen2:1.5b","qwen3:1.7b"]

In [None]:
# 2. VERIFICAR MODELOS DISPON√çVEIS
print("Verificando modelos dispon√≠veis...")

# Listar modelos j√° instalados
modelos_disponiveis = client.listar_modelos()
print(f"Modelos instalados: {modelos_disponiveis}")

# Verificar se temos os modelos necess√°rios
for modelo in modelos_a_baixar:
    if modelo in modelos_disponiveis:
        print(f"‚úì {modelo}: dispon√≠vel")
    else:
        print(f"‚úó {modelo}: n√£o encontrado, baixando")
        client.baixar_modelo(modelo)

print("\nPronto para usar os modelos dispon√≠veis!")

# TESTE SEU PROMPT

In [None]:
# aqui vai o texto com dados para extra√ß√£o
contexto = """
D.2 Trens Regionais
Plano Estrat√©gico Ferrovi√°rio de Minas Gerais
Perfil da Proposta da Ferrovia para Transporte de Passageiros
Proposta: Araguari/ Campos Altos C√≥digo: RP 12-33
Categoria: Proposta Regional Vers√£o: 00
Tipo de empreendimento:
Greenfield
Brownfield (via compartilhada com
opera√ß√£o da carga)
Caracter√≠sticas f√≠sicas:
Extens√£o (km): 503 Tipo bitola: M√©trica
Total de esta√ß√µes: 8
Munic√≠pios atendidos (extens√£o acumulado em km):
Araguari 0,00
Uberl√¢ndia 46,7
Uberaba 175,34
Nova Ponte 247,11
Santa Juliana 269,67
Arax√° 350,26
Ibi√° 437,13
Campos Altos 503,00
Caracter√≠sticas operacionais:
Tempo de viagem ida (min): 551 Tempo de viagem ida & volta (min): 1.102
Viagens (m√™s): 27 Dias de opera√ß√£o (ano): 326
Demanda (ano): 470.930 Produ√ß√£o quilom√©trica (km/ano): 164.307
Tarifa do servi√ßo:
Classe Econ√¥mica Classe Executiva
6,98 Tarifa fixa (R$) 18,72 Tarifa fixa (R$)
0,1447 Tarifa quilom√©trica (R$) 0,2685 Tarifa quilom√©trica (R$)
Desempenho da linha:
Receita anual (R$): 15.155.658
Pass,ano/km: 2,87 Receita,ano/km: 92,24
207 

 Plano Estrat√©gico Ferrovi√°rio de Minas Gerais
Perfil da Proposta da Ferrovia para Transporte de Passageiros
Caracter√≠sticas da frota:
Total de composi√ß√µes: 1
Comprimento da composi√ß√£o (m): 163
Tipo carros Quantidade/composi√ß√£o Especifica√ß√£o
Locomotiva 1 Diesel
Carro de passageiros 4
Carros auxiliares 2
Capacidade (PAX/viagem): 285
Mapa de situa√ß√£o
208 PEF ‚Äì Plano Estrat√©gico Ferrovi√°rio de Minas Gerais | ANEXOS"   


""" 

In [None]:
# 5. SUA CONSULTA PERSONALIZADA
# Modifique a pergunta abaixo e execute para suas proprias analises

# Escolha o modelo (tinyllama:latest √© mais rapido e confiavel)
modelo = "tinyllama:latest"
modelo = "tinydolphin:latest"
# modelo = "qwen2:1.5b"
# modelo = "deepcoder:1.5b"
# modelo = "exaone-deep:2.4b"
# modelo = "qwen3:1.7b"

# Sua pergunta personalizada - MODIFIQUE AQUI:
# os dados sempres estar√£o assim:  <key>: <value>

print(f"Modelo selecionado: {modelo}")
print("\nProcessando...")

# Adicionar contexto para melhorar resposta
prompt      = """
voc√™ foi designado a responder o formulario <json> com base nos dados no <contexto>,
ent√£o responda com precis√£o, e para ajuda leia as <regras> abaixo:

# Regras:
<regras>
1. Responda com precis√£o e clareza.
2. Use os nomes exatos dos empreendimentos e esta√ß√µes conforme aparecem no texto.
3. Geralmente o dado esta logo depois dos dois pontos (:).
4. Atente-se a casos com mais de uma resposta poss√≠vel, como em "Tipo de empreendimento" e "Esta√ß√µes atendidas".
5. A key do <json> est√° exatamente conforme o formulario, isso facilita a sua busca nos dados em <contexto>
6. Se n√£o encontrar um dado, deixe o campo vazio ou com valor nulo.
7. Leia os comentarios ## com aten√ß√£o, eles ajudam a entender o que deve ser preenchido.
8. Leia a mudan√ßa de topico com #, dentro do contexto tamb√©m e dividido por t√≥picos.
9. Ao responder remova os comentarios ## e os divisores de t√≥picos #
</regras>

# Formulario JSON:
<json>
{{
    "Proposta": value1, ## NOME DA PROPOSTA QUE E DIFERENTE DO "C√≥digo"
    "C√≥digo": value2, ## C√ìDIGO DA PROPOSTA QUE E DIFERENTE DA "Proposta"
    "Categoria": value3,
    "Tipo de empreendimento": ["empreendimento1", "empreendimento2", "empreendimento3" ...], ## RESPONDA COM OS NOMES DOS EMPREENDIMENTOS

    # Dados operacionais: 
    "Extens√£o (km)": value5,
    "Tipo bitola": value6,
    "Total de esta√ß√µes": value7,
    "Esta√ß√µes atendidas": ["esta√ß√£o1", "esta√ß√£o2", "esta√ß√£o3" ...], ## RESPONDA COM OS NOMES DE ESTA√á√ïES

    # Demanda e receita:
    "Tempo de viagem ida (min)": value9,
    "Tempo de viagem ida & volta (min)": value10,
    "Viagens (m√™s)": value11,
    "Dias de opera√ß√£o (m√™s)": value12,
    "Demanda (m√™s)": value13,
    "Produ√ß√£o quilom√©trica (km/m√™s)": value14,
    "Tarifa do servi√ßo": value15,

    # Desempenho da linha:
    "Receita anual (R$)": value16,
    "Pass.ano/km": value17,
    "Receita.ano/km": value18,
    
    # Caracter√≠sticas da frota:
    "Frota Total (operacional + reserva)": value19,
    "Total de carros de passageiros/trem": value20,
    "Tipo carros": ["carro_tipo1", "carro_tipo2", "carro_tipo3" ...], ## RESPONDA COM NOME DOS TIPOS DE CARROS
    "Quantidade/composi√ß√£o": [value21, value22, value23], ## RESPONDA COM OS N√öMERO PARA CADA TIPO CARRO
    "Especifica√ß√£o": ["especifica√ß√£o1", "especifica√ß√£o2", "especifica√ß√£o3" ...], ## RESPONDA COM AS ESPECIFICA√á√ïES DOS TIPOS DE CARROS LISTADOS
    "Capacidade (PAX/viagem): value21
}}
</json>

# Fonte de dados:
<contexto> 
{}
</contexto> 

<tarefa>
extraia os dados da fonde de dados com a tag <contexto> e preencha o formulario com tag <json> nos campos value1, value2, etc.
</tarefa>

<resposta>
retorne o formulario <json> preenchido em formato json conforme em <json>, ao falar dele abra com <json> e ao terminar de falar dele feche com a tag </json>.
</resposta>
"""

try:
    inicio = time.time()
    resposta = client.chat(prompt, modelo=modelo, stream=False, timeout=6000)
    tempo = time.time() - inicio

    print(f"\nTempo: {tempo:.1f}s")
    print(f"\nResposta Especializada:")
    print("=" * 60)
    if 'resposta' in resposta:
        print(resposta['resposta'])
    elif 'erro' in resposta:
        print(f"Erro: {resposta['erro']}")
    else:
        print(str(resposta))
    print("=" * 60)
    
    print("\nPara fazer outra pergunta:")
    print("1. Modifique a variavel 'sua_pergunta' acima")
    print("2. Execute esta celula novamente")
except Exception as e:
    print(f"Erro: {str(e)}")
    print("Verifique se o Docker est√° rodando: docker compose up -d")

# EXTRAINDO DADOS DO PDF E PREENCHENDO NO JSON COM LLM

In [None]:
from pdf_processor import PDFReader
import json

# Adicionar contexto para melhorar resposta
prompt      = """
voc√™ foi designado a responder o formulario <json> com base nos dados no <contexto>,
ent√£o responda com precis√£o, e para ajuda leia as <regras> abaixo:

# Regras:
<regras>
1. Responda com precis√£o e clareza.
2. Use os nomes exatos dos empreendimentos e esta√ß√µes conforme aparecem no texto.
3. Geralmente o dado esta logo depois dos dois pontos (:).
4. Atente-se a casos com mais de uma resposta poss√≠vel, como em "Tipo de empreendimento" e "Esta√ß√µes atendidas".
5. A key do <json> est√° exatamente conforme o formulario, isso facilita a sua busca nos dados em <contexto>
6. Se n√£o encontrar um dado, deixe o campo vazio ou com valor nulo.
7. Leia os comentarios ## com aten√ß√£o, eles ajudam a entender o que deve ser preenchido.
8. Leia a mudan√ßa de topico com #, dentro do contexto tamb√©m e dividido por t√≥picos.
9. Ao responder remova os comentarios ## e os divisores de t√≥picos #
</regras>

# Formulario JSON:
<json>
{{
    "Proposta": value1, ## NOME DA PROPOSTA QUE E DIFERENTE DO "C√≥digo"
    "C√≥digo": value2, ## C√ìDIGO DA PROPOSTA QUE E DIFERENTE DA "Proposta"
    "Categoria": value3,
    "Tipo de empreendimento": ["empreendimento1", "empreendimento2", "empreendimento3" ...], ## RESPONDA COM OS NOMES DOS EMPREENDIMENTOS

    # Dados operacionais: 
    "Extens√£o (km)": value5,
    "Tipo bitola": value6,
    "Total de esta√ß√µes": value7,
    "Esta√ß√µes atendidas": ["esta√ß√£o1", "esta√ß√£o2", "esta√ß√£o3" ...], ## RESPONDA COM OS NOMES DE ESTA√á√ïES

    # Demanda e receita:
    "Tempo de viagem ida (min)": value9,
    "Tempo de viagem ida & volta (min)": value10,
    "Viagens (m√™s)": value11,
    "Dias de opera√ß√£o (m√™s)": value12,
    "Demanda (m√™s)": value13,
    "Produ√ß√£o quilom√©trica (km/m√™s)": value14,
    "Tarifa do servi√ßo": value15,

    # Desempenho da linha:
    "Receita anual (R$)": value16,
    "Pass.ano/km": value17,
    "Receita.ano/km": value18,
    
    # Caracter√≠sticas da frota:
    "Frota Total (operacional + reserva)": value19,
    "Total de carros de passageiros/trem": value20,
    "Tipo carros": ["carro_tipo1", "carro_tipo2", "carro_tipo3" ...], ## RESPONDA COM NOME DOS TIPOS DE CARROS
    "Quantidade/composi√ß√£o": [value21, value22, value23], ## RESPONDA COM OS N√öMERO PARA CADA TIPO CARRO
    "Especifica√ß√£o": ["especifica√ß√£o1", "especifica√ß√£o2", "especifica√ß√£o3" ...], ## RESPONDA COM AS ESPECIFICA√á√ïES DOS TIPOS DE CARROS LISTADOS
    "Capacidade (PAX/viagem): value21
}}
</json>

# Fonte de dados:
<contexto> 
{}
</contexto> 

<tarefa>
extraia os dados da fonde de dados com a tag <contexto> e preencha o formulario com tag <json> nos campos value1, value2, etc.
</tarefa>

<resposta>
retorne o formulario <json> preenchido, ao falar dele abra com <json> e ao terminar de falar dele feche com a tag </json>.
</resposta>
"""

modelo      = "qwen3:1.7b"

path_pdf    = "data\\external\\Relatorio_PEF_Minas_2021_ANEXOS.pdf"
PDFTool     = PDFReader(path_pdf, verbose=False)

results     = {}
for page in range(207+2, 244+2, 2):
    if page not in results:
        results[page]   = {}
    text_start_page     = PDFTool.extract_text_from_page(page)
    text_next_page      = PDFTool.extract_text_from_page(page+1)
    if text_start_page and text_next_page:
        text_start_page = text_start_page[0]
        text_next_page  = text_next_page[0]
        if "text" in text_start_page and "text" in text_next_page:
            results[page]["text"] = text_start_page["text"] + " \n\n " + text_next_page["text"]
            resposta    = client.chat(prompt.format(results[page]["text"]), modelo=modelo, stream=False, timeout=6000)
            results[page]["parsed_llm"] = resposta["resposta"]
            with open("data\\interim\\PARSED_LLM.json", "w", encoding="utf-8") as file:
                json.dump(results, file, ensure_ascii=False)

# TRANSFORMANDO O JSON EM EXCEL

In [None]:
import pandas as pd
import json
lines       = []
pages_error = {}
with open("data\\interim\\PARSED_LLM.json", "r", encoding="utf-8") as file:
    data = json.load(file)
    for page in data.keys():
        if "<json>" in data[page]["parsed_llm"]:
            tags = ("<json>", "</json>")
        else:# "```json" in data[page]["parsed_llm"]:
            tags = ("```json", "```")
        try:
            text_parsed = "{"+ data[page]["parsed_llm"].split(tags[0])[1].split(tags[1])[0].strip().split("{")[1].split("}")[0] + "}"
            lines.append(json.loads(text_parsed))
        except (IndexError, json.JSONDecodeError):
            pages_error[page] = {"parsed_llm": data[page]["parsed_llm"]}
            print(f"Error parsing page {page}")
pd.DataFrame(lines).to_csv("Extract_Data_PEF.csv", sep=";", index=False, encoding="ansi")