In [1]:

from google.colab import drive
import os

def listar_documentos(pasta_id):
  """
  Abre uma pasta especificada no Google Drive e armazena os caminhos dos
  documentos presentes nessa pasta. Monta o Google Drive apenas se ainda não
  estiver montado.

  Args:
    pasta_id: O ID da pasta do Google Drive.

  Returns:
    Uma lista de caminhos para os documentos na pasta especificada.
  """
  # Verifica se o Google Drive já está montado
  if not os.path.exists('/content/drive'):
    drive.mount('/content/drive')

  caminho_pasta = f'/content/drive/My Drive/{pasta_id}'

  # Verifica se a pasta existe
  if not os.path.exists(caminho_pasta):
    raise ValueError(f"A pasta com ID '{pasta_id}' não foi encontrada.")

  # Lista todos os arquivos e diretórios dentro da pasta
  itens_pasta = os.listdir(caminho_pasta)

  # Filtra a lista para incluir apenas arquivos (não diretórios)
  caminhos_documentos = [
      os.path.join(caminho_pasta, item) for item in itens_pasta
      if os.path.isfile(os.path.join(caminho_pasta, item))
  ]

  return caminhos_documentos

# Substitua 'ID_DA_PASTA' pelo ID real da pasta no Google Drive
id_da_pasta = 'Alura-Cursos/Imersão Inteligência Artificial 2º Edição/Books - embrapa'

caminhos_documentos = listar_documentos(id_da_pasta)


In [2]:
caminhos_documentos = sorted(caminhos_documentos, key=lambda x: int(x.split("vol-")[1].split("red")[0]))
for caminho in caminhos_documentos:
  print(caminho)

/content/drive/My Drive/Alura-Cursos/Imersão Inteligência Artificial 2º Edição/Books - embrapa/Especies-Arboreas-Brasileiras-vol-1red.pdf
/content/drive/My Drive/Alura-Cursos/Imersão Inteligência Artificial 2º Edição/Books - embrapa/Especies-Arboreas-Brasileiras-vol-2red.pdf
/content/drive/My Drive/Alura-Cursos/Imersão Inteligência Artificial 2º Edição/Books - embrapa/Especies-Arboreas-Brasileiras-vol-3red.pdf
/content/drive/My Drive/Alura-Cursos/Imersão Inteligência Artificial 2º Edição/Books - embrapa/Especies-Arboreas-Brasileiras-vol-4red.pdf
/content/drive/My Drive/Alura-Cursos/Imersão Inteligência Artificial 2º Edição/Books - embrapa/Especies-Arboreas-Brasileiras-vol-5red.pdf


In [3]:
!pip install -q -U google-generativeai
!pip install -q -U pypdf

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/290.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.2/290.4 kB[0m [31m2.6 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m290.4/290.4 kB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[?25h

In [4]:
from pypdf import PdfReader
from pathlib import Path
import hashlib

def extract_pdf_pages(pathname: str, pagina_inicial: int, pagina_final: int) -> list[str]:
    """Extrai o texto de um PDF entre as páginas inicial e final.

    Args:
        pathname (str): Caminho para o arquivo PDF.
        pagina_inicial (int): Número da página inicial (inclusiva).
        pagina_final (int): Número da página final (inclusiva).

    Returns:
        list[str]: Lista de strings, onde cada string representa uma página do PDF.
    """

    parts = [f""]
    reader = PdfReader(pathname)

    # Verifica se as páginas inicial e final são válidas
    if pagina_inicial < 1 or pagina_final > len(reader.pages) or pagina_inicial > pagina_final:
        raise ValueError("Páginas inicial e/ou final inválidas.")

    pages = [page.extract_text() for page in reader.pages[pagina_inicial-1:pagina_final]] # Extrair texto entre as páginas

    for index, page in enumerate(pages):
        parts.append(f"--- PAGE {index + pagina_inicial} ---")
        parts.append(page)
    return parts

In [5]:
import pandas as pd
import unicodedata

sumario = pd.read_csv('/content/drive/MyDrive/Alura-Cursos/Imersão Inteligência Artificial 2º Edição/outputs/Sumario-completo-IA.csv')

sumario.columns = sumario.columns.str.replace(' ', '_')
sumario.columns = sumario.columns.str.lower()

# Aplica a normalização NFKD e remove caracteres não ASCII
sumario.columns = sumario.columns.map(lambda x: ''.join(c for c in unicodedata.normalize('NFKD', x) if not unicodedata.combining(c)))

sumario.head()

Unnamed: 0,nome_cientifico,pagina_inicial,pagina_final,volume,total_de_especies
0,Luehea divaricata,59,68,1,100
1,Holocalyx balansae,69,76,1,100
2,Pterogyne nitens,77,86,1,100
3,Piptadenia paniculata,87,92,1,100
4,Anadenanthera colubrina var. colubrina,93,100,1,100


In [6]:
text = extract_pdf_pages(caminhos_documentos[0], sumario['pagina_inicial'][0], sumario['pagina_final'][0])
text = ' '.join(text)
print(f'{text}')

 --- PAGE 59 --- Luehea divaricataAçoita-Cavalo --- PAGE 60 --- 58
Árvore (Teixeira Soares, PR)
Foto: Paulo Ernani R. Carvalho Casca externa (Tunas do Paraná, PR)
Foto: Paulo Ernani R. CarvalhoFlores
Foto: Vera L. Eifler
Frutos
Foto: Vera L. Eifler
Sementes
Foto: Carlos Eduardo F. Barbeiro --- PAGE 61 --- 59Luehea divaricataAçoita-Cavalo
Taxonomia e Nomenclatura
De acordo com o Sistema de Classificação de
Cronquist, a taxonomia de Luehea divaricata
obedece à seguinte hierarquia:
Divisão: Magnoliophyta (Angiospermae)
Classe:  Magnoliopsida (Dicotiledonae)
Ordem:  Malvales
Família:  Tiliaceae
Espécie:  Luehea divaricata Martius & Zucarini;
Nov. Gen. Sp. Pl. 1: 101, tab. 63, 1824.
Sinonímia botânica: Alegria divaricata (Martius)
Stuntz.; Brotera mediterranea Vell.; Thespesia
brasiliensis  Sprengel.
Nomes vulgares no Brasil:  açoita;
açoita-cavalo-do-miúdo, açoita-cavalos-branco,
ibitinga, ivantingui e vatinga, no Estado de SãoPaulo; açoita-cavalo-vermelho, no Rio Grande doSul; açoita-cava

In [7]:
sumario['conteudo'] = ''
j = 0
i = 0

while i != len(sumario):
  v = sumario['volume'][i]
  #print(f'j: {j} e i:{i} e v: {v}') teste de controle para a aplicação dos conteudos extraidos
  if j+1 != v:
    j += 1
    text = extract_pdf_pages(caminhos_documentos[j], sumario['pagina_inicial'][i], sumario['pagina_final'][i])
    sumario.loc[i, 'conteudo'] = ' '.join(text)
  else:
    text = extract_pdf_pages(caminhos_documentos[j], sumario['pagina_inicial'][i], sumario['pagina_final'][i])
    sumario.loc[i, 'conteudo'] = ' '.join(text)
  i += 1

sumario.head()

Unnamed: 0,nome_cientifico,pagina_inicial,pagina_final,volume,total_de_especies,conteudo
0,Luehea divaricata,59,68,1,100,--- PAGE 59 --- Luehea divaricataAçoita-Caval...
1,Holocalyx balansae,69,76,1,100,--- PAGE 69 --- Holocalyx balansaeAlecrim ---...
2,Pterogyne nitens,77,86,1,100,--- PAGE 77 --- Pterogyne nitensAmendoim --- ...
3,Piptadenia paniculata,87,92,1,100,--- PAGE 87 --- Piptadenia paniculataAngico -...
4,Anadenanthera colubrina var. colubrina,93,100,1,100,--- PAGE 93 --- 91Anadenanthera colubrina var...


In [8]:
sumario.head(1)

Unnamed: 0,nome_cientifico,pagina_inicial,pagina_final,volume,total_de_especies,conteudo
0,Luehea divaricata,59,68,1,100,--- PAGE 59 --- Luehea divaricataAçoita-Caval...


In [9]:
sumario.tail(1)

Unnamed: 0,nome_cientifico,pagina_inicial,pagina_final,volume,total_de_especies,conteudo
339,Ilex brevicuspis,557,561,5,60,--- PAGE 557 --- 557Taxonomia e Nomenclatura\...


In [91]:
import google.generativeai as genai

genai.configure(api_key="AIzaSyDbw2CICQOvK8Wwc7WicxnIu53VVwJmVNM")

# Set up the model
generation_config = {
  "temperature": 0.75,
  "top_p": 0.95,
  "top_k": 0,
  "max_output_tokens": 8192,
}

safety_settings = [
  {"category": "HARM_CATEGORY_HARASSMENT", "threshold": "BLOCK_NONE"},
  {"category": "HARM_CATEGORY_HATE_SPEECH", "threshold": "BLOCK_NONE"},
  {"category": "HARM_CATEGORY_SEXUALLY_EXPLICIT", "threshold": "BLOCK_NONE"},
  {"category": "HARM_CATEGORY_DANGEROUS_CONTENT", "threshold": "BLOCK_NONE"},
]

model = genai.GenerativeModel(model_name="gemini-1.5-pro-latest",
                              generation_config=generation_config,
                              safety_settings=safety_settings)

In [92]:
df = sumario.copy()
df['conteudo_IA'] = ' '

In [93]:
df.head(10)

Unnamed: 0,nome_cientifico,pagina_inicial,pagina_final,volume,total_de_especies,conteudo,conteudo_IA
0,Luehea divaricata,59,68,1,100,--- PAGE 59 --- Luehea divaricataAçoita-Caval...,
1,Holocalyx balansae,69,76,1,100,--- PAGE 69 --- Holocalyx balansaeAlecrim ---...,
2,Pterogyne nitens,77,86,1,100,--- PAGE 77 --- Pterogyne nitensAmendoim --- ...,
3,Piptadenia paniculata,87,92,1,100,--- PAGE 87 --- Piptadenia paniculataAngico -...,
4,Anadenanthera colubrina var. colubrina,93,100,1,100,--- PAGE 93 --- 91Anadenanthera colubrina var...,
5,Anadenanthera peregrina var. falcata,101,108,1,100,--- PAGE 101 --- Anadenanthera peregrina var....,
6,Parapiptadenia rigida,109,119,1,100,--- PAGE 109 --- Parapiptadenia rigidaAngico-...,
7,Anadenanthera colubrina var. cebil,119,128,1,100,--- PAGE 119 --- 117Anadenanthera colubrina v...,
8,Centrolobium microchaete,129,136,1,100,--- PAGE 129 --- Centrolobium microchaeteArar...,
9,Centrolobium robustum,137,144,1,100,--- PAGE 137 --- Centrolobium robustumAraribá...,


In [95]:
i = 1
mensagem = f'{df.conteudo[i]}, segudo este texto  traga as seguintes informação, sem formatar: Família,  Sinonímia botânica, Nomes vulgares, Forma biológica, Tronco, Ramificação, Casca, Folhas, Frutos, Flores, Sementes, Latitude de Ocorrência(Exemplo: "Lat : 7ºS Paraná"), Distribuição Geográfica no Brasil, Regiões fitoecológicas e Espécies Afins. Resuma minimamente as informações sem perder o sentido, porém não deixe estados brasileiros em siglas.'

  # Chamando o modelo e obtendo a resposta
response = model.generate_content(mensagem)
df.loc[i, 'conteudo_IA'] = response.text
df.head(i+1)

Unnamed: 0,nome_cientifico,pagina_inicial,pagina_final,volume,total_de_especies,conteudo,conteudo_IA
0,Luehea divaricata,59,68,1,100,--- PAGE 59 --- Luehea divaricataAçoita-Caval...,Família: Tiliaceae\nSinonímia botânica: Alegri...
1,Holocalyx balansae,69,76,1,100,--- PAGE 69 --- Holocalyx balansaeAlecrim ---...,Família: Caesalpiniaceae (Leguminosae Caesalpi...


In [99]:
df.head(10)

Unnamed: 0,nome_cientifico,pagina_inicial,pagina_final,volume,total_de_especies,conteudo
0,Luehea divaricata,59,68,1,100,--- PAGE 59 --- Luehea divaricataAçoita-Caval...
1,Holocalyx balansae,69,76,1,100,--- PAGE 69 --- Holocalyx balansaeAlecrim ---...
2,Pterogyne nitens,77,86,1,100,--- PAGE 77 --- Pterogyne nitensAmendoim --- ...
3,Piptadenia paniculata,87,92,1,100,--- PAGE 87 --- Piptadenia paniculataAngico -...
4,Anadenanthera colubrina var. colubrina,93,100,1,100,--- PAGE 93 --- 91Anadenanthera colubrina var...
5,Anadenanthera peregrina var. falcata,101,108,1,100,--- PAGE 101 --- Anadenanthera peregrina var....
6,Parapiptadenia rigida,109,119,1,100,--- PAGE 109 --- Parapiptadenia rigidaAngico-...
7,Anadenanthera colubrina var. cebil,119,128,1,100,--- PAGE 119 --- 117Anadenanthera colubrina v...
8,Centrolobium microchaete,129,136,1,100,--- PAGE 129 --- Centrolobium microchaeteArar...
9,Centrolobium robustum,137,144,1,100,--- PAGE 137 --- Centrolobium robustumAraribá...


In [97]:
import google.generativeai as genai
model = "models/embedding-001"
def embed_fn(title, text):
    return genai.embed_content(model = model,
                                 content = text,
                                 title = title,
                                 task_type = "RETRIEVAL_DOCUMENT")['embedding']

In [119]:
import numpy as np

def split_text(text, max_length=4000):
    # Divide o texto em partes que têm menos de max_length bytes
    words = text.split()
    parts = []
    current_part = words.pop(0)

    for word in words:
        if len((current_part + " " + word).encode('utf-8')) < max_length:
            current_part += " " + word
        else:
            parts.append(current_part)
            current_part = word
    parts.append(current_part)  # Adiciona a última parte
    return parts

def embed_text(df_row):
    text_parts = split_text(df_row['conteudo'])
    embeddings = [embed_fn(df_row['nome_cientifico'], part) for part in text_parts]
    # Agora você precisa decidir como combinar esses embeddings
    combined_embedding = np.max(embeddings, axis=0)
    return combined_embedding

df['Embeddings'] = df.apply(embed_text, axis=1)

In [120]:
def gerar_e_buscar_consulta(consulta, base, model):
  embedding_da_consulta = genai.embed_content(model = model,
                                 content = consulta,
                                 task_type = "RETRIEVAL_QUERY")
  produtos_escalares = np.dot(np.stack(df['Embeddings']), embedding_da_consulta['embedding'])
  indice = np.argmax(produtos_escalares)
  return df.iloc[indice]['nome_cientifico']

In [128]:
consulta ="Latitude: 9º 15’ S em Alagoas a 31º30' S no Rio Grande do Sul.Nomes vulgares no Brasil: açoita; açoita-cavalo-do-miúdo, açoita-cavalos-branco, ibitinga, ivantingui e vatinga, no Estado de São Paulo; açoita-cavalo-vermelho, no Rio Grande do Sul; açoita-cavalos, em Santa Catarina e no Estado de São Paulo; açoite-cavalo, no Paraná, nos Estados do Rio de Janeiro e de São Paulo; biatingui; caoveti; envireira-do-campo; estribeiro;Tronco: tortuoso, nodoso, com reentrâncias, base alargada com sapopemas. Fuste geralmente curto; com até 10 m de comprimento. Ramificação: irregular, simpódica. Copa larga e densa, com folhagem característica. Casca: com espessura de até 25 mm. A casca externa é pardo-acinzentada-escura, áspera, levemente fissurada, com escamas retangulares e pequenas. A casca interna é avermelhada, fibrosa, e com estrias esbranquiçadas. Folhas: simples, alternas, dísticas, com estípulas, irregularmente serreadas, com três nervuras longitudinais típicas, discolores, ásperas na face ventral e tomentosas na face dorsal, com lâmina foliar de 4,5 a 15 cm de comprimento e 2 a 6,5 cm de largura; pecíolo ferruginoso, com até 1 cm de comprimento."
response = gerar_e_buscar_consulta(consulta, df, model)
print(response)

Luehea divaricata
