<a href="https://colab.research.google.com/github/merovivant/AssistenteVestibular/blob/main/anexos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Transformando os Anexos em informações textuais
Como alguns anexos disponíveis no site foram disponibilizados em formato de tabela, foi necessário a transformação dessas informações em um formato que pudesse ser incluido no arquivo de texto a ser utilizado no RAG.

https://www.pg.unicamp.br/norma/31594/0

## Importações

In [56]:
# Importação de bibliotecas
import pandas as pd
from google.colab import drive
import numpy as np
drive.mount('/drive')

Drive already mounted at /drive; to attempt to forcibly remount, call drive.mount("/drive", force_remount=True).


## Relação de Livros

In [27]:
livros = pd.read_csv("/drive/MyDrive/Chatbot/livros.csv")
livros_string = ""

In [28]:
livros

Unnamed: 0,Gênero,Autor,Obra,Trechos / textos exigidos,Onde acessar
0,Poesia,Cartola,10 canções escolhidas,"“Alvorada”, “As rosas não falam”, “Cordas de a...",
1,Poesia,Olavo Bilac,Tarde,Obra completa,Obra de domínio público.
2,Conto,Lygia Fagundes Telles,Seminário dos ratos,Conto “Seminários dos ratos”,"São Paulo: Companhia das Letras, 2009."
3,Conto,Conceição Evaristo,Olhos d´água,Obra completa,Rio de Janeiro: Pallas: Fundação Biblioteca Na...
4,Romance,Lewis Carrol,Alice no país das maravilhas,Obra completa,"Selecionar qualquer tradução da obra, mas não ..."
5,Romance,Raul Pompéia,O Ateneu,Obra completa,Obra de domínio público.
6,Romance,Paulina Chiziane,Niketche – uma História de Poligamia,Obra completa,"São Paulo: Companhia das Letras, 2004."
7,Romance,Machado de Assis,Casa Velha,Obra completa,Obra de domínio público.
8,Carta/Relato de Viagem,Pero Vaz de Caminha,Carta de Achamento a el-rei D. Manuel,Obra completa,Obra de domínio público.


In [45]:
# Extraindo informações por gênero
generos = livros["Gênero"].unique()

livros_string = "#### Gêneros\nAs obras obrigatórias do vestibular abordam os gêneros: " + ", ".join(generos) + ". \n"

for genero in generos:
  obras = livros[livros["Gênero"] == genero].Obra
  if len(obras)==1:
    livros_string += f"A {obras.iloc[0]} é a única obra do gênero de {genero}. \n"
  else:
    livros_string += f"O gênero de {genero} possui as seguintes obras: " + ", ".join(obras) + ". \n"

In [46]:
livros.loc[0,'Onde acessar'] = " "
livros_string += "\n"

In [47]:
livros["string"] = "#### " + livros["Obra"]+"\n""Na obra " + livros["Obra"] + " do autor(a) " + livros["Autor"] + " deve(m) ser lido(s) o(s) trecho(s) " + livros["Trechos / textos exigidos"] + " disponível em " + livros["Onde acessar"] + "\n"

In [48]:
livros_string += "\n".join(livros.string.iloc[range(1,9)])

In [49]:
print(livros_string)

#### Gêneros
As obras obrigatórias do vestibular abordam os gêneros: Poesia, Conto, Romance, Carta/Relato de Viagem. 
O gênero de Poesia possui as seguintes obras: 10 canções escolhidas, Tarde. 
O gênero de Conto possui as seguintes obras: Seminário dos ratos, Olhos d´água. 
O gênero de Romance possui as seguintes obras: Alice no país das maravilhas, O Ateneu, Niketche – uma História de Poligamia, Casa Velha. 
A Carta de Achamento a el-rei D. Manuel é a única obra do gênero de Carta/Relato de Viagem. 

#### Tarde
Na obra Tarde do autor(a) Olavo Bilac deve(m) ser lido(s) o(s) trecho(s) Obra completa disponível em Obra de domínio público.

#### Seminário dos ratos
Na obra Seminário dos ratos do autor(a) Lygia Fagundes Telles deve(m) ser lido(s) o(s) trecho(s) Conto “Seminários dos ratos”  disponível em São Paulo: Companhia das Letras, 2009.

#### Olhos d´água
Na obra Olhos d´água do autor(a) Conceição Evaristo deve(m) ser lido(s) o(s) trecho(s) Obra completa disponível em Rio de Janeiro:

## Anexo 1

In [3]:
# Importando o arquivo csv da tabela referente ao anexo 1
dt_anexo1 = pd.read_csv("/drive/MyDrive/Chatbot/anexo1.csv", dtype=str)

In [5]:
dt_anexo1

Unnamed: 0,Cursos,Total Vagas Regulares,Total Vagas VU,Ampla Concorrência Mínimo,Ampla Concorrência Máximo,Reserva de Vagas para PP 15%,"Reserva de Vagas para PP 27,2%"
0,Administração (Noturno),180,143,94,116,27,49
1,Administração Pública (Noturno),60,47,31,38,9,16
2,Arquitetura e Urbanismo (Noturno),30,24,16,19,5,8
3,Artes Cênicas (Integral)**,25,25,16,19,6,9
4,Artes Visuais (Integral)**,30,30,19,22,8,11
...,...,...,...,...,...,...,...
78,Química Tecnológica (Noturno),40,28,17,22,6,11
79,Sistemas de Informação (Integral),50,33,19,25,8,14
80,Tecnologia em Análise e Desenvolvimento de Sis...,50,33,19,25,8,14
81,Tecnologia em Saneamento Ambiental (Noturno),70,49,30,38,11,19


In [22]:
# Transformando os dados da tabela em uma string
dt_anexo1["string"] = "## Vagas do curso " + dt_anexo1['Cursos'] + "\n"
dt_anexo1["string"] += "O curso de "+ dt_anexo1['Cursos'] + " possui um total de " + dt_anexo1["Total Vagas Regulares"] + " vagas regulares, das quais " + dt_anexo1["Total Vagas VU"] + " são oferecidas pelo vestibular da Unicamp. "
dt_anexo1["string"] += "O número de vagas para ampla concorrência pode variar entre " + dt_anexo1["Ampla Concorrência Mínimo"] + " e " + dt_anexo1['Ampla Concorrência Máximo'] + " vagas. "
dt_anexo1["string"] += "O número de vagas reservadas para candidatos(as) autodeclarados(as) pretos(as) e pardos(as) pode variar entre " + dt_anexo1["Reserva de Vagas para PP 15%"] + " e " + dt_anexo1["Reserva de Vagas para PP 27,2%"] + ".\n\n"


In [23]:
# Criando uma string diferente para cursos que não possuem reserva de vagas para pretos e pardos
sem_reserva = list(dt_anexo1[dt_anexo1["Reserva de Vagas para PP 15%"] == "0"].index)

for i in sem_reserva:
  dt_anexo1.loc[i, "string"] = "## Vagas do curso " + dt_anexo1.loc[i,'Cursos']+"\n" + "O curso de "+ dt_anexo1.loc[i,'Cursos'] + " possui um total de " + dt_anexo1.loc[i, "Total Vagas Regulares"] + " vagas regulares, das quais todas são oferecidas pelo vestibular da Unicamp na modalidade de ampla concorrência. Este curso não possui reservas para candidatos(as) autodeclarados(as) pretos(as) e pardos(as).\n"

In [24]:
dt_anexo1.loc[82, "string"] = "## Total de Vagas\n No total são oferecidas 3340 vagas regulares, das quais 2537 são oferecidas pelo vestibular da Unicamp. O número de vagas para ampla concorrência pode variar entre 1633 e 2021 vagas. O número de vagas reservadas para candidatos(as) autodeclarados(as) pretos(as) e pardos(as) pode variar entre 516 e 904."

In [25]:
print("\n".join(dt_anexo1.string))

## Vagas do curso Administração (Noturno)
O curso de Administração (Noturno) possui um total de 180 vagas regulares, das quais 143 são oferecidas pelo vestibular da Unicamp. O número de vagas para ampla concorrência pode variar entre 94 e 116 vagas. O número de vagas reservadas para candidatos(as) autodeclarados(as) pretos(as) e pardos(as) pode variar entre 27 e 49.


## Vagas do curso Administração Pública (Noturno)
O curso de Administração Pública (Noturno) possui um total de 60 vagas regulares, das quais 47 são oferecidas pelo vestibular da Unicamp. O número de vagas para ampla concorrência pode variar entre 31 e 38 vagas. O número de vagas reservadas para candidatos(as) autodeclarados(as) pretos(as) e pardos(as) pode variar entre 9 e 16.


## Vagas do curso Arquitetura e Urbanismo (Noturno)
O curso de Arquitetura e Urbanismo (Noturno) possui um total de 30 vagas regulares, das quais 24 são oferecidas pelo vestibular da Unicamp. O número de vagas para ampla concorrência pode variar 

## Anexo 3

In [69]:
# Importando o arquivo csv da tabela referente ao anexo 3
dt_anexo3 = pd.read_csv("/drive/MyDrive/Chatbot/anexo3.csv", dtype=str)

In [70]:
dt_anexo3

Unnamed: 0,Curso,Prioritarias,NMO,Peso3,Peso2,Peso1
0,Administração (Noturno) (B),LPL; MAT,400,LPL; MAT,HIS; GEO,INTER
1,Administração Pública (Noturno) (B),LPL; HIS,400,LPL; MAT; HIS; GEO,-,INTER
2,Arquitetura e Urbanismo (Noturno) (A),HE,500,HE; MAT,-,LPL; INTER; HIS; GEO
3,Artes Cênicas (Integral) (A),HE; LPL,500,HE; LPL,-,MAT; HIST; GEO; INTER
4,Artes Visuais (Integral) (A),HE; HIS,500,HE; LPL; HIS; GEO,INTER,MAT
...,...,...,...,...,...,...
60,Química (Integral),QUI,450,LPL; MAT; FIS; QUI,-,INTER
61,Química Tecnológica (Noturno),QUI,450,LPL; MAT; FIS; QUI,-,INTER
62,Sistemas de Informação (Integral) (G),LPL; MAT,400,-,LPL; MAT,INTER; FIS; QUI
63,Tecnologia em Análise e Desenvolvimento de Sis...,LPL; MAT,350,-,LPL; MAT,INTER; FIS; QUI


In [91]:
provas = {"LPL":"Língua Portuguesa e Literaturas de Língua Portuguesa",
          "MAT":"Matemática",
          "HIS":"História",
          "GEO":"Geografia",
          "FIS":"Física",
          "QUI":"Química",
          "BIO":"Biologia",
          "HE":"Habilidades Específicas",
          "INTER":"Interdisciplinar",
          "HIST":"História",
}

In [98]:
dt_anexo3["string"] = ""
for i in range(65):
  dt_anexo3.loc[i, "string"] = "## " + dt_anexo3.loc[i, "Curso"] + "\n"
  prioritarias = dt_anexo3.loc[i, "Prioritarias"].split("; ")
  prioritarias = [provas[prova] for prova in prioritarias]
  dt_anexo3.loc[i, "string"] += "O curso de "+ dt_anexo3.loc[i, "Curso"] + " tem como prioritária(s) a(s) seguinte(s) prova(s): " + ", ".join(prioritarias) + ", "
  if dt_anexo3.loc[i, "NMO"] == "-":
    dt_anexo3.loc[i, "string"] += "sem nota mínima."
  else:
    dt_anexo3.loc[i, "string"] += "com a nota mínima de " + dt_anexo3.loc[i, "NMO"] + ".\n"
  if dt_anexo3.loc[i, "Peso3"] != "-":
    peso3 = dt_anexo3.loc[i, "Peso3"].replace("\n","").split("; ")
    peso3 = [provas[prova] for prova in peso3]
    dt_anexo3.loc[i, "string"] += "A(s) provas de " + ", ".join(peso3) + " terão peso de valor igual a 3. "
  if dt_anexo3.loc[i, "Peso2"] != "-":
    peso2 = dt_anexo3.loc[i, "Peso2"].replace("\n","").split("; ")
    peso2 = [provas[prova] for prova in peso2]
    dt_anexo3.loc[i, "string"] += "A(s) provas de " + ", ".join(peso2) + " terão peso de valor igual a 2. "
  if dt_anexo3.loc[i, "Peso1"] != "-":
    peso1 = dt_anexo3.loc[i, "Peso1"].replace("\n","").split("; ")
    peso1 = [provas[prova] for prova in peso1]
    dt_anexo3.loc[i, "string"] += "A(s) provas de " + ", ".join(peso1) + " terão peso de valor igual a 1. "

In [99]:
print(dt_anexo3.loc[3, "string"])

## Artes Cênicas (Integral) (A)
O curso de Artes Cênicas (Integral) (A) tem como prioritária(s) a(s) seguinte(s) prova(s): Habilidades Específicas, Língua Portuguesa e Literaturas de Língua Portuguesa, com a nota mínima de 500.
A(s) provas de Habilidades Específicas, Língua Portuguesa e Literaturas de Língua Portuguesa terão peso de valor igual a 3. A(s) provas de Matemática, História, Geografia, Interdisciplinar terão peso de valor igual a 1. 


In [103]:
anexo3 = "\n\n".join(dt_anexo3["string"])