In [1]:
from get_dataset import dataset
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import scipy.spatial.distance as ssd
import scipy.cluster.hierarchy as sch
import re
from nltk import word_tokenize
from nltk.corpus import stopwords

In [2]:
dataset_df = pd.DataFrame(dataset())
dataset_df.columns = ['texto', 'nivel']
dataset_df.head()

Unnamed: 0,texto,nivel
0,Matemática elementar/Estatística\nA Estatísti...,3_Ensino_Medio
1,É a variação da velocidade ao longo do eixo Z...,4_Ensino_Superior
2,"No nosso foguete de balão, estamos aplicando ...",1_Ensino_Fundamental_I
3,Logística/Serviço ao cliente/Método dos dois p...,4_Ensino_Superior
4,Introdução à Química/Propriedades da matéria\n...,3_Ensino_Medio


In [3]:
def limpar_texto(texto):
    stop_words = stopwords.words('portuguese')
    texto = re.sub(r'([^\w\s]|_)+', ' ', texto.lower())
    tokens = [token for token in word_tokenize(texto) if token not in stop_words]
    return ' '.join(tokens)

In [4]:
dataset_df['texto_limpo'] = dataset_df['texto'].apply(lambda x: limpar_texto(str(x)))
dataset_df['texto_limpo'].head()

0    matemática elementar estatística estatística r...
1    variação velocidade longo eixo z relacionada v...
2    foguete balão aplicando impulso ar dentro bexi...
3    logística serviço cliente método dois pontos m...
4    introdução química propriedades matéria propri...
Name: texto_limpo, dtype: object

In [5]:
tfidf_model = TfidfVectorizer()
tfidf_matrix = tfidf_model.fit_transform(dataset_df['texto_limpo']).todense()
tfidf_matrix

matrix([[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]])

In [6]:
sorted(tfidf_model.vocabulary_)

['00',
 '000',
 '0000',
 '000000',
 '0000000000',
 '000000000000000000000000',
 '0001',
 '00017',
 '00042',
 '001',
 '0010',
 '0012',
 '00129',
 '0015',
 '002',
 '0025',
 '003',
 '005',
 '0059',
 '006',
 '007',
 '0086',
 '01',
 '010',
 '0100',
 '0101',
 '011',
 '011011',
 '018',
 '02',
 '022',
 '023',
 '024',
 '025',
 '026',
 '03',
 '031',
 '04',
 '04c',
 '05',
 '050',
 '06',
 '0625',
 '064',
 '069',
 '07',
 '072',
 '07821821821',
 '08',
 '080',
 '082',
 '08206',
 '08402',
 '08787',
 '089',
 '08h00',
 '09',
 '095',
 '097',
 '0g',
 '0k',
 '0s',
 '0t',
 '0º',
 '0ºc',
 '10',
 '100',
 '1000',
 '10000',
 '100000',
 '1000000',
 '1000011',
 '1000h',
 '1001',
 '10010011',
 '10029',
 '1007',
 '100gr',
 '100k',
 '100ºc',
 '101',
 '1010',
 '1010111100',
 '1010111100bin',
 '1011',
 '1016',
 '102',
 '1023',
 '1025',
 '1029',
 '103',
 '1037',
 '103ºc',
 '104',
 '1040',
 '1045',
 '1046',
 '105',
 '1056',
 '1057',
 '1057oct',
 '1058',
 '106',
 '107',
 '1075',
 '1076',
 '108',
 '1089',
 '109',
 '1091',

In [7]:
distances = ssd.pdist(tfidf_matrix)
distances

array([1.38185405, 1.40893046, 1.38674353, ..., 1.38511981, 1.39873058,
       1.38111613])

In [8]:
linkage_matrix = sch.linkage(distances, method='single')
linkage_matrix

array([[1.23000000e+03, 1.67100000e+03, 4.88052937e-02, 2.00000000e+00],
       [4.80000000e+01, 1.45200000e+03, 3.02487175e-01, 2.00000000e+00],
       [1.77400000e+03, 1.99300000e+03, 3.27602344e-01, 2.00000000e+00],
       ...,
       [1.89800000e+03, 4.11500000e+03, 1.36219712e+00, 2.05800000e+03],
       [4.10000000e+01, 4.11600000e+03, 1.36426611e+00, 2.05900000e+03],
       [1.44000000e+03, 4.11700000e+03, 1.38372826e+00, 2.06000000e+03]])

In [22]:
print(dataset_df.iloc[48]['texto'])

 Tanto o registro mais formal quanto o registro mais informal atendem a necessidades de comunicação, relacionadas à situação, ao meio em que é utilizado, ao grupo social que o utiliza, etc. O domínio da gramática normativa não é suficiente para que um usuário da língua tenha o que se chama de competência comunicativa. Isso significa que o usuário, além de conhecer a língua, precisa desenvolver a capacidade de fazer adequações às diversas situações em que tiver de utilizá-la. Aperfeiçoar essa competência implica: refletir sobre qual é a intenção ao produzir uma mensagem: falada ou escrita; analisar para quem se destina a mensagem; refletir sobre a situação em que a comunicação é feita: formal, informal, profissional, mais íntima, mais impessoal, pública, privada, etc; conhecer o meio que será utilizado para veicular a mensagem: oral, escrito, visual, sonoro, gestual; analisar as características do veículo de comunicação, caso venha a utilizá-lo (mural, revista, folheto, jornal, rádio, T

In [23]:
dataset_df.iloc[1452]['texto']

' O domínio da gramática normativa não é suficiente para que um usuário da língua tenha o que se chama de competência comunicativa. Isso significa que o usuário, além de conhecer a língua, precisa desenvolver a capacidade de fazer adequações às diversas situações em que tiver de utilizá-la. Aperfeiçoar essa competência implica: refletir sobre qual é a intenção ao produzir uma mensagem: falada ou escrita;  analisar para quem se destina a mensagem; refletir sobre a situação em que a comunicação é feita: formal, informal, profissional, mais íntima, mais impessoal, pública, privada, etc; conhecer o meio que será utilizado para veicular a mensagem: oral, escrito, visual, sonoro, gestual; • analisar as características do veículo de comunicação, caso venha a utilizá-lo (mural, revista, folheto, jornal, rádio, TV, outdoor, cartaz...). Esses aspectos levam constantemente o usuário da língua a fazer escolhas de linguagem para realizar as adequações necessárias a cada circunstância. No dia a dia,

In [11]:
ssd.euclidean(tfidf_matrix[668], tfidf_matrix[816])

1.411635139614405

In [29]:
def find_closest(point, id, linkage_matrix, tfidf_matrix):
    cluster = linkage_matrix[int(id)]
    values = []
    for i in range(2):
        if cluster[i] >= 2060:
            new_id = cluster[i] - 2060
            values.append(find_closest(point, new_id, linkage_matrix, tfidf_matrix))
        else:
            values.append(int(cluster[i]))
    distances = [ssd.euclidean(tfidf_matrix[point], tfidf_matrix[value]) for value in values]
    return int(values[distances.index(min(distances))])

In [30]:
def get_similar_text(text_id, linkage_matrix, tfidf_matrix):
    cluster = 0
    for c in linkage_matrix:
        if c[0] == text_id or c[1] == text_id:
            cluster = c
            i = 1 if c[0] == text_id else 0
            break
    if cluster[3] == 2:
        return int(cluster[i])
    id = int(cluster[i]) - 2060
    closest = find_closest(text_id, int(id), linkage_matrix, tfidf_matrix)
    return closest

In [14]:
get_similar_text(668, linkage_matrix, tfidf_matrix)

1480

In [15]:
print(dataset_df.iloc[1819]['texto'])

 Logística/Técnicas de previsão/Medidas de precisão da previsão
No estudo das técnicas de previsão as medidas de precisão são uma aplicação de extrema importância. Os valores futuros das variáveis tornam-se bastante difíceis de prever dada a complexidade da grande maioria dessas variáveis na vida real. Assim, é fundamental incluir informação acerca da medida em que a previsão pode desviar-se do valor real da variável. Este conhecimento adicional fornece uma melhor percepção sobre o quão precisa pode ser a previsão (Stevenson, 1996, p. 496). Por forma a fazer a escolha mais acertada de entre as técnicas disponíveis e devido ao facto de algumas técnicas oferecerem uma maior precisão do que outras, consoante a situação, o responsável pela decisão necessita de uma medida de precisão para usar como base de comparação ao escolher uma dessas técnicas. Note-se, que enquanto algumas aplicações de previsões envolvem uma série de previsões (por exemplo, as receitas mensais de uma empresa), outras

In [16]:
print(dataset_df.iloc[1962]['texto'])

 Na região de Candiota, é fácil tirar o carvão da terra, porque não fica muito fundo. Para se transformar em energia, o mineral é queimado numa espécie de forno, chamado de caldeira, por onde passa muita água. Com o calor, a água vira vapor e faz girar um equipamento parecido com o que existe nos aviões, chamado de turbina. Quando essa máquina se movimenta, produz energia elétrica. Em Santa Catarina existem muitas fábricas que produzem materiais como roupas, máquinas, comidas e bebidas que são vendidas nas lojas. Neste ano, a quantidade de produtos que estas fábricas fizeram é maior que a quantidade fabricada no ano passado. Isso fez com que estas empresas conseguissem ganhar mais dinheiro para contratar mais empregados, muitos dos quais com família e filhos que precisam estudar. As indústrias pretendem vender mais para outros países. Os produtos não vão aparecer nas lojas daqui, mas o país também ficará mais rico vendendo para fora. O Grêmio acha que seu estádio, que tem 52 anos, está

In [31]:
get_similar_text(945, linkage_matrix, tfidf_matrix)

1694

In [35]:
print(dataset_df.iloc[1694]['texto'])

 Imagine que temos uma nova variável formula_83 e que:
formula_84
Sendo: formula_85
Podemos dizer que:
formula_86
formula_87
formula_88
formula_89
Portanto:
O exposto acima encontra respaudo no fato de que a expressão é simplesmente a tradução da relação métrica de um triângulo retângulo para definição do cosseno a partir do seno, como segue:
Se fizermos a comparação entre as funções e o gráfico acima, substituindo as variáveis e constantes de acordo com a função dada, teremos o seguinte:
O que nos dá as substituições:
Agora, considere o fato de que a função formula_96 tem como integral a função formula_97, então podemos fazer:
formula_98
Uma vez, que pela análise anterior já sabemos que quando fazemos formula_99 temos:
formula_100
então:
formula_101
Temos que encontrar formula_102:
formula_103
formula_104
O que nos revela algo interessante:
formula_105
formula_106
Ou seja:
Logo:
Seja a função: formula_109, calculemos a sua integral por substituição trigonométrica:
formula_110
Fazendo 

In [33]:
print(dataset_df.iloc[945]['texto'])

 Considerando:
formula_102 área da seção. O volume é:
formula_103
Uma vez que quando formula_104 temos formula_105 
e que temos seções dentro do intervalo formula_39, onde a maior é a norma, podemos concluir que
a somatória é levada, no limite, a ser a integral:
formula_107
Ou seja, para que possamos encontra a área nestes casos basta encontrar a integral definida da
função área; sempre que for possível encontrar uma função contínua da área da seção em relação 
a variável independente, poderemos encontrar o volume do sólido integrando esta função área. Calcular o volume do sólido formado por um cilindro circular reto, cuja base tem centro na 
orígem dos eixos cartesianos e é paralela ao plano formula_108 dentro de um 
raio de 4 unidades, sendo secionado por um plano que passa pelos pontos formula_109
e formula_110 equidistante do eixo formula_111:
Retiramos as informações do problema proposto, que nos diz que:
pelos pontos que pertencem ao plano, uma vez que o plano é perpendicular ao 