## Mineração de Emoções em Textos
***

Mineração de Emoções em Textos com Python e a biblioteca NLTK (Natural Language ToolKit)

***
### Mineração de textos
***

Hoje em dia existe diversas formas para fazer armazenamento em textos, por exemplo: livros, jornais, revistas, arquivos, redes sociais e etc...

Os textos geralmente não são estruturados (texto livre), porém existe alguns armazenamentos de textos que são estruturados como JSON e XML (texto formatado).

#### Classificação

Para tornar esses textos mais estruturados temos algumas técnicas, por exemplo, **classificação** em e-mails, na qual temos a entrada com o email que passa por um classificador (algoritmo) e na saída o texto é classificado em spam ou normal. Outro cenário é um texto de uma notícia que passa por um classificador (multirrótulo) e esse texto é categorizado em rótulos ou tópicos na qual o texto pertence.

#### Agrupamento

Outra técnica é o **agrupamento** (**clustering**), ou seja, se quisermos saber quais pessoas pertencem a um bairro especifico, por exemplo, Jardim América, podemos agrupar consultas como **Jardim América** e **Jdim América** (digitação errada) tornando ambas as consultas uma só, agrupando seu resultado.

O agrupamento pode ser usado também para a detecção de plágio, por meio de um algoritmo, muitas revistas ciêntificas utilizam.

#### Extração de informações

Podemos também fazer **extração de informação** dos textos por meio de algoritmos, por exemplo, temos um texto enorme sobre a segunda guerra mundial e queremos saber algumas informações como: ano, paises envolvidos, quem ganhou e etc.

Podemos também utilizar ontologias, representando conceitos e relacionamentos em um determinado domínio.

#### Associações

Podemos encontrar também nos textos associações, ou seja, correlações entre as palavras. Por exemplo, 60% dos textos que contêm a palavra "internacional" também contêm a palavra "Grêmio".

**Representação**: {"Internacional"} => {"Grêmio"}, Se existe a palavra internacional, então existe a palavra grêmio

A presença do termo "Pelé" aumenta em 5 vezes a chance de ocorrência dos termos "Copa" e "1970"

**Representação**: {"Pelé"} => {"Copa", "1970"}, Se existe a palavra pelé, então existe a palavra copa e 1970.

Um excelente exemplo, foi o walmart, eles viram que todo mundo que comprava fraldas, também comprava cerveja, então eles deixaram ambos os produtos na mesma prateleira para agilizar as vendas.

#### Casamento de esquemas

É encontrar algumas correspondências semânticas, muito usado quando precisamos fazer migrações de um sistema antigo para um novo sistema, na qual temos que mapear o banco de dados do sistema antigo para o banco de dados do novo sistema. Isso normalmente é feito manual, mas tem algoritmos para automatizar esse tipo de coisa.

Casamento de esquemas funciona dessa forma, por exemplo, um atributo chamado **nomeDoFuncionario** na base antiga vai ser mapeado com o atributo **nome** da base nova. Outro exemplo, na tabela antiga tinhamos um único atributo chamado endereço, para fazer o casamento de esquema com a nova base de dados, temos que quebrar esse atributo em outros atributos menores (logradouro, municipio, uf e cep).

Outro exemplo, é você por meio de um texto natural ou voz fazer uma consulta SQL: "Encontre os livros do Eduardo Suplicy" = "SELECT titulo, ano, resumo FROM t_publicacao WHERE autor = 'Eduardo Suplicy' AND tipo_pub = 'livro'"

#### Recuperação da informação

É localizar e ranquear documentos relevantes em uma coleção. Por exemplo, criar uma tabela de palavras e essa tabela é mapeada com vários documentos que apresentam essas palavras.

Se pegarmos a palavra "Gol", podemos achar 12 documentos que tem essa palavra dentro dele e 7 documentos que tem a a palavra "Goleador". Isso é o que chamamos de Indexação, um excelente exemplo é a (API Lucene)

#### Sumarização de documentos

É você pegar um documento enorme e gerar um resumo dos pontos principais dele.

#### Abordagens para mineração de textos

A primeira abordagem é **estatística** que trabalha com a frequência dos termos, ignorando informações semânticas.

A segunda abordagem é **processamento de linguagem natural (PLN)** que interpreta sintaticamente e semânticamente as frases e faz o computador entender textos escritos em linguagem humana.

***
### Mineração de emoções
***

A mineração de emoções faz parte da técnica de classificação da mineração de textos.

Neste caso vamos ter um texto que vai ser submetido a um algoritmo e esse vai classificar o texto em rótulos como: alegria, tristeza, medo, etc...

Você pode fazer esse monitoramento de emoção para aplicações que mexe com marcas, entidades, figuras sociais e etc... Com base no review dessas emoções o dono da empresa pode tomar iniciativas baseada nos resultados.

Com isso podemos entender o que as pessoas pensam e como elas se sentem em relação a algo.

Existe 3 tipos de polaridades nas emoções: polaridade positiva, neutra e negativa.

Existe 6 emoções principais: Surpresa, Alegria, Tristeza, Medo, Nojo e Raiva.

***
### Classificação
***

A ideia da classificação é você pegar uma base de dados histórica e fazer um treinamento em cima dela, com isso você pode inserir novos dados em cima desse algoritmo que sofreu o treinamento para esses novos dados de entrada.

Por exemplo, se pegarmos o histórico de créditos de vários clientes, treinar o algoritmo para ver o risco da liberação de um emprestimo para esses clientes, podemos chegar a um resultado que se você inserir novos clientes esse algoritmo já vai lhe dar o feedback se deve ou não liberar o emprestimo.

Outro exemplo é você prever se vai ou não jogar tênis com base no tempo, temperatura, umidade do ar e velocidade do vento, com isso se constroi a base histórica de dados, por exemplo, vários registros, entre eles, um que teve o tempo ensolarado, temperatura quente, umidade do ar alta, vento fraco, não deu pra jogar tênis, já em um dia nublado com temperatura quente, humidade alta e vento fraco deu pra jogar tênis. Com isso treinamos o algoritmo com esses dados e quando inserir novos dados ele já vai saber se vai ou não dar para jogar tênis.

Para fazer o treinamento, precisa-se de um supervisor, ou seja, alguém que colete os dados para montar a base histórica de registros.

Cada registro pertence a uma classe e possui um conjunto de atributos previsores, ou seja, atributos que serão a base para chegar-mos a uma conclusão.

Objetiva-se descobrir um relacionamento entre os atributos previsores e o atributo meta.

O valor do atributo meta é conhecido como aprendizagem supervisionada, ou seja, por meio dos atributos previsores podemos tirar uma conclusão para o atributo meta.

![img](https://user-images.githubusercontent.com/14116020/50458210-8bd81400-0948-11e9-868c-5583af4ea14a.png)

Pegamos o conjunto de exemplo (base histórica) que é o conjunto de atributos previsores e o atributo meta, submeto ao sistema de aprendizado (algoritmo) e com isso ele vai gerar um classificador que vai receber como parâmetro um novo registro e ele vai tomar uma decisão baseado na análise da base histórica.

***
### Classificação em textos
***

Como funciona esse mesmo processo de classificação, só que utilizando textos?

![img1](https://user-images.githubusercontent.com/14116020/50458586-4832d980-094b-11e9-8a73-c204b55090ef.png)

No caso dos textos, cada palavra, sem repetição, é considerar um atributo previsor, ou seja, tirando preposições inuteis, cada frase é analisada de acordo com o tipo de emoção que você categorizou. Essas emoções é o atributo meta.

![img2](https://user-images.githubusercontent.com/14116020/50458587-48cb7000-094b-11e9-8757-d4b03e19acd0.png)

Criamos uma tabela com cada palavra nos textos de forma que nenhuma se repita e eliminando as preposições. Ao final temos o atributo meta, que no caso é a emoção que a frase traz e no corpo da tabela dizemos com Sim ou Não as palavras que aparecem na frase do atributo meta especificado, por exemplo: Me Sinto Completamente Amado são palavras que aparece em uma frase de Alegria, por isso cada uma delas está com S no seu corpo, já na segunda frase é diferente as palavras, porém a emoção é a mesma. Com isso você categoriza as palavras treinando seu algoritmo que ao inserir uma frase ele vai saber qual a emoção que essa frase traz.