# Projeto Módulo 1 - Nuvem de Palavras

Nuvem de palavras é um recurso gráfico (usado principalmente na internet) para descrever os termos mais frequentes de um determinado texto. O tamanho da fonte em que a palavra é apresentada é uma função da frequência da palavra no texto: palavras mais frequentes são desenhadas em fontes de tamanho maior, palavras menos frequentes são desenhadas em fontes de tamanho menor.

Apresentar, de forma resumida, um dado sobre texto(s) ou conversações através de nuvem de palavras tornou-se
uma ferramenta muito poderosa. Podemos vislumbrar imediatamente os termos mais comuns de um texto de maneira muito prática.

(Adaptado de: http://sefarditas.net.br/ava/descoe3/nuvem_palavras.pdf)

In [1]:
from IPython.core.display import display, HTML

  from IPython.core.display import display, HTML


In [2]:
display(HTML('<img src="https://tirandolicoesdetudo.com.br/wp-content/uploads/2018/03/Wordcloud_CV-768x387.png">'))

O código abaixo, em html, contém as configurações de exibição da nossa nuvem. Não se preocupe em tentar entendê-lo ou ter que editá-lo, ele só precisa ser executado.

In [3]:
%%html
<style>
ul.cloud {
  list-style: none;
  padding-left: 0;
  display: flex;
  flex-wrap: wrap;
  align-items: center;
  justify-content: center;
  line-height: 2.75rem;
  width: 600px;
}

ul.cloud a {
  --size: 4;
  --color: #a33;
  color: var(--color);
  font-size: calc(var(--size) * 0.25rem + 0.5rem);
  display: block;
  padding: 0.125rem 0.25rem;
  position: relative;
  text-decoration: none;
}

ul.cloud a[data-weight="1"] { --size: 1; }
ul.cloud a[data-weight="2"] { --size: 2; }
ul.cloud a[data-weight="3"] { --size: 3; }
ul.cloud a[data-weight="4"] { --size: 4; }
ul.cloud a[data-weight="5"] { --size: 6; }
ul.cloud a[data-weight="6"] { --size: 8; }
ul.cloud a[data-weight="7"] { --size: 10; }
ul.cloud a[data-weight="8"] { --size: 13; }
ul.cloud a[data-weight="9"] { --size: 16; }

ul[data-show-value] a::after {
  content: " (" attr(data-weight) ")";
  font-size: 1rem;
}

ul.cloud li:nth-child(2n+1) a { --color: #181; }
ul.cloud li:nth-child(3n+1) a { --color: #33a; }
ul.cloud li:nth-child(4n+1) a { --color: #c38; }
</style>

Vamos criar um texto genérico (sem muito sentido) apenas para demostração:

In [4]:
texto = '''
python python python
programacao programacao
dados dados dados dados dados
magalu magalu magalu magalu magalu magalu
code code
'''

Se quiséssemos fazer uma nuvem do texto genérico acima, teríamos a seguinte contagem:
- python: 3
- programação: 2
- dados: 5
- magalu: 6
- code: 2

Para formar nossa nuvem, teriamos que configurar nosso código (texto) em HTML da seguinte maneira:

In [5]:
dados = '''
<ul class="cloud">
  <li><a data-weight="3">python</a></li>
  <li><a data-weight="2">programacao</a></li>
  <li><a data-weight="5">dados</a></li>
  <li><a data-weight="6">magalu</a></li>
  <li><a data-weight="2">code</a></li>
</ul>
'''
display(HTML(dados))

#### Sua missão é, a partir de um texto qualquer, criar funções que, ao final do processo, criarão uma variável no mesmo formato da variável 'dados' criada acima e exibirão uma nuvem de palavras do texto usado como input.

Crie funções para tratar:
- Remoção de pontuações
- Remoção de stop words (palavras como conjuções e preposições que podem poluir a análise)
- Contagem de cada palavra no texto limpo
- Criação do texto no formato HTML e exibição da nuvem

In [6]:
texto = '''
python python python
programacao programacao
dados dados dados dados dados
magalu magalu magalu magalu magalu magalu
code code
'''

In [7]:
def remove_pontuacoes(texto):
    '''
    - Recebe como input um texto
    - Retorna um texto sem pontuações
    '''
    lista_pontuacoes = ['.',',',':',';','?','!','']

    for p in lista_pontuacoes:
        texto = texto.replace(p, "")

    return texto

In [8]:
def remove_stop_words(texto):
    '''
    - Recebe como input o texto sem pontuações
    - Retorna um texto sem stop words
    - Dica: https://gist.github.com/alopes/5358189
    '''
    lista_stop_words = ['de', 'a', 'o', 'que', 'e', 'do', 'da', 'em', 'um', 'para', 'é', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'foi', 'ao', 'ele', 'das', 'tem', 'à', 'seu', 'sua', 'ou', 'ser', 'quando', 'muito', 'há', 'nos', 'já', 'está', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'era', 'depois', 'sem', 'mesmo', 'aos', 'ter', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'estão', 'você', 'tinha', 'foram', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'têm', 'numa', 'pelos', 'elas', 'havia', 'seja', 'qual', 'será', 'nós', 'tenho', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'fosse', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estivermos', 'estiverem', 'hei', 'há', 'havemos', 'hão', 'houve', 'houvemos', 'houveram', 'houvera', 'houvéramos', 'haja', 'hajamos', 'hajam', 'houvesse', 'houvéssemos', 'houvessem', 'houver', 'houvermos', 'houverem', 'houverei', 'houverá', 'houveremos', 'houverão', 'houveria', 'houveríamos', 'houveriam', 'sou', 'somos', 'são', 'era', 'éramos', 'eram', 'fui', 'foi', 'fomos', 'foram', 'fora', 'fôramos', 'seja', 'sejamos', 'sejam', 'fosse', 'fôssemos', 'fossem', 'for', 'formos', 'forem', 'serei', 'será', 'seremos', 'serão', 'seria', 'seríamos', 'seriam', 'tenho', 'tem', 'temos', 'tém', 'tinha', 'tínhamos', 'tinham', 'tive', 'teve', 'tivemos', 'tiveram', 'tivera', 'tivéramos', 'tenha', 'tenhamos', 'tenham', 'tivesse', 'tivéssemos', 'tivessem', 'tiver', 'tivermos', 'tiverem', 'terei', 'terá', 'teremos', 'terão', 'teria', 'teríamos', 'teriam']

    lista_texto = texto.split()

    for palavra in lista_texto:
        if palavra in lista_stop_words:
            lista_texto.remove(palavra)

    return ' '.join(lista_texto)

In [9]:
def conta_palavras(texto):
    '''
    - Recebe como input o texto limpo
    - Pode retornar o dado de duas formas (faça como preferir):
        - Uma lista contendo cada palavra que aparece no texto e 
        uma lista com a contagem de cada palavra no texto
    '''
    lista = dict()

    for palavra in texto.split():
        if palavra.lower() in lista.keys():
            lista[palavra.lower()] += 1
        else:
            lista[palavra.lower()] = 1

    return lista

In [10]:
def criacao_variavel_html(lista):
    '''
    - Recebe como as listas ou o dicionário criados na função conta palavra
    - retorna uma variável 'dados' que contém um texto formatado da mesma maneira que o exemplo acima
    '''
    html_txt = '''
        <ul class="cloud">
    '''

    for palavra in lista.keys():
        html_txt += f'''
        <li><a data-weight="{lista[palavra]}">{palavra}</a></li>
    '''
    
    html_txt += '''
        </ul>
    '''

    return html_txt

In [11]:
texto = input("Digite o texto para criar a nuvem de palavras")

texto = remove_pontuacoes(texto)

texto = remove_stop_words(texto)

dicionario = conta_palavras(texto)

display(HTML(criacao_variavel_html(dicionario)))