## Notebook - Análise das palavras com 5 Letras
***


**Author:** Claudio Vinicius Santos <br>
**Created Date:** 2022-03-28 <br>
**Last Update:** 2022-04-01 <br>
**Last Update Description:** Notebook organization and review.

**Linkedin**: [claudiovosantos](https://linkedin.com/in/claudiovosantos/)<br>
**Github**: [claudioviniciuso](https://github.com/claudioviniciuso)<br>
**Lives Twitch**: [Lives data_Claud](https://www.twitch.tv/data_claudio/about)

***


#### 1. Objetivo Geral:
Análisar todas as palavras com 5 letras disponíveis no Dataset e retirar correlações que possam ajudar na conclusão do jogo TERMO.

#### 2. Fontes e referências:
* Dataset: Banco de Palavras da USP - Link: https://www.ime.usp.br/~pf/dicios/


#### 3. Etapas do Notebook:
* Importação das LIBS
* Importação do Dataset
* Análise prévia e tratativa dos dados
* Modelagem
* Exportação para CSV

### Importação das LIBS
**Pandas** para tratar e visualizar os dados.<br>
**matplotlib** para criar alguns visuais gráficos.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

### Importação do Dataset

In [2]:
# Adicionar Dados no Dataframe Pandas
df = pd.read_csv('dic_2.txt', header= None, names=["word"], skiprows=1)

#skyprows igual a 1 por quê a primeira linha do arquivo contém a quantidade de linhas existentes.

### Análise prévia e tratativa dos dados

In [3]:
#Visualização das primeiras linhas
df.head(5)

Unnamed: 0,word
0,Aarao
1,aba
2,abacate
3,abacateiro
4,abacateiros


In [4]:
#Visualização das últimas linhas
df.tail(5)

Unnamed: 0,word
245360,zurremos
245361,zurres
245362,zurro
245363,zurros
245364,zurrou


In [5]:
# 1. Colocar todas as letras minúsculo
df['word'] = df['word'].str.lower()



In [6]:
# 2. Adicionar coluna com quantidade de letras na palavra
df['len_word'] = df['word'].str.len()
df

Unnamed: 0,word,len_word
0,aarao,5
1,aba,3
2,abacate,7
3,abacateiro,10
4,abacateiros,11
...,...,...
245360,zurremos,8
245361,zurres,6
245362,zurro,5
245363,zurros,6


In [7]:
# 3. Filtrar DataFrame considerando somente as palavras que contém 5 letras
df_w5 = df[df['len_word'] == 5]
df_w5

Unnamed: 0,word,len_word
0,aarao,5
10,abaco,5
12,abade,5
18,abafa,5
68,abafe,5
...,...,...
245302,zunis,5
245310,zuniu,5
245314,zurra,5
245355,zurre,5


### Modelagem

In [8]:
# Função que será utilizada para contar as vogais
def count_vogais(word):
    qt = 0
    for i in word:
        if i in ['a','e','i','o','u']:
            qt += 1
    return qt


# Função quer será utilizada para verifiar se existe algum dígrafo
def verifica_digrafo(word):
    list_encontros = ['ch','lh','nh','sc','xc','xs','rr','ss','qu','gu']
    result = 0
    for i in list_encontros:
        if i in word:
            result += 1
        else:
            result += 0
    return result

# Função que será utlizada para verificar se existe algum encontro vocálico
def verifica_encontro_vocalico(word):
    list_encontros = ['ae','ai','au','ea','ei','eu','ia','ie','io','iu','oa','oe','oi','ou','ua','ue','ui','uo']
    result = 0
    for i in list_encontros:
        if i in word:
            result += 1
        else:
            result += 0
    return result


In [9]:
# Lista onde será armazenado o dafaframe final
list_ = []

# Percorrer todo o dataframe utilizando as funções definidas acima.
for index, row in df_w5.iterrows():
    
    #Definição da palavra
    word = row.word
    
    #Split das letras
    letters = list(word)
    
    #Contar Vogais
    vogais = count_vogais(word)
    consoantes = 5 - vogais
    digrafos = verifica_digrafo(word)
    encontros_vogais = verifica_encontro_vocalico(word)
    
    list_.append([word,vogais,consoantes, letters[0],letters[1],letters[2],letters[3],letters[4], digrafos, encontros_vogais])

#Definição do Novo Dataset 
df_w5 = pd.DataFrame(list_, columns=["word",'qt_vogais', 'qt_consoantes', 1,2,3,4,5, 'fl_digrafo', 'fl_encontro_vogais'])
df_w5

Unnamed: 0,word,qt_vogais,qt_consoantes,1,2,3,4,5,fl_digrafo,fl_encontro_vogais
0,aarao,4,1,a,a,r,a,o,0,0
1,abaco,3,2,a,b,a,c,o,0,0
2,abade,3,2,a,b,a,d,e,0,0
3,abafa,3,2,a,b,a,f,a,0,0
4,abafe,3,2,a,b,a,f,e,0,0
...,...,...,...,...,...,...,...,...,...,...
5476,zunis,2,3,z,u,n,i,s,0,0
5477,zuniu,3,2,z,u,n,i,u,0,1
5478,zurra,2,3,z,u,r,r,a,1,0
5479,zurre,2,3,z,u,r,r,e,1,0


### Exportação

In [None]:
df_w5.to_csv('df.csv')