In [1]:
import numpy as np
import pandas as pd
import csv
import matplotlib.pyplot as plt
import seaborn as sns
import re
import spacy
# from wordcloud import WordCloud
from sklearn.feature_extraction.text import TfidfVectorizer

nlp = spacy.load("en_core_web_sm")

sns.set_theme()

In [2]:
def wordcloud(text):
  wordcloud = WordCloud(background_color="white").generate(text)
  plt.figure(figsize=(10,10))
  plt.imshow(wordcloud, interpolation='bilinear')
  plt.axis("off")

# wordcloud(' '.join(df1['text']))

In [3]:
# Abertura dos arquivos
podcast_file = open('general_podcasts.csv', mode='r')
skills_file = open('skills_dataset.csv', mode='r')
CR_file = open('CR_skills_dataset.csv', mode='r')

# Podcast

In [4]:
# Transforma os dados do csv em um dataframe
podcast_df = pd.read_csv(podcast_file)

In [5]:
# Substitui espaços em branco por NaN
podcast_df = podcast_df.replace(r'^\s*$', np.NaN, regex=True)
# Vertifica número de linhas nulas para cada coluna do arquivo
podcast_df.isnull().sum()

skill            0
backward_text    0
check_line       0
original_name    0
dtype: int64

In [6]:
# Aplica uma função que limpa espaços em branco antes e depois da skill, além de passar para letra minúscula
podcast_df["skill"] = podcast_df["skill"].apply(lambda x: x.strip().lower())

# Agrupa e conta o número frases por skill, também coloca as skills em ordem alfabética 
podcast_pps = podcast_df.groupby(by="skill", sort=True).count()['backward_text']
podcast_pps

skill
acrobatics          82
animal handling     47
arcana             103
athletics          137
concentration        1
deception          105
disguise             3
history             42
insight             87
intimidation        42
investigation      204
medicine            41
nature              49
perception         405
performance         77
persuasion          63
religion            15
sleight of hand     41
stealth            125
survival            64
Name: backward_text, dtype: int64

In [None]:
podcast_pps["persuasion"]

# Skills

In [None]:
# Transforma os dados do csv em um dataframe
skills_df = pd.read_csv(skills_file)

In [None]:
# Substitui os campos com espaço em branco por NaN
skills_df = skills_df.replace(r'^\s*$', np.NaN, regex=True)
# Vertifica número de linhas nulas para cada coluna do arquivo
skills_df.isnull().sum()

In [None]:
# Lista linhas que estão com NaN no campo skill
skills_df.loc[skills_df["skill"].isnull()]

In [None]:
# Remove todas as linhas com NaN no campo skill
skill_df = skills_df.dropna(subset=["skill"], inplace=True)
# Soma as linhas com NaN no campo skill
skills_df["skill"].isnull().sum()

In [None]:
# Aplica uma função que transforma o campo em string,
# limpa espaços em branco antes e depois da string, além de passar para letra minúscula
skills_df["skill"] = skills_df["skill"].apply(lambda x: str(x).strip().lower())
skills_df

In [None]:
# Agrupa e conta o número frases por skill, além de colocar em ordem alfabética de skill.
skills_pps = skills_df.groupby(by="skill", sort=True).count()["backward_text"]
skills_pps

In [None]:
skills_pps["persuasion"]

# CR skills

In [None]:
# Transforma os dados do csv em um dataframe
CR_df = pd.read_csv(CR_file)

In [None]:
# Substitui campos com espaço em branco por NaN
CR_df = CR_df.replace(r'^\s*$', np.NaN, regex=True)
# Vertifica número de linhas nulas para cada coluna do arquivo
CR_df.isnull().sum()

In [None]:
# Aplica uma função que limpa espaços em branco antes e depois da skill, além de passar para letra minúscula
CR_df['skill'] = CR_df['skill'].apply(lambda x: x.strip().lower())
CR_df

In [None]:
# Agrupa e conta o número frases por skill, também coloca as skills em ordem alfabética 
# PPS = phrases per skill
CR_pps = CR_df.groupby(by="skill", sort=True).count()["backward_text"]
CR_pps

In [None]:
CR_pps["persuasion"]

# Tabela total

In [None]:
# Dataframe resultado da concatenação dos três dataframes
concatenated_df = pd.concat([podcast_df,skills_df,CR_df])

In [None]:
# Agrupa e conta o número frases por skill, também coloca as skills em ordem alfabética 
total_pps = concatenated_df.groupby("skill", sort=True).count()['backward_text']
total_pps

In [None]:
total_pps["persuasion"]

In [None]:
"""
    Função que transforma uma lista de palavras bem formatadas em um dicionário de ocorrências.
    Ex.:
        > x = ['Philipe', 'Jc', 'Victor', 'Philipe', 'Jc', 'Victor', 'Victor', 'Jc']
        > ocorrencias(x)
        > {'Philipe': 2, 'Jc': 3, 'Victor': 3}
"""
def ocorrencias(lista):
    dict_ocorrencias = {}
    for i in lista:
        if i in dict_ocorrencias:
            dict_ocorrencias[i] += 1
        else:
            dict_ocorrencias[i] = 1
    return dict_ocorrencias

In [None]:
"""
    Função que dado um dicionário de ocorrências ou lista bem formatada,
    plota um gráfico com as palavras com maior ocorrência (15 por padrão).
"""
def bar_graphic(dicionario=None, paleta="rocket", lista_ocorrencias = None, max=15, dim=(12,9)):
    # Se não tiver dicionario, vai ter uma lista
    if dicionario is None:
        if lista_ocorrencias is not None:
            # A lista é então convertida para dicionario através da função de ocorrencias
            dicionario = ocorrencias(lista_ocorrencias)
    
    # O dicionario é transformado em dataframe para melhor manipulação
    df = pd.DataFrame(dicionario.items(), columns=["key", "value"])
    # Dataframe ordenado de forma decrescente e com o máximo estipulado
    df = df.sort_values(by="value", ascending=False).head(max)
    
    # É então re-convertido em dicionario
    top_dicionario = dict(df.values)
    
    # As chaves e valores são convertidas em lista para auxiliar na plotagem do gráfico
    palavras = list(top_dicionario.keys())
    valores = list(top_dicionario.values())
    
    ## Plot
    # Define dimensões para o gráfico
    fig_dims = dim
    fig, ax = plt.subplots(figsize=fig_dims)
    # Configura o eixo, paleta e dimensões do gráfico
    plot = sns.barplot(x=palavras,y=valores, palette=paleta, ax=ax)
    # Define o título do gráfico
    plt.title(f'Top {max} Ocorrências')
    # Rotaciona a legenda de cada barra e plota o gráfico
    plt.setp(plot.get_xticklabels(), rotation=45)

In [None]:
total_pps_dict = total_pps.to_dict()
total_pps_dict

In [None]:
# Total set
bar_graphic(dicionario = total_pps_dict, max=20)

In [None]:
# CR Set
CR_pps_dict = CR_pps.to_dict()
bar_graphic(dicionario=CR_pps_dict, paleta="mako", max=18)

In [None]:
# Podcast set
podcast_pps_dict = podcast_pps.to_dict()
bar_graphic(dicionario = podcast_pps_dict, paleta="mako")

In [None]:
# Skills Set
skills_pps_dict = skills_pps.to_dict()
bar_graphic(dicionario = skills_pps_dict, paleta="mako")

# Total de Palavras do backward_text

In [None]:
# Transforma cada linha da coluna de frases do dataframe em lista cujos elementos 
# são as frases
list_df = list(concatenated_df["backward_text"])
# Separa a lista de frases em uma lista de lista de palavras
full_list = [i.split(" ") for i in list_df]
full_list

In [None]:
# Transforma uma lista de 2 dimensões em 1
flat_list = [item for sublist in full_list for item in sublist]
flat_list

In [None]:
# Transforma tudo que não sejam números ou letras em string vazia, passa para letra minúscula
filtered_flat_list = [re.sub('[^A-Za-z0-9]+', '', i).lower() for i in flat_list]
# Remove as strings vazias da lista
filtered_flat_list = [x for x in filtered_flat_list if x]
filtered_flat_list

In [None]:
bar_graphic(lista_ocorrencias = flat_list)

In [None]:
bar_graphic(lista_ocorrencias = filtered_flat_list, max=30)

In [None]:
list_slice = list_df[0:11]
list_slice

In [None]:
doc = nlp(list_slice[0])
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop)

In [None]:
for token in doc:
    if not token.is_stop and token.pos_ in ("VERB", "NOUN"):
        print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
                token.shape_, token.is_alpha, token.is_stop)

In [None]:
len(list_df)

In [None]:
result_list = []
for i in list_df:
    doc = nlp(i)
    for token in doc:
        if not token.is_stop and token.pos_ in ("VERB", "NOUN"):
            result_list.append(token.text)

In [None]:
result_list[0]

In [None]:
bar_graphic(lista_ocorrencias = result_list, max=30)

In [None]:
skill_list = list(CR_df['skill'].unique())

In [None]:
for skill in skill_list:
    df_skill = CR_df[CR_df['skill'].values == skill]
    list_skill = ' '.join(df_skill['backward_text'])
    bar_graphic(lista_ocorrencias = [i.split(" ") for i in list_skill])
#     print(skill)
#     print(len(df_skill))