In [1]:
%pylab inline

import spacy
import pandas as pd
import numpy as np
import string
import matplotlib.pyplot as plt
from collections import Counter
import seaborn as sns
from wordcloud import WordCloud, ImageColorGenerator
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
import pyLDAvis.sklearn
from unidecode import unidecode
from unicodedata import normalize
import statsmodels.api as sm

# Define default stopwords list
nlp = spacy.load('pt_core_news_sm')
stoplist = spacy.lang.pt.stop_words.STOP_WORDS
punctuations = string.punctuation

# Let's using Nate's Silver 538 style for graphs
plt.style.use('fivethirtyeight')

# Load data from local environment
df_extracted_essays = pd.read_csv('df_extracted_essays.csv')

# Basic information about the files
print(f'Qty Articles: {df_extracted_essays.shape[0]}')
print(f'Qty Distinct Authors: {len(df_extracted_essays.author.unique())}')

Populating the interactive namespace from numpy and matplotlib
Qty Articles: 2860
Qty Distinct Authors: 495


In [2]:
df_extracted_essays.head(10)

Unnamed: 0,author,url,date_transform,date,text_processed
0,Jeffrey Tucker,https://mises.org.br/Article.aspx?id=17,"['', '24', 'jan', '2008']",2008-01-24,propriedade intelectual chave sucesso maiores ...
1,Walter Block,https://mises.org.br/Article.aspx?id=19,"['', '30', 'jan', '2008']",2008-01-30,economista feliz 0 0 44 320 tdblockquotemurray...
2,Christopher Westley,https://mises.org.br/Article.aspx?id=22,"['', '30', 'jan', '2008']",2008-01-30,loucuras fiscais chegamos anos gastanca inflac...
3,Ron Paul,https://mises.org.br/Article.aspx?id=23,"['', '30', 'jan', '2008']",2008-01-30,crise imobiliaria politica monetaria federal r...
4,Jim Bradley,https://mises.org.br/Article.aspx?id=24,"['', '30', 'jan', '2008']",2008-01-30,culpem emprestadores subprime atual retorica c...
5,Lew Rockwell,https://mises.org.br/Article.aspx?id=25,"['', '30', 'jan', '2008']",2008-01-30,contratos governamentais versus negocios verda...
6,Jeffrey Tucker,https://mises.org.br/Article.aspx?id=26,"['', '30', 'jan', '2008']",2008-01-30,quao livre livre mercado consegue perceber err...
7,Gary Danelishen,https://mises.org.br/Article.aspx?id=27,"['', '30', 'jan', '2008']",2008-01-30,economia austriaca vs economia bernanke econom...
8,Ron Paul,https://mises.org.br/Article.aspx?id=28,"['', '30', 'jan', '2008']",2008-01-30,colapso enron perante comite servicos financei...
9,Art Carden,https://mises.org.br/Article.aspx?id=30,"['', '30', 'jan', '2008']",2008-01-30,expansao credito investimentos improdutivos co...


In [3]:
df_extracted_essays['text_processed'].head(1)[0]

'propriedade intelectual chave sucesso maiores tragedias referentes leis propriedade intelectual geram confusao empresarios sucedidos impressao apesar verdade fortuna direito autoral marca registrada patente necessariamente avaliacao negocios razao defendem propriedade intelectual fosse verdadeira forca vital negocios deixam credito principal motivo propria criatividade disposicao assumir riscos acoes geralmente baseadas mercado frequentemente julgamento empiricamente incorreto deles gera tragedia credito realizacoes verdade devidas proprias atividades empreendedoras fato faltam historias prontas conduzem falsa impressao inumeros relatos negocios mencionam lucros surgem patentes delas assumem causal suposicao historia espirito empreendedor deixa historia heroica riscos recompensas torna historia decisoes escriturarios patentes advogados direitos autorais resultado muitas pessoas acham razao eua terem crescido rapidamente seculo xix protecao propriedade intelectual assumem protecao idei

In [4]:
def get_lexical_diversity(df, author):
    dataframe = df[df['author'] == author]

    # Word stats
    full_text_count = pd.DataFrame(Counter(" ".join(dataframe["text_processed"]).split()), index=[0])
    full_text_count = full_text_count.T
    full_text_count = full_text_count.reset_index()
    full_text_count.columns = ['word', 'qty']

    # Distinct words to include in numerator
    distinct_words = set()
    dataframe['text_processed'].str.lower().str.split().apply(distinct_words.update)
    total_distinct_words = len(distinct_words)

    # All words to include in denominator
    total_words = full_text_count['qty'].sum()

    lexical_diversity = round((total_distinct_words / total_words),2)

    print(f'Lexical Diversity for {author}: {lexical_diversity}')

In [5]:
authors = ['Leandro Roque',
          'Lew Rockwell',
          'Jeffrey Tucker',
          'Fernando Ulrich',
           'Ludwig von Mises',
           'Ubiratan Jorge Iorio',
           'Gary North',
           'Murray N. Rothbard',
           'Helio Beltrão',
           'Juan Ramón Rallo',
           'Hans-Hermann Hoppe',
           'Fernando Chiocca',
           'Rodrigo Constantino',
          ]

for author in authors:
    get_lexical_diversity(df_extracted_essays, author)

Lexical Diversity for Leandro Roque: 0.12
Lexical Diversity for Lew Rockwell: 0.21
Lexical Diversity for Jeffrey Tucker: 0.24
Lexical Diversity for Fernando Ulrich: 0.22
Lexical Diversity for Ludwig von Mises: 0.18
Lexical Diversity for Ubiratan Jorge Iorio: 0.22
Lexical Diversity for Gary North: 0.19
Lexical Diversity for Murray N. Rothbard: 0.16
Lexical Diversity for Helio Beltrão: 0.36
Lexical Diversity for Juan Ramón Rallo: 0.25
Lexical Diversity for Hans-Hermann Hoppe: 0.18
Lexical Diversity for Fernando Chiocca: 0.39
Lexical Diversity for Rodrigo Constantino: 0.46


In [6]:
def get_word_ngrams_list(df, author, word_ngram):

    def get_top_word_n_bigram(corpus, n=None):
        vec = CountVectorizer(ngram_range=(word_ngram, word_ngram)).fit(corpus)
        bag_of_words = vec.transform(corpus)
        sum_words = bag_of_words.sum(axis=0) 
        words_freq = [(word, sum_words[0, idx]) for word, idx in vec.vocabulary_.items()]
        words_freq =sorted(words_freq, key = lambda x: x[1], reverse=True)
        return words_freq[:n]


    common_words = get_top_word_n_bigram(df[df['author'] == author]['text_processed'], 20)
    df3 = pd.DataFrame(common_words, columns = ['ngram' , 'qty'])

    return df3

In [7]:
get_word_ngrams_list(df_extracted_essays, 'Leandro Roque', 3)

Unnamed: 0,ngram,qty
0,quantidade dinheiro economia,104
1,taxa basica juros,43
2,grafico abaixo mostra,37
3,evolucao taxa cambio,32
4,bancario reservas fracionarias,28
5,aumento oferta monetaria,27
6,juros mercado interbancario,27
7,fonte banco central,27
8,junto banco central,26
9,grafico seguir mostra,26


In [8]:
get_word_ngrams_list(df_extracted_essays, 'Lew Rockwell', 3)

Unnamed: 0,ngram,qty
0,ludwig von mises,31
1,51 51 51,15
2,enus 51 51,13
3,banco central americano,9
4,economia livre mercado,8
5,fannie mae freddie,8
6,mae freddie mac,8
7,durante periodo expansao,7
8,boas conexoes politicas,7
9,governo rotula pratica,7


In [9]:
get_word_ngrams_list(df_extracted_essays, 'Jeffrey Tucker', 3)

Unnamed: 0,ngram,qty
0,ludwig von mises,9
1,pessoas redor mundo,5
2,condicoes medicas preexistentes,5
3,leis propriedade intelectual,4
4,melhor situacao caso,4
5,maneira estatista pensar,4
6,there will be,4
7,centenas cidades redor,4
8,cidades redor mundo,4
9,governos redor mundo,3


In [10]:
get_word_ngrams_list(df_extracted_essays, 'Fernando Ulrich', 3)

Unnamed: 0,ngram,qty
0,banco central europeu,14
1,ludwig von mises,13
2,caixa economica federal,12
3,banco central americano,11
4,lei oferta demanda,10
5,emirados arabes unidos,9
6,fractional reserve banking,9
7,bancario reservas fracionarias,9
8,banco nacional suica,9
9,fonte bacen autor,9


In [11]:
get_word_ngrams_list(df_extracted_essays, 'Ludwig von Mises', 3)

Unnamed: 0,ngram,qty
0,propriedade privada meios,26
1,privada meios producao,26
2,precos fatores producao,13
3,funcionamento economia mercado,13
4,baseada propriedade privada,11
5,padrao vida assalariados,11
6,producao larga escala,10
7,produtividade marginal trabalho,10
8,precos futuros bens,10
9,quantidade dinheiro circulacao,9


In [12]:
get_word_ngrams_list(df_extracted_essays, 'Ubiratan Jorge Iorio', 3)

Unnamed: 0,ngram,qty
0,escola austriaca economia,28
1,economia mundo real,17
2,teoria austriaca ciclos,15
3,austriaca ciclos economicos,14
4,historia pensamento economico,13
5,condicoes incerteza genuina,12
6,producao bens capital,12
7,economistas escola austriaca,12
8,ludwig von mises,12
9,teoria austriaca capital,11


In [13]:
get_word_ngrams_list(df_extracted_essays, 'Gary North', 3)

Unnamed: 0,ngram,qty
0,banco central europeu,39
1,banco central americano,17
2,bancario reservas fracionarias,17
3,ludwig von mises,16
4,juros longo prazo,16
5,titulos tesouro americano,16
6,expansao base monetaria,14
7,comprar titulos divida,12
8,taxas juros longo,12
9,uniao monetaria europeia,11


In [14]:
get_word_ngrams_list(df_extracted_essays, 'Murray N. Rothbard', 3)

Unnamed: 0,ngram,qty
0,ludwig von mises,32
1,industrias bens capital,18
2,times new enus,18
3,federal reserve system,17
4,margin spanop margin,17
5,spanop margin 18pt,16
6,times new spanop,15
7,economia livre mercado,13
8,direito livre expressao,13
9,teoria ciclos economicos,12


In [15]:
get_word_ngrams_list(df_extracted_essays, 'Helio Beltrão', 3)

Unnamed: 0,ngram,qty
0,ludwig von mises,9
1,jornal folha paulo,9
2,igualdade perante lei,8
3,instituto mises brasil,7
4,ibef news helio,7
5,news helio beltrao,7
6,publicado originalmente jornal,7
7,originalmente jornal folha,7
8,defensor livre mercado,4
9,neutralidade isonomia impostos,4


In [16]:
get_word_ngrams_list(df_extracted_essays, 'Juan Ramón Rallo', 3)

Unnamed: 0,ngram,qty
0,renda per capita,22
1,mera vontade politica,10
2,deficit orcamentario governo,8
3,reducao gastos governo,8
4,ricacos decada 1980,7
5,bens futuros bens,7
6,politicas precos minimos,6
7,economia jogo soma,5
8,durante ultimas decadas,5
9,divida publica 2013,5


In [17]:
get_word_ngrams_list(df_extracted_essays, 'Hans-Hermann Hoppe', 3)

Unnamed: 0,ngram,qty
0,ludwig von mises,20
1,problema ordem social,20
2,daily bell hoppe,15
3,desejo propriedade alheia,13
4,bens apropriados produzidos,12
5,apropriacao original propriedade,11
6,original propriedade privada,11
7,direitos propriedade privada,10
8,tomada suprema decisoes,10
9,atos apropriacao original,10


In [18]:
get_word_ngrams_list(df_extracted_essays, 'Fernando Chiocca', 3)

Unnamed: 0,ngram,qty
0,ludwig von mises,7
1,macaco subia escada,4
2,there is crime,4
3,all his life,4
4,morfeu neo morfeu,3
5,jato agua gelada,3
6,order but order,3
7,but order must,3
8,order must be,3
9,atender demandas consumidores,3


In [19]:
get_word_ngrams_list(df_extracted_essays, 'Rodrigo Constantino', 3)

Unnamed: 0,ngram,qty
0,reducao taxa juros,3
1,20 milhoes toneladas,3
2,tamanho otimo firma,2
3,eficiente livre mercado,2
4,ruas estradas block,2
5,defender livre mercado,2
6,mecanismos adequados incentivo,2
7,ganham 30 salarios,2
8,salarios paga media,2
9,altruismo esforco alheio,2


In [20]:
# LDA Analysis dataframes
df_text_consolidated_leandro_roque = df_extracted_essays[df_extracted_essays['author'] == 'Leandro Roque']
df_text_consolidated_lew_rockwell = df_extracted_essays[df_extracted_essays['author'] == 'Lew Rockwell']
df_text_consolidated_jeffrey_tucker = df_extracted_essays[df_extracted_essays['author'] == 'Jeffrey Tucker']
df_text_consolidated_fernando_ulrich = df_extracted_essays[df_extracted_essays['author'] == 'Fernando Ulrich']
df_text_consolidated_ludwig_von_mises = df_extracted_essays[df_extracted_essays['author'] == 'Ludwig von Mises']
df_text_consolidated_ubiratan_jorge_iorio = df_extracted_essays[df_extracted_essays['author'] == 'Ubiratan Jorge Iorio']
df_text_consolidated_gary_north = df_extracted_essays[df_extracted_essays['author'] == 'Gary North']
df_text_consolidated_murray_rothbard = df_extracted_essays[df_extracted_essays['author'] == 'Murray N. Rothbard']
df_text_consolidated_helio_beltrao = df_extracted_essays[df_extracted_essays['author'] == 'Helio Beltrão']
df_text_consolidated_juan_ramon_rallo = df_extracted_essays[df_extracted_essays['author'] == 'Juan Ramón Rallo']
df_text_consolidated_hans_hermann_hoppe = df_extracted_essays[df_extracted_essays['author'] == 'Hans-Hermann Hoppe']
df_text_consolidated_fernando_chiocca = df_extracted_essays[df_extracted_essays['author'] == 'Fernando Chiocca']
df_text_consolidated_rodrigo_constantino = df_extracted_essays[df_extracted_essays['author'] == 'Rodrigo Constantino']

In [21]:
def get_topics(df, n_components, number_words):
    
    # Convert to list
    data = df.text_processed.values.tolist()

    # Remove special characters
    data = [re.sub('\S*@\S*\s?', '', sent) for sent in data]

    # Remove new line characters
    data = [re.sub('\s+', ' ', sent) for sent in data]

    # Remove distracting single quotes
    data = [re.sub("\'", "", sent) for sent in data]

    vectorizer = CountVectorizer(analyzer='word',       
                                 stop_words=stoplist,
                                 lowercase=True,
                                )

    data_vectorized = vectorizer.fit_transform(data)

    # Materialize the sparse data
    data_dense = data_vectorized.todense()

    # Compute Sparsicity = Percentage of Non-Zero cells
    print("Sparsicity: ", ((data_dense > 0).sum()/data_dense.size)*100, "%")

    # Build LDA Model
    lda_model = LatentDirichletAllocation(n_components=n_components,
                                          max_iter=10,
                                          learning_method='online',
                                          random_state=42,
                                          batch_size=10,
                                          evaluate_every = -1,
                                          n_jobs=-1,
                                         )
    lda_output = lda_model.fit_transform(data_vectorized)

    # Helper function
    def print_topics(model, count_vectorizer, n_top_words):
        words = count_vectorizer.get_feature_names()
        for topic_idx, topic in enumerate(model.components_):
            print("\nTopic #%d:" % topic_idx)
            print(" ".join([words[i]
                            for i in topic.argsort()[:-n_top_words - 1:-1]]))

    # Print the topics found by the LDA model
    print("Topics found via LDA:")
    lda_model.fit(data_vectorized)

    print_topics(lda_model, vectorizer, number_words)
    
    return lda_model, data_vectorized, data, lda_output, vectorizer

  data = [re.sub('\S*@\S*\s?', '', sent) for sent in data]
  data = [re.sub('\s+', ' ', sent) for sent in data]


In [22]:
def get_lda_plot(lda_model, data_vectorized, vectorizer):
    pyLDAvis.enable_notebook()
    panel = pyLDAvis.sklearn.prepare(lda_model, data_vectorized, vectorizer, mds='tsne')
    return panel


# The warnings it's caused because the pip version.
# This warnings doesn't occur in the conda version.
# ref: https://github.com/bmabey/pyLDAvis/issues/96

In [23]:
lda_model, data_vectorized, data, lda_output, vectorizer = \
    get_topics(df_text_consolidated_leandro_roque, n_components=10, number_words=10)


get_lda_plot(lda_model, data_vectorized, vectorizer)

Sparsicity:  2.319272233884546 %
Topics found via LDA:

Topic #0:
dominancia rentenmark compras rentenbank sacolas sacola premissa ida palha trancado

Topic #1:
governo mercado empresas concorrencia livre servicos setor empresa seja pobres

Topic #2:
depressao americana americano decada levy crise fannie freddie fed eua

Topic #3:
rotativo credenciador normal churrascaria emissores mensalao cartoes quitar pagou mexicanos

Topic #4:
tickets desigualdade fundamentos ticket armazem 10g armazens sacar gato ideologicos

Topic #5:
precos dinheiro governo economia banco juros credito bancos central aumento

Topic #6:
gasolina caminhoneiros frete fgc panamericano 107 alcool 00 101 transportadoras

Topic #7:
soro paracetamol leite surrupia retaliar conservadas red chefoes escovar desentendeuse

Topic #8:
is this that it bank central money be government will

Topic #9:
currency board regime emissor conversibilidade argentino atrelado dezembro moedaancora atrelada


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  return pd.concat([default_term_info] + list(topic_dfs))


In [24]:
lda_model, data_vectorized, data, lda_output, vectorizer \
    = get_topics(df_text_consolidated_lew_rockwell, n_components=10, number_words=10)


get_lda_plot(lda_model, data_vectorized, vectorizer)

Sparsicity:  3.5438874123799162 %
Topics found via LDA:

Topic #0:
mises austriaca teoria left escola economia austriacos anos menger natureza

Topic #1:
censo hospedaria israel jose davi herodes jesus reis recenseamento magos

Topic #2:
esquerda ersidade esquerdista esquerdistas progressista francesa uniformidade igualdade kuehneltleddihn esquerdismo

Topic #3:
stockman aig nuclear ltcm 2012 defenderam socorrida impediram janeiro sp

Topic #4:
presidente 51 enus halliburton federal membros liberalismo iraque estados vicepresidente

Topic #5:
mval domina perdeu longinquo oligopolios concordavam tomo 1937 coordernadora mwrapindent

Topic #6:
argentina energia apagoes peso companhias cavallo argentino calor eletricidade corrida

Topic #7:
mises hoppe rothbard was helio chiocca is brasil beltrao leitor

Topic #8:
remedios google farmacias anuncios genericos farmaceutica spams cartel anunciar generico

Topic #9:
governo mercado pessoas economia liberdade livre sociedade mundo dinheiro send

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  return pd.concat([default_term_info] + list(topic_dfs))


In [25]:
lda_model, data_vectorized, data, lda_output, vectorizer \
    = get_topics(df_text_consolidated_jeffrey_tucker, n_components=10, number_words=10)


get_lda_plot(lda_model, data_vectorized, vectorizer)

Sparsicity:  3.4193083749374416 %
Topics found via LDA:

Topic #0:
was they but that this it by is be money

Topic #1:
was it they that is money by be but this

Topic #2:
dinheiro economia mundo bitcoin teoria bancos governo mercado banco fed

Topic #3:
maconha inveja carro fumar alheio neonazista olhado porta chaves neonazistas

Topic #4:
patinetes pele patinete eletricas animais eletrica pedestre selvagem cacadores kia

Topic #5:
pessoas mundo mercado governo liberdade vida maneira realmente seja trabalho

Topic #6:
comercio livre fidel facebook dinheiro cubana acordos pessoas paises ideia

Topic #7:
venezuela obamacare fome venezuelano perez comer seguradoras cumana caminhoes inanicao

Topic #8:
destrutivismo intelectual cocacola coringa propriedade cds negocios patentes companhia minimalista

Topic #9:
pianos industria piano comercio tarifas paises harley amp st1personname harleydavidson


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  return pd.concat([default_term_info] + list(topic_dfs))


In [26]:
lda_model, data_vectorized, data, lda_output, vectorizer \
    = get_topics(df_text_consolidated_fernando_ulrich, n_components=10, number_words=10)


get_lda_plot(lda_model, data_vectorized, vectorizer)

Sparsicity:  3.3480281297726644 %
Topics found via LDA:

Topic #0:
dubai is monetaria expansao projetos havia mercado 2008 ano mundo

Topic #1:
is not that monetaria by central it banco moeda are

Topic #2:
japoneses fabricas supermercados escritorios reerguera sucessao comunidades edificacoes tsunami macroeconomistas

Topic #3:
trichet vs hayek keynes considerado colega ativar questiona dividaem jesus

Topic #4:
dinheiro bitcoin moeda bancos credito banco ouro bancario mercado economia

Topic #5:
moeda dinheiro precos monetaria mercado economia reservas central dubai bc

Topic #6:
dubai projetos 2008 havia credito eau demanda estavam empresas construcao

Topic #7:
mercado juros economia governo monetaria banco anos precos moeda bancos

Topic #8:
is it banks by are that not this banking be

Topic #9:
bitcoin banco reservas monetaria moeda central politica monetario egipcios dinheiro


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  return pd.concat([default_term_info] + list(topic_dfs))


In [27]:
lda_model, data_vectorized, data, lda_output, vectorizer \
    = get_topics(df_text_consolidated_ludwig_von_mises, n_components=10, number_words=10)


get_lda_plot(lda_model, data_vectorized, vectorizer)

Sparsicity:  4.510914541985678 %
Topics found via LDA:

Topic #0:
governo inflacao precos moeda aumento dinheiro mercado economistas keynes demanda

Topic #1:
mercado keynes precos economia moeda economistas socialismo dinheiro salarios liberdade

Topic #2:
regulamentacoes brechas leite leigo respirar ganancia viola fiscalizadores impingidas soldo

Topic #3:
keynes economistas politicas eram grabretanha inflacionistas professor doutrinas autores ensinamentos

Topic #4:
generos provincias moradores iv provocou haviamse arrendatarios aproveitaram aglomeracoes tabelamento

Topic #5:
credito bancos juros deumer taxa extensao lucratividade bancarias emboom say

Topic #6:
precos governo mercado keynes inflacao capital empresas capitalismo socialismo credito

Topic #7:
doenca seguridade autodeterminacao acidentes doencas pertencer hoppe seguro neurose territorio

Topic #8:
mercado producao pessoas economia governo precos bens capital trabalho fato

Topic #9:
humana logica cooperacao homem soc

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  return pd.concat([default_term_info] + list(topic_dfs))


In [28]:
lda_model, data_vectorized, data, lda_output, vectorizer \
    = get_topics(df_text_consolidated_ubiratan_jorge_iorio, n_components=10, number_words=10)


get_lda_plot(lda_model, data_vectorized, vectorizer)

Sparsicity:  3.7734350821754923 %
Topics found via LDA:

Topic #0:
escolastica la xvii salamanca xvi teologia escolasticos lessio lugo juan

Topic #1:
gps palimpsestos estrela morita hedy admiraveis sussex mazzucato dotes eua

Topic #2:
taxa juros capital producao poupanca governo economia consumo estrutura precos

Topic #3:
extincao baratas animais ameacados baleias ratos molinari pulgas mosquitos moscas

Topic #4:
economia mercado hayek teoria mises capital precos austriaca bens escola

Topic #5:
is that are by austrian on it not with they

Topic #6:
linguagem freire gramsci educacao uber esquerda bakhtin batalha educador jornais

Topic #7:
aprenderam pais presidente estupidez acrescimo fernando deslumbramento debates 127 per

Topic #8:
say moeda monetaria precos dinheiro inflacao consumo producao lei bancos

Topic #9:
mariana rei comercio ravaillac henrique juan consentimento caetano cardeal tirano


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  return pd.concat([default_term_info] + list(topic_dfs))


In [29]:
lda_model, data_vectorized, data, lda_output, vectorizer \
    = get_topics(df_text_consolidated_gary_north, n_components=10, number_words=10)

get_lda_plot(lda_model, data_vectorized, vectorizer)

Sparsicity:  4.341357194869209 %
Topics found via LDA:

Topic #0:
confiam corporativos st1metricconverter primadonas st1personname productid solucao esperanca jaz exportando

Topic #1:
imigrantes trump abril maio imigracao suecia assistencialismo assistencialista dia benesses

Topic #2:
dinheiro bancos governo banco divida centrais dia moeda iria reservas

Topic #3:
armas demissoes massa desarmamento keynes keynesiana formula pergunta desemprego drogas

Topic #4:
precos governo pessoas aumento mercado consumidores economia bens havia producao

Topic #5:
st1personname productid discricionarios agregada el salvador alimentos mutuarios apuros dubai

Topic #6:
united youtube iframe passageiro airlines video videos allowfullscreen 315 aerea

Topic #7:
dinheiro united governo bancos monetaria central passageiro iframe airlines politicos

Topic #8:
bancos dinheiro governo pessoas precos banco economia monetaria centrais irao

Topic #9:
bancos governo dinheiro banco monetaria central juros tit

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  return pd.concat([default_term_info] + list(topic_dfs))


In [30]:
lda_model, data_vectorized, data, lda_output, vectorizer \
    = get_topics(df_text_consolidated_murray_rothbard, n_components=10, number_words=10)


get_lda_plot(lda_model, data_vectorized, vectorizer)

Sparsicity:  4.44039404379638 %
Topics found via LDA:

Topic #0:
governo mercado livre left inflacao precos mises credito economia salarios

Topic #1:
comunismo direito responsabilidade livre boetie la propriedade agressao nafta defesa

Topic #2:
strongmito laffer curva cairam deducoes 19821983 evasao previu tradeoff crowdingout

Topic #3:
dinheiro bancos precos bens mercado depressao oferta banco credito demanda

Topic #4:
seca secas chuvas vivenciando reservatorios persistirem racionamentos avidas adoram ordenam

Topic #5:
tzu engels lao pao chien ateismo chuang henry jenny militante

Topic #6:
left mises economia viena socialismo von universidade st1personname edimburgo productid

Topic #7:
left mises bancos mercado governo dinheiro precos depressao bens economia

Topic #8:
governo mercado pessoas livre propriedade fato liberdade sociedade sendo seja

Topic #9:
culpa igualitaristas mulheres sentimento cultura unanimidade buchanan juizos tullock igualdade


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  return pd.concat([default_term_info] + list(topic_dfs))


In [31]:
lda_model, data_vectorized, data, lda_output, vectorizer \
    = get_topics(df_text_consolidated_helio_beltrao, n_components=10, number_words=10)


get_lda_plot(lda_model, data_vectorized, vectorizer)

Sparsicity:  3.3719674609459362 %
Topics found via LDA:

Topic #0:
bancos banco mercado central dinheiro anos juros crise madoff governo

Topic #1:
ideias brasil internet paises pessoas governos mises equipe governo hoje

Topic #2:
inmetro mercado lobby selo pirataria campanha interesses garantia privados 20

Topic #3:
palestra imb financeira impostos crise livre sociedade propriedade voluntaria reducao

Topic #4:
liberdade madoff solo brasil anos livre impostos governo investimento fund

Topic #5:
solo greedo forca ameaca han letal pna lucas razoavelmente neutralizar

Topic #6:
trump hillary entendeu senado republicanos escolha apertada eleicao candidatos carolina

Topic #7:
that is we you are it not or one your

Topic #8:
that impostos is inmetro we mercado lobby sociedade distorcao reducao

Topic #9:
governo impostos seja liberdade caso mercado livre sociedade direito brasil


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  return pd.concat([default_term_info] + list(topic_dfs))


In [32]:
lda_model, data_vectorized, data, lda_output, vectorizer \
    = get_topics(df_text_consolidated_juan_ramon_rallo, n_components=10, number_words=10)


get_lda_plot(lda_model, data_vectorized, vectorizer)

Sparsicity:  4.518602738400503 %
Topics found via LDA:

Topic #0:
bitcoin redes sociais crise soros pessoas democracia fiscais politico refugios

Topic #1:
governo impostos gastos divida dinheiro pib economia juros pais grafico

Topic #2:
pib balticos letonia paises saude estonia 1987 quase lituania sera

Topic #3:
estonia balticos letonia lituania alcancado worldeconomicoutlook findthedata org http emprego

Topic #4:
saude eua seguradoras americano apolices medicina medicos socializacao seguros incentivo

Topic #5:
democracia crise voto economia assuntos seja vies conspiratorias bancos mercado

Topic #6:
pobreza capital bens renda pessoas riqueza seja capitalista hoje trabalho

Topic #7:
crise maneira empresarios culpados bens riqueza saude mercado pib economia

Topic #8:
riqueza capitalista trabalhador trabalho bens empreendedor empreendimento entanto producao seja

Topic #9:
empresarios mercado livre muro socialismo interesses socialista empresas alemanha concorrencia


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  return pd.concat([default_term_info] + list(topic_dfs))


In [33]:
lda_model, data_vectorized, data, lda_output, vectorizer \
    = get_topics(df_text_consolidated_hans_hermann_hoppe, n_components=10, number_words=10)


get_lda_plot(lda_model, data_vectorized, vectorizer)

Sparsicity:  5.723218007503126 %
Topics found via LDA:

Topic #0:
guerra democracia monarquia encaixes austria guerras europa von wilson reis

Topic #1:
propriedade producao meios socialismo capital bens democracia pessoas pessoa privada

Topic #2:
is that this it all from or are people money

Topic #3:
propriedade pessoa social producao pessoas privada bens direitos seja caso

Topic #4:
encaixes democracia dinheiro propriedade bens is ordem left sera producao

Topic #5:
propriedade pessoas pessoa privada democracia seja bens direito social conflitos

Topic #6:
propriedade dinheiro producao pessoas governo bens protecao seguradoras seja estados

Topic #7:
ofertar pesquisa valentoes economizar sofisticados desejaveis insistir beneficiariam fiz burlesco

Topic #8:
propriedade producao is that this privada people all are pessoa

Topic #9:
propriedade producao socialismo meios bens privada precos mercado pessoa usuarios


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  return pd.concat([default_term_info] + list(topic_dfs))


In [34]:
lda_model, data_vectorized, data, lda_output, vectorizer \
    = get_topics(df_text_consolidated_fernando_chiocca, n_components=10, number_words=10)


get_lda_plot(lda_model, data_vectorized, vectorizer)

Sparsicity:  4.214226633581472 %
Topics found via LDA:

Topic #0:
is that it with was by this are he his

Topic #1:
pessoas mercado brasil governo anos propriedade casa economia livre seja

Topic #2:
preservacao madeira proprietarios producao futura presente terra geracao ambientalistas cerceadas

Topic #3:
ptbr brasil futebol setor campeoes aposentadoria jogadores copa brasileiros censo

Topic #4:
future present conservation production laws environment timber more resources must

Topic #5:
that is it are an be by they people not

Topic #6:
crimes criminosos that policia policiais criminosas funcoes loja pessoas policial

Topic #7:
macacos amazonia humanos escada nenhum coisas macaco terra argumento seres

Topic #8:
paulo revolucao separatistas independencia estados brasil uruguai brasilia guerra secessao

Topic #9:
jiujitsu helio gracie ciencia economica estilo artes kimura marciais lutador


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  return pd.concat([default_term_info] + list(topic_dfs))


In [35]:
lda_model, data_vectorized, data, lda_output, vectorizer \
    = get_topics(df_text_consolidated_rodrigo_constantino, n_components=10, number_words=10)


get_lda_plot(lda_model, data_vectorized, vectorizer)

Sparsicity:  4.718502418845965 %
Topics found via LDA:

Topic #0:
tapar peneira sol cartel mercado governo caso americano livre impostos

Topic #1:
governo media ipea ricos mercado impostos reducao salarios block juros

Topic #2:
diretor impostos governo imposto empresa saude 30 carga conta seguranca

Topic #3:
governo liberdade direito mises livre impostos pessoas caso violencia block

Topic #4:
juros dubai taxa capital dinheiro investimentos pessoas credito poupanca crise

Topic #5:
chavez militares americano bases petrobras petista estrago justificar colombia latinoamericanos

Topic #6:
estudo reducao ipea media ganham salarios dias trabalhadores metade estatisticas

Topic #7:
programa bolivariano nacional vitoria governo impostos media estudo salarios juros

Topic #8:
cartel mercado livre consumidores caso carteis preco tamanho rothbard firma

Topic #9:
setor privatizacao privatizacoes estatais aco siderurgico pais esquerda milhoes toneladas


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  return pd.concat([default_term_info] + list(topic_dfs))
