# Lei de Zipf, Estatística e Python na análise das palavras da biografia de Jim Simons - "The Man Who Solved the Market".

# 1) Storyteling

Em 1949, o linguista estatístico George Zipf (1902-1950) publicou o livro "Human Behavior and The Principle of Least Effort".

Nele foi formulada a Lei de Zipf, uma distribuição discreta derivada da distribuição contínua de Pareto e do princípio do menor esforço.

Segundo a lei de Zipf, há uma relação inversamente proporcional entre a distribuição das palavras em um texto e a classificação (ranking) dessas palavras.

Embora tenha sido atualizada por Mandelbrot e outros, a lei de Zipf ainda é válida e utilizada por várias campos de estudo, como a estimativa de populações, a intensidade de explosões solares, a sequência protéica, receptores de imunidade, o tráfego em sites de internet, o número de vezes em que um paper acadêmico é citado, entre outros.

Neste artigo analisaremos a quantidade, frequência,  distribuição e insights das palavras do livro "The Man Who Solved The Market - Greg Zuckerman".

Além da conclusão de que a lei de Pareto se aplica ao livro, observamos que a frequência das palavras pode fazer algumas revelações: 1) a estratégia de investimentos mais citada é o Trading. 2) As pessoas com os quais Simons mais se relacionou reforçaram seu teor acadêmico científico ( ele não se relacionava com gestores tradicionais de Wall Street, ou seja: desenvolveu uma mentalidade independente, criativa e de skin in the game no campo aplicado), 3) a Stony Brook University é a universidade americana que mais se relaciona ao modo "Renaissence de pensar" e 4) Robert Mercer, co CEO da empresa de Simons, um dos precursores da inteligência artificial no uso do High Frequency Trading (HFT) e fundador da Cambridge Analitica (polêmica empresa de inteligência artificial em eleições) é a segunda pessoa mais citada no livro.

# 2) Importar bibliotecas

In [1]:
import pandas as pd
import numpy as np
import re
import operator
from operator import itemgetter
import plotly.express as px


# 3) O Algoritmo

In [2]:
# Calcula a quantidade, frequência e o total de palavras do livro

palavra_valor = {}                                                                                              # Dict que receberá (chave, valor) = (palavra, repetições)

abrir = open('TMWSM_Greg_Zuckerman.txt', 'r')
ler = abrir.read()
quebrar_palavras = re.findall(r'(\b[A-Za-z][a-z]{2,9}\b)', ler)                                                 # Módulo re e função findall para reconhecimento de expressões regulares
quebrar_palavras = [x.upper() for x in quebrar_palavras]                                                        # padronizar todas as palavras para maiúscula, antes da análise

for palavra in quebrar_palavras:                                                                                # Iteração sobre as palavras
    contar_palavra = palavra_valor.get(palavra,0)                                                               # O módulo get() retorna o valor associado à chave de um dicionário
    palavra_valor[palavra] = contar_palavra + 1                                                                 # Contagem unitária do aparecimento da palavra no dicionário

for palavra, qtd in reversed(sorted(palavra_valor.items(), key =operator.itemgetter(1), reverse=True)):         # Impressão do resultado
    frequencia = round(qtd/len(quebrar_palavras),4)*100                                                         # Cálculo da frequência
    print (palavra, ': ', qtd, 'vezes.', 'A frequência é:', frequencia, '%')                                    # Cálculo da quantidade

print(' O total de palavras do livro é:', len(quebrar_palavras))                                                # Cálculo do total de palavras

[1;30;43mA saída de streaming foi truncada nas últimas 5000 linhas.[0m
SHACKS :  2 vezes. A frequência é: 0.0 %
BUNGALOWS :  2 vezes. A frequência é: 0.0 %
EXPRESS :  2 vezes. A frequência é: 0.0 %
COMPLAINT :  2 vezes. A frequência é: 0.0 %
FILE :  2 vezes. A frequência é: 0.0 %
LABS :  2 vezes. A frequência é: 0.0 %
ABHORRENT :  2 vezes. A frequência é: 0.0 %
CERTAINLY :  2 vezes. A frequência é: 0.0 %
VIALS :  2 vezes. A frequência é: 0.0 %
STOCKPILE :  2 vezes. A frequência é: 0.0 %
BIOCHEMIST :  2 vezes. A frequência é: 0.0 %
WORRIES :  2 vezes. A frequência é: 0.0 %
PROVOKING :  2 vezes. A frequência é: 0.0 %
STARS :  2 vezes. A frequência é: 0.0 %
CANDIDE :  2 vezes. A frequência é: 0.0 %
DISPARAGED :  2 vezes. A frequência é: 0.0 %
RUSHING :  2 vezes. A frequência é: 0.0 %
THREAT :  2 vezes. A frequência é: 0.0 %
MAGNITUDE :  2 vezes. A frequência é: 0.0 %
STRETCH :  2 vezes. A frequência é: 0.0 %
LIQUIDITY :  2 vezes. A frequência é: 0.0 %
AFFIXED :  2 vezes. A frequência é:

## 3.1) Análise

In [3]:
# Total de palavras do livro
sum(palavra_valor.values())

80335

In [4]:
# (chave, valor) = (palavra, repetições)
palavra_valor

{'FOR': 823,
 'ADULT': 2,
 'READERS': 3,
 'THE': 4618,
 'FRACKERS': 2,
 'GREATEST': 10,
 'TRADE': 67,
 'EVER': 39,
 'YOUNG': 52,
 'RISING': 6,
 'ABOVE': 13,
 'INSPIRING': 2,
 'WOMEN': 19,
 'SPORTS': 9,
 'PORTFOLIO': 37,
 'PENGUIN': 6,
 'IMPRINT': 1,
 'RANDOM': 9,
 'HOUSE': 22,
 'COM': 65,
 'COPYRIGHT': 5,
 'GREGORY': 12,
 'ZUCKERMAN': 19,
 'SUPPORTS': 3,
 'FUELS': 1,
 'CREATIVITY': 5,
 'ENCOURAGES': 1,
 'DIVERSE': 2,
 'VOICES': 1,
 'PROMOTES': 1,
 'FREE': 16,
 'SPEECH': 27,
 'AND': 2710,
 'CREATES': 1,
 'VIBRANT': 1,
 'CULTURE': 10,
 'THANK': 2,
 'YOU': 182,
 'BUYING': 24,
 'AUTHORIZED': 1,
 'EDITION': 2,
 'THIS': 105,
 'BOOK': 33,
 'COMPLYING': 1,
 'WITH': 765,
 'LAWS': 4,
 'NOT': 126,
 'SCANNING': 1,
 'ANY': 70,
 'PART': 30,
 'FORM': 17,
 'WITHOUT': 30,
 'PERMISSION': 4,
 'ARE': 120,
 'SUPPORTING': 6,
 'WRITERS': 2,
 'ALLOWING': 7,
 'CONTINUE': 18,
 'PUBLISH': 2,
 'BOOKS': 16,
 'EVERY': 42,
 'READER': 4,
 'GRATEFUL': 4,
 'MADE': 116,
 'REPRINT': 1,
 'FOLLOWING': 11,
 'COURTESY': 6,
 

In [5]:
# Criar o dataframe dos dados para o gráfico

df = pd.DataFrame(sorted(palavra_valor.items(), key=operator.itemgetter(1),reverse=True))
df.set_axis(["Palavras", "Quantidade"], axis="columns", inplace=True)
df['Frequência'] = round(df['Quantidade'] / len(quebrar_palavras),4) *100
df['Ranking'] = df['Quantidade'].rank(ascending=False)
df.head(50)

  df.set_axis(["Palavras", "Quantidade"], axis="columns", inplace=True)


Unnamed: 0,Palavras,Quantidade,Frequência,Ranking
0,THE,4618,5.75,1.0
1,AND,2710,3.37,2.0
2,SIMONS,1297,1.61,3.0
3,HIS,1231,1.53,4.0
4,WAS,1206,1.5,5.0
5,THAT,939,1.17,6.0
6,FOR,823,1.02,7.0
7,HAD,817,1.02,8.0
8,WITH,765,0.95,9.0
9,THEY,470,0.59,10.0


In [6]:
df['Quantidade'].sum()

80335

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9101 entries, 0 to 9100
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Palavras    9101 non-null   object 
 1   Quantidade  9101 non-null   int64  
 2   Frequência  9101 non-null   float64
 3   Ranking     9101 non-null   float64
dtypes: float64(2), int64(1), object(1)
memory usage: 284.5+ KB


In [9]:
# Procurar palavra específicas

# Outra forma de checar a exatidão do algoritmo é abrir o arquivo em pdf, Editar > Localizar > e digitar a palavra.
# (ao lado pela aparecerá a quantidade de vezes em que aparece)

df[df['Palavras'].str.contains('TRADING')]

Unnamed: 0,Palavras,Quantidade,Frequência,Ranking
14,TRADING,400,0.5,15.0


In [10]:
# Procurar radicais de palavras específicas

df[df['Palavras'].str.contains('TRAD')]

Unnamed: 0,Palavras,Quantidade,Frequência,Ranking
14,TRADING,400,0.5,15.0
91,TRADES,108,0.13,93.5
159,TRADE,67,0.08,162.5
186,TRADERS,59,0.07,187.0
802,TRADED,16,0.02,812.0
893,TRADER,14,0.02,913.0
1971,INTRADAY,6,0.01,1899.5
4477,TRADEABLE,2,0.0,4476.0


In [11]:
df[df['Palavras'].str.contains('STONY')]

Unnamed: 0,Palavras,Quantidade,Frequência,Ranking
169,STONY,64,0.08,172.0


In [12]:
df[df['Palavras'].str.contains('BROOK')]

Unnamed: 0,Palavras,Quantidade,Frequência,Ranking
170,BROOK,64,0.08,172.0
2597,BROOKLYN,4,0.0,2633.0
3095,BROOKHAVEN,3,0.0,3275.0
3825,BROOKLINE,2,0.0,4476.0
8929,BROOKS,1,0.0,7191.5


## 3.2) Lei de Pareto

In [13]:
# Aplicar a Lei de Pareto

# 1.1) Extrair o ponto de corte da ordem das primeiras 20% frequências do livro
freq_corte = 9101 * 0.2
freq_corte

1820.2

In [14]:
# 1.2) Extrair a soma das frequências e analisar o percentual
freq_soma = df['Frequência'][0:1819].sum()
freq_soma

81.19

A Lei de Pareto, ou regra 80/20, estabelece uma proporção da relação causa e efeito, afirmando que 80% dos efeitos surgem a partir de 20% das causas.

Essa relação pode ser comprovada na análise das palavras do livro, pois 20% das palavras mais utilizadas causam um efeito de 81.19% na frequência total de palavras do livro.

# 4) Distribuições

## 4.1) Função da distribuição acumulada empírica (eCDF)

In [15]:
# Função da distribuição acumulada empírica (eCDF) das palavras do livro "The man who solved the market - Greg Zuckerman"

import plotly.express as px
fig = px.ecdf(df, x= df['Ranking'], y = df['Quantidade'], title="eCDF - The man who solved the market - Greg Zuckerman")
fig.show()

## 4.2) Frequência em função do ranking das palavras

In [16]:
# Plot da frequência em função do ranking das palavras

fig = px.scatter(df, x= df['Ranking'], y = df['Frequência'], trendline_options=dict( window=2),
                title="Frequência em função do ranking das palavras")

fig.show()

## 4.3) Lei de Zipf

In [17]:
# Plot da Lei de Zipf

# O gráfico da lei de Zipf é um gráfico logaritmico, cujo eixo x é o logaritmo do ranking das palavras e o eixo y
# é o logaritmo da frequência dessas palavras no texto

# Sobre a definição da lei de Zipf: https://en.wikipedia.org/wiki/Zipf%27s_law#:~:text=Zipf's%20law%20can%20be%20visuallized,)%20function%20with%20slope%20%E2%88%92s.

# Logplot em plotly: https://plotly.com/python/log-plot/#logarithmic-axes-with-plotly-express

fig = px.scatter(df, x= df['Ranking'], y = df['Frequência'],
                 log_x=True, range_x=[1,100000],log_y=True, range_y=[0.01,10],
                 title="Gráfico de Zipf do livro 'The Man Who Solved the Market - Greg Zuckerman'")
fig.show()

# 4) Conclusão

**Frequência de palavras em linguagem natural**

O teste seguiu a normalidade em relação a outros testes de frequência no sentido de comprovar que o artigo definido 'the' é a palavra mais frequente em textos de língua inglesa.

Outra curiosidade é a relação da frequência ordinal entre as palavras, no qual por exemplo, se a primeira palavra tende a aparecer com 6% de frequencia, a segunda palavra aparece com 3%, a terceira aparece 1% e assim por diante.

A primeira posição possui frequência de 5,75%.

A segunda posição deveria ser em torno de 2,88% (ou seja, 5,75% / 2).
A terceira posição possui frequência de 1,61% e deveria ser em torno de 1,92% (5,75% / 3), assim por diante.

# 5) Limitações do Algoritmo

As limitações no escopo do trabalho se referem a nomes duplos e diferença semântica de palavras.

Nomes duplos como "differencial geometry" se referem a um campo específico da matemática e não à gemoetria básica ou cálculo diferencial.

Do mesmo modo, "Brown" pode se referir a:

1) Nomes: Aaron, Henry, Margaret ou Peter;

2) Olhos marrons (cor dor olhos de Simons) e

3) Brown University.
