**Estatísticas do CORPUS - STIL 2024**

[Anais do Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL)](https://sol.sbc.org.br/index.php/stil)

Dados a serem analisados nesse colab:

*   Número de Sentenças
*   Número Médio de sentenças
*   Número de Tokens
*   Número Médio de Tokens
*   Top 10 Tokens
*   Down 10 Tokens
*   Número de Substantivos
*   Número de Verbos
*   Número de Preposições

**Observação: O lemma e a analise de dependências seram anexados diretamente ao corpus**

Inicialmente existiam 36 artigos da conferência principal,
retirando os short papers restaram 24 artigos

Para executar o código é necessário inserir na aba de arquivos o Corpus.json enviado no sigaa

**Alunos**: Alfredo Sena, Aline Athaydes, Amanda Sammer, Caio Mello, Danilo Andrade, Felipe Sanches e Lucas Mota

In [121]:
import pandas as pd

# Criação do DF

In [122]:
with open("corpus.json","r",encoding="utf-8") as f:
  corpus = pd.read_json(f)

In [123]:
conferencia_principal = corpus["conferencia_principal"]

In [124]:
colunas = ["nome_artigo","numero_de_sentencas","numero_de_tokens","numero_de_substantivos","numero_de_verbos","numero_de_preposicoes"]
estatisticas = pd.DataFrame(columns=colunas)

In [125]:
for index,artigo in conferencia_principal.items():
  estatisticas.at[index,"nome_artigo"] = artigo["titulo"]

In [None]:
print(estatisticas)

# Número de Sentenças

In [127]:
for index, artigo in conferencia_principal.items():
  estatisticas.at[index,"numero_de_sentencas"] = len(artigo["artigo_sentenças"])

In [None]:
print(estatisticas)

# Número Médio de Sentenças

In [None]:
tot_sentencas = 0
for index, row in estatisticas.iterrows():
  tot_sentencas = tot_sentencas + row["numero_de_sentencas"]

n_med_sent = tot_sentencas/len(estatisticas)
print(f"Número Médio de Sentenças = {n_med_sent}")

# Número de Tokens

In [130]:
for index, artigo in conferencia_principal.items():
  estatisticas.at[index,"numero_de_tokens"] = len(artigo["artigo_tokenizado"])

In [None]:
print(estatisticas)

# Número Médio de Tokens

In [None]:
tot_tokens = 0
for index, row in estatisticas.iterrows():
  tot_tokens = tot_tokens + row["numero_de_tokens"]

n_med_tokens = tot_tokens/len(estatisticas)
print(f"Número Médio de Tokens = {n_med_tokens}")

# Top 10 Tokens

In [133]:
dict_tokens = {}

for index, artigo in conferencia_principal.items():
  for token in artigo["artigo_tokenizado"]:
    if token in dict_tokens:
      dict_tokens[token] = dict_tokens[token] + 1
    else:
      dict_tokens[token] = 1

In [None]:
print(f"Tokens Diferentes = {len(dict_tokens)}")

In [135]:
res = sorted(dict_tokens, key=dict_tokens.get, reverse=True)

In [148]:
dict_top = {}

In [None]:
print("TOP 10 TOKENS")
for i in range(0,10):
  print(f"{i+1}: {res[i]} = {dict_tokens[res[i]]}")
  dict_top[res[i]] = dict_tokens[res[i]]

# Down 10 Tokens

In [137]:
down_tokens = sorted(dict_tokens, key=dict_tokens.get)

In [150]:
dict_down = {}

In [None]:
print("DOWN 10 TOKENS")
for i in range(0,10):
  print(f"{i+1}: {down_tokens[i]} = {dict_tokens[down_tokens[i]]}")
  dict_down[down_tokens[i]] = dict_tokens[down_tokens[i]]

**POS TAGGER**

* ADJ	Adjetivo
* ADV	Advérbio
* ADV-KS	Advérbio conjuntivo subordinado
* ADV-KS-REL	Advérbio relativo subordinado
* ART	Artigo
* CUR	Moeda
* IN	Interjeição
* KC	Conjunção coordenativa
* KS	Conjunção subordinativa
* N	Substantivo
* NPROP	Substantivo próprio
* NUM	Número
* PCP	Particípio
* PDEN	Palavra denotativa
* PREP	Preposição
* PROADJ	Pronome Adjetivo
* PRO-KS	Pronome conjuntivo subordinado
* PRO-KS-REL	Pronome relativo conectivo subordinado
* PROPESS	Pronome pessoal
* PROSUB	Pronome nominal
* V	Verbo
* VAUX	Verbo auxiliar

# Número de Substantivos

In [139]:
for index, artigo in conferencia_principal.items():
  count_substantivo = 0
  for sent in artigo["pos_tag_artigo"]:
    for item in sent:
      if item[1] == "N" or item[1] == "NPROP":
        count_substantivo = count_substantivo + 1
  estatisticas.at[index,"numero_de_substantivos"] = count_substantivo

In [None]:
print(estatisticas)

# Número de Verbos

In [141]:
for index, artigo in conferencia_principal.items():
  count_verbo = 0
  for sent in artigo["pos_tag_artigo"]:
    for item in sent:
      if item[1] == "V" or item[1] == "VAUX":
        count_verbo = count_verbo + 1
  estatisticas.at[index,"numero_de_verbos"] = count_verbo

In [None]:
print(estatisticas)

# Número de Preposições

In [143]:
for index, artigo in conferencia_principal.items():
  count_prep = 0
  for sent in artigo["pos_tag_artigo"]:
    for item in sent:
      if item[1] == "PREP":
        count_prep = count_prep + 1
  estatisticas.at[index,"numero_de_preposicoes"] = count_prep

In [None]:
print(estatisticas)

# Exportando o DF de Estatística por artigo como CSV

In [145]:
from google.colab import files

In [146]:
estatisticas.to_csv('estatisticas_individuais_stil.csv', index=False)

In [147]:
files.download('estatisticas_individuais_stil.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# Exportando informações Gerais como JSON

In [152]:
import json

In [157]:
dados = {
    "numero_medio_sentencas": n_med_sent,
    "numero_medio_tokens": n_med_tokens,
    "numero_de_tokens_diferentes": len(dict_tokens),
    "top_10_tokens": dict_top,
    "down_10_tokens": dict_down
}

In [None]:
with open('estatisticas_gerais_stil.json', 'w') as json_file:
    json.dump(dados, json_file,indent=4)

In [161]:
files.download('estatisticas_gerais_stil.json')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>