In [1]:
import pandas as pd
import re

# Tenta carregar o DataFrame a partir do CSV
try:
    df = pd.read_csv("letras.csv")
except FileNotFoundError:
    print("Erro: O arquivo 'letras.csv' não foi encontrado.")
    print("Certifique-se de que este script está na mesma pasta que o seu arquivo CSV.")
    exit()

# Função para tokenizar (dividir o texto em palavras/tokens)
# Esta versão remove pontuações e converte para minúsculas
def tokenize(text):
    if not isinstance(text, str):
        return []
    # Converte para minúsculo e encontra todas as sequências de caracteres alfanuméricos
    # Isso trata "Palavra." e "palavra" como o mesmo token "palavra"
    return re.findall(r'\b\w+\b', text.lower())

# Calcula todos os tokens de todas as letras do DataFrame
all_tokens = df['letra'].apply(tokenize).sum()

print("--- ANÁLISE DO CORPUS ---")

# 1. Estatísticas Gerais
total_tokens = len(all_tokens)
total_vocabulary = len(set(all_tokens))

print("\n## Estatísticas Gerais ##")
print(f"Quantidade Total de Tokens: {total_tokens}")
print(f"Tamanho do Vocabulário Total (Tokens Únicos): {total_vocabulary}")

# 2. Estatísticas por Idioma
print("\n## Segmentação por Idioma ##")
for lang in df['idioma'].unique():
    lang_tokens = df[df['idioma'] == lang]['letra'].apply(tokenize).sum()
    print(f"\n--- Idioma: {lang} ---")
    print(f"Quantidade de Tokens: {len(lang_tokens)}")
    print(f"Tamanho do Vocabulário: {len(set(lang_tokens))}")

# 3. Estatísticas por Banda
print("\n## Segmentação por Banda ##")
for band in sorted(df['artista'].unique()): # Usei sorted() para ordem alfabética
    band_df = df[df['artista'] == band]
    band_tokens = band_df['letra'].apply(tokenize).sum()
    
    # Média de tokens por música para a banda
    # .mean() calcula a média da série de contagens de tokens de cada música
    avg_len = band_df['letra'].apply(lambda x: len(tokenize(x))).mean()
    
    print(f"\n--- Banda: {band} ---")
    print(f"Quantidade de Tokens: {len(band_tokens)}")
    print(f"Tamanho do Vocabulário: {len(set(band_tokens))}")
    print(f"Média de Tokens por Música: {avg_len:.2f}")

print("\n--- FIM DA ANÁLISE ---")

--- ANÁLISE DO CORPUS ---

## Estatísticas Gerais ##
Quantidade Total de Tokens: 22125
Tamanho do Vocabulário Total (Tokens Únicos): 3549

## Segmentação por Idioma ##

--- Idioma: Inglês ---
Quantidade de Tokens: 11618
Tamanho do Vocabulário: 1655

--- Idioma: Português ---
Quantidade de Tokens: 10507
Tamanho do Vocabulário: 1955

## Segmentação por Banda ##

--- Banda: Iron Maiden ---
Quantidade de Tokens: 6174
Tamanho do Vocabulário: 1120
Média de Tokens por Música: 308.70

--- Banda: Legião Urbana ---
Quantidade de Tokens: 5470
Tamanho do Vocabulário: 1347
Média de Tokens por Música: 273.50

--- Banda: Metallica ---
Quantidade de Tokens: 5444
Tamanho do Vocabulário: 931
Média de Tokens por Música: 272.20

--- Banda: Skank ---
Quantidade de Tokens: 5037
Tamanho do Vocabulário: 997
Média de Tokens por Música: 251.85

--- FIM DA ANÁLISE ---
