#  Central Bank Score

## An√°lise de Sentimentos em Discursos de Bancos Centrais

Este projeto realiza an√°lise de sentimentos em discursos de Bancos Centrais de diversos pa√≠ses,
gerando um **score Hawkish-Dovish** para simplificar a interpreta√ß√£o econ√¥mica dos comunicados.

### Objetivos
- Identificar t√≥picos principais nos discursos usando **LDA**
- Analisar sentimentos com **VADER**
- Calcular √≠ndice de tom (Hawkish vs Dovish)
- Visualizar tend√™ncias por pa√≠s e per√≠odo

###  Dataset
- **Fonte**: Kaggle - Central Bank Speeches
- **Tamanho**: ~7.700 discursos em ingl√™s
- **Per√≠odo**: V√°rios anos de discursos de Bancos Centrais globais

In [None]:
#  Importa√ß√µes necess√°rias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import nltk
import re
import os

import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk import word_tokenize
from wordcloud import WordCloud
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
from nltk.sentiment.vader import SentimentIntensityAnalyzer

# Configurar estilo dos gr√°ficos
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

print('‚úÖ Bibliotecas importadas com sucesso!')

In [None]:
#  Download dos recursos NLTK necess√°rios
nltk_resources = [
    'stopwords',
    'punkt',
    'punkt_tab',  
    'wordnet',
    'vader_lexicon',
    'averaged_perceptron_tagger',  
    'omw-eng'  # Open Multilingual WordNet 
]

print('üì• Baixando recursos do NLTK...')
print('=' * 40)

for resource in nltk_resources:
    try:
        nltk.download(resource, quiet=False)  # quiet=False para ver progresso
        print(f'‚úÖ {resource} baixado com sucesso!')
    except Exception as e:
        print(f'‚ö†Ô∏è Erro ao baixar {resource}: {e}')

print('=' * 40)
print('‚úÖ Recursos NLTK baixados!')

In [None]:
#  Carregar a base de dados
file_path = 'all_speeches.csv'

# Verificar se o arquivo existe
if os.path.exists(file_path):
    df = pd.read_csv(file_path)
    print(f'‚úÖ Dataset carregado com sucesso!')
    print(f'üìä Dimens√µes: {df.shape[0]} linhas x {df.shape[1]} colunas')
else:
    print(f'‚ùå Arquivo n√£o encontrado: {file_path}')
    print('üí° Certifique-se de que o arquivo all_speeches.csv est√° na pasta correta')

# Converter a coluna de data para datetime
df['date'] = pd.to_datetime(df['date'], errors='coerce')

# Criar colunas adicionais para an√°lise temporal
df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month
df['year_month'] = df['date'].dt.to_period('M').astype(str)

# Visualizar primeiras linhas
df.head()

In [None]:
# ‚ÑπÔ∏è Informa√ß√µes sobre o dataset
print('üìã Informa√ß√µes do Dataset:')
print('=' * 50)
df.info()

print('\nüìà Estat√≠sticas por Pa√≠s:')
print('=' * 50)
print(df['country'].value_counts())

print('\nüìÖ Per√≠odo dos Dados:')
print('=' * 50)
print(f'Data inicial: {df["date"].min()}')
print(f'Data final: {df["date"].max()}')

## Pr√©-processamento dos Textos

Nesta etapa, realizamos:
1. Remo√ß√£o de pontua√ß√µes
2. Remo√ß√£o de stopwords
3. Lemmatiza√ß√£o (redu√ß√£o √† raiz das palavras)

In [None]:
# Fun√ß√£o para remover pontua√ß√£o
def remove_punctuation(text):
    return re.sub(r'[^\w\s]', '', str(text))

# Aplicar limpeza
corpus = df['text']
clean_corpus = corpus.apply(lambda x: remove_punctuation(x))

# Classe para Lemmatiza√ß√£o
class Lemmatizer:
    def __init__(self):
        self.wnl = WordNetLemmatizer()
    
    def __call__(self, text):
        return [self.wnl.lemmatize(word) for word in word_tokenize(text)]

# Carregar e processar stop words
lemmatizer = Lemmatizer()
stop_words = set(stopwords.words('english'))
processed_stop_words = set()

for word in stop_words:
    processed_stop_words.update(lemmatizer(word))

print(f'‚úÖ Pr√©-processamento conclu√≠do!')
print(f'üìä Stopwords processadas: {len(processed_stop_words)}')

In [None]:
# üî¢ Vetoriza√ß√£o do texto
MAX_VOCAB_SIZE = 40000

vectorizer = CountVectorizer(
    tokenizer=Lemmatizer(),
    stop_words=list(processed_stop_words),
    max_features=MAX_VOCAB_SIZE
)

data = vectorizer.fit_transform(clean_corpus)

print(f'‚úÖ Vetoriza√ß√£o conclu√≠da!')
print(f'üìä Shape da matriz: {data.shape}')

## Modelagem de T√≥picos com LDA

O **Latent Dirichlet Allocation (LDA)** √© um modelo n√£o-supervisionado que identifica
t√≥picos ocultos em uma cole√ß√£o de documentos.

Identificando **5 t√≥picos principais** nos discursos dos Bancos Centrais.

In [None]:
# Aplicar LDA
lda = LatentDirichletAllocation(
    n_components=5,
    random_state=1234,
    max_iter=10
)

lda.fit(data)

print('‚úÖ Modelo LDA treinado!')
print('\nüìã Palavras mais frequentes por t√≥pico:')
print('=' * 60)

for idx, topic in enumerate(lda.components_):
    top_words = [vectorizer.get_feature_names_out()[i] for i in topic.argsort()[:-20 - 1:-1]]
    print(f'\nüìù T√≥pico {idx}:')
    print(', '.join(top_words))

In [None]:
#  Visualiza√ß√£o com WordCloud
def plot_wordcloud(model, feature_names, n_words=20):
    for topic_idx, topic in enumerate(model.components_):
        words = [feature_names[i] for i in topic.argsort()[:-n_words - 1:-1]]
        wordcloud = WordCloud(
            width=800,
            height=400,
            background_color='white',
            colormap='viridis'
        ).generate(' '.join(words))
        
        plt.figure(figsize=(10, 5))
        plt.imshow(wordcloud, interpolation='bilinear')
        plt.axis('off')
        plt.title(f'WordCloud - T√≥pico {topic_idx}', fontsize=16)
        plt.tight_layout()
        plt.show()

# Plotar WordClouds
feature_names = vectorizer.get_feature_names_out()
plot_wordcloud(lda, feature_names)

## An√°lise de Sentimentos com VADER

O **VADER (Valence Aware Dictionary and sEntiment Reasoner)** √© uma ferramenta
de an√°lise de sentimentos baseada em l√©xico e regras, especialmente projetada
para an√°lise de sentimentos em m√≠dias sociais.

M√©tricas:
- **Compound**: Score geral de sentimento (-1 a +1)
- **Positivo**: Propor√ß√£o de conte√∫do positivo
- **Negativo**: Propor√ß√£o de conte√∫do negativo
- **Neutro**: Propor√ß√£o de conte√∫do neutro

In [None]:
# Inicializar analisador VADER
sid = SentimentIntensityAnalyzer()

# Fun√ß√£o para calcular sentimento
def sentiment_analysis(text):
    return sid.polarity_scores(text)

# Aplicar an√°lise de sentimentos
print('‚è≥ Aplicando an√°lise de sentimentos (isso pode levar alguns minutos)...')
df['sentiment_scores'] = clean_corpus.apply(lambda x: sentiment_analysis(x))

# Extrair pontua√ß√µes individuais
df['compound'] = df['sentiment_scores'].apply(lambda x: x['compound'])
df['positive'] = df['sentiment_scores'].apply(lambda x: x['pos'])
df['negative'] = df['sentiment_scores'].apply(lambda x: x['neg'])
df['neutral'] = df['sentiment_scores'].apply(lambda x: x['neu'])

print('‚úÖ An√°lise de sentimentos conclu√≠da!')

In [None]:
# üìä Estat√≠sticas de Sentimentos
print('üìà M√©dias dos Sentimentos:')
print('=' * 40)
print(f'Compound Score: {df["compound"].mean():.4f}')
print(f'Positivo: {df["positive"].mean():.4f} ({df["positive"].mean()*100:.1f}%)')
print(f'Negativo: {df["negative"].mean():.4f} ({df["negative"].mean()*100:.1f}%)')
print(f'Neutro: {df["neutral"].mean():.4f} ({df["neutral"].mean()*100:.1f}%)')

# Visualizar distribui√ß√£o
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Compound
sns.histplot(df['compound'], bins=30, kde=True, ax=axes[0, 0], color='purple')
axes[0, 0].set_title('Distribui√ß√£o - Compound Score')
axes[0, 0].set_xlabel('Score')

# Positivo
sns.histplot(df['positive'], bins=30, kde=True, ax=axes[0, 1], color='green')
axes[0, 1].set_title('Distribui√ß√£o - Sentimento Positivo')
axes[0, 1].set_xlabel('Propor√ß√£o')

# Negativo
sns.histplot(df['negative'], bins=30, kde=True, ax=axes[1, 0], color='red')
axes[1, 0].set_title('Distribui√ß√£o - Sentimento Negativo')
axes[1, 0].set_xlabel('Propor√ß√£o')

# Neutro
sns.histplot(df['neutral'], bins=30, kde=True, ax=axes[1, 1], color='gray')
axes[1, 1].set_title('Distribui√ß√£o - Sentimento Neutro')
axes[1, 1].set_xlabel('Propor√ß√£o')

plt.tight_layout()
plt.show()

In [None]:
# üéØ Identificar t√≥pico dominante para cada documento
topic_assignments = lda.transform(data)
df['dominant_topic'] = topic_assignments.argmax(axis=1)

# Calcular m√©dias de sentimentos por t√≥pico
topic_sentiment = df.groupby('dominant_topic').agg({
    'compound': 'mean',
    'positive': 'mean',
    'negative': 'mean',
    'neutral': 'mean'
}).reset_index()

# Visualizar
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

metrics = [('compound', 'Compound Score'), ('positive', 'Positivo'),
           ('negative', 'Negativo'), ('neutral', 'Neutro')]

for idx, (col, title) in enumerate(metrics):
    row, col_idx = idx // 2, idx % 2
    sns.barplot(x='dominant_topic', y=col, data=topic_sentiment,
                palette='viridis', ax=axes[row, col_idx])
    axes[row, col_idx].set_title(f'M√©dia - {title} por T√≥pico')
    axes[row, col_idx].set_xlabel('T√≥pico Dominante')

plt.tight_layout()
plt.show()

print('\nüìä Tabela - M√©dias por T√≥pico:')
print(topic_sentiment.round(4))

## ü¶ÖüïäÔ∏è Score Hawkish-Dovish

O score Hawkish-Dovish mede o tom dos discursos dos Bancos Centrais:

- **ü¶Ö Hawkish (+1)**: Banco Central comprometido com metas, decis√µes previs√≠veis
  - Palavras: high, strong, increase, fast, accelerate, boom, expansion...

- **üïäÔ∏è Dovish (-1)**: Banco Central discricion√°rio, decis√µes imprevis√≠veis
  - Palavras: low, weak, decrease, slow, recession, decline, contraction...

**F√≥rmula:**
\[\text{tone}_{i,t} = \frac{\text{hawkish}_{i,t} - \text{dovish}_{i,t}}{\text{hawkish}_{i,t} + \text{dovish}_{i,t}}\]

In [None]:
# Definir listas de palavras-chave
hawkish_keywords = [
    'high', 'strong', 'increase', 'fast', 'accelerate', 'better', 'boom', 'emerg', 'expansion',
    'favo(u)rabl', 'firm', 'great', 'improv', 'increas', 'larger', 'positive', 'rais', 'risk',
    'stabiliz', 'stable', 'strengthen', 'strong', 'subdued', 'unsustainable', 'upside',
    'upswing', 'upturn', 'upward'
]

dovish_keywords = [
    'low', 'weak', 'decreas', 'slow', 'collapse', 'contraction', 'dampen', 'decelerate',
    'decline', 'decreas', 'delay', 'depression', 'destabiliz', 'deteriorat', 'difficult',
    'diminish', 'disappear', 'downside', 'downturn', 'downward', 'fall', 'fragile', 'low',
    'negative', 'poor', 'recession', 'slow', 'sluggish', 'small', 'struggling', 'unstable',
    'unfavo(u)rabl', 'wors'
]

# Fun√ß√£o para contar palavras-chave
def count_keywords(text, keywords):
    count = 0
    for keyword in keywords:
        count += len(re.findall(keyword, text, re.IGNORECASE))
    return count

# Aplicar contagem
df['hawkish_count'] = clean_corpus.apply(lambda x: count_keywords(x, hawkish_keywords))
df['dovish_count'] = clean_corpus.apply(lambda x: count_keywords(x, dovish_keywords))

# Calcular √≠ndice de tom
def calculate_tone(hawkish_count, dovish_count):
    if hawkish_count + dovish_count == 0:
        return np.nan
    return (hawkish_count - dovish_count) / (hawkish_count + dovish_count)

df['tone'] = df.apply(
    lambda row: calculate_tone(row['hawkish_count'], row['dovish_count']),
    axis=1
)

print('‚úÖ Score Hawkish-Dovish calculado!')
print(f'üìä M√©dia geral do √≠ndice de tom: {df["tone"].mean():.4f}')

In [None]:
# üåç An√°lise do √≠ndice de tom por pa√≠s
tone_by_country = df.groupby('country')['tone'].agg(['mean', 'count']).reset_index()
tone_by_country.columns = ['country', 'mean_tone', 'count']
tone_by_country = tone_by_country.sort_values('mean_tone', ascending=False)

print('üìä M√©dia do √çndice de Tom por Pa√≠s:')
print('=' * 50)
for _, row in tone_by_country.iterrows():
    print(f"{row['country']:<20} {row['mean_tone']:>8.4f}  ({row['count']:>4} discursos)")

# Visualiza√ß√£o
plt.figure(figsize=(12, 6))
sns.barplot(x='country', y='mean_tone', data=tone_by_country, palette='RdYlGn')
plt.title('ü¶ÖüïäÔ∏è M√©dia do √çndice de Tom por Pa√≠s', fontsize=14)
plt.xlabel('Pa√≠s')
plt.ylabel('√çndice de Tom M√©dio')
plt.xticks(rotation=45, ha='right')
plt.axhline(y=0, color='black', linestyle='--', alpha=0.5)
plt.tight_layout()
plt.show()

In [None]:
# üìä Distribui√ß√£o do √≠ndice de tom por pa√≠s
g = sns.FacetGrid(df, col='country', col_wrap=4, height=3, aspect=1.2)
g.map(sns.histplot, 'tone', bins=30, kde=True, color='steelblue')
g.set_titles('{col_name}')
g.set_axis_labels('√çndice de Tom', 'Frequ√™ncia')
g.fig.suptitle('Distribui√ß√£o do √çndice de Tom por Pa√≠s', y=1.02, fontsize=14)
plt.tight_layout()
plt.show()

In [None]:
# üìà S√©rie temporal do √≠ndice de tom (a partir de 2020)
df_recent = df[df['year'] >= 2020].copy()

temporal_tone = df_recent.groupby('year_month')['tone'].mean().reset_index()

plt.figure(figsize=(14, 6))
sns.lineplot(x='year_month', y='tone', data=temporal_tone, marker='o', linewidth=2)
plt.title('üìà Varia√ß√£o do √çndice de Tom ao Longo do Tempo (2020+)', fontsize=14)
plt.xlabel('Per√≠odo (Ano-M√™s)')
plt.ylabel('√çndice de Tom M√©dio')
plt.xticks(rotation=45, ha='right')
plt.axhline(y=0, color='red', linestyle='--', alpha=0.5, label='Neutro')
plt.legend()
plt.tight_layout()
plt.show()

In [None]:
# üìà Evolu√ß√£o do √≠ndice de tom por pa√≠s (1990+)
df_filtered = df[df['year'] >= 1990].copy()

tone_by_year_country = df_filtered.groupby(['year', 'country'])['tone'].mean().unstack()

plt.figure(figsize=(14, 8))
tone_by_year_country.plot(marker='o', linewidth=2, alpha=0.8)
plt.title('üìà Evolu√ß√£o do √çndice de Tom por Pa√≠s (1990-2023)', fontsize=14)
plt.xlabel('Ano')
plt.ylabel('Tone M√©dio')
plt.xticks(rotation=45)
plt.legend(title='Pa√≠s', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.axhline(y=0, color='black', linestyle='--', alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# üì¶ Boxplot do √≠ndice de tom por pa√≠s
plt.figure(figsize=(14, 6))
sns.boxplot(x='country', y='tone', data=df, palette='Set2')
plt.title('üì¶ Distribui√ß√£o do √çndice de Tom por Pa√≠s', fontsize=14)
plt.xlabel('Pa√≠s')
plt.ylabel('√çndice de Tom')
plt.xticks(rotation=45, ha='right')
plt.axhline(y=0, color='red', linestyle='--', alpha=0.5)
plt.tight_layout()
plt.show()

## Conclus√µes

### Principais Achados:

1. **Sentimentos**: Os discursos dos Bancos Centrais apresentam predominantemente
   car√°ter **neutro** (~80%), com inclina√ß√£o positiva (~13%) maior que negativa (~6%)

2. **T√≥picos**: Os t√≥picos mais relevantes para interpreta√ß√£o econ√¥mica incluem:
   - Pol√≠tica monet√°ria e taxas de juros
   - Infla√ß√£o e estabilidade de pre√ßos
   - Crescimento econ√¥mico

3. **√çndice de Tom**: A m√©dia geral est√° pr√≥xima de zero, indicando neutralidade,
   com leve tend√™ncia hawkish na maioria dos pa√≠ses

4. **Varia√ß√£o por Pa√≠s**: Diferentes Bancos Centrais apresentam padr√µes distintos
   de comunica√ß√£o, refletindo suas estrat√©gias e contextos econ√¥micos

### Poss√≠veis Melhorias Futuras:
- Aplicar modelos mais avan√ßados (BERT, LSTM)
- Expandir an√°lise para mais idiomas
- Incorporar dados de mercado para valida√ß√£o