<a href="https://colab.research.google.com/github/Gustavo-dev04/Analise-de-dados-de-acoes-com-ia/blob/main/Modelo_IA_Analise_acoes_nvidia.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üìà Treinamento e Previs√£o de Dados Financeiros via Regress√£o Linear com PLN Avan√ßado  

**Autor:** Gustavo Barros  
**Data:** 06/04/2025  
**Vers√£o:** 1.0  

## **üìå Descri√ß√£o**  
Este projeto utiliza **Processamento de Linguagem Natural (PLN)** avan√ßado e modelos de **regress√£o linear** para prever tend√™ncias financeiras (pre√ßos de ativos, indicadores econ√¥micos) a partir de:  
- Dados estruturados (s√©ries temporais financeiras).  
- Dados n√£o estruturados (not√≠cias, relat√≥rios, redes sociais).  

**Objetivos:**  
1. Coletar e processar dados multimodais (num√©ricos + textuais).  
2. Treinar um modelo preditivo h√≠brido (PLN + regress√£o).  
3. Automatizar insights para apoio a decis√µes.  

## **‚öôÔ∏è M√©todos e Ferramentas**  
- **Bibliotecas:** `scikit-learn` (regress√£o), `spaCy`/`NLTK` (PLN), `yfinance`/`Alpha Vantage` (dados financeiros).  
- **IA Generativa:** Uso de *agents* (Deep Seek, Gemini) para otimiza√ß√£o de hiperpar√¢metros e documenta√ß√£o.  

## **‚ö†Ô∏è Observa√ß√µes**  
- Os dados podem conter ru√≠do (alta volatilidade financeira).  
- O projeto foi acelerado com aux√≠lio de ferramentas de IA (GitHub Copilot, Deep Seek).

## **üîù Cr√©ditos de Cursos Utilizados**
1. Cursos de IA:
- Machine Learning (Deeplearning.ai/Stanford Online)
- AI Engineering (IBM)

2. Curso de PNL:
- Processamento Neural de Linguagem Natural em Portugu√™s I (Universidade de S√£o Paulo)

3. Cursos de An√°lise de Dados:
- Data Analytics (Google)
- Advanced Data Analytics (Google)
- Data Analytics Cloud (Google Cloud)

4. Curso de Matem√°tica:
- Mathematics for Machine Learning (Imperial College London)

#**üìö Bibliotecas**
As bibliotecas utilizadas para o processo:

```
# Downloads na interface do google colab
# !python -m textblob.download_corpora  # Dados para an√°lise de sentimentos do TextBlob
# !python -m spacy download en_core_web_sm  # Modelo de NLP em ingl√™s para Spacy
# !python -m nltk.downloader vader_lexicon  # Lexicon para an√°lise de sentimentos VADER
# !pip install yfinance feedparser textblob nltk  # Instala√ß√£o das bibliotecas principais

# Bibliotecas b√°sicas para manipula√ß√£o de dados e visualiza√ß√£o
import numpy as np  # Opera√ß√µes matem√°ticas eficientes
import pandas as pd  # Manipula√ß√£o de dados em DataFrames
import matplotlib.pyplot as plt  # Visualiza√ß√£o de dados
import warnings  # Controle de avisos do sistema
warnings.filterwarnings('ignore')  # Ignorar avisos n√£o cr√≠ticos
import yfinance as yf  # Yahoo Finance API - coleta dados hist√≥ricos de a√ß√µes em tempo real

# Machine Learning e Pr√©-processamento
from sklearn.preprocessing import RobustScaler  # Normaliza√ß√£o robusta a outliers
from sklearn.metrics import (  # M√©tricas de avalia√ß√£o de modelos
    mean_absolute_error, #  Erro Absoluto Medio
    mean_squared_error,  # Erro Quadratico Medio
    r2_score             # Coeficiente de determina√ß√£o
)

# Web Scraping e Coleta de Not√≠cias
import requests  # Requisi√ß√µes HTTP para coletar dados da web
from bs4 import BeautifulSoup  # Parseamento de HTML/XML
import feedparser  # Leitura de feeds RSS/Atom (not√≠cias financeiras)
import re  # Express√µes regulares para limpeza de texto

# Processamento de Linguagem Natural (NLP)
from textblob import TextBlob  # An√°lise de sentimentos b√°sica
from textblob.sentiments import NaiveBayesAnalyzer  # Classificador bayesiano para sentimentos
import nltk  # Natural Language Toolkit
from nltk.sentiment.vader import SentimentIntensityAnalyzer  # An√°lise de sentimentos espec√≠fica para finan√ßas

# Controle de tempo
import time  # Medi√ß√£o de tempo de execu√ß√£o/pausas
from datetime import datetime, timedelta  # Manipula√ß√£o de datas

# Configura√ß√µes
warnings.filterwarnings('ignore')
plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (18, 9)

```






# PAR√ÇMETROS GLOBAIS DE CONFIGURA√á√ÉO




```
SYMBOL = 'NVDA'  # Ticker da a√ß√£o a ser analisada (NVIDIA)
DAYS_TO_FETCH = 365 * 5  # Per√≠odo hist√≥rico (5 anos)
TEST_SIZE = 0.2  # Propor√ß√£o dos dados para teste (20%)
LEARNING_RATE = 0.05  # Taxa de aprendizado para otimiza√ß√£o do modelo
EPOCHS = 10000  # N√∫mero m√°ximo de itera√ß√µes de treinamento
VOLATILITY_WINDOW = 20  # Janela para c√°lculo de volatilidade (20 dias)
REQUEST_TIMEOUT = 15  # Timeout para requisi√ß√µes web (segundos)
MIN_NEWS_ARTICLES = 5  # M√≠nimo de not√≠cias para an√°lise v√°lida
MAX_NEWS_ARTICLES = 10  # M√°ximo de not√≠cias a serem processadas
```


# CLASSE DE AN√ÅLISE DE NOT√çCIAS



```
class GoogleNewsAnalyzer:
    def __init__(self):
        """Inicializa o analisador de not√≠cias com configura√ß√µes padr√£o"""
        self.session = requests.Session()  # Session para conex√µes HTTP persistentes
        self.session.timeout = REQUEST_TIMEOUT  # Configura timeout
        self.vader = SentimentIntensityAnalyzer()  # Analisador de sentimentos VADER

        # Configura√ß√£o da URL do RSS do Google News para o s√≠mbolo
        self.rss_url = f"https://news.google.com/rss/search?q={SYMBOL}+stock&hl=en-US&gl=US&ceid=US:en"

        # Dicion√°rio de termos financeiros para an√°lise complementar
        self.finance_terms = {
            'positive': ['bullish', 'upgrade', 'beat', 'growth', 'raise', 'buy', 'outperform'],
            'negative': ['bearish', 'downgrade', 'miss', 'cut', 'sell', 'underperform']
        }

    def fetch_google_news(self):
        """Coleta not√≠cias do Google News RSS"""
        articles = []
        try:
            # Faz a requisi√ß√£o e parseia o feed RSS
            response = self.session.get(self.rss_url, timeout=REQUEST_TIMEOUT)
            feed = feedparser.parse(response.text)

            # Processa cada entrada no feed
            for entry in feed.entries[:MAX_NEWS_ARTICLES]:
                # Tenta obter a data de publica√ß√£o (usa data atual como fallback)
                pub_date = datetime.now()
                if hasattr(entry, 'published_parsed'):
                    pub_date = datetime(*entry.published_parsed[:6])

                # Armazena informa√ß√µes relevantes da not√≠cia
                articles.append({
                    'title': entry.title,  # T√≠tulo da not√≠cia
                    'source': entry.source.title if hasattr(entry, 'source') else 'Google News',  # Fonte
                    'date': pub_date,  # Data de publica√ß√£o
                    'url': entry.link  # URL original
                })

        except Exception as e:
            print(f"‚ö†Ô∏è Erro ao acessar Google News: {str(e)}")

        return articles

    def _get_fallback_news(self):
        """Gera not√≠cias fict√≠cias como fallback quando h√° poucas not√≠cias reais"""
        trends = ['high', 'growth', 'drop', 'volatile', 'steady']  # Termos de tend√™ncia
        return [{
            'title': f"{SYMBOL} shows {np.random.choice(trends)} amid market {'gains' if np.random.random() > 0.5 else 'losses'}",
            'source': 'Market Trend',
            'date': datetime.now(),
            'url': ''
        } for _ in range(MIN_NEWS_ARTICLES)]

    def analyze_with_vader(self, text):
        """Analisa sentimento usando VADER (especializado para finan√ßas)"""
        return self.vader.polarity_scores(text)['compound']  # Retorna score composto (-1 a 1)

    def analyze_with_textblob(self, text):
        """Analisa sentimento usando TextBlob com NaiveBayes"""
        analysis = TextBlob(text, analyzer=NaiveBayesAnalyzer())
        return analysis.sentiment.p_pos - analysis.sentiment.p_neg  # Diferen√ßa de probabilidades

    def analyze_finance_terms(self, text):
        """Analisa termos financeiros espec√≠ficos no texto"""
        score = 0
        text_lower = text.lower()
        # Pontua termos positivos (+0.2 cada)
        for term in self.finance_terms['positive']:
            if term in text_lower:
                score += 0.2
        # Penaliza termos negativos (-0.3 cada)
        for term in self.finance_terms['negative']:
            if term in text_lower:
                score -= 0.3
        return score

    def analyze_articles(self, articles):
        """Executa an√°lise completa do conjunto de not√≠cias"""
        # Complementa com not√≠cias fict√≠cias se necess√°rio
        if len(articles) < MIN_NEWS_ARTICLES:
            print(f"‚ö†Ô∏è Poucas not√≠cias ({len(articles)}), complementando com an√°lise de tend√™ncia...")
            articles.extend(self._get_fallback_news())

        sentiment_results = []
        print("\nüì∞ An√°lise Avan√ßada de Not√≠cias (Google News):")

        # Processa cada artigo
        for article in articles[:MAX_NEWS_ARTICLES]:
            text = article['title']

            # Combina m√∫ltiplos m√©todos de an√°lise
            vader_score = self.analyze_with_vader(text)  # 50% peso
            blob_score = self.analyze_with_textblob(text)  # 30% peso
            finance_score = self.analyze_finance_terms(text)  # 20% peso

            # Score combinado ponderado
            combined_score = (vader_score * 0.5 + blob_score * 0.3 + finance_score * 0.2)

            # Classifica√ß√£o por faixas de score
            if combined_score > 0.2:
                emoji = "üöÄ"
                sentiment = "FORTEMENTE POSITIVO"
            elif combined_score > 0.05:
                emoji = "üìà"
                sentiment = "POSITIVO"
            elif combined_score < -0.2:
                emoji = "üí•"
                sentiment = "FORTEMENTE NEGATIVO"
            elif combined_score < -0.05:
                emoji = "üìâ"
                sentiment = "NEGATIVO"
            else:
                emoji = "‚ûñ"
                sentiment = "NEUTRO"

            # Exibe resultado da an√°lise
            print(f"{emoji} [{sentiment}] {article['title'][:60]}... ({article['source']})")
            sentiment_results.append(combined_score)

        # Calcula m√©dia de sentimentos
        avg_sentiment = np.mean(sentiment_results) if sentiment_results else 0
        print(f"\nüîç Sentimento M√©dio: {avg_sentiment:.2f} (Escala: -1 a 1)")

        # An√°lise de tend√™ncia temporal (se houver dados suficientes)
        trend = 0
        if len(articles) > 3 and all('date' in a for a in articles):
            sorted_articles = sorted(articles, key=lambda x: x['date'])
            early_scores = [self.analyze_with_vader(a['title']) for a in sorted_articles[:3]]
            late_scores = [self.analyze_with_vader(a['title']) for a in sorted_articles[-3:]]
            trend = np.mean(late_scores) - np.mean(early_scores)
            print(f"üìÖ Tend√™ncia Temporal: {'Melhorando' if trend > 0 else 'Piorando' if trend < 0 else 'Est√°vel'}")

        return {
            'sentiment': avg_sentiment,  # Sentimento m√©dio
            'trend': trend,  # Dire√ß√£o da tend√™ncia
            'recent_impact': avg_sentiment * 1.5  # Impacto ponderado
        }

```



# CLASSE PRINCIPAL DE PREVIS√ÉO


```
class EnhancedStockPredictor:
    def __init__(self):
        """Inicializa o preditor com configura√ß√µes e modelos"""
        self.learning_rate = LEARNING_RATE  # Taxa de aprendizado
        self.epochs = EPOCHS  # M√°ximo de √©pocas
        self.weights = None  # Pesos do modelo (ser√£o aprendidos)
        self.bias = None  # Vi√©s do modelo (ser√° aprendido)
        self.scaler = RobustScaler()  # Normalizador robusto a outliers
        self.news_analyzer = GoogleNewsAnalyzer()  # Analisador de not√≠cias
        # Colunas de features usadas no modelo
        self.feature_cols = ['close', 'volume', 'ma_5', 'ma_20', 'volatility', 'momentum', 'news_sentiment', 'news_trend']

    def prepare_data(self, df):
        """Prepara os dados para treinamento"""
        try:
            # Feature Engineering - cria novas vari√°veis explicativas
            df['returns'] = df['close'].pct_change()  # Retornos di√°rios
            df['ma_5'] = df['close'].rolling(5).mean()  # M√©dia m√≥vel 5 dias
            df['ma_20'] = df['close'].rolling(20).mean()  # M√©dia m√≥vel 20 dias
            df['volatility'] = df['returns'].rolling(VOLATILITY_WINDOW).std()  # Volatilidade
            df['momentum'] = df['close'] - df['close'].shift(5)  # Momentum 5 dias

            # Adiciona dados de sentimento de not√≠cias
            articles = self.news_analyzer.fetch_google_news()
            news_impact = self.news_analyzer.analyze_articles(articles)
            df['news_sentiment'] = news_impact['sentiment']  # Sentimento m√©dio
            df['news_trend'] = news_impact['trend']  # Tend√™ncia temporal

            # Remove valores NA gerados pelos c√°lculos
            df = df.dropna()

            # Separa features (X) e target (y)
            X = df[self.feature_cols]
            y = df['close'].shift(-1).dropna()  # Pre√ßo do pr√≥ximo dia
            X = X.iloc[:-1]  # Ajusta para coincidir com y

            # Normaliza as features
            X_scaled = self.scaler.fit_transform(X)

            # Divide em conjuntos de treino e teste
            split_idx = int(len(X) * (1 - TEST_SIZE))
            X_train, X_test = X_scaled[:split_idx], X_scaled[split_idx:]
            y_train, y_test = y[:split_idx], y[split_idx:]

            return X_train, X_test, y_train, y_test, df

        except Exception as e:
            print(f"Erro na prepara√ß√£o: {str(e)}")
            # Fallback: usa apenas features t√©cnicas se houver erro com not√≠cias
            self.feature_cols = ['close', 'volume', 'ma_5', 'ma_20', 'volatility', 'momentum']
            return self.prepare_data(df)

    def train(self, X, y):
        """Treina o modelo de regress√£o linear com gradiente descendente"""
        n_samples, n_features = X.shape
        # Inicializa pesos com pequenos valores aleat√≥rios
        self.weights = np.random.randn(n_features) * 0.01
        self.bias = 0
        best_error = float('inf')  # Para early stopping

        for epoch in range(self.epochs):
            # Predi√ß√µes atuais
            y_pred = np.dot(X, self.weights) + self.bias
            # C√°lculo do erro com regulariza√ß√£o L2
            error = np.mean((y_pred - y)**2) + 0.001 * np.sum(self.weights**2)

            # Early stopping se n√£o houver melhoria significativa
            if epoch > 100 and error > best_error * 0.999:
                print(f"‚úÖ Converg√™ncia na √©poca {epoch}")
                break

            if error < best_error:
                best_error = error

            # C√°lculo dos gradientes
            dw = (1/n_samples) * np.dot(X.T, (y_pred - y)) + (0.002 * self.weights)
            db = (1/n_samples) * np.sum(y_pred - y)          

            # Atualiza√ß√£o dos par√¢metros
            self.weights -= self.learning_rate * dw
            self.bias -= self.learning_rate * db

            # Log peri√≥dico
            if epoch % 100 == 0:
                print(f"√âpoca {epoch}: MSE = {error:.4f}")

        return best_error

    def predict(self, X):
        """Faz previs√µes usando o modelo treinado"""
        return np.dot(X, self.weights) + self.bias

    def evaluate(self, X_test, y_test):
        """Avalia o modelo com m√©tricas e gr√°ficos"""
        y_pred = self.predict(X_test)

        # C√°lculo das m√©tricas
        mae = mean_absolute_error(y_test, y_pred)  # Erro absoluto m√©dio
        rmse = np.sqrt(mean_squared_error(y_test, y_pred))  # Raiz do erro quadr√°tico
        r2 = r2_score(y_test, y_pred)  # Coeficiente de determina√ß√£o

        # Plot dos resultados
        plt.figure(figsize=(18, 9))
        plt.plot(y_test.values, label='Real', linewidth=2)
        plt.plot(y_pred, label='Previsto', linestyle='--')
        plt.title(f'Desempenho do Modelo (MAE: ${mae:.2f}, R¬≤: {r2:.2%})')
        plt.legend()
        plt.grid(alpha=0.3)
        plt.show()

        return {'mae': mae, 'rmse': rmse, 'r2': r2}

    def forecast(self, df, days=5):
        """Gera previs√µes para os pr√≥ximos dias"""
        try:
            forecasts = []
            last_row = df.iloc[-1][self.feature_cols].values.reshape(1, -1)

            for _ in range(days):
                # Prepara dados para previs√£o
                X_scaled = self.scaler.transform(last_row)
                pred = self.predict(X_scaled)[0]
                forecasts.append(pred)

                # Atualiza features para pr√≥xima previs√£o
                new_row = last_row.copy()
                new_row[0][0] = pred  # Atualiza pre√ßo
                # Atualiza m√©dias m√≥veis
                new_row[0][2] = (new_row[0][0] + last_row[0][0] * 4) / 5  # MA5
                new_row[0][3] = (new_row[0][0] + last_row[0][0] * 19) / 20  # MA20
                last_row = new_row

            # Prepara resultado
            dates = [df.index[-1] + timedelta(days=i+1) for i in range(days)]
            forecast_df = pd.DataFrame({'date': dates, 'forecast': forecasts})
            forecast_df.set_index('date', inplace=True)

            # Plot das previs√µes
            plt.figure(figsize=(18, 9))
            plt.plot(df['close'].iloc[-30:], label='Hist√≥rico', marker='o')
            plt.plot(forecast_df['forecast'], label='Previs√£o', color='red', linestyle='--', marker='o')
            plt.title(f'Previs√£o para {SYMBOL} - Pr√≥ximos {days} dias')
            plt.legend()
            plt.grid(alpha=0.3)
            plt.show()

            return forecast_df

        except Exception as e:
            print(f"Erro na previs√£o: {str(e)}")
            return None

```

# FUN√á√ÉO PRINCIPAL



```
def main():
    """Fluxo principal de execu√ß√£o"""
    print(f"\n{'='*50}")
    print(f"=== AN√ÅLISE DE {SYMBOL} COM NLP NO GOOGLE NEWS ===")
    print(f"{'='*50}\n")

    try:
        # 1. Baixa dados hist√≥ricos do Yahoo Finance
        print("üìä Baixando dados hist√≥ricos...")
        start_time = time.time()
        df = yf.download(SYMBOL, period=f"{DAYS_TO_FETCH//365}y", progress=False)
        df = df[['Close', 'Volume']]  # Mant√©m apenas pre√ßo e volume
        df.columns = ['close', 'volume']  # Renomeia colunas
        print(f"‚úÖ Dados baixados - {len(df)} dias | √öltimo pre√ßo: ${df['close'].iloc[-1]:.2f}")

        # 2. Prepara dados com an√°lise de not√≠cias
        print("\nüß† Preparando dados com an√°lise de not√≠cias...")
        predictor = EnhancedStockPredictor()
        X_train, X_test, y_train, y_test, df_processed = predictor.prepare_data(df)
        print(f"‚úÖ Dados preparados - {len(X_train)} treino, {len(X_test)} teste")

        # 3. Treina modelo
        print("\nüîÆ Treinando modelo...")
        train_start = time.time()
        final_error = predictor.train(X_train, y_train)
        print(f"‚úÖ Treino conclu√≠do em {time.time()-train_start:.1f}s (MSE final: {final_error:.4f})")

        # 4. Avalia√ß√£o do modelo
        print("\nüìä Avaliando modelo...")
        metrics = predictor.evaluate(X_test, y_test)
        print(f"\nüîç Resultados:")
        print(f"- MAE: ${metrics['mae']:.2f}")  # Erro m√©dio em d√≥lares
        print(f"- RMSE: ${metrics['rmse']:.2f}")  # Erro quadr√°tico em d√≥lares
        print(f"- R¬≤: {metrics['r2']:.2%}")  # Porcentagem de vari√¢ncia explicada

        # 5. Gera previs√µes
        print("\nüîÆ Gerando previs√µes...")
        forecast = predictor.forecast(df_processed)
        if forecast is not None:
            print("\nüìà Previs√µes para os pr√≥ximos dias:")
            print(forecast.round(2))  # Pre√ßos com 2 casas decimais

    except KeyboardInterrupt:
        print("\n‚èπÔ∏è Execu√ß√£o interrompida pelo usu√°rio")
    except Exception as e:
        print(f"\n‚ùå Erro: {str(e)}")
    finally:
        print(f"\n‚è±Ô∏è Tempo total: {time.time()-start_time:.1f} segundos")

if __name__ == "__main__":
    main()
```


