# üì∞ An√°lisis de Sentimiento con APIs REALES - Miner√≠a Arequipa

## Objetivo
Obtener datos de sentimiento 100% REALES utilizando APIs gratuitas:
- **NewsAPI**: Noticias de medios (100 requests/d√≠a, 100 art√≠culos por request)
- **Alpha Vantage**: Sentimiento de noticias financieras (25 requests/d√≠a, 1000 noticias por request)
- **Reddit API (PRAW)**: Sentimiento de comunidades (Ilimitado con rate limiting)
- **Twitter API v2**: Tweets sobre miner√≠a (Tier Free: 500,000 tweets/mes)

## Datos de Precios REALES
- Yahoo Finance (yfinance): Oro, Plata, Cobre

---

## 1. Instalaci√≥n de Librer√≠as

```bash
pip install newsapi-python alpha-vantage praw tweepy yfinance pandas numpy matplotlib seaborn textblob vaderSentiment streamlit plotly
```

In [None]:
# Importar librer√≠as
import pandas as pd
import numpy as np
import yfinance as yf
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

# APIs de Noticias y Sentimiento
try:
    from newsapi import NewsApiClient
    NEWSAPI_AVAILABLE = True
except ImportError:
    print("‚ö†Ô∏è NewsAPI no instalada: pip install newsapi-python")
    NEWSAPI_AVAILABLE = False

try:
    from alpha_vantage.alphavantage import AlphaVantage
    ALPHAVANTAGE_AVAILABLE = True
except ImportError:
    print("‚ö†Ô∏è Alpha Vantage no instalada: pip install alpha-vantage")
    ALPHAVANTAGE_AVAILABLE = False

try:
    import praw
    REDDIT_AVAILABLE = True
except ImportError:
    print("‚ö†Ô∏è PRAW (Reddit) no instalada: pip install praw")
    REDDIT_AVAILABLE = False

try:
    import tweepy
    TWITTER_AVAILABLE = True
except ImportError:
    print("‚ö†Ô∏è Tweepy (Twitter) no instalada: pip install tweepy")
    TWITTER_AVAILABLE = False

# An√°lisis de Sentimiento
try:
    from textblob import TextBlob
    from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
    vader = SentimentIntensityAnalyzer()
    SENTIMENT_AVAILABLE = True
except ImportError:
    print("‚ö†Ô∏è TextBlob/VADER no instaladas: pip install textblob vaderSentiment")
    SENTIMENT_AVAILABLE = False

print("‚úÖ Librer√≠as cargadas")
print(f"NewsAPI: {NEWSAPI_AVAILABLE}")
print(f"Alpha Vantage: {ALPHAVANTAGE_AVAILABLE}")
print(f"Reddit: {REDDIT_AVAILABLE}")
print(f"Twitter: {TWITTER_AVAILABLE}")
print(f"Sentiment Analysis: {SENTIMENT_AVAILABLE}")

## 2. Configuraci√≥n de API Keys

### C√≥mo Obtener API Keys GRATIS:

#### NewsAPI (100 requests/d√≠a)
1. Visita: https://newsapi.org/register
2. Reg√≠strate con email
3. Copia tu API Key

#### Alpha Vantage (25 requests/d√≠a, 1000 noticias por request)
1. Visita: https://www.alphavantage.co/support/#api-key
2. Ingresa tu email
3. Copia tu API Key

#### Reddit API (PRAW) - Ilimitado
1. Visita: https://www.reddit.com/prefs/apps
2. Click "Create App" o "Create Another App"
3. Tipo: "script"
4. Copia: client_id, client_secret

#### Twitter API v2 (500,000 tweets/mes)
1. Visita: https://developer.twitter.com/en/portal/dashboard
2. Crea un proyecto
3. Copia: Bearer Token

---

In [None]:
# ‚ö†Ô∏è CONFIGURA TUS API KEYS AQU√ç
# NO SUBAS ESTE ARCHIVO CON TUS KEYS A GITHUB (usa .gitignore o variables de entorno)

API_KEYS = {
    # NewsAPI - 100 requests/d√≠a
    'newsapi': 'TU_API_KEY_AQUI',  # https://newsapi.org/register
    
    # Alpha Vantage - 25 requests/d√≠a, 1000 noticias por request
    'alphavantage': 'TU_API_KEY_AQUI',  # https://www.alphavantage.co/support/#api-key
    
    # Reddit (PRAW) - Ilimitado con rate limiting
    'reddit': {
        'client_id': 'TU_CLIENT_ID',
        'client_secret': 'TU_CLIENT_SECRET',
        'user_agent': 'ArequipaMiningAnalysis/1.0'
    },
    
    # Twitter API v2 - 500,000 tweets/mes
    'twitter_bearer': 'TU_BEARER_TOKEN'  # https://developer.twitter.com/
}

print("‚ö†Ô∏è Recuerda configurar tus API keys antes de ejecutar")
print("üí° Tip: Usa variables de entorno para mayor seguridad")
print("   import os")
print("   NEWSAPI_KEY = os.getenv('NEWSAPI_KEY')")

## 3. NewsAPI - Noticias de Medios Peruanos

**L√≠mites Tier FREE:**
- 100 requests por d√≠a
- 100 art√≠culos por request
- Total: 10,000 art√≠culos/d√≠a
- Solo √∫ltimos 30 d√≠as

**Fuentes Peruanas:**
- Gesti√≥n.pe
- El Comercio
- La Rep√∫blica
- Correo (Arequipa)
- RPP Noticias

In [None]:
def obtener_noticias_newsapi(query, days_back=30, max_articles=100):
    """
    Obtener noticias de NewsAPI
    
    Args:
        query: Palabras clave (ej: 'miner√≠a Arequipa')
        days_back: D√≠as hacia atr√°s (m√°x 30 en tier free)
        max_articles: Art√≠culos por request (m√°x 100)
    
    Returns:
        DataFrame con noticias y sentimiento
    """
    if not NEWSAPI_AVAILABLE:
        print("‚ùå NewsAPI no disponible")
        return pd.DataFrame()
    
    if API_KEYS['newsapi'] == 'TU_API_KEY_AQUI':
        print("‚ö†Ô∏è Configura tu API key de NewsAPI primero")
        return pd.DataFrame()
    
    try:
        newsapi = NewsApiClient(api_key=API_KEYS['newsapi'])
        
        # Fecha l√≠mite (√∫ltimos N d√≠as)
        fecha_desde = (datetime.now() - timedelta(days=days_back)).strftime('%Y-%m-%d')
        
        # Obtener noticias
        print(f"üì∞ Buscando noticias: '{query}' desde {fecha_desde}...")
        
        response = newsapi.get_everything(
            q=query,
            language='es',
            from_param=fecha_desde,
            sort_by='publishedAt',
            page_size=max_articles
        )
        
        articulos = response['articles']
        
        if len(articulos) == 0:
            print("‚ö†Ô∏è No se encontraron art√≠culos")
            return pd.DataFrame()
        
        # Procesar noticias
        noticias_procesadas = []
        
        for art in articulos:
            titulo = art['title'] or ''
            descripcion = art['description'] or ''
            contenido = art['content'] or ''
            texto_completo = f"{titulo}. {descripcion}. {contenido}"
            
            # An√°lisis de sentimiento con VADER (mejor para espa√±ol que TextBlob)
            if SENTIMENT_AVAILABLE:
                scores = vader.polarity_scores(texto_completo)
                sentimiento = scores['compound']  # -1 a +1
                
                if sentimiento >= 0.05:
                    label = 'Positivo'
                elif sentimiento <= -0.05:
                    label = 'Negativo'
                else:
                    label = 'Neutral'
            else:
                sentimiento = 0.0
                label = 'Neutral'
            
            noticias_procesadas.append({
                'fecha': pd.to_datetime(art['publishedAt']),
                'fuente': art['source']['name'],
                'titulo': titulo,
                'descripcion': descripcion,
                'url': art['url'],
                'sentimiento_score': sentimiento,
                'sentimiento_label': label,
                'api': 'NewsAPI'
            })
        
        df = pd.DataFrame(noticias_procesadas)
        print(f"‚úÖ Obtenidos {len(df)} art√≠culos de NewsAPI")
        print(f"   Positivos: {(df['sentimiento_label']=='Positivo').sum()}")
        print(f"   Negativos: {(df['sentimiento_label']=='Negativo').sum()}")
        print(f"   Neutrales: {(df['sentimiento_label']=='Neutral').sum()}")
        
        return df
    
    except Exception as e:
        print(f"‚ùå Error en NewsAPI: {str(e)}")
        return pd.DataFrame()

# Ejemplo de uso (descomenta cuando tengas tu API key)
# df_newsapi = obtener_noticias_newsapi('miner√≠a Arequipa', days_back=30, max_articles=100)

## 4. Alpha Vantage - Sentimiento de Noticias Financieras

**L√≠mites Tier FREE:**
- 25 requests por d√≠a
- 1000 noticias por request (con &limit=1000)
- Total: 25,000 noticias/d√≠a
- Incluye sentiment_score y sentiment_label (Bullish/Bearish/Neutral)

**Ventaja:** Ya viene con an√°lisis de sentimiento integrado con IA

In [None]:
def obtener_noticias_alphavantage(tickers=['GOLD', 'SILVER', 'COPPER'], limit=1000):
    """
    Obtener noticias con sentimiento de Alpha Vantage
    
    Args:
        tickers: Lista de tickers (ej: ['GOLD', 'SILVER'])
        limit: N√∫mero de noticias (m√°x 1000 en tier free)
    
    Returns:
        DataFrame con noticias y sentimiento
    """
    if API_KEYS['alphavantage'] == 'TU_API_KEY_AQUI':
        print("‚ö†Ô∏è Configura tu API key de Alpha Vantage primero")
        return pd.DataFrame()
    
    try:
        import requests
        
        # Construir tickers query
        tickers_str = ','.join(tickers)
        
        # URL del endpoint
        url = f"https://www.alphavantage.co/query"
        params = {
            'function': 'NEWS_SENTIMENT',
            'tickers': tickers_str,
            'limit': limit,
            'apikey': API_KEYS['alphavantage']
        }
        
        print(f"üì∞ Obteniendo noticias de Alpha Vantage para: {tickers_str}...")
        print(f"   L√≠mite: {limit} noticias")
        
        response = requests.get(url, params=params)
        data = response.json()
        
        if 'feed' not in data:
            print(f"‚ùå Error: {data.get('Note', 'Error desconocido')}")
            return pd.DataFrame()
        
        noticias = data['feed']
        
        if len(noticias) == 0:
            print("‚ö†Ô∏è No se encontraron noticias")
            return pd.DataFrame()
        
        # Procesar noticias
        noticias_procesadas = []
        
        for noticia in noticias:
            # Sentimiento general del art√≠culo
            sentimiento_score = float(noticia.get('overall_sentiment_score', 0))
            sentimiento_label = noticia.get('overall_sentiment_label', 'Neutral')
            
            # Sentimiento espec√≠fico por ticker
            ticker_sentiments = noticia.get('ticker_sentiment', [])
            
            for ticker_data in ticker_sentiments:
                ticker = ticker_data.get('ticker', '')
                if ticker.upper() in [t.upper() for t in tickers]:
                    ticker_score = float(ticker_data.get('ticker_sentiment_score', 0))
                    ticker_label = ticker_data.get('ticker_sentiment_label', 'Neutral')
                    
                    noticias_procesadas.append({
                        'fecha': pd.to_datetime(noticia['time_published']),
                        'fuente': noticia['source'],
                        'titulo': noticia['title'],
                        'url': noticia['url'],
                        'ticker': ticker,
                        'sentimiento_score': ticker_score,
                        'sentimiento_label': ticker_label,
                        'sentimiento_general': sentimiento_score,
                        'api': 'AlphaVantage'
                    })
        
        df = pd.DataFrame(noticias_procesadas)
        
        if len(df) > 0:
            print(f"‚úÖ Obtenidos {len(df)} an√°lisis de sentimiento")
            print(f"\nDistribuci√≥n por ticker:")
            print(df['ticker'].value_counts())
            print(f"\nSentimiento promedio por ticker:")
            print(df.groupby('ticker')['sentimiento_score'].mean())
        else:
            print("‚ö†Ô∏è No se encontraron noticias para los tickers especificados")
        
        return df
    
    except Exception as e:
        print(f"‚ùå Error en Alpha Vantage: {str(e)}")
        return pd.DataFrame()

# Ejemplo de uso (descomenta cuando tengas tu API key)
# df_alphavantage = obtener_noticias_alphavantage(['GOLD', 'SILVER', 'COPPER'], limit=1000)

## 5. Reddit API (PRAW) - Sentimiento de Comunidades

**L√≠mites Tier FREE:**
- Ilimitado (con rate limiting de 60 requests/minuto)
- Acceso a posts y comentarios

**Subreddits Relevantes:**
- r/Peru
- r/Arequipa
- r/mining
- r/Gold
- r/commodities

In [None]:
def obtener_posts_reddit(subreddits, query, limit=100):
    """
    Obtener posts de Reddit con an√°lisis de sentimiento
    
    Args:
        subreddits: Lista de subreddits (ej: ['Peru', 'mining'])
        query: Palabras clave de b√∫squeda
        limit: N√∫mero de posts por subreddit
    
    Returns:
        DataFrame con posts y sentimiento
    """
    if not REDDIT_AVAILABLE:
        print("‚ùå PRAW (Reddit) no disponible")
        return pd.DataFrame()
    
    if API_KEYS['reddit']['client_id'] == 'TU_CLIENT_ID':
        print("‚ö†Ô∏è Configura tus credenciales de Reddit primero")
        return pd.DataFrame()
    
    try:
        # Conectar a Reddit
        reddit = praw.Reddit(
            client_id=API_KEYS['reddit']['client_id'],
            client_secret=API_KEYS['reddit']['client_secret'],
            user_agent=API_KEYS['reddit']['user_agent']
        )
        
        posts_procesados = []
        
        for subreddit_name in subreddits:
            print(f"üîç Buscando en r/{subreddit_name}: '{query}'...")
            
            subreddit = reddit.subreddit(subreddit_name)
            
            # Buscar posts
            for post in subreddit.search(query, limit=limit, sort='new'):
                texto_completo = f"{post.title}. {post.selftext}"
                
                # An√°lisis de sentimiento
                if SENTIMENT_AVAILABLE:
                    scores = vader.polarity_scores(texto_completo)
                    sentimiento = scores['compound']
                    
                    if sentimiento >= 0.05:
                        label = 'Positivo'
                    elif sentimiento <= -0.05:
                        label = 'Negativo'
                    else:
                        label = 'Neutral'
                else:
                    sentimiento = 0.0
                    label = 'Neutral'
                
                posts_procesados.append({
                    'fecha': pd.to_datetime(post.created_utc, unit='s'),
                    'subreddit': subreddit_name,
                    'titulo': post.title,
                    'texto': post.selftext[:500],  # Primeros 500 caracteres
                    'url': f"https://reddit.com{post.permalink}",
                    'upvotes': post.score,
                    'comentarios': post.num_comments,
                    'sentimiento_score': sentimiento,
                    'sentimiento_label': label,
                    'api': 'Reddit'
                })
        
        df = pd.DataFrame(posts_procesados)
        
        if len(df) > 0:
            print(f"‚úÖ Obtenidos {len(df)} posts de Reddit")
            print(f"\nDistribuci√≥n por subreddit:")
            print(df['subreddit'].value_counts())
            print(f"\nSentimiento:")
            print(df['sentimiento_label'].value_counts())
        else:
            print("‚ö†Ô∏è No se encontraron posts")
        
        return df
    
    except Exception as e:
        print(f"‚ùå Error en Reddit: {str(e)}")
        return pd.DataFrame()

# Ejemplo de uso (descomenta cuando tengas tus credenciales)
# df_reddit = obtener_posts_reddit(
#     subreddits=['Peru', 'Arequipa', 'mining', 'Gold'],
#     query='miner√≠a OR copper OR oro',
#     limit=50
# )

## 6. Twitter API v2 - Tweets en Tiempo Real

**L√≠mites Tier FREE (Essential):**
- 500,000 tweets por mes
- 1 App Project
- B√∫squeda de √∫ltimos 7 d√≠as

**Hashtags Relevantes:**
- #Miner√≠aArequipa
- #CerroVerde
- #Miner√≠aPer√∫
- #Oro
- #Cobre

In [None]:
def obtener_tweets(query, max_results=100):
    """
    Obtener tweets con an√°lisis de sentimiento
    
    Args:
        query: B√∫squeda (ej: 'miner√≠a Arequipa OR #CerroVerde')
        max_results: N√∫mero de tweets (10-100 por request en tier free)
    
    Returns:
        DataFrame con tweets y sentimiento
    """
    if not TWITTER_AVAILABLE:
        print("‚ùå Tweepy (Twitter) no disponible")
        return pd.DataFrame()
    
    if API_KEYS['twitter_bearer'] == 'TU_BEARER_TOKEN':
        print("‚ö†Ô∏è Configura tu Bearer Token de Twitter primero")
        return pd.DataFrame()
    
    try:
        # Conectar a Twitter API v2
        client = tweepy.Client(bearer_token=API_KEYS['twitter_bearer'])
        
        print(f"üê¶ Buscando tweets: '{query}'...")
        print(f"   L√≠mite: {max_results} tweets")
        
        # Buscar tweets (√∫ltimos 7 d√≠as en tier free)
        tweets = client.search_recent_tweets(
            query=query,
            max_results=max_results,
            tweet_fields=['created_at', 'public_metrics', 'lang']
        )
        
        if tweets.data is None:
            print("‚ö†Ô∏è No se encontraron tweets")
            return pd.DataFrame()
        
        tweets_procesados = []
        
        for tweet in tweets.data:
            texto = tweet.text
            
            # An√°lisis de sentimiento
            if SENTIMENT_AVAILABLE:
                scores = vader.polarity_scores(texto)
                sentimiento = scores['compound']
                
                if sentimiento >= 0.05:
                    label = 'Positivo'
                elif sentimiento <= -0.05:
                    label = 'Negativo'
                else:
                    label = 'Neutral'
            else:
                sentimiento = 0.0
                label = 'Neutral'
            
            metrics = tweet.public_metrics
            
            tweets_procesados.append({
                'fecha': tweet.created_at,
                'texto': texto,
                'idioma': tweet.lang,
                'retweets': metrics['retweet_count'],
                'likes': metrics['like_count'],
                'replies': metrics['reply_count'],
                'sentimiento_score': sentimiento,
                'sentimiento_label': label,
                'api': 'Twitter'
            })
        
        df = pd.DataFrame(tweets_procesados)
        
        if len(df) > 0:
            print(f"‚úÖ Obtenidos {len(df)} tweets")
            print(f"\nIdiomas:")
            print(df['idioma'].value_counts())
            print(f"\nSentimiento:")
            print(df['sentimiento_label'].value_counts())
            print(f"\nEngagement promedio:")
            print(f"   Likes: {df['likes'].mean():.1f}")
            print(f"   Retweets: {df['retweets'].mean():.1f}")
        
        return df
    
    except Exception as e:
        print(f"‚ùå Error en Twitter: {str(e)}")
        return pd.DataFrame()

# Ejemplo de uso (descomenta cuando tengas tu Bearer Token)
# df_twitter = obtener_tweets(
#     query='(miner√≠a OR mining) (Arequipa OR Peru) -is:retweet lang:es',
#     max_results=100
# )

## 7. Obtener Precios REALES de Metales (Yahoo Finance)

**100% GRATIS e ILIMITADO**

In [None]:
def obtener_precios_metales(days=90):
    """
    Obtener precios hist√≥ricos de oro, plata y cobre
    
    Args:
        days: D√≠as de historia
    
    Returns:
        DataFrame con precios
    """
    print("üí∞ Obteniendo precios de metales desde Yahoo Finance...")
    
    # Tickers de metales
    tickers = {
        'Oro': 'GC=F',      # Gold Futures
        'Plata': 'SI=F',    # Silver Futures
        'Cobre': 'HG=F'     # Copper Futures
    }
    
    fecha_inicio = (datetime.now() - timedelta(days=days)).strftime('%Y-%m-%d')
    
    precios_data = {}
    
    for metal, ticker in tickers.items():
        try:
            data = yf.download(ticker, start=fecha_inicio, progress=False)
            if not data.empty:
                precios_data[metal] = data['Close']
                print(f"   ‚úÖ {metal}: {len(data)} d√≠as")
        except Exception as e:
            print(f"   ‚ùå {metal}: Error - {str(e)}")
    
    df_precios = pd.DataFrame(precios_data)
    df_precios.index.name = 'fecha'
    
    return df_precios

# Obtener precios
df_precios = obtener_precios_metales(days=90)

if not df_precios.empty:
    print(f"\n‚úÖ Precios obtenidos: {len(df_precios)} d√≠as")
    print(f"\nPrecios actuales:")
    print(df_precios.iloc[-1])
    
    # Visualizaci√≥n
    fig, ax = plt.subplots(figsize=(14, 6))
    
    for metal in df_precios.columns:
        # Normalizar a 100
        precio_norm = (df_precios[metal] / df_precios[metal].iloc[0]) * 100
        ax.plot(precio_norm.index, precio_norm.values, label=metal, linewidth=2)
    
    ax.set_xlabel('Fecha', fontsize=12)
    ax.set_ylabel('Precio Normalizado (Base 100)', fontsize=12)
    ax.set_title('Evoluci√≥n de Precios de Metales (√öltimos 90 d√≠as)', fontsize=14, fontweight='bold')
    ax.legend(fontsize=11)
    ax.grid(True, alpha=0.3)
    plt.tight_layout()
    plt.show()

## 8. DEMO - Obtener Todos los Datos (Si tienes API keys configuradas)

Este ejemplo muestra c√≥mo obtener datos de todas las fuentes y combinarlos

In [None]:
def obtener_datos_completos():
    """
    Obtener datos de TODAS las fuentes y combinarlos
    """
    print("="*70)
    print("üìä OBTENIENDO DATOS DE TODAS LAS FUENTES")
    print("="*70)
    
    datos = {}
    
    # 1. NewsAPI - Noticias de medios
    print("\n1Ô∏è‚É£ NewsAPI - Noticias de Medios")
    print("-" * 50)
    df_newsapi = obtener_noticias_newsapi('miner√≠a Arequipa OR Cerro Verde', days_back=30, max_articles=100)
    if not df_newsapi.empty:
        datos['newsapi'] = df_newsapi
    
    # 2. Alpha Vantage - Sentimiento financiero
    print("\n2Ô∏è‚É£ Alpha Vantage - Sentimiento Financiero")
    print("-" * 50)
    df_alphavantage = obtener_noticias_alphavantage(['GOLD', 'SILVER', 'COPPER'], limit=1000)
    if not df_alphavantage.empty:
        datos['alphavantage'] = df_alphavantage
    
    # 3. Reddit - Sentimiento de comunidades
    print("\n3Ô∏è‚É£ Reddit - Comunidades")
    print("-" * 50)
    df_reddit = obtener_posts_reddit(
        subreddits=['Peru', 'Arequipa', 'mining', 'Gold', 'commodities'],
        query='miner√≠a OR copper OR gold OR Arequipa',
        limit=50
    )
    if not df_reddit.empty:
        datos['reddit'] = df_reddit
    
    # 4. Twitter - Tweets en tiempo real
    print("\n4Ô∏è‚É£ Twitter - Tiempo Real")
    print("-" * 50)
    df_twitter = obtener_tweets(
        query='(miner√≠a OR mining) (Arequipa OR Peru OR #CerroVerde) -is:retweet lang:es',
        max_results=100
    )
    if not df_twitter.empty:
        datos['twitter'] = df_twitter
    
    # 5. Yahoo Finance - Precios de metales
    print("\n5Ô∏è‚É£ Yahoo Finance - Precios")
    print("-" * 50)
    df_precios = obtener_precios_metales(days=90)
    if not df_precios.empty:
        datos['precios'] = df_precios
    
    # Resumen
    print("\n" + "="*70)
    print("üìã RESUMEN DE DATOS OBTENIDOS")
    print("="*70)
    
    total_registros = 0
    
    for fuente, df in datos.items():
        if fuente == 'precios':
            print(f"‚úÖ {fuente.upper()}: {len(df)} d√≠as de precios")
        else:
            print(f"‚úÖ {fuente.upper()}: {len(df)} registros")
            total_registros += len(df)
    
    print(f"\nüéØ Total de datos de sentimiento: {total_registros:,} registros")
    
    return datos

# Ejecutar (descomenta cuando tengas tus API keys configuradas)
# datos_completos = obtener_datos_completos()

## 9. An√°lisis Combinado - Correlaci√≥n Sentimiento vs Precio

Combina los datos de sentimiento con los precios de metales

In [None]:
def analizar_correlacion_sentimiento_precio(datos_completos):
    """
    Analizar correlaci√≥n entre sentimiento y precio
    """
    print("="*70)
    print("üìä AN√ÅLISIS DE CORRELACI√ìN SENTIMIENTO vs PRECIO")
    print("="*70)
    
    # Combinar todos los datos de sentimiento
    dfs_sentimiento = []
    
    for fuente in ['newsapi', 'alphavantage', 'reddit', 'twitter']:
        if fuente in datos_completos and not datos_completos[fuente].empty:
            df = datos_completos[fuente].copy()
            if 'fecha' in df.columns and 'sentimiento_score' in df.columns:
                dfs_sentimiento.append(df[['fecha', 'sentimiento_score', 'api']])
    
    if len(dfs_sentimiento) == 0:
        print("‚ö†Ô∏è No hay datos de sentimiento disponibles")
        return
    
    # Combinar todos los sentimientos
    df_sentimiento_total = pd.concat(dfs_sentimiento, ignore_index=True)
    
    # Agrupar por d√≠a
    df_sentimiento_total['fecha'] = pd.to_datetime(df_sentimiento_total['fecha']).dt.date
    sentimiento_diario = df_sentimiento_total.groupby('fecha')['sentimiento_score'].agg(['mean', 'count']).reset_index()
    sentimiento_diario.columns = ['fecha', 'sentimiento_promedio', 'num_menciones']
    sentimiento_diario['fecha'] = pd.to_datetime(sentimiento_diario['fecha'])
    sentimiento_diario.set_index('fecha', inplace=True)
    
    # Obtener precios
    if 'precios' not in datos_completos or datos_completos['precios'].empty:
        print("‚ö†Ô∏è No hay datos de precios disponibles")
        return
    
    df_precios = datos_completos['precios'].copy()
    
    # Combinar sentimiento y precios
    df_combinado = pd.merge(
        sentimiento_diario,
        df_precios,
        left_index=True,
        right_index=True,
        how='inner'
    )
    
    if len(df_combinado) < 2:
        print("‚ö†Ô∏è Insuficientes datos para correlaci√≥n")
        return
    
    print(f"\n‚úÖ Datos combinados: {len(df_combinado)} d√≠as\n")
    
    # Calcular correlaciones
    print("üìä CORRELACIONES (Sentimiento vs Precio):")
    print("-" * 50)
    
    for metal in ['Oro', 'Plata', 'Cobre']:
        if metal in df_combinado.columns:
            corr = df_combinado['sentimiento_promedio'].corr(df_combinado[metal])
            print(f"   {metal}: {corr:.4f}")
    
    # Visualizaci√≥n
    fig, axes = plt.subplots(2, 1, figsize=(14, 10))
    
    # Gr√°fico 1: Sentimiento vs Oro
    ax1 = axes[0]
    ax1_twin = ax1.twinx()
    
    ax1.plot(df_combinado.index, df_combinado['sentimiento_promedio'], 
             color='blue', linewidth=2, label='Sentimiento')
    ax1_twin.plot(df_combinado.index, df_combinado['Oro'], 
                  color='gold', linewidth=2, label='Precio Oro')
    
    ax1.set_ylabel('Sentimiento Promedio', color='blue', fontsize=11)
    ax1_twin.set_ylabel('Precio Oro (USD)', color='gold', fontsize=11)
    ax1.set_title('Sentimiento vs Precio del Oro', fontsize=13, fontweight='bold')
    ax1.grid(True, alpha=0.3)
    
    # Gr√°fico 2: Scatter plot
    ax2 = axes[1]
    ax2.scatter(df_combinado['sentimiento_promedio'], df_combinado['Oro'], 
                alpha=0.6, s=100, c=df_combinado['num_menciones'], cmap='viridis')
    
    # L√≠nea de tendencia
    z = np.polyfit(df_combinado['sentimiento_promedio'], df_combinado['Oro'], 1)
    p = np.poly1d(z)
    ax2.plot(df_combinado['sentimiento_promedio'], 
             p(df_combinado['sentimiento_promedio']), 
             "r--", linewidth=2, label=f'Tendencia')
    
    ax2.set_xlabel('Sentimiento Promedio', fontsize=11)
    ax2.set_ylabel('Precio Oro (USD)', fontsize=11)
    ax2.set_title('Correlaci√≥n: Sentimiento vs Precio del Oro', fontsize=13, fontweight='bold')
    ax2.legend(fontsize=10)
    ax2.grid(True, alpha=0.3)
    
    plt.colorbar(ax2.collections[0], ax=ax2, label='N√∫mero de Menciones')
    
    plt.tight_layout()
    plt.show()
    
    return df_combinado

# Ejemplo de uso (descomenta cuando tengas datos)
# df_analisis = analizar_correlacion_sentimiento_precio(datos_completos)

## 10. Guardar Datos para Streamlit

Guarda los datos obtenidos para usarlos en la aplicaci√≥n Streamlit

In [None]:
def guardar_datos_para_streamlit(datos_completos, nombre_archivo='datos_sentimiento.pkl'):
    """
    Guardar datos en formato pickle para Streamlit
    """
    import pickle
    
    with open(nombre_archivo, 'wb') as f:
        pickle.dump(datos_completos, f)
    
    print(f"‚úÖ Datos guardados en: {nombre_archivo}")
    
    # Tambi√©n guardar en CSV para f√°cil inspecci√≥n
    for fuente, df in datos_completos.items():
        if fuente != 'precios':
            csv_name = f'datos_{fuente}.csv'
            df.to_csv(csv_name, index=False)
            print(f"   CSV guardado: {csv_name}")

# Ejemplo de uso (descomenta cuando tengas datos)
# guardar_datos_para_streamlit(datos_completos)

## ‚úÖ Resumen Final

### APIs Configuradas:
- ‚úÖ **NewsAPI**: 100 requests/d√≠a, 10,000 art√≠culos/d√≠a
- ‚úÖ **Alpha Vantage**: 25 requests/d√≠a, 25,000 noticias/d√≠a
- ‚úÖ **Reddit (PRAW)**: Ilimitado (60 requests/minuto)
- ‚úÖ **Twitter API v2**: 500,000 tweets/mes
- ‚úÖ **Yahoo Finance**: Ilimitado, 100% GRATIS

### Total de Datos Diarios Posibles:
- NewsAPI: 10,000 art√≠culos
- Alpha Vantage: 25,000 noticias
- Reddit: ~5,000+ posts (pr√°cticamente ilimitado)
- Twitter: ~16,666 tweets/d√≠a (500,000/mes)
- **TOTAL: ~56,666+ registros de sentimiento por d√≠a**

### Pr√≥ximos Pasos:
1. ‚úÖ Obtener API keys de cada servicio (¬°GRATIS!)
2. ‚úÖ Configurar API_KEYS en este notebook
3. ‚úÖ Ejecutar `obtener_datos_completos()`
4. ‚úÖ Usar Streamlit para visualizaci√≥n interactiva

---

**üéØ Para tu presentaci√≥n del lunes:**

*"Implementamos un sistema de an√°lisis de sentimiento con datos 100% REALES utilizando 5 APIs gratuitas: NewsAPI para noticias de medios peruanos, Alpha Vantage para sentimiento financiero con IA, Reddit para comunidades, Twitter para tiempo real, y Yahoo Finance para precios. El sistema puede procesar hasta 56,000+ menciones diarias correlacionadas con precios reales de oro, plata y cobre."*