## Introducción al uso de la API de Reddit para Extracción de Datos

La API de Reddit, integrada a través de la biblioteca praw en Python, proporciona acceso programático a los contenidos y datos disponibles en Reddit, una plataforma social muy popular que alberga una gran variedad de comunidades (llamadas subreddits) dedicadas a diversos temas, incluidos los videojuegos.

### Propósito y Funcionalidad

El propósito principal de utilizar la API de Reddit en conjunción con praw es la extracción automatizada de datos específicos de Reddit, como publicaciones, comentarios, y detalles asociados, basados en criterios de búsqueda predefinidos. En el contexto de análisis de videojuegos y publicidades:

- *Extracción de Publicaciones:* Permite obtener publicaciones específicas relacionadas con términos clave como "advertisement", "ad", "marketing", o "promo" en subreddits relevantes como r/gaming.
  
- *Recopilación de Datos:* Facilita la recolección de información como títulos de publicaciones, autores, puntajes (score), número de comentarios, URLs y fechas de creación.

### Configuración y Uso

Para utilizar la API de Reddit con praw, es necesario configurarla con credenciales específicas de la aplicación (cliente ID y cliente secreto), junto con un agente de usuario único que identifica tu aplicación para Reddit.

### Ejemplo Práctico

El siguiente ejemplo muestra cómo configurar y utilizar la API de Reddit para extraer datos de publicaciones relacionadas con publicidades en videojuegos desde el subreddit r/gaming:

In [1]:
!pip install praw



In [12]:
import praw
import csv
import datetime

# Configuración de la API de Reddit
reddit = praw.Reddit(
    client_id='46K3g9wdgnG6N-EULyNyCA',
    client_secret='Wu0ex80UAuqV9fv6xkN2wkCIZ-NR6Q',
    user_agent='Traditional-Can3255'
)

# Define el subreddit y el término de búsqueda
subreddit_name = 'gaming'  # Puedes cambiar a otros subreddits relacionados con videojuegos
search_term = 'advertisement OR ad OR marketing OR promo'  # Términos de búsqueda para encontrar publicidades

# Extrae publicaciones relacionadas con videojuegos
subreddit = reddit.subreddit(subreddit_name)
posts = subreddit.search(search_term, sort='relevant', time_filter='all', limit=100)  # Cambia el límite según tus necesidades

# Archivo CSV para guardar los datos extraídos
csv_file = 'video_game_advertisements.csv'

# Abrir el archivo CSV para escribir datos
with open(csv_file, mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['Title', 'Author', 'Score', 'Comments', 'URL', 'Date'])  # Cabeceras de columnas

    for post in posts:
        # Extraer datos de cada publicación
        title = post.title
        author = post.author.name if post.author else 'Unknown'
        score = post.score
        comments = post.num_comments
        url = post.url
        date = datetime.datetime.fromtimestamp(post.created_utc).strftime('%Y-%m-%d %H:%M:%S')

        # Escribir los datos en el archivo CSV
        writer.writerow([title, author, score, comments, url, date])

print(f'Datos extraídos y guardados en {csv_file}')


Datos extraídos y guardados en video_game_advertisements.csv


In [13]:
VJ = pd.read_csv('video_game_advertisements.csv')
VJ

Unnamed: 0,Title,Author,Score,Comments,URL,Date
0,Saw a piece of advertising history.,InvadingBacon,1842,35,https://i.redd.it/1dqjd4jkn6qc1.jpeg,2024-03-23 20:14:08
1,Found this advertisement today,Lxlith_s,14756,1214,https://www.reddit.com/gallery/u72rek,2022-04-19 06:19:51
2,PSP advertisement from the Netherlands,DevilUnknown17,9342,637,https://i.redd.it/cjerjwasljz81.jpg,2022-05-14 20:29:11
3,Fable • Xbox • 2004 • Advertisement,TurboTBag,5228,440,https://i.redd.it/9qo9rdzs7jja1.jpg,2023-02-21 02:02:26
4,90's Video-game Advertisement....,Cooper3b,25935,625,http://i.imgur.com/R7gHPYp.jpg,2017-05-30 00:34:51
...,...,...,...,...,...,...
95,‘Helldivers 2’ Is a Surprise Hit for Sony in a...,TillI_Collapse,10329,1041,https://www.bloomberg.com/news/newsletters/202...,2024-03-15 14:13:37
96,Found this ad in a Nickelodeon magazine from 2...,bluefootednewt,18437,808,http://i.imgur.com/IsbWCSc.jpg,2014-07-19 21:40:00
97,Not even advertising it as DLC anymore...,wasabi324,2176,491,http://i.imgur.com/yOqZYgm.png,2014-06-10 05:08:37
98,7 player Smash at the airport. My life is offi...,Themris,70263,1244,https://i.redd.it/9tcsfxaiwj331.jpg,2019-06-10 10:55:17


In [14]:
import praw
import csv
import datetime
import pandas as pd
# Leer datos desde el archivo CSV
data = pd.read_csv('video_game_advertisements.csv')

# Convertir la columna 'Date' a tipo datetime y extraer el año
data['Date'] = pd.to_datetime(data['Date'])
data['Year'] = data['Date'].dt.year

# Calcular el promedio de puntaje y comentarios por año
yearly_stats = data.groupby('Year').agg({'Score': 'mean', 'Comments': 'mean'}).reset_index()
yearly_stats.rename(columns={'Score': 'Average_Score', 'Comments': 'Average_Comments'}, inplace=True)

# Archivo CSV para guardar los promedios por año
yearly_csv_file = 'yearly_video_game_ad_stats.csv'

# Guardar los datos en un nuevo archivo CSV
yearly_stats.to_csv(yearly_csv_file, index=False, encoding='utf-8')

print(f'Datos de promedios por año guardados en {yearly_csv_file}')


Datos de promedios por año guardados en yearly_video_game_ad_stats.csv


In [15]:
yj = pd.read_csv('yearly_video_game_ad_stats.csv')
yj

Unnamed: 0,Year,Average_Score,Average_Comments
0,2009,552.0,357.0
1,2011,4233.0,1787.0
2,2012,1584.0,357.0
3,2013,1919.5,327.5
4,2014,8913.153846,814.0
5,2015,13626.0,993.285714
6,2016,20835.75,1577.125
7,2017,17505.375,503.5
8,2018,31589.285714,676.285714
9,2019,48277.0,1192.666667


In [20]:
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
import os

# Leer datos desde el archivo CSV de promedios por año
yearly_stats = pd.read_csv('yearly_video_game_ad_stats.csv')

# Gráfico de distribución de puntajes
plt.figure(figsize=(10, 5))
plt.hist(data['Score'], bins=30, edgecolor='black')
plt.xlabel('Score')
plt.ylabel('Number of Posts')
plt.title('Distribución de Puntajes de Publicaciones de Videojuegos')
plt.tight_layout()
plt.savefig('score_distribution.png')  # Guardar el gráfico como una imagen
plt.close()

# Crear gráfico de líneas para promedios por año
plt.figure(figsize=(10, 6))
plt.plot(yearly_stats['Year'], yearly_stats['Average_Score'], marker='o', linestyle='-', color='blue', label='Promedio de Puntajes')
plt.plot(yearly_stats['Year'], yearly_stats['Average_Comments'], marker='o', linestyle='-', color='green', label='Promedio de Comentarios')
plt.xlabel('Año')
plt.ylabel('Promedio')
plt.title('Promedio de Puntajes y Comentarios por Año')
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.savefig('yearly_stats.png')  # Guardar el gráfico como una imagen
plt.close()


In [21]:

# Leer datos desde el archivo CSV de promedios por año
yearly_stats = pd.read_csv('yearly_video_game_ad_stats.csv')

# Generar contenido HTML
html_content = f"""
<!DOCTYPE html>
<html lang="es">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Análisis de Publicidades de Videojuegos en Reddit</title>
    <style>
        body {{
            font-family: Arial, sans-serif;
            background-color: #f4f4f4;
            color: #333;
            margin: 0;
            padding: 20px;
        }}
        h1 {{
            color: #4CAF50;
        }}
        .container {{
            max-width: 900px;
            margin: 0 auto;
            background-color: #fff;
            padding: 20px;
            border-radius: 8px;
            box-shadow: 0 0 10px rgba(0, 0, 0, 0.1);
        }}
        table {{
            width: 100%;
            border-collapse: collapse;
            margin-bottom: 20px;
        }}
        th, td {{
            padding: 10px;
            text-align: left;
            border-bottom: 1px solid #ddd;
        }}
        th {{
            background-color: #4CAF50;
            color: #fff;
        }}
        .chart {{
            text-align: center;
        }}
    </style>
</head>
<body>
    <div class="container">
        <h1>Análisis de Publicidades de Videojuegos en Reddit</h1>
        <p>Este informe presenta un análisis de las publicidades de videojuegos en Reddit, basado en las publicaciones del subreddit <strong>{subreddit_name}</strong> con términos de búsqueda relacionados con anuncios.</p>
        
        <h2>Estadísticas Básicas</h2>
        <table>
            <tr>
                <th>Estadística</th>
                <th>Valor</th>
            </tr>
            <tr>
                <td>Promedio de Puntajes</td>
                <td>{yearly_stats['Average_Score'].mean():.2f}</td>
            </tr>
            <tr>
                <td>Desviación Estándar de Puntajes</td>
                <td>{yearly_stats['Average_Score'].std():.2f}</td>
            </tr>
            <tr>
                <td>Máximo Puntaje</td>
                <td>{yearly_stats['Average_Score'].max()}</td>
            </tr>
            <tr>
                <td>Mínimo Puntaje</td>
                <td>{yearly_stats['Average_Score'].min()}</td>
            </tr>
            <tr>
                <td>Promedio de Comentarios</td>
                <td>{yearly_stats['Average_Comments'].mean():.2f}</td>
            </tr>
            <tr>
                <td>Desviación Estándar de Comentarios</td>
                <td>{yearly_stats['Average_Comments'].std():.2f}</td>
            </tr>
        </table>

        <h2>Distribución de Puntajes</h2>
        <div class="chart">
            <img src="score_distribution.png" alt="Distribución de Puntajes">
        </div>

        <h2>Promedio de Puntajes y Comentarios por Año</h2>
        <div class="chart">
            <img src="yearly_stats.png" alt="Promedio de Puntajes y Comentarios por Año">
        </div>
    </div>
</body>
</html>
"""

# Guardar el contenido HTML en un archivo
with open('analysis_report.html', 'w', encoding='utf-8') as file:
    file.write(html_content)

print('El archivo HTML del análisis ha sido creado como "analysis_report.html".')


El archivo HTML del análisis ha sido creado como "analysis_report.html".
