In [None]:
# EN: Load data from PostgreSQL
# ES: Cargar datos desde PostgreSQL
# EO: Ŝargi datumojn el PostgreSQL
import pandas as pd
import sqlalchemy
from sqlalchemy import create_engine

# EN: Update with your actual connection string
# ES: Actualiza con tu cadena de conexión real
# EO: Ĝisdatigu per via vera konektĉeno
engine = create_engine('postgresql+psycopg2://user:password@localhost:5432/dbname')
query = "SELECT * FROM xiaohongshu_trends WHERE timestamp >= NOW() - INTERVAL '7 days'"
df = pd.read_sql(query, engine)
df['timestamp'] = pd.to_datetime(df['timestamp'])
df.head()

## ENGLISH
- Descriptive statistics for `post_count` and `avg_sentiment`.

## ESPAÑOL
- Estadísticas descriptivas para `post_count` y `avg_sentiment`.

## ESPERANTO
- Priskribaj statistikoj por `post_count` kaj `avg_sentiment`.

In [None]:
df[['post_count', 'avg_sentiment']].describe()

## ENGLISH
- Histogram of `post_count` distribution.

## ESPAÑOL
- Histograma de la distribución de `post_count`.

## ESPERANTO
- Histogramo de la distribuo de `post_count`.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
plt.figure(figsize=(8,4))
sns.histplot(df['post_count'], bins=20, kde=True)
plt.title('Post Count Distribution')
plt.xlabel('post_count')
plt.ylabel('Frequency')
plt.show()

## ENGLISH
- Scatter plot: `avg_sentiment` vs. `post_count`.

## ESPAÑOL
- Diagrama de dispersión: `avg_sentiment` vs. `post_count`.

## ESPERANTO
- Disvastiga diagramo: `avg_sentiment` kontraŭ `post_count`.

In [None]:
plt.figure(figsize=(8,5))
sns.scatterplot(x='post_count', y='avg_sentiment', data=df)
plt.title('Avg Sentiment vs. Post Count')
plt.xlabel('post_count')
plt.ylabel('avg_sentiment')
plt.show()

## ENGLISH
- Time-series plot for top 3 hashtags by total `post_count`.

## ESPAÑOL
- Gráfico de series temporales para los 3 hashtags principales por `post_count` total.

## ESPERANTO
- Temposeria diagramo por la 3 ĉefaj hashtagoj laŭ suma `post_count`.

In [None]:
top3 = df.groupby('hashtag')['post_count'].sum().nlargest(3).index
df_top3 = df[df['hashtag'].isin(top3)]
plt.figure(figsize=(10,6))
for tag in top3:
    tag_data = df_top3[df_top3['hashtag'] == tag]
    tag_daily = tag_data.groupby(df_top3['timestamp'].dt.date)['post_count'].sum()
    plt.plot(tag_daily.index, tag_daily.values, marker='o', label=tag)
plt.title('Top 3 Hashtags: Daily Post Count')
plt.xlabel('Date')
plt.ylabel('Post Count')
plt.legend()
plt.show()

## ENGLISH
- Identify potential outliers or anomalies.

## ESPAÑOL
- Identificar posibles valores atípicos o anomalías.

## ESPERANTO
- Identigi eblajn ekstremajn valorojn aŭ anomaliojn.

In [None]:
# EN: Outliers in post_count
# ES: Valores atípicos en post_count
# EO: Ekstremaj valoroj en post_count
q1 = df['post_count'].quantile(0.25)
q3 = df['post_count'].quantile(0.75)
iqr = q3 - q1
outliers = df[(df['post_count'] < q1 - 1.5*iqr) | (df['post_count'] > q3 + 1.5*iqr)]
outliers[['hashtag', 'post_count', 'avg_sentiment', 'timestamp']]

# Summary Report / Informe de Resumen / Resuma Raporto

## ENGLISH
- The data shows ... (fill in with findings after running).
- Potential issues: ...
- Suggestions: Improve scraper to ... / Clean data by ...

## ESPAÑOL
- Los datos muestran ... (completar tras ejecutar).
- Posibles problemas: ...
- Sugerencias: Mejorar el scraper para ... / Limpiar datos ...

## ESPERANTO
- La datumoj montras ... (plenigu post rulado).
- Eblaj problemoj: ...
- Sugestoj: Plibonigi la scraper por ... / Purigi datumojn ...