## EDA

## üß≠ Objetivo del EDA

El prop√≥sito de este an√°lisis es comprender la estructura, calidad y comportamientos estad√≠sticos de los **comentarios de Reddit** que servir√°n como base para entrenar un modelo de **an√°lisis de sentimientos** dentro de un pipeline MLOps.

El EDA busca:

- Identificar problemas de calidad de datos antes del preprocesamiento.
- Evaluar distribuciones, valores extremos y rangos cr√≠ticos.
- Entender la relaci√≥n entre variables textuales y el proxy de sentimiento (`score`).
- Detectar riesgos potenciales (desequilibrio, fugas temporales, ruido).
- Derivar decisiones tempranas para el pipeline de ingenier√≠a y modelado.

El detalle completo se encuentra en `01_eda_inicial.ipynb`.

---



In [2]:
import sqlite3
import pandas as pd


db_path = "../db/imedia.sqlite"
conn = sqlite3.connect(db_path)

# Mostrar las tablas disponibles
tables = pd.read_sql_query("SELECT name FROM sqlite_master WHERE type='table';", conn)
print("Tablas disponibles:")
print(tables)

# Leer los datos de cada tabla
authors = pd.read_sql_query("SELECT * FROM authors;", conn)
comments = pd.read_sql_query("SELECT * FROM comments;", conn)
posts = pd.read_sql_query("SELECT * FROM posts;", conn)
subreddits = pd.read_sql_query("SELECT * FROM subreddits;", conn)

# Visualizar primeras filas de cada tabla
print("\n=== Tabla: authors ===")
display(authors.head())

print("\n=== Tabla: comments ===")
display(comments.head())

print("\n=== Tabla: posts ===")
display(posts.head())

print("\n=== Tabla: subreddits ===")
display(subreddits.head())

# Cerrar la conexi√≥n
conn.close()


Tablas disponibles:
         name
0  subreddits
1     authors
2       posts
3    comments

=== Tabla: authors ===


Unnamed: 0,author_name
0,Typical_Wafer_1324
1,krobzaur
2,ITagEveryone
3,ditlevrisdahl
4,geovane_jeff



=== Tabla: comments ===


Unnamed: 0,comment_id,post_id,author,body,created_utc,parent_id,link_id,score,is_submitter
0,ng4q0es,1nq1588,Present_Tonight1813,I made a program that prompts the user for a s...,1758810000.0,t3_1nq1588,t3_1nq1588,2,0
1,ng4cg2y,1nq1588,cptsdemon,I made a tool called [PyLiveDev](https://pypi....,1758805000.0,t3_1nq1588,t3_1nq1588,2,0
2,ng6dq2g,1nq1588,Fr1dge21,As my first project I managed to automate stoc...,1758827000.0,t3_1nq1588,t3_1nq1588,4,0
3,ng8r3e5,1nq1588,AdventPriest,"Full disclosure, I've leaned heavily on AI to ...",1758856000.0,t1_ng4aj2a,t3_1nq1588,1,0
4,ng5ys9z,1nq1588,geovane_jeff,My own backup app :D saves me every week!,1758822000.0,t3_1nq1588,t3_1nq1588,4,0



=== Tabla: posts ===


Unnamed: 0,post_id,title,selftext,url,permalink,score,num_comments,over_18,created_utc,link_flair_text,is_self,spoiler,locked,thumbnail,subreddit,author
0,1nqnm44,PEP 806 ‚Äì Mixed sync/async context managers wi...,PEP 806 ‚Äì Mixed sync/async context managers wi...,https://www.reddit.com/r/Python/comments/1nqnm...,/r/Python/comments/1nqnm44/pep_806_mixed_synca...,107,19,0,1758847000.0,News,1,0,0,self,PYTHON,kirara0048
1,1nqfyqh,Looking for Feedback and suggestions: Soundmen...,[Soundmentations](https://github.com/saumyarr8...,https://www.reddit.com/r/Python/comments/1nqfy...,/r/Python/comments/1nqfyqh/looking_for_feedbac...,3,0,0,1758828000.0,Discussion,1,0,0,self,PYTHON,saumyarr8
2,1nq45ep,migrating from django to FastAPI,We've hit the scaling wall with our decade-old...,https://www.reddit.com/r/Python/comments/1nq45...,/r/Python/comments/1nq45ep/migrating_from_djan...,19,53,0,1758800000.0,Discussion,1,0,0,self,PYTHON,No-Excitement-7974
3,1nq1588,What small Python automation projects turned o...,I‚Äôm trying to level up through practice and I‚Äô...,https://www.reddit.com/r/Python/comments/1nq15...,/r/Python/comments/1nq1588/what_small_python_a...,141,87,0,1758788000.0,Discussion,1,0,0,self,PYTHON,MENTX3
4,1nq5x1b,PyCon AU 2025 talks are all up!,This year's PyCon AU talks have all been uploa...,https://www.reddit.com/r/Python/comments/1nq5x...,/r/Python/comments/1nq5x1b/pycon_au_2025_talks...,19,1,0,1758805000.0,Resource,1,0,0,self,PYTHON,fphhotchips



=== Tabla: subreddits ===


Unnamed: 0,subreddit,subscribers,description,created_utc,over18
0,PYTHON,1396681,The official Python community for Reddit! Stay...,1201231000.0,0
1,FUNNY,66831915,Reddit's largest humor depository,1201243000.0,0
2,PUBLICFREAKOUT,4730514,"A subreddit dedicated to people freaking out, ...",1381610000.0,0
3,ASKREDDIT,57220281,r/AskReddit is the place to ask and answer tho...,1201233000.0,0
4,BALDURSGATE3,3229852,"A community all about Baldur's Gate III, the r...",1559227000.0,0


---

## üìÇ 0. Contenido y estructura del dataset

El dataset contiene las tablas provenientes de Reddit:

- `comments` (principal)
- `posts`
- `authors`
- `subreddits`

La tabla central **`comments`** incluye las variables relevantes para an√°lisis de sentimiento:

| Variable | Descripci√≥n |
|---------|-------------|
| `comment_id` | ID √∫nico del comentario |
| `author` | Usuario que comenta |
| `body` | Texto del comentario |
| `score` | Puntuaci√≥n del comentario (proxy de sentimiento) |
| `is_submitter` | Si el autor del comentario es el creador del post |
| `created_utc` / `created_dt` | Timestamp del comentario |
| `parent_id`, `link_id` | Identificadores de jerarqu√≠a |
| `has_author` | Indicador auxiliar (no-nulos en autor) |

Se confirmaron:

- Sin duplicados en `comment_id`.
- Estructura adecuada para procesamiento NLP.

---

In [3]:
# 1. Limpieza m√≠nima: revisar valores faltantes y preparar columnas clave para an√°lisis
comments['has_author'] = comments['author'].notna()

# Conversi√≥n de 'created_utc' a datetime para an√°lisis temporal
comments['created_dt'] = pd.to_datetime(comments['created_utc'], unit='s')

# Resumen estructural √∫til para NLP
display(comments[['author', 'body', 'score', 'is_submitter', 'created_dt']].describe(include='all'))
comments.isna().sum()

# Informaci√≥n estructural
comments.info()

# Conteo de valores nulos
display(comments.isna().sum())

# Proporci√≥n de comentarios eliminados ('[deleted]' / '[removed]')
deleted_mask = comments['body'] == '[deleted]'
removed_mask = comments['body'] == '[removed]'

deleted_rate = deleted_mask.mean()
removed_rate = removed_mask.mean()

display({
    "deleted_rate": deleted_rate,
    "removed_rate": removed_rate
})

# Eliminaci√≥n opcional de comentarios sin contenido √∫til
comments_clean = comments[~deleted_mask & ~removed_mask].copy()
comments_clean.reset_index(drop=True, inplace=True)


Unnamed: 0,author,body,score,is_submitter,created_dt
count,4688,4713,4713.0,4713.0,4713
unique,3856,4677,,,
top,AndILoveHe,[deleted],,,
freq,15,15,,,
mean,,,56.878421,0.00488,2025-11-13 23:24:29.534478848
min,,,-81.0,0.0,2025-09-25 08:38:29
25%,,,1.0,0.0,2025-11-11 00:20:19
50%,,,4.0,0.0,2025-11-11 06:26:20
75%,,,16.0,0.0,2025-11-11 16:21:10
max,,,14829.0,1.0,2025-12-02 06:39:20


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4713 entries, 0 to 4712
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   comment_id    4713 non-null   object        
 1   post_id       4713 non-null   object        
 2   author        4688 non-null   object        
 3   body          4713 non-null   object        
 4   created_utc   4713 non-null   float64       
 5   parent_id     4713 non-null   object        
 6   link_id       4713 non-null   object        
 7   score         4713 non-null   int64         
 8   is_submitter  4713 non-null   int64         
 9   has_author    4713 non-null   bool          
 10  created_dt    4713 non-null   datetime64[ns]
dtypes: bool(1), datetime64[ns](1), float64(1), int64(2), object(6)
memory usage: 372.9+ KB


comment_id       0
post_id          0
author          25
body             0
created_utc      0
parent_id        0
link_id          0
score            0
is_submitter     0
has_author       0
created_dt       0
dtype: int64

{'deleted_rate': 0.003182686187141948, 'removed_rate': 0.0014852535539995756}

---

## üßπ 1. Calidad de los datos

### ‚úîÔ∏è Valores faltantes
- `author`: **25 nulos** (~0.5%).
- Resto de columnas sin valores faltantes relevantes.

### ‚úîÔ∏è Comentarios no v√°lidos
- `[deleted]`: 0.318%
- `[removed]`: 0.148%
  
Estos textos no aportan informaci√≥n sem√°ntica, por lo que se excluyeron del an√°lisis.

### ‚úîÔ∏è Resultados tras limpieza
```
Retenidos: 4691 comentarios de 4713 (99.53%)
```

La calidad general es buena y apta para modelado supervisado basado en texto.

---

In [4]:
# 2. Distribuci√≥n del score (sin agrupaci√≥n autom√°tica de Plotly)
import plotly.express as px

# Histogram sin rangos arbitrarios (nbins auto = granular)
fig = px.histogram(
    comments_clean,
    x='score',
    opacity=0.7,
    title="Distribuci√≥n del score (sin agrupaci√≥n)",
    marginal="rug"
)
fig.update_layout(bargap=0.05)
fig.show()

# Boxplot de score correctamente construido (caja + bigotes)
fig = px.box(
    comments_clean,
    y="score",
    points=False,               # No scatter; esto limpia visualmente los bigotes
    title="Boxplot del score"
)
fig.show()

# Cuantiles del score para referencia
display(comments_clean['score'].quantile([0.01,0.25,0.50,0.75,0.99]))


0.01      -1.0
0.25       1.0
0.50       4.0
0.75      16.0
0.99    1134.2
Name: score, dtype: float64

---

## üìä 2. Distribuci√≥n del score (proxy de sentimiento)

El `score` presenta una distribuci√≥n **extremadamente asim√©trica**, con valores muy grandes en la cola derecha.

### Estad√≠sticos clave:
- Mediana = **4**
- Percentil 75 = **16**
- Percentil 99 ‚âà **1134**
- M√°ximo ‚âà **14829**

### Implicaciones:
- Es imprescindible **clippear** o transformar el score.
- El uso del score como etiqueta proxy requiere cuidado debido a su alta varianza.
- La mediana es un umbral razonable para construir una primera etiqueta binaria.

üìà Visualizaciones mostradas:
- Histograma sin agrupaci√≥n artificial.
- Boxplot correctamente formado.


---

In [5]:
# 3. Longitud del texto para an√°lisis de sentimiento
comments_clean['text_len'] = comments_clean['body'].str.len()
comments_clean['word_count'] = comments_clean['body'].str.split().str.len()

# Histograma sin agrupaci√≥n
fig = px.histogram(
    comments_clean,
    x='text_len',
    nbins=len(comments_clean['text_len'].unique()), # granular al m√°ximo
    opacity=0.7,
    title="Distribuci√≥n de longitud del texto (sin agrupaci√≥n)"
)
fig.update_layout(bargap=0.01)
fig.show()

# Boxplot real y limpio de text_len
fig = px.box(
    comments_clean,
    y="text_len",
    points=False,
    title="Boxplot de longitud del texto"
)
fig.show()

# Resumen estad√≠stico
display(comments_clean[['text_len','word_count']].describe())


Unnamed: 0,text_len,word_count
count,4691.0,4691.0
mean,156.68301,27.581965
std,228.139246,39.511984
min,1.0,1.0
25%,42.0,7.0
50%,93.0,16.0
75%,184.0,33.0
max,5576.0,859.0


---
## ‚úçÔ∏è 3. An√°lisis de longitud del texto

Se calcularon variables clave para an√°lisis de sentimiento:

- `text_len`: n√∫mero de caracteres.
- `word_count`: n√∫mero de palabras.

### Estad√≠sticos:
| M√©trica | text_len | word_count |
|---------|----------|------------|
| Media | 156 | 27 |
| Mediana | 93 | 16 |
| M√°ximo | 5576 | 859 |

### Hallazgos:
- Alta variabilidad en longitudes.
- Fuerte correlaci√≥n text_len ‚Üî word_count (‚âà 0.99).
- Necesidad de truncation para modelos basados en Transformers.

üìà Visualizaciones incluidas:
- Histograma sin agregaci√≥n artificial.
- Boxplot limpio de longitud del texto.
- Scatter text_len vs score.
---

In [8]:
# 4. Indicadores de tono emocional
comments_clean['has_exclamation'] = comments_clean['body'].str.contains('!', regex=False)
comments_clean['has_question'] = comments_clean['body'].str.contains('?', regex=False)

# Barras con proporciones
prop_df = comments_clean[['has_exclamation','has_question']].mean()
prop_df = prop_df.reset_index().rename(columns={'index':'feature',0:'proportion'})

fig = px.bar(
    prop_df,
    x='feature',
    y='proportion',
    title="Proporci√≥n de signos emocionales en comentarios"
)
fig.show()

# Boxplot score vs exclamaci√≥n (bien formado)
fig = px.box(
    comments_clean,
    x='has_exclamation',
    y='score',
    points=False,
    title="Score seg√∫n presencia de exclamaci√≥n"
)
fig.show()

display(comments_clean[['has_exclamation','has_question']].describe())
print("Proporci√≥n de comentarios con exclamaci√≥n:", comments_clean['has_exclamation'].mean())
print("Proporci√≥n de comentarios con pregunta:", comments_clean['has_question'].mean())


Unnamed: 0,has_exclamation,has_question
count,4691,4691
unique,2,2
top,False,False
freq,4064,3852


Proporci√≥n de comentarios con exclamaci√≥n: 0.13366020038371348
Proporci√≥n de comentarios con pregunta: 0.17885312300149223


---
## üòÉ 4. Indicadores emocionales (features simples)

Se incorporaron se√±ales b√°sicas del texto:

- `has_exclamation`
- `has_question`

### Proporciones:
- Exclamaci√≥n: **13.36%**
- Interrogaci√≥n: **17.88%**

### Hallazgos:
- La presencia de `!` o `?` no correlaciona fuertemente con `score`.
- Aun as√≠, pueden aportar informaci√≥n ligera al modelo (features de baja intensidad).

üìà Visualizaci√≥n incluida:
- Barras comparativas de proporciones.
---

In [16]:
# 5. Relaci√≥n entre score y longitud del comentario
fig = px.scatter(
    comments_clean,
    x="text_len",
    y="score",
    opacity=0.4,
    title="Relaci√≥n entre longitud del texto y score"
)
fig.show()

# Correlaciones principales
corr = comments_clean[['score','text_len','word_count']].corr()
display(corr)

# Cuartiles de longitud y score con boxplot correctamente formado
comments_clean['len_bucket'] = pd.qcut(
    comments_clean['text_len'],
    q=4,
    labels=['Q1','Q2','Q3','Q4']
)

fig = px.box(
    comments_clean,
    x="len_bucket",
    y="score",
    points=False,
    title="Score por cuartiles de longitud (boxplot correcto)"
)
fig.show()

print("Cuartiles de longitud del texto:")
display(comments_clean['text_len'].quantile([0.25,0.50,0.75]))

print("Cuartiles del score:")
display(comments_clean['score'].quantile([0.25,0.50,0.75]))

print("Correlaci√≥n entre score y longitud del texto:")
display(comments_clean[['score','text_len']].corr())
display(comments_clean[['score','word_count']].corr())
display(comments_clean[['text_len','word_count']].corr())
display(comments_clean[['score']].describe())


print("Comentarios limpiados:", len(comments_clean), "de", len(comments))
print("Proporci√≥n de comentarios retenidos:", len(comments_clean)/len(comments))




Unnamed: 0,score,text_len,word_count
score,1.0,-0.004142,-0.002269
text_len,-0.004142,1.0,0.988565
word_count,-0.002269,0.988565,1.0


Cuartiles de longitud del texto:


0.25     42.0
0.50     93.0
0.75    184.0
Name: text_len, dtype: float64

Cuartiles del score:


0.25     1.0
0.50     4.0
0.75    16.0
Name: score, dtype: float64

Correlaci√≥n entre score y longitud del texto:


Unnamed: 0,score,text_len
score,1.0,-0.004142
text_len,-0.004142,1.0


Unnamed: 0,score,word_count
score,1.0,-0.002269
word_count,-0.002269,1.0


Unnamed: 0,text_len,word_count
text_len,1.0,0.988565
word_count,0.988565,1.0


Unnamed: 0,score
count,4691.0
mean,57.125133
std,402.498421
min,-81.0
25%,1.0
50%,4.0
75%,16.0
max,14829.0


Comentarios limpiados: 4691 de 4713
Proporci√≥n de comentarios retenidos: 0.9953320602588585


---
## üß© 5. Relaci√≥n entre score y longitud del comentario

Se evalu√≥ si existe una relaci√≥n entre la longitud del comentario y su score.

### Resultados:
- Correlaci√≥n score ‚Üî text_len ‚âà **‚àí0.004**
- Correlaci√≥n score ‚Üî word_count ‚âà **‚àí0.002**

No existen relaciones lineales significativas.

### Bucketizaci√≥n:
Se analiz√≥ score por cuartiles de longitud (`Q1‚ÄìQ4`), mostrando:

- Distribuciones similares en todos los buckets.
- Longitud NO predice score.

üìà Visualizaciones incluidas:
- Scatter text_len vs score.
- Boxplot de score por cuartiles de longitud.
---

In [26]:
# ===========================
# Chunk EXTRA ¬∑ Ejemplos de sentimientos (proxy basado en score)
# ===========================

# Calcular la mediana EXACTA del score en comments_clean
median_score = comments_clean["score"].median()

# Crear una columna temporal de sentimiento para mostrar ejemplos
comments_clean["sentiment_bin"] = (comments_clean["score"] >= median_score).astype(int)

print(f"Mediana del score: {median_score}")
print("0 = negativo (score < mediana), 1 = positivo (score >= mediana)")
print("\n")

# Ejemplo negativo (sentiment = 0)
example_neg = (
    comments_clean[comments_clean["sentiment_bin"] == 0]
    .sort_values("score", ascending=True)
    .iloc[0][["score", "body"]]
)

# Ejemplo positivo (sentiment = 1)
example_pos = (
    comments_clean[comments_clean["sentiment_bin"] == 1]
    .sort_values("score", ascending=False)
    .iloc[110][["score", "body"]]
)

print("===== Ejemplo de comentario NEGATIVO (score bajo) =====")
display(example_neg)

print("\n===== Ejemplo de comentario POSITIVO (score alto) =====")
display(example_pos)

# Opcional: borrar columna auxiliar
comments_clean.drop(columns=["sentiment_bin"], inplace=True)


Mediana del score: 4.0
0 = negativo (score < mediana), 1 = positivo (score >= mediana)


===== Ejemplo de comentario NEGATIVO (score bajo) =====


score                                     -81
body     Then what barriers is she breaking?¬†
Name: 347, dtype: object


===== Ejemplo de comentario POSITIVO (score alto) =====


score                                                404
body     Boil the carcass down for broth for soup later!
Name: 4108, dtype: object

---
## üìå 6. Ejemplos de sentimiento (proxy por score)

Para validar el uso del score como aproximaci√≥n de sentimiento:

- Se utiliz√≥ la mediana del score como umbral para clasificar:
  - 0 ‚Üí negativo
  - 1 ‚Üí positivo

Se mostraron ejemplos reales:

- Un comentario con score bajo (negativo).
- Un comentario con score muy alto (positivo).

Estos ejemplos confirmaron que el score puede funcionar como **proxy inicial de sentimiento**, aunque no es perfecto.

---

## ‚ö†Ô∏è 7. Riesgos detectados durante el EDA

### üîπ Desequilibrio en distribuci√≥n del score
- La cola derecha es extremadamente larga.
- El modelo podr√≠a sesgarse hacia clases de baja puntuaci√≥n.

### üîπ Etiquetas proxy imperfectas
- El score no siempre refleja sentimiento aut√©ntico.
- Riesgo de ruido en la supervisi√≥n.

### üîπ Outliers extremos
- Scores mayores a 10k deben ser *clippeados*.

### üîπ Comentarios largos
- Textos > 5000 caracteres requieren truncaci√≥n en Transformers.

### üîπ Riesgo de fuga temporal
- Debe evitarse usar `created_dt` como feature directa sin control temporal.

Estos riesgos motivan un preprocesamiento cuidadoso antes del modelado.

---

## üõ†Ô∏è 8. Decisiones tempranas derivadas del EDA

### ‚úîÔ∏è Preprocesamiento necesario
- Remover `[deleted]` y `[removed]`.
- Normalizar texto y limpiar ruido.
- Aplicar clipping ‚Üí `score_clipped`.
- Crear features adicionales:  
  `text_len_clipped`, `word_count`, `has_exclamation`, `has_question`.

### ‚úîÔ∏è Etiquetado supervisado
- Usar la mediana del score como umbral para obtener `sentiment ‚àà {0,1}`.

### ‚úîÔ∏è Ingenier√≠a de caracter√≠sticas
Variables clave para modelado:

- `clean_text`
- `score_clipped`
- `text_len_clipped`
- `word_count`
- `is_submitter`
- `has_exclamation`
- `has_question`

### ‚úîÔ∏è Lineamiento para MLOps
- Usar embeddings con SentenceTransformer.
- Guardar artefactos reproducibles en `/embeddings` y `/preprocesador`.
- Dividir datos en train/val/test.

Estas decisiones permitir√°n construir pipelines repetibles, escalables y auditables.
