### 1. Normalización. 
Implementa una función para limpiar y normalizar los textos de los posts 
(texto en la columna “post”). 

La versión normalizada se grabará en una nueva columna 
“clean_post”. 

Deberá realizarse una limpieza y normalización de los datos en función de las características que observes en los textos. 

Describe con detalle cada paso seguido durante el preprocesado y normalización y añade la función preprocess_post(text: str) al fichero 
core.py con la implementación final de este módulo.

### Análisis del dataframe

In [2]:
"""
Código en Python para leer el fragmento de CSV usando pandas,
considerando que se utilizan puntos y comas como separador, 
comillas dobles para encerrar texto con saltos de línea
y posibles caracteres especiales.
"""

import pandas as pd

# 1. Definir la ruta del archivo CSV
#    Sustituye 'ruta_a_tu_archivo.csv' por la ruta real de tu CSV.
csv_file = 'ruta_a_tu_archivo.csv'

# 2. Leer el archivo CSV con pandas
#    - sep=';' indica que el delimitador es el punto y coma.
#    - engine='python' suele ser útil para manejar textos con saltos de línea o caracteres especiales.
#    - quotechar='"' especifica que las comillas dobles delimitan campos que contengan textos con saltos de línea.
#    - encoding='utf-8' es un estándar común; si da problemas, podrías probar con 'latin-1' u otro.
df = pd.read_csv(
    csv_file,
    sep=';',
    engine='python',
    quotechar='"',
    encoding='utf-8'
)

# 3. Mostrar las primeras filas para verificar la lectura
print(df.head())

# 4. (Opcional) Verificar que todas las columnas se han leído correctamente
print(df.columns)

# 5. (Opcional) Verificar tipos de datos
print(df.dtypes)

ParserError: Error tokenizing data. C error: Expected 2 fields in line 5, saw 3


### Peculiaridades del texto para la limpieza y normalización del mismo.

Para realizar un análisis de sentimiento sobre el texto de cada post, hay ciertas consideraciones y pasos habituales de preprocesamiento que nosotros seguiremos:

1. **Eliminación de caracteres especiales y etiquetas HTML**: 

A veces el texto podrá contener enlaces, etiquetas HTML o secuencias de caracteres no deseados.

Utilizaremos una expresión regular como ```python re.sub(r'<[^>]*>', '', texto)``` para eliminar las etiquetas HTML.

2. **Conversión a minúsculas**:

Un paso sencillo para normalizar el texto, (p.ej., "Hola" y "hola" serán considerados como la misma palabra).

3. **Eliminación de signos de puntuación**:

Para análisis de sentimiento sencillos, a menudo no se tomarán en cuenta estos signos de puntuación.

4. **Tokenización**:

Dividir el texto en palabras o frases más pequeñas, llamadas "tokens".

Para ello será utilizada la librería ```nltk``` y su función ```word_tokenize```, como en ```python nltk.word_tokenize(texto)```.

5. **Eliminación de stopwords**:

Las "stopwords" son palabras comunes que no aportan significado al texto, como "and", "the", "a", etc.

Para ello utilizaremos la librería ```nltk``` y su función ```stopwords.words('english')```, teniendo en cuenta que el idioma de los posts es el inglés.

6. **Lematización o Stemming, según la precisión que se requiera**:

Lemmatization y Stemming son técnicas de normalización de texto que buscan reducir las palabras a su raíz o lema. La primera toma en cuenta la gramática y el contexto de la palabra, mientras que la segunda es más sencilla y rápida.

7. **Manejo de negaciones y expresiones idiomáticas**:

Para análisis de sentimiento más avanzados, se pueden considerar expresiones idiomáticas y negaciones, como "not good".

Algunas librerías que podrían ser útiles para este análisis son ```nltk``` y ```textblob```.

8. **Corregir espacios de líneas o en blanco**:

Puede haber espacios en blanco o líneas vacías que no aporten información al texto. ```re.sub(r'\s+', ' ', texto)``` o ``` text = text.replace('\n', ' ').replace('\r', ' ')``` pueden ser útiles para corregir esto.	

9. **Consideraciones de contexto**:

Algunas expresiones en **Reddit** o redes sociales pueden ser sarcásticas, irónicas o usar emojis.

El análisis de sentimiento puede no ser preciso en estos casos, y se pueden considerar técnicas más avanzadas de procesamiento de lenguaje natural, como el uso de embeddings contextuales (p. ej., BERT).

En resumen, la correcta limpieza y estandarización del texto nos permitirá realizar un "sentiment analysis" más preciso, evitando ruidos comunes y reduciendo la complejidad de los datos antes de aplicar técnicas de NLP o modelos de Machine Learning.