# EDA Exploratory Data Analysis
## DataSet StackSample: 10% of Stack Overflow Q&A
https://www.kaggle.com/datasets/stackoverflow/stacksample

### Motivacion
Escogi este dataset porque es un dataset de preguntas y respuestas de temas tecnicos, en donde se puede hacer una solucion NLP con base a las tags que ya se tienen, para entrenar un modelo de clasificacion de texto.

### Descripcion del data set
El data set contiene 3 archivos que son:
* **Questions.csv**: Contiene las preguntas de stackoverflow y tiene la siguiente estructura
    * Id: Identificador de la pregunta
    * OwnerUserId: Identificador del usuario que pregunta
    * CreationDate: Fecha de creacion de la pregunta
    * ClosedDate: Fecha de cierre de la pregunta
    * Score: Puntuacion de la pregunta
    * Title: Titulo de la pregunta
    * Body: Cuerpo de la pregunta
* **Answers.csv**: Contiene las respuestas de las preguntas y tiene la siguiente estructura
    * Id: Identificador de la respuesta
    * OwnerUserId: Identificador del usuario que responde
    * CreationDate: Fecha de creacion de la respuesta
    * ParentId: Identificador de la pregunta a la que responde
    * Score: Puntuacion de la respuesta
    * Body: Cuerpo de la respuesta
* **Tags.csv**: Contiene las etiquetas de las preguntas y tiene la siguiente estructura
    * Id: Identificador de la etiqueta
    * Tag: Nombre de la etiqueta


### Objetivo
El objetivo de este notebook es hacer un analisis exploratorio de los datos, para ver que tipo de datos tenemos y como podemos utilizarlos para entrenar un modelo de clasificacion de texto.

### Importar librerias

In [24]:
import pandas as pd

### Importar los datos

In [25]:
def read_data(file_path):
    """
    Lee un archivo CSV y lo carga en un DataFrame de pandas.

    Parámetros
    ----------
    file_path: str
        Ruta al archivo CSV que se desea leer.

    Retorna
    -------
    pandas.DataFrame
        DataFrame con los datos cargados desde el archivo CSV.
    """
    data = pd.read_csv(file_path, encoding="ISO-8859-1")
    return data

In [26]:
def get_dfs_info(*dfs):
    """
    Muestra información básica de uno o varios DataFrames.

    Parámetros
    ----------
    *dfs: pandas.DataFrame
        Uno o varios DataFrames cuyos detalles se desean imprimir.

    Comportamiento
    -------------
    Para cada DataFrame recibido, imprime:
    - Un encabezado indicando el número de orden del DataFrame.
    - La longitud (número de filas).
    - El resultado de `df.info()` con resumen de columnas, tipos y memoria.
    """
    for i, df in enumerate(dfs, 1):
        print(f"--- DataFrame {i} ---")
        print("length:", len(df))
        df.info()
        print("\n")

In [27]:
import pandas as pd

def review_data_quality(questions, answers, tags):
    """
    Revisa y reporta la calidad de tres DataFrames: preguntas, respuestas y etiquetas.

    Parámetros
    ----------
    questions : pandas.DataFrame
        DataFrame con las preguntas, debe incluir al menos la columna 'Title'.
    answers : pandas.DataFrame
        DataFrame con las respuestas.
    tags : pandas.DataFrame
        DataFrame con las etiquetas, debe incluir la columna 'Tag'.

    Comportamiento
    -------------
    - Imprime el conteo de valores nulos en cada DataFrame y en 'Tag'.
    - Elimina las filas de `tags` cuyo campo 'Tag' sea nulo.
    - Calcula e imprime el número de filas duplicadas en cada DataFrame.
    - Verifica y notifica si hay títulos repetidos en `questions['Title']`.

    Retorna
    -------
    None

    """
    print("Nulos en questions:\n", questions.isnull().sum())
    print("\nNulos en answers:\n", answers.isnull().sum())
    print("\nNulos en tags:\n", tags.isnull().sum())
    nulos_tag_col = tags['Tag'].isnull().sum()
    print(f"\nNulos en la columna 'Tag' de tags: {nulos_tag_col}")

    tags = tags.dropna(subset=['Tag'])

    duplicated_questions = questions.duplicated().sum()
    duplicated_answers = answers.duplicated().sum()
    duplicated_tags = tags.duplicated().sum()
    print(f"\nDuplicados en questions: {duplicated_questions}")
    print(f"Duplicados en answers: {duplicated_answers}")
    print(f"Duplicados en tags: {duplicated_tags}")

    duplicated_title = questions['Title'].duplicated().sum()
    if duplicated_title > 0:
        print(f"\nHay {duplicated_title} títulos repetidos en la columna Title.")
    else:
        print("\nNo hay títulos repetidos en la columna Title.")

In [28]:
questions = read_data('../data/input/Questions.csv')

In [None]:
answers = read_data('../data/input/Answers.csv')

In [None]:
tags = read_data('../data/input/Tags.csv')

### Exploracion de datos

In [None]:
get_dfs_info(questions, answers, tags)

In [None]:
questions.head(10)

In [None]:
answers.head(10)

In [None]:
tags.head(10)

### Revision de la calidad de datos

In [None]:
review_data_quality(questions, answers, tags)

In [None]:
questions.isnull().sum()

### Informacion relevante de los dataframes
Despues de ver los dataframes, podemos concluir la siguiente informacion:
- **Questions.csv** tiene 3 columnas que son importantes para nuestro analisis, que son:
	- Id: Identificador de la pregunta
	- Title: Titulo de la pregunta
	- Body: Cuerpo de la pregunta
- Las demas columnas no son relevantes para nuestro analisis, porque:
	- OwnerUserId: No es relevante porque no nos interesa saber quien hizo la pregunta
	- CreationDate: No es relevante porque no nos interesa saber cuando se hizo la pregunta
	- ClosedDate: No es relevante porque no nos interesa saber cuando se cerro la pregunta
	- Score: No es relevante porque no nos interesa saber la puntuacion de la pregunta
- **Tags.csv** las 2 columnas  son importantes para nuestro analisis:
	- Id: Identificador de la etiqueta
	- Tag: Nombre de la etiqueta

### Conclusion
Despues de ver la estructura y toda la informacion de el data set, vamos a hacer uso de los archivos **Questions.csv** y el de **Tags.csv**, ya que son las que nos sirve para realziar un analisis de las tags por preguntas, como proximos pasos se podria validad como se comportaria el modelo agregando la iunformacion de **Answers.csv**