# EDA - Evaluate Student Summaries

# Libro de Variables

## Prompts
- **prompt_id**: 
    - Identificador único para la información del texto que debe de ser resumido.
    - Tipo: String
- **prompt_question**: 
    - Pregunta que se le hace al estudiante para que resuma el texto.
    - Tipo: String
- **prompt_title**: 
    - Un título sobre el texto que debe de ser resumido.
    - Tipo: String
- **prompt_text**: 
    - Texto que debe de ser resumido.
    - Tipo: String


## Summaries
- **student_id**:
    - Identificador único para el estudiante.
    - Tipo: String 
- **prompt_id**:
    - Identificador único para la información del texto que debe de ser resumido. Hace referencia al `prompt_id` de la tabla Prompts.
    - Tipo: String
- **text**:
    - El resumen hecho por el estudiante
    - Tipo: String
- **content**:
    - Un valor numérico que indica la calidad del resumen hecho por el estudiante. (El primer criterio de evaluación o _target_)
    - Tipo: Float
- **wording**:
    - Un valor numérico que indica la calidad de las palabras usadas en el resumen hecho por el estudiante. (El segundo criterio de evaluación o _target_)
    - Tipo: Float

# Análisis de Datos Exploratorio

## Librerías utilizadas

In [21]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import nltk

## Carga de datos

In [22]:
df_prompts = pd.read_csv('../data/prompts_train.csv')
df_prompts.head()

Unnamed: 0,prompt_id,prompt_question,prompt_title,prompt_text
0,39c16e,Summarize at least 3 elements of an ideal trag...,On Tragedy,Chapter 13 \r\nAs the sequel to what has alrea...
1,3b9047,"In complete sentences, summarize the structure...",Egyptian Social Structure,Egyptian society was structured like a pyramid...
2,814d6b,Summarize how the Third Wave developed over su...,The Third Wave,Background \r\nThe Third Wave experiment took ...
3,ebad26,Summarize the various ways the factory would u...,Excerpt from The Jungle,"With one member trimming beef in a cannery, an..."


In [23]:
df_summaries = pd.read_csv('../data/summaries_train.csv')
df_summaries.head()

Unnamed: 0,student_id,prompt_id,text,content,wording
0,000e8c3c7ddb,814d6b,The third wave was an experimentto see how peo...,0.205683,0.380538
1,0020ae56ffbf,ebad26,They would rub it up with soda to make the sme...,-0.548304,0.506755
2,004e978e639e,3b9047,"In Egypt, there were many occupations and soci...",3.128928,4.231226
3,005ab0199905,3b9047,The highest class was Pharaohs these people we...,-0.210614,-0.471415
4,0070c9e7af47,814d6b,The Third Wave developed rapidly because the ...,3.272894,3.219757


## Conversión del tipo de datos

In [24]:
to_string = ['prompt_id', 'prompt_question', 'prompt_title', 'prompt_text']
df_prompts[to_string] = df_prompts[to_string].astype(str)

In [25]:
to_string = ['student_id', 'prompt_id', 'text']
to_float = ['content', 'wording']
df_summaries[to_string] = df_summaries[to_string].astype(str)
df_summaries[to_float] = df_summaries[to_float].astype(float)

## Análisis de Datos
### Forma de los datos

#### Prompts

In [27]:
print(f"La tabla de Prompts tiene {df_prompts.shape[0]} observaciones y {df_prompts.shape[1]} columnas.")
for col in df_prompts.columns:
    print(f"\t- {col}: {df_prompts[col].dtype}")

La tabla de Prompts tiene 4 filas y 4 columnas.
	- prompt_id: object
	- prompt_question: object
	- prompt_title: object
	- prompt_text: object


#### Summaries

In [28]:
print(f"La tabla de Summaries tiene {df_summaries.shape[0]} observaciones y {df_summaries.shape[1]} columnas.")
for col in df_summaries.columns:
    print(f"\t- {col}: {df_summaries[col].dtype}")

La tabla de Summaries tiene 7165 filas y 5 columnas.
	- student_id: object
	- prompt_id: object
	- text: object
	- content: float64
	- wording: float64
