# Introducción

## Objetivo general
El proyecto consiste en predecir la deserción de estudiantes en el contexto una plataforma educativa online de código libre argentina que presenta una secuencia didáctica para aprender a programar. Para ello se utilizará un dataset anonimizado de aproximadamente 50.000 filas con progreso de estudiantes consistente en sus interacciones con la plataforma de aproximadamente 150 estudiantes. El mismo contiene tanto datos estructurados como no estructurados: tipos de eventos, fechas, transiciones entre estados, código fuente de soluciones enviadas, resultados de análisis sobre los árboles sintacticos y la ejecución del código fuente, entre otros.

## Primera entrega: análisis y visualización

## Hitos

La intención es avanzar de forma iterativa e incremental, en cuatro iteraciones: 

1. **Familiarización y planteo de preguntas** (📅 semana del 10 de Mayo) Conoceremos el problema, caracterizaremos a muy alto nivel el dataset y  partiendo de la pregunta _¿qué factores inciden en la deserción?_ se deberá:
    1. producir nuevas preguntas, más específicas, que ayuden a responder a la pregunta general;
    2. proponer a alto nivel (no es necesario en este punto código, aunque siempre suma) estrategias para resolverlas;
    3. identificar, si fuera necesario, qué información falta para responder dichas preguntas
2. **Caracterización y visualización I** (📅 semana del 17 de Mayo). Intentaremos dar respuesta a las preguntas de la iteración anterior a través de métricas estadísticas y visualizaciones. Plantearemos nuevas preguntas y refinaremos las anteriores
3. **Caracterización y visualización II** (📅 semana del 24 de Mayo). Continuaremos iterando sobre las preguntas, métricas estadísticas y visualizaciones. **Este hito será opcional y en función del detalle alcanzado en el anterior**.  
4. **Entrega final** (📅 semana del 31 de Mayo)

## Los datos

Cada fila de este datasets representa el envío de una solución a un ejercicio realizada por un@ estudiante y los resultados de la evaluación automática realizada por la plataforma [Mumuki](https://mumuki.io). Encontraremos las siguientes columnas: 

  * `exercise_name` y `exercise_eid`: nombre e identificador del ejercicio dentro de una guía 
  * `expectation_results`: resultados del análisis de expectativas y code smells realizado mediante  la herramienta mulang
  * `guide_slug`: identificador único de la guía, que permite buscarle como un repositorio Github o dentro del API de contenido de Mumuki (por ejemplo la guía `mumukiproject/mumuki-guia-python-funciones-tipos-de-datos` se corresponde con la URL https://bibliotheca-api.mumuki.io/guides/mumukiproject/mumuki-guia-python-funciones-tipos-de-datos). Junto con el exercise_id constituyen la clave natural primaria del ejercicio. 
  * `result`: resutlado obtenido al intentar cargar la solución en un intérprete de Python. Sólo está presente en caso de que la solución no se haya podido cargar satisfactoriamiente debido a errores de sintaxis o referencias. Si la solución ha sido cargada correctamente, se deberá inspeccionar el campo `test_results`
  * `sid`: identificador único del envío, o -1 si lo que se envío fue una prueba a través del REPL de Mumuki (consola) en lugar de una solución
  * `student_uid`: identificador (anonimizado) de estudiante
  * `submission_content`: código fuente de la solución enviada
  * `submission_created_at`: fecha y hora GMT a la que la solución fue enviada
  * `submission_status`: estado del envío: passed (solución correcta), passed_with_warnigns (solución correcta desde el punto de vista de las pruebas unitarias pero con errores de mulang), failed (solución que no pasa las pruebas unitarias), errored (solución que no puede ser cargada por errores de sintaxis o referencias), aborted (solución que puede ser cargada pero no puede ser ejecutada de forma completa)
  * `submissions_count`: cantidad de soluciones enviadas hasta el momento para es@ estudiante y ejercicio
  * `test_results`: resultados de las pruebas unitarias, en caso de que hayan podido ser ejecutadas

In [4]:
import io
import matplotlib
import matplotlib.pyplot as plt
import numpy
import pandas as pd
import seaborn
import datetime as dt

seaborn.set_context('talk')

In [5]:
url= 'https://raw.githubusercontent.com/Natali-PP/diplodatos2021/main/mentoria/python_submissions.csv'
df_mumuki = pd.read_csv(url)

In [6]:
df_mumuki[:3]

Unnamed: 0,exercise_eid,exercise_name,expectation_results,feedback,guide_slug,result,sid,student_uid,submission_content,submission_created_at,submission_status,submissions_count,test_results
0,1,"Funciones, declaración",[],,mumukiproject/mumuki-guia-python-funciones-tip...,,0,76,def mitad(numero):\r\n return numero / 2,2019-08-30 13:17:17.700,passed,0,"[{'title': 'Mitad de 10 es 5', 'status': 'pass..."
1,1,"Funciones, declaración",[],,mumukiproject/mumuki-guia-python-funciones-tip...,,1,77,def mitad(numero):\r\n return numero / 2,2019-09-04 01:29:22.351,passed,0,"[{'title': 'Mitad de 10 es 5', 'status': 'pass..."
2,1,"Funciones, declaración",[],,mumukiproject/mumuki-guia-python-funciones-tip...,,2,78,def Mitas(numero):\r\n return 2 / numero\r\n,2019-09-04 02:53:01.099,failed,0,"[{'title': 'Mitad de 10 es 5', 'status': 'fail..."


## Caracterización

Estas son algunas preguntas que pueden ayudarnos a entrar al lote de datos y caracterizarlo: 

* ¿Qué tamaño tiene?
* ¿Qué valores únicos hay en cada columna?
* ¿Durante qué período se enviaron las soluciones? ¿En qué dias de la semana?
* ¿Cómo son las soluciones? ¿Cuántas soluciones únicas hay?
* ¿Cuántos ejercicios únicos tenemos?

In [8]:
print{f'El tamaño del lote de datos es: {df_mumuki.shape} registros y columnas'}

SyntaxError: invalid syntax (<ipython-input-8-8a20ebaccc75>, line 1)