# Aprender 2018
Inteligencia Artificial - Facundo A. Lucianna - CEIA - FIUBA

Para este notebook vamos a trabajar con los datos del plan [Aprender en la edición del 2018](https://www.argentina.gob.ar/educacion/aprender2018). El plan Aprender es el dispositivo de evaluación nacional elaborado por el Ministerio de Educación de la Nación Argentina con el objetivo de relevar información oportuna y de calidad sobre los logros alcanzados y los desafíos pendientes del sistema educativo del país.

El csv provisto cuenta con una versión resumida [Version completa](https://datos.gob.ar/dataset/educacion-aprender-2018). Corresponde a los resultados por cada alumnos de nivel primario alcanzado en el examen, el cual responde a una serie de preguntas, la nota de los exámenes de Lengua y Matemática, y datos que nos ubican al alumno en una provincia, un sector de educación y un nivel socioeconómico.

En esta versión resumida, se presentan 7 preguntas:

- ¿Cuántos años tenés? (p1)
- Sexo  (p2)
- ¿En qué país naciste? (p3)
- ¿En qué país nació tu mamá? (p4)
- ¿En qué país nació tu papá? (p5)
- ¿Con cuántas personas vivís? (p6)
- Aproximadamente, ¿cuántos libros hay donde vivís? (p7)

Además se presenta el puntaje de los dos exámenes (lengua y matemáticas) y el nivel de desempeño.

OBS: En las celdas de procesamiento si ves ___ es para que reemplaces.

---

## Configuración y eliminación de índices

Pandas permite designar columnas como un índice. Esto permite un código más limpio al tomar subconjuntos (además de proporcionar una búsqueda más eficiente en algunas circunstancias).

1. Importa `pandas` como `pd`

2. Lea el csv (`aprender2018-primaria-resumido.csv`) en un DataFrame y llame al DataFrame `aprender_2018`.

3. Vea la cabecera de `aprender_2018`. Además, explore la información sobre columnas y valores faltantes y una rápida estadística descriptiva.

---
## Limpiar una variable

En el conjunto de datos de `aprender_2018`, la columna `"mdesemp"` registra desempeño del alumno en matemáticas. Similar es `"ldesemp"`. Estas dos columnas dan un valor categórico indicando si estuvo por debajo, satisfactorio, etc.

`.value_counts()` es muy útil para columnas categóricas. Nos permite ver para una columna, que valores únicos tiene y cuántas veces se repite. Similarmente, `.unique()` nos devuelve los valores únicos que posee la columna y `.nunique()` el número de valores únicos.

``` Python
df["sexo"].value_counts() 
df["sexo"].unique() 
df["sexo"].nunique()
```

Si se usa `.value_counts()` para `"mdesemp"`, verás que hay 5 valores posibles, cada uno significa:

| Valor  | Significado   |
|---|---|
| 1  | Por debajo del nivel básico  |
| 2  | Básico  |
| 3  | Satisfactorio  |
| 4  | Avanzado  |
| -1  | No data  |

`-1` significa que no hay datos. Por lo que podemos reemplazarlo por `NaN`.

Además, tal como está en `"ldesemp"`, podemos reemplazar los números por el significado del mismo.

1. Use `.value_counts()` para ver los valores de `"mdesemp"`

In [None]:
aprender_2018[___].___

2. Usando `.replace()` reemplaze `-1` con `pd.NA` o `np.nan` de `"mdesemp"` y guárdelo en la misma columna 

In [None]:
aprender_2018[___] = aprender_2018[___].replace({-1: ___})

3. Use `.value_counts()` para ver los valores modificados de `"mdesemp"`

---

## Reemplazos usando .loc[]

`.loc[]` no solo se puede usar para hacer slicing, sino para reemplazar valores, la forma que se hace es:

``` Python
df.loc["índice", "columna"] = nuevo_valor
```

Pero este reemplazo lo podemos hacer además usando condicionales, tales como 

``` Python
df.loc[df["peso"] > 80, "peso"] = 80
```

Inclusive el condicional puede pertenecer a otra columna

``` Python
df.loc[df["peso"] > 80, "altura"] = 180
```

La columna `"p2"` es sobre el sexo del alumno. Nos avisaron que hay errores de transcripción. Era esperable que si el valor es `1` es *Maculino* y si es `2` es *Femenino*. Pero algunos casos se transcribieron el número `22` en vez del `2`. Debemos reemplazar los valores, para esto vamos a usar un reemplazo usando `.loc[]`:

1. Realice un slicing de `aprender_2018` usando condicionales las filas que `"p2"` es `22` (podes hacer igual a `22` o mayor a `2`). Imprima el resultado.

In [None]:
aprender_2018[aprender_2018["p2"] ___ ___] 

2. Reemplace de `aprender_2018` todas las filas en aparece `22` por `2` usando `.loc[]`. Para ello use en la primera parte de `.loc[]` el condicional usado en el punto anterior, y para la columna a `"p2"`.

In [None]:
aprender_2018.loc[___, "p2"] = ___

3. Realice un nuevo slicing usando condicionales las filas que `"p2"` es `22`. Imprima el resultado.

---

## Computar una variable

Para cada nota de los exámenes (mpuntaje y lpuntaje) la máxima nota es 1000. Podemos operar la variable para que esté en un rango que estemos más familiarizado, es decir de 0 a 10.

Trabajando con `aprender_2018`:

1. Seleccione `"mpuntaje"`, dividilo por 100 y asígnalo a la columna `"mpuntaje_10"`

In [None]:
___ = aprender_2018[___] / 100

2. Seleccione `"lpuntaje"`, dividilo por 100 y asígnalo a la columna `"lpuntaje_10"`

---

## Computar nota promedio de los alumnos con desempeño Avanzado.

Uniendo lo que hemos hecho hasta ahora, podemos calcular la nota media del examen de lengua (`"lpuntaje"`) de aquellos alumnos que tuvieron un desempeño avanzado (`"ldesemp"`).

Trabajando con `aprender_2018`:

1. Filtra usando condicionales a las filas que `"ldesemp"` sea igual a `"Avanzado"`. Asignelo a `alumnos_lengua_avanzado`

In [None]:
___ = aprender_2018[___ == ___]

2. Calcula la nota promedio de `"lpuntaje_10"` de alumnos_lengua_avanzado usando `.mean()` e imprimila

In [None]:
alumnos_lengua_avanzado[___].mean()

3. Calcula la nota promedio de `"mpuntaje_10"` de alumnos_lengua_avanzado usando `.mean()` e imprimila



¿Los alumnos con desempeño avanzado en lengua, tuvieron una nota promedio de matemática similar al de lengua?