# Aprender 2018
Inteligencia Artificial - Facundo A. Lucianna - CEIA - FIUBA

Para este notebook vamos a trabajar con los datos del plan [Aprender en la edición del 2018](https://www.argentina.gob.ar/educacion/aprender2018). El plan Aprender es el dispositivo de evaluación nacional elaborado por el Ministerio de Educación de la Nación Argentina con el objetivo de relevar información oportuna y de calidad sobre los logros alcanzados y los desafíos pendientes del sistema educativo del país.

El csv provisto cuenta con una versión resumida [Version completa](https://datos.gob.ar/dataset/educacion-aprender-2018). Corresponde a los resultados por cada alumnos de nivel primario alcanzado en el examen, el cual responde a una serie de preguntas, la nota de los exámenes de Lengua y Matemática, y datos que nos ubican al alumno en una provincia, un sector de educación y un nivel socioeconómico.

En esta versión resumida, se presentan 7 preguntas:

- ¿Cuántos años tenés? (p1)
- Sexo  (p2)
- ¿En qué país naciste? (p3)
- ¿En qué país nació tu mamá? (p4)
- ¿En qué país nació tu papá? (p5)
- ¿Con cuántas personas vivís? (p6)
- Aproximadamente, ¿cuántos libros hay donde vivís? (p7)

Además se presenta el puntaje de los dos exámenes (lengua y matemáticas) y el nivel de desempeño.

OBS: En las celdas de procesamiento si ves ___ es para que reemplaces.

---

## Configuración y eliminación de índices

Pandas permite designar columnas como un índice. Esto permite un código más limpio al tomar subconjuntos (además de proporcionar una búsqueda más eficiente en algunas circunstancias).

1. Importa `pandas` como `pd`

In [1]:
import pandas as pd

2. Lea el csv (`aprender2018-primaria-resumido.csv`) en un DataFrame y llame al DataFrame `aprender_2018`.

In [2]:
aprender_2018 = pd.read_csv("./datasets/aprender2018-primaria-resumido.csv")

3. Vea la cabecera de `aprender_2018`. Además, explore la información sobre columnas y valores faltantes y una rápida estadística descriptiva.

In [3]:
aprender_2018.head()

Unnamed: 0,p1,p2,p3,p4,p5,p6,p7,provincia,sector,ldesemp,lpuntaje,mdesemp,mpuntaje,nivel_socio_economico
0,11,2.0,Chile,Argentina,Argentina,9.0,De 26 a 50 libros,Buenos aires,Estatal,Por debajo del nivel básico,359.33395,1,333.69791,Alto
1,11,1.0,Argentina,Perú,,3.0,De 1 a 25 libros,Corrientes,Estatal,Avanzado,654.77716,4,649.36688,Medio
2,11,2.0,Argentina,Argentina,Argentina,4.0,De 1 a 25 libros,Formosa,Estatal,Satisfactorio,518.79034,3,508.85977,Medio
3,11,2.0,Argentina,Argentina,Argentina,5.0,Más de 100 libros,Tucumán,Privado,Avanzado,641.7403,3,508.09436,Medio
4,12,2.0,Argentina,Argentina,Argentina,8.0,No hay libros,Santiago del Estero,Estatal,Avanzado,591.34534,4,687.69476,Bajo


In [4]:
aprender_2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 289755 entries, 0 to 289754
Data columns (total 14 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   p1                     282685 non-null  object 
 1   p2                     281074 non-null  float64
 2   p3                     282439 non-null  object 
 3   p4                     277028 non-null  object 
 4   p5                     269100 non-null  object 
 5   p6                     280155 non-null  float64
 6   p7                     211284 non-null  object 
 7   provincia              289755 non-null  object 
 8   sector                 289755 non-null  object 
 9   ldesemp                278410 non-null  object 
 10  lpuntaje               278410 non-null  float64
 11  mdesemp                289755 non-null  int64  
 12  mpuntaje               276060 non-null  float64
 13  nivel_socio_economico  239927 non-null  object 
dtypes: float64(4), int64(1), object(9)
m

In [5]:
aprender_2018.describe()

Unnamed: 0,p2,p6,lpuntaje,mdesemp,mpuntaje
count,281074.0,280155.0,278410.0,289755.0,276060.0
mean,1.501932,4.535229,517.526407,2.437169,500.977656
std,0.505939,1.975699,86.998676,1.248547,101.463548
min,1.0,1.0,250.00002,-1.0,214.72127
25%,1.0,3.0,451.63153,2.0,424.083407
50%,2.0,4.0,514.41528,3.0,490.41559
75%,2.0,6.0,581.195555,3.0,571.28659
max,22.0,10.0,760.13177,4.0,800.48541


---
## Limpiar una variable

En el conjunto de datos de `aprender_2018`, la columna `"mdesemp"` registra desempeño del alumno en matemáticas. Similar es `"ldesemp"`. Estas dos columnas dan un valor categórico indicando si estuvo por debajo, satisfactorio, etc.

`.value_counts()` es muy útil para columnas categóricas. Nos permite ver para una columna, que valores únicos tiene y cuántas veces se repite. Similarmente, `.unique()` nos devuelve los valores únicos que posee la columna y `.nunique()` el número de valores únicos.

``` Python
df["sexo"].value_counts() 
df["sexo"].unique() 
df["sexo"].nunique()
```

Si se usa `.value_counts()` para `"mdesemp"`, verás que hay 5 valores posibles, cada uno significa:

| Valor  | Significado   |
|---|---|
| 1  | Por debajo del nivel básico  |
| 2  | Básico  |
| 3  | Satisfactorio  |
| 4  | Avanzado  |
| -1  | No data  |

`-1` significa que no hay datos. Por lo que podemos reemplazarlo por `NaN`.

Además, tal como está en `"ldesemp"`, podemos reemplazar los números por el significado del mismo.

1. Use `.value_counts()` para ver los valores de `"mdesemp"`

In [6]:
aprender_2018["mdesemp"].value_counts()

mdesemp
 3    105735
 2     62298
 4     56683
 1     51344
-1     13695
Name: count, dtype: int64

2. Usando `.replace()` reemplaze `-1` con `pd.NA` o `np.nan` de `"mdesemp"` y guárdelo en la misma columna 

In [7]:
aprender_2018["mdesemp"] = aprender_2018["mdesemp"].replace({-1: pd.NA})

3. Use `.value_counts()` para ver los valores modificados de `"mdesemp"`

In [8]:
aprender_2018["mdesemp"].value_counts()

mdesemp
3    105735
2     62298
4     56683
1     51344
Name: count, dtype: int64

---

## Reemplazos usando .loc[]

`.loc[]` no solo se puede usar para hacer slicing, sino para reemplazar valores, la forma que se hace es:

``` Python
df.loc["índice", "columna"] = nuevo_valor
```

Pero este reemplazo lo podemos hacer además usando condicionales, tales como 

``` Python
df.loc[df["peso"] > 80, "peso"] = 80
```

Inclusive el condicional puede pertenecer a otra columna

``` Python
df.loc[df["peso"] > 80, "altura"] = 180
```

La columna `"p2"` es sobre el sexo del alumno. Nos avisaron que hay errores de transcripción. Era esperable que si el valor es `1` es *Maculino* y si es `2` es *Femenino*. Pero algunos casos se transcribieron el número `22` en vez del `2`. Debemos reemplazar los valores, para esto vamos a usar un reemplazo usando `.loc[]`:

1. Realice un slicing de `aprender_2018` usando condicionales las filas que `"p2"` es `22` (podes hacer igual a `22` o mayor a `2`). Imprima el resultado.

In [9]:
aprender_2018[aprender_2018["p2"] > 2]

Unnamed: 0,p1,p2,p3,p4,p5,p6,p7,provincia,sector,ldesemp,lpuntaje,mdesemp,mpuntaje,nivel_socio_economico
57530,11,22.0,Argentina,Argentina,Argentina,3.0,,Santa Fe,Estatal,Satisfactorio,516.6839,3,505.43039,Medio
96013,12,22.0,Argentina,Argentina,Argentina,10.0,De 51 a 100 libros,Santiago del Estero,Estatal,Por debajo del nivel básico,302.84244,1,376.39316,
99916,11,22.0,Argentina,Argentina,Argentina,4.0,Más de 100 libros,Catamarca,Estatal,Avanzado,628.53174,4,710.95038,Medio
207221,12,22.0,Argentina,Argentina,Argentina,1.0,No hay libros,Córdoba,Estatal,Avanzado,558.09039,3,469.8165,Medio


2. Reemplace de `aprender_2018` todas las filas en aparece `22` por `2` usando `.loc[]`. Para ello use en la primera parte de `.loc[]` el condicional usado en el punto anterior, y para la columna a `"p2"`.

In [10]:
aprender_2018.loc[aprender_2018["p2"] > 2, "p2"] = 2

3. Realice un nuevo slicing usando condicionales las filas que `"p2"` es `22`. Imprima el resultado.

In [11]:
aprender_2018[aprender_2018["p2"] > 2]

Unnamed: 0,p1,p2,p3,p4,p5,p6,p7,provincia,sector,ldesemp,lpuntaje,mdesemp,mpuntaje,nivel_socio_economico


---

## Computar una variable

Para cada nota de los exámenes (mpuntaje y lpuntaje) la máxima nota es 1000. Podemos operar la variable para que esté en un rango que estemos más familiarizado, es decir de 0 a 10.

Trabajando con `aprender_2018`:

1. Seleccione `"mpuntaje"`, dividilo por 100 y asígnalo a la columna `"mpuntaje_10"`

In [12]:
aprender_2018["mpuntaje_10"] = aprender_2018["mpuntaje"] / 100

2. Seleccione `"lpuntaje"`, dividilo por 100 y asígnalo a la columna `"lpuntaje_10"`

In [13]:
aprender_2018["lpuntaje_10"] = aprender_2018["lpuntaje"] / 100
aprender_2018

Unnamed: 0,p1,p2,p3,p4,p5,p6,p7,provincia,sector,ldesemp,lpuntaje,mdesemp,mpuntaje,nivel_socio_economico,mpuntaje_10,lpuntaje_10
0,11,2.0,Chile,Argentina,Argentina,9.0,De 26 a 50 libros,Buenos aires,Estatal,Por debajo del nivel básico,359.33395,1,333.69791,Alto,3.336979,3.593340
1,11,1.0,Argentina,Perú,,3.0,De 1 a 25 libros,Corrientes,Estatal,Avanzado,654.77716,4,649.36688,Medio,6.493669,6.547772
2,11,2.0,Argentina,Argentina,Argentina,4.0,De 1 a 25 libros,Formosa,Estatal,Satisfactorio,518.79034,3,508.85977,Medio,5.088598,5.187903
3,11,2.0,Argentina,Argentina,Argentina,5.0,Más de 100 libros,Tucumán,Privado,Avanzado,641.74030,3,508.09436,Medio,5.080944,6.417403
4,12,2.0,Argentina,Argentina,Argentina,8.0,No hay libros,Santiago del Estero,Estatal,Avanzado,591.34534,4,687.69476,Bajo,6.876948,5.913453
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
289750,11,2.0,Argentina,Argentina,Argentina,6.0,,Santa Cruz,Estatal,Básico,445.30432,1,317.47440,,3.174744,4.453043
289751,11,1.0,Argentina,Argentina,Argentina,8.0,De 1 a 25 libros,Buenos aires,Estatal,Avanzado,582.00745,3,529.28949,Bajo,5.292895,5.820074
289752,11,2.0,Argentina,Argentina,Argentina,2.0,De 1 a 25 libros,Santa Fe,Estatal,Avanzado,563.26208,3,547.41559,Medio,5.474156,5.632621
289753,12,1.0,,,,8.0,No hay libros,Tucumán,Estatal,Por debajo del nivel básico,389.22968,3,506.48965,,5.064896,3.892297


---

## Computar nota promedio de los alumnos con desempeño Avanzado.

Uniendo lo que hemos hecho hasta ahora, podemos calcular la nota media del examen de lengua (`"lpuntaje"`) de aquellos alumnos que tuvieron un desempeño avanzado (`"ldesemp"`).

Trabajando con `aprender_2018`:

1. Filtra usando condicionales a las filas que `"ldesemp"` sea igual a `"Avanzado"`. Asignelo a `alumnos_lengua_avanzado`

In [14]:
alumnos_lengua_avanzado = aprender_2018[aprender_2018["ldesemp"] == "Avanzado"]

2. Calcula la nota promedio de `"lpuntaje_10"` de alumnos_lengua_avanzado usando `.mean()` e imprimila

In [15]:
alumnos_lengua_avanzado["lpuntaje_10"].mean()

6.100489567809352

3. Calcula la nota promedio de `"mpuntaje_10"` de alumnos_lengua_avanzado usando `.mean()` e imprimila



In [16]:
alumnos_lengua_avanzado["mpuntaje_10"].mean()

5.724279924157169

¿Los alumnos con desempeño avanzado en lengua, tuvieron una nota promedio de matemática similar al de lengua?

In [17]:
alumnos_mat_avanzado = aprender_2018[aprender_2018["mdesemp"] == 4]

In [18]:
alumnos_mat_avanzado["mpuntaje_10"].mean()

6.517102592431593

In [19]:
alumnos_mat_avanzado["lpuntaje_10"].mean()

5.999913362808186

Si tuvieron una nota similar.