# Taller: Pandas, Numpy y Matplotlib

## Manejo de DataFrames de Pandas

Este taller contiene 4 archivos `.csv` correspondientes a las notas de 100 estudiantes en 4 materias.  

Cada archivo está formateado de la siguiente forma:  

| Estudiante | Nota 1 | Nota 2 | Nota 3 | Nota 4 | Nota 5 |
| :--------: | :----: | :----: | :----: | :----: | :----: | 
| 1.0        |	2.47  |	2.97   | 3.05   | 0.74   |	3.62  |
| 2.0        | 2.85   | 3.03   | 3.66   | 4.56   |	4.56  |
| 3.0        | 2.96   |	3.47   | 2.07   |	0.6  |	0.0   |
| ...        | ...    |  ...   | ...    | ...    | ...    |
| 100        | 3.61   | 3.18   | 0.59   | 5.00   | 1.64   |

Durante este taller se realizaran distintas operaciones sobre estos archivos. Se darán recordatorios de funciones útiles para el desarrollo de los puntos en que sean necesarias.  

Para empezar debemos abrir los archivos con `pandas`, para esto podemos usar:  

```python
import pandas as pd

archivo = pd.read_csv("ruta/del/archivo.csv")
```

`archivo` es un objeto de tipo `pandas.DataFrame` que provee gran variedad de métodos útiles para el manejo de los datos que este contiene. De cierta forma podemos ver el objeto como un "mini-excel" en donde se podrán realizar operaciones típicas de hojas de cálculo. Documentación sobre estos métodos puede ser encontrada en este [enlace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) o dentro de Jupyter (o IPython) de la siguiente forma:  

```python
import pandas as pd

?pd.DataFrame
```

### Leer las hojas de cálculo en Python 
Se nos pide entonces que calculemos distintas estadísticas relacionadas a las notas de los estudiantes. Para ello debemos leer los archivos.  

En la siguiente celda de Jupyter deberás abrir todos los archivos `.csv` de este directorio (carpeta) y guárda los DataFrames en un diccionario, en donde la llave de cada objeto será el nombre del archivo sin la extensión. Recuerda importar las bibliotecas necesarias ya que esta es la primera celda que será ejecutada.  

In [1]:
# Ejercicio 1


### Manipulación de datos en DataFrames

La primeras estadística que se nos pide calcular son:
- Promedio de cada estudiante por materia
- Promedio de cada materia
- Desviación estándar de los promedios por materia
- Promedio de cada estudiante en general
- Desviación estándar de los promedios en general

Es recomendable que, para mantener el orden en este documento se realice cada punto en una celda de Jupyter diferente y el resultado de las operaciones sea entregado en DataFrames.    

#### Métodos recomendados

##### `DataFrame.iloc[]`: 
Permite el uso de numeros enteros para indexar y partir los dataframes, su sintaxis es parecida a las usada para las listas en Python. 

Por ejemplo, si se tiene el siguiente DataFrame `df`:

|    |   Bananos |   Peras |  Manzanas |   Aguacates |   Naranjas |   Mangos |   Sandias |   Fresas |   Uvas |   Melocotones |
|---:|----------:|--------:|----------:|------------:|-----------:|---------:|----------:|---------:|-------:|--------------:|
|  0 |         5 |      81 |        98 |          13 |         88 |       33 |        25 |       15 |     91 |            93 |
|  1 |        83 |      57 |        70 |          89 |         53 |       18 |        44 |       74 |     21 |            58 |
|  2 |        52 |      99 |        88 |          80 |         95 |       16 |        98 |       45 |     46 |            39 |
|  3 |        63 |      56 |        40 |          90 |         72 |       74 |        67 |       72 |     60 |            59 |
|  4 |        36 |      19 |        23 |          12 |         94 |       60 |        43 |       86 |     43 |            59 |
|  5 |        37 |      42 |        24 |          52 |         38 |       12 |        97 |       24 |      6 |            68 |
|  6 |        39 |       8 |        70 |          91 |         88 |       19 |        89 |       20 |     64 |            64 |
|  7 |        39 |      96 |        48 |          22 |         72 |       76 |        92 |       85 |     53 |             6 |
|  8 |        56 |      37 |        14 |          48 |         84 |       84 |        63 |       24 |     18 |            48 |
|  9 |        66 |      66 |        97 |          13 |         64 |       84 |        32 |       76 |     64 |            68 |

Podriamos particionarlo usando:  
```python 
df.iloc[fila_inicial : fila_final, columna_inicial : columna_final]
```
**Nota**: recuerda que contrario a las particiones de Python aquí `fila_final` y `columna_final` son inclusivos. Además, Si la fila o columna iniciales son omitidas Python las toma como 0, mientras que si la fila o columna finales son omitidas se toman como su valor máximo, en este caso 10.

Una partición posible sería `df.iloc[3 :, 2 : 8]`

|    |  Manzanas |   Aguacates |   Naranjas |   Mangos |   Sandias |   Fresas |
|---:|----------:|------------:|-----------:|---------:|----------:|---------:|
|  3 |        40 |          90 |         72 |       74 |        67 |       72 |
|  4 |        23 |          12 |         94 |       60 |        43 |       86 |
|  5 |        24 |          52 |         38 |       12 |        97 |       24 |
|  6 |        70 |          91 |         88 |       19 |        89 |       20 |
|  7 |        48 |          22 |         72 |       76 |        92 |       85 |
|  8 |        14 |          48 |         84 |       84 |        63 |       24 |
|  9 |        97 |          13 |         64 |       84 |        32 |       76 |

##### Añadir una nueva columna al DataFrame

Puedes añadir una nueva columna de forma similar a como añades un valor nuevo a un diccionario.  

```python
df["Papayas"] = np.zeros((10,), dtype=int)
```

Y el DataFrame se modificaría así

|    |   Bananos |   Peras |  Manzanas |   Aguacates |   Naranjas |   Mangos |   Sandias |   Fresas |   Uvas |   Melocotones |   Papayas |
|---:|----------:|--------:|----------:|------------:|-----------:|---------:|----------:|---------:|-------:|--------------:|----------:|
|  0 |         5 |      81 |        98 |          13 |         88 |       33 |        25 |       15 |     91 |            93 |         0 |
|  1 |        83 |      57 |        70 |          89 |         53 |       18 |        44 |       74 |     21 |            58 |         0 |
|  2 |        52 |      99 |        88 |          80 |         95 |       16 |        98 |       45 |     46 |            39 |         0 |
|  3 |        63 |      56 |        40 |          90 |         72 |       74 |        67 |       72 |     60 |            59 |         0 |
|  4 |        36 |      19 |        23 |          12 |         94 |       60 |        43 |       86 |     43 |            59 |         0 |
|  5 |        37 |      42 |        24 |          52 |         38 |       12 |        97 |       24 |      6 |            68 |         0 |
|  6 |        39 |       8 |        70 |          91 |         88 |       19 |        89 |       20 |     64 |            64 |         0 |
|  7 |        39 |      96 |        48 |          22 |         72 |       76 |        92 |       85 |     53 |             6 |         0 |
|  8 |        56 |      37 |        14 |          48 |         84 |       84 |        63 |       24 |     18 |            48 |         0 |
|  9 |        66 |      66 |        97 |          13 |         64 |       84 |        32 |       76 |     64 |            68 |         0 |

También puedes añadir una nueva fila con el método `DataFrame.append()`

```python
df = df.append(pd.Series(0, index=df.columns), ignore_index=True)
```

Resultando en el siguiente DataFrame:

|    |   Bananos |   Peras |   Mazanas |   Aguacates |   Naranjas |   Mangos |   Sandias |   Fresas |   Uvas |   Melocotones |   Papayas |
|---:|----------:|--------:|----------:|------------:|-----------:|---------:|----------:|---------:|-------:|--------------:|----------:|
|  0 |         5 |      81 |        98 |          13 |         88 |       33 |        25 |       15 |     91 |            93 |         0 |
|  1 |        83 |      57 |        70 |          89 |         53 |       18 |        44 |       74 |     21 |            58 |         0 |
|  2 |        52 |      99 |        88 |          80 |         95 |       16 |        98 |       45 |     46 |            39 |         0 |
|  3 |        63 |      56 |        40 |          90 |         72 |       74 |        67 |       72 |     60 |            59 |         0 |
|  4 |        36 |      19 |        23 |          12 |         94 |       60 |        43 |       86 |     43 |            59 |         0 |
|  5 |        37 |      42 |        24 |          52 |         38 |       12 |        97 |       24 |      6 |            68 |         0 |
|  6 |        39 |       8 |        70 |          91 |         88 |       19 |        89 |       20 |     64 |            64 |         0 |
|  7 |        39 |      96 |        48 |          22 |         72 |       76 |        92 |       85 |     53 |             6 |         0 |
|  8 |        56 |      37 |        14 |          48 |         84 |       84 |        63 |       24 |     18 |            48 |         0 |
|  9 |        66 |      66 |        97 |          13 |         64 |       84 |        32 |       76 |     64 |            68 |         0 |
| 10 |         0 |       0 |         0 |           0 |          0 |        0 |         0 |        0 |      0 |             0 |         0 |

#### Promedio de cada estudiante por materia

#### Promedio de cada materia

#### Desviación estándar de los promedios por materia

#### Promedio de cada estudiante en general

#### Desviación estándar de los promedios en general