# Tratamiento de datos.

**Tema:**

* Cruce de información - merge
* Agrupamiento de categorías - groupby
* Tablas pivote: cruzar categorías de filas y columnas.

## _Cruce de información._

El cruce de información es una operación esencial en el análisis de los datos. Usualmente, la posibilidad de realizar el cruce de dos o más fuentes de información es el primer paso para responder preguntas complejas acerca de los datos. Existen muchas formas de cruzar o combinar tablas de datos. El cruce de estos datos siempre tiene un propósito. Por tanto, se debe realizar un análisis de lo que se requiere antes de iniciar. Para esto, lo primero es conocer bien las fuentes de información que se van a relacionar.


### *Uniones (Joins)*

Usando la librería pandas se pueden realizar 4 tipos de uniones para cruzar información entre dos fuentes de datos, ver Figura abajo. 
* INNER JOIN: este tipo de cruce incluye solo los registros que coincieden en las dos tablas.
* LEFT JOIN:  en este tipo de cruce se incluyen todos los registros de la primera tabla aunque no aparezcan coincidencias en la segunda. Cuando no hay coincidencias en la segunda tabla los campos correspondientes a esta aparecerán como nulos.
* RIGHT JOIN: en este tipo de cruce se incluyen todos los registros de la segunda tabla aunque no aparezcan coincidencias en la primera. Cuando no hay coincidencias en la primer tabla los campos correspondientes a esta aparecerán como nulos.
* OUTER JOIN O FULL JOIN: combina todos los registros de ambas tablas aunque no existan coincidencias en la otra tabla. 

![Los tipos de uniones que se pueden ejecutar en pandas](https://letsdobigdata.files.wordpress.com/2016/03/joins.png) 

**Imagen tomada de wordpress.com**

La combinación a usar depende del análisis que se requiera con los datos. Lo más común es realizar un cruce de tipo Inner Join, debido a que muestra los registros cuando aparecen relacionados en ambas tablas. Sin embargo, en 
ocasiones se quiere saber que pasa con todos los registros de la primera tabla aunque no se tengan coincidencias. Alternativamente, quizá, lo menos usual es hacer combinaciones de tipo RIGHT o OUTER. Generalmente, estas son usadas cuando se quiere saber por qué no se tienen coincidencias, o cuáles registros no cumplen con la relación especificada.

### _Ejemplo: Infomación archivo de Excel `examen2.xlsx`_


Para entender como funciona se necesita una tabla de inofrmación. Para esto, se va utilizar el archivo `examen2.xlsx`. Este archivo consta de seis tablas repartidas en diferentes hojas del libro de excel. El archivo contiene el registro anonimizado del examen de algoritmos y programación aplicado a todos los programas de Ingeniería en 2017-2. La información recolectada registró los resultados del examen de los estudiantes de la asignatura "algoritmos y programación" en el mencionado periodo académico. A este registro lo acompañan una tabla de los profesores y otra tabla de los grupos de cursos que se formaron. Además, se tiene un informe de calificaciones de los estudiantes antes de presentar dicho examen, referente a notas y fallas del primer y segundo corte. Finalmente, se cuenta con un registro de la citación al examen de cada estudiante. Para mayor claridad, a continuación se describe en detalle los sheets:

### Información del archivo `examen2.xlsx`


ESTUDIANTE
- **IDE:** identificador de estudiante (valor entero consecutivo)
- **programa:** programa al que pertenece (texto {Ingeniería de sistemas, Ingeniería ambiental, Ingeniería mecánica, Ingeniería electrónica, Ingeniería industrial})
- 
PROFESOR
- **IDP:** identificador de profesor (valor entero consecutivo)
- **profesor:** nombre del profesor (texto)
- **dedicación:** dedidcación de profesor en la U {TC, TM y Cátedra}
- 
GRUPO
- **IDG:** número del grupo (texto, consecutivo del grupo)
- **curso:** nombre del curso (texto)
- **creditos:** número de créditos del curso (número entero positivo)
- **nestd:** número de estudiantes inscritos en cada grupo (entero positivo)
- **periodo:** periodo académico del año en que se dictó el curso {1,2, 3}
- **año:**  año en que se dictó el curso (entero positivo)

LISTADO
- **corte1:** nota en el primer corte (valor real [0.0, 5.0])
- **corte2:** nota en el segundo corte (valor real [0.0, 5.0])
- **prom:** promedio primeros dos cortes (valor real [0.0, 5.0])
- **fallas:** cantidad de horas de falla (valor entero mayor o igual a cero)
- **fallaP:** porcentaje de horas de falla (real [0.0, 100.0])

EXAMEN
- **inicio:** hora inicio de examen (hora formato: '%H%M')
- **final:** hora finalización de examen (hora formato: '%H%M')
- **nota:** nota total (valor real [0.0, 5.0])
- **p1, p2,...,p10:** resultado por pregunta, 10 preguntas (valor real [0.0, 5.0])
 
CITA
- **nsala:** número de la sala en donde presenta el examen (valor entero consecutivo)
- **sala:**  nombre de la sala en donde presenta el examen (texto)
- **horaExamen:** hora programada para presentar examen (hora formato: '%H%M %pm')
- **jornada:** jornada en la que presenta el examen (texto {día, noche})


### _Actividad 1: Cargar información del examen_


1. Para esto se debe incluir la librería `pandas` y se recomienda importar la librería `numpy`
2. Definir una ruta y nombre del recurso (url del archivo).
3. Crear un DataFrame con cualquier tabla de las que estas disponibles en el recurso.


```Python
# Importar las librerías básicas 
import pandas as pd
import numpy as np
```

In [1]:
# celda de código para probar
import pandas as pd
import numpy as np

#### _Ejercicio 1._

Cargue todas las hojas del libro en diferentes dataframes y explore la información. Compare las columnas de los dataframes con el diccionario de datos presentado arriba

In [2]:
ls -l

total 1724
drwxrwxr-x 5 andres andres   4096 jun 30 00:11 [0m[01;34m_build[0m/
-rw-rw-r-- 1 andres andres   9205 jun 30 15:08 Clases_Python.ipynb
-rw-rw-r-- 1 andres andres   1006 jun 30 00:48 _config.yml
drwxrwxr-x 5 andres andres   4096 jun 30 11:44 [01;34mdatas[0m/
-rw-rw-r-- 1 andres andres      0 jun 30 00:48 hello.txt
-rw-rw-r-- 1 andres andres    754 jun 30 00:48 intro.md
-rw-rw-r-- 1 andres andres  12578 jun 30 14:53 Lectura_1_Intro_Markdown.ipynb
-rw-rw-r-- 1 andres andres  74882 jun 30 15:12 Lectura_2_elementos_basicos_Python.ipynb
-rw-rw-r-- 1 andres andres 219115 jun 30 15:12 Lectura_3_Defi_Function_Python.ipynb
-rw-rw-r-- 1 andres andres  74751 jun 30 15:13 Lectura_4_estruc_Datos_Python.ipynb
-rw-rw-r-- 1 andres andres  48871 jun 30 15:13 Lectura_5_Pandas_Series_DataFrame.ipynb
-rw-rw-r-- 1 andres andres 212741 jun 30 12:44 Lectura_6.0_Mas_de_Pandas.ipynb
-rw-rw-r-- 1 andres andres 709101 jun 30 17:08 Lectura_6.1_operacionesBásicasDataframes.ipynb
-rw-rw-r-- 1 andres 

In [3]:
# celda de código para probar 
urlfile = 'datas/examen2.xlsx'
sheets = pd.read_excel(urlfile, sheet_name= None)
print(sheets.keys())

dict_keys(['estudiante', 'profesor', 'grupo', 'listado', 'examen', 'cita'])


In [4]:
%who

np	 os	 pd	 sheets	 sys	 urlfile	 


In [5]:
sheets = {"df_"+ key:value for key, value in sheets.items()}
locals().update(sheets)
##
for i in sheets.keys():
    print(i)

df_estudiante
df_profesor
df_grupo
df_listado
df_examen
df_cita


In [6]:
def info_df(*dataframes):
    i = 0
    for df in dataframes:
      print("*"*80)
      print(f'Tamaño dataframe {list(sheets.keys())[i]}: {df.shape}')
      print("*"*80)
      print(df.info())
      print("*"*80)
      print("Cabeza del dataframe:")
      print(df.head())
      print("*"*80)
      i +=1
    return None

In [7]:
info_df(*sheets.values())

********************************************************************************
Tamaño dataframe df_estudiante: (617, 2)
********************************************************************************
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 617 entries, 0 to 616
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   IDE       617 non-null    int64 
 1   programa  617 non-null    object
dtypes: int64(1), object(1)
memory usage: 9.8+ KB
None
********************************************************************************
Cabeza del dataframe:


Unnamed: 0,IDE,programa
0,1500,Ingeniería Mecánica
1,1501,Ingeniería Ambiental
2,1502,Ingeniería De Sistemas
3,1503,Ingeniería Ambiental
4,1504,Ingeniería Ambiental


********************************************************************************
********************************************************************************
Tamaño dataframe df_profesor: (25, 3)
********************************************************************************
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   IDP         25 non-null     int64 
 1   profesor    25 non-null     object
 2   dedicacion  25 non-null     object
dtypes: int64(1), object(2)
memory usage: 728.0+ bytes
None
********************************************************************************
Cabeza del dataframe:


Unnamed: 0,IDP,profesor,dedicacion
0,201,Patroclo,TC
1,202,Andrómaca,Cátedra
2,203,Artemisa,TC
3,204,Eneas,Cátedra
4,205,Néstor,Cátedra


********************************************************************************
********************************************************************************
Tamaño dataframe df_grupo: (33, 8)
********************************************************************************
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33 entries, 0 to 32
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   IDG       33 non-null     object
 1   curso     33 non-null     object
 2   creditos  33 non-null     int64 
 3   IDP       33 non-null     int64 
 4   nestud    33 non-null     int64 
 5   periodo   33 non-null     int64 
 6   año       33 non-null     int64 
 7   jornada   33 non-null     object
dtypes: int64(5), object(3)
memory usage: 2.2+ KB
None
********************************************************************************
Cabeza del dataframe:


Unnamed: 0,IDG,curso,creditos,IDP,nestud,periodo,año,jornada
0,G1,Algoritmos y programación,3,217,23,2,2017,día
1,G2,Algoritmos y programación,3,222,23,2,2017,día
2,G3,Algoritmos y programación,3,210,21,2,2017,día
3,G4,Algoritmos y programación,3,213,22,2,2017,día
4,G5,Algoritmos y programación,3,210,21,2,2017,día


********************************************************************************
********************************************************************************
Tamaño dataframe df_listado: (617, 7)
********************************************************************************
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 617 entries, 0 to 616
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   IDE     617 non-null    int64  
 1   IDG     617 non-null    object 
 2   corte1  617 non-null    float64
 3   corte2  617 non-null    float64
 4   prom    617 non-null    float64
 5   fallas  617 non-null    int64  
 6   fallaP  617 non-null    float64
dtypes: float64(4), int64(2), object(1)
memory usage: 33.9+ KB
None
********************************************************************************
Cabeza del dataframe:


Unnamed: 0,IDE,IDG,corte1,corte2,prom,fallas,fallaP
0,1529,G1,4.0,2.0,3.0,0,0.0
1,1546,G1,3.0,0.5,1.75,2,11.76
2,1611,G1,4.0,2.0,3.0,0,0.0
3,1646,G1,4.5,3.0,3.75,0,0.0
4,1668,G1,4.0,2.5,3.25,0,0.0


********************************************************************************
********************************************************************************
Tamaño dataframe df_examen: (517, 14)
********************************************************************************
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 517 entries, 0 to 516
Data columns (total 14 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   IDE     517 non-null    int64  
 1   inicio  517 non-null    object 
 2   final   517 non-null    object 
 3   nota    517 non-null    float64
 4   p1      517 non-null    float64
 5   p2      517 non-null    float64
 6   p3      517 non-null    float64
 7   p4      517 non-null    float64
 8   p5      517 non-null    float64
 9   p6      516 non-null    float64
 10  p7      517 non-null    float64
 11  p8      517 non-null    float64
 12  p9      517 non-null    float64
 13  p10     517 non-null    float64
dtypes: float64(11), i

Unnamed: 0,IDE,inicio,final,nota,p1,p2,p3,p4,p5,p6,p7,p8,p9,p10
0,1502,18:30:00,19:09:00,2.0,0.0,0.5,0.0,0.0,0.5,,0.0,0.5,0.5,0.0
1,1503,09:05:00,10:13:00,1.0,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.5
2,1504,09:24:00,10:04:00,1.0,0.0,0.5,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.0
3,1505,09:09:00,09:48:00,5.0,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5
4,1507,18:36:00,19:00:00,0.5,0.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


********************************************************************************
********************************************************************************
Tamaño dataframe df_cita: (617, 5)
********************************************************************************
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 617 entries, 0 to 616
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   IDE         617 non-null    int64 
 1   nsala       617 non-null    int64 
 2   sala        617 non-null    object
 3   horaExamen  617 non-null    object
 4   jornada     617 non-null    object
dtypes: int64(2), object(3)
memory usage: 24.2+ KB
None
********************************************************************************
Cabeza del dataframe:


Unnamed: 0,IDE,nsala,sala,horaExamen,jornada
0,1529,18,Centro de Computo Sala 9,9:00 a.m.,día
1,1546,6,Centro de Computo Sala 10,9:00 a.m.,día
2,1611,17,Centro de Computo Sala 8,9:00 a.m.,día
3,1646,15,Centro de Computo Sala 6,9:00 a.m.,día
4,1668,14,Centro de Computo Sala 5,9:00 a.m.,día


********************************************************************************


In [8]:
df_cita.head(2)

Unnamed: 0,IDE,nsala,sala,horaExamen,jornada
0,1529,18,Centro de Computo Sala 9,9:00 a.m.,día
1,1546,6,Centro de Computo Sala 10,9:00 a.m.,día


In [9]:
df_estudiante.head(2)

Unnamed: 0,IDE,programa
0,1500,Ingeniería Mecánica
1,1501,Ingeniería Ambiental


In [10]:
df_estudiante['IDE'].value_counts()

1500    1
1914    1
1907    1
1908    1
1909    1
       ..
1707    1
1708    1
1709    1
1710    1
2116    1
Name: IDE, Length: 617, dtype: int64

In [11]:
df_examen.head(2)

Unnamed: 0,IDE,inicio,final,nota,p1,p2,p3,p4,p5,p6,p7,p8,p9,p10
0,1502,18:30:00,19:09:00,2.0,0.0,0.5,0.0,0.0,0.5,,0.0,0.5,0.5,0.0
1,1503,09:05:00,10:13:00,1.0,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.5


In [12]:
df_profesor.head()

Unnamed: 0,IDP,profesor,dedicacion
0,201,Patroclo,TC
1,202,Andrómaca,Cátedra
2,203,Artemisa,TC
3,204,Eneas,Cátedra
4,205,Néstor,Cátedra


In [13]:
df_grupo.head(2)

Unnamed: 0,IDG,curso,creditos,IDP,nestud,periodo,año,jornada
0,G1,Algoritmos y programación,3,217,23,2,2017,día
1,G2,Algoritmos y programación,3,222,23,2,2017,día


In [14]:
df_listado.head(2)

Unnamed: 0,IDE,IDG,corte1,corte2,prom,fallas,fallaP
0,1529,G1,4.0,2.0,3.0,0,0.0
1,1546,G1,3.0,0.5,1.75,2,11.76


### Actividad 2. Preguntas que se pueden responder con estos datos


Una vez se tiene un completo entendimiento de la información, y se conoce el procedimiento para cargar la información, se procede a abordar ciertas preguntas de intereś que surgen de los datos y se procede a analizar la posible solución. Seguramente, la solución a las siguientes preguntas requiere un cruce de información, un filtrado de los datos, un agrupamiento y quizá un ordenamiento de los datos resultantes.

1. Cuáles son los profesores asignados a cada grupo, ordenado por profesor?
2. Cuáles son los estudiantes que tiene cada profesor por grupo y por programa académico?
2. Cuáles son los promedios de calificación en el primer y segundo corte que tienen cada uno de los profesores en los grupos de Ingeniería de Sistemas?
3. Qué estudiantes de cada programa han dejado de presentar el examen?
4. Cuáles de los estudiantes, que presentaron el examen, no aparecen en el listado?



#### **Solución pregunta 1**

_Cuáles son los profesores asignados a cada grupo, ordenado por profesor?_

Para esto se deben relacionar las tablas de grupo y profesor. En este caso, no es casualidad que ambas tablas tienen una misma columna llamada __IDP__ y que además corresponden a el identificador del profesor.

In [15]:
df_profesor["IDP"].value_counts()

201    1
214    1
224    1
223    1
222    1
221    1
220    1
219    1
218    1
217    1
216    1
215    1
213    1
202    1
212    1
211    1
210    1
209    1
208    1
207    1
206    1
205    1
204    1
203    1
225    1
Name: IDP, dtype: int64

In [16]:
# Imprimimos nombres de las columna de los dataframes.
print(df_grupo.columns.values)
print(df_profesor.columns.values)

['IDG' 'curso' 'creditos' 'IDP' 'nestud' 'periodo' 'año' 'jornada']
['IDP' 'profesor' 'dedicacion']


Para combinar las fuentes de información el dataframe (que se utiliza como tabla izquierda) hace un llamado de la función _merge_, a la cual se le pasa el dataframe que funcionará como tabla derecha de la unión. Los parámetros importantes de la función _merge_ son los siguientes:
* _right:_ (requerido) dataframe que funciona como tabla derecha.
* _how:_ (opcional) indica el tipo de unión: {'left', 'right', 'outer', 'inner'} si no se especifíca el valor por omisión es 'inner'
* _on:_ (opcional) especifica la columna por la que se hace la unión. Esta debe encontrarse en ambos dataframes. Si no se especifica la función busca la primera coincidencia en nombre y tipo de columna.
* _left_on:_ (opcional) columna o nombres de columna para hacer la unión con el dataframe de la izquierda
* _right_on:_ (opcional) columna o nombres de columna para hacer la unión con el dataframe de la derecha


#### Resolver Pregunta 1. 

_Cuáles son los profesores asignados a cada grupo, ordenado por profesor?_

```Python
# 1. combinar 'df_profesor' y 'df_grupo'
dfgp = df_grupo.merge(df_profesor)
dfgp.sort_values('profesor', inplace=True)
dfgp[['profesor', 'IDG', 'curso', 'nestud']]
```

In [17]:
# 1. combinar 'df_profesor' y 'df_grupo'
dfgp = df_grupo.merge(df_profesor)
dfgp.sort_values('profesor', inplace=True)
dfgp[['profesor', 'IDG', 'curso', 'nestud']]

Unnamed: 0,profesor,IDG,curso,nestud
4,Agamenón,G5,Algoritmos y programación,21
3,Agamenón,G3,Algoritmos y programación,21
31,Agenor,G31,Algoritmos y programación,23
22,Andrómaca,G19,Algoritmos y programación,19
0,Apolo,G1,Algoritmos y programación,23
15,Aquiles,G15,Algoritmos y programación,22
7,Artemisa,G7,Algoritmos y programación,20
8,Artemisa,G10,Algoritmos y programación,20
9,Artemisa,G14,Algoritmos y programación,22
1,Atenea,G2,Algoritmos y programación,23


In [18]:
df_grupo.head(2)

Unnamed: 0,IDG,curso,creditos,IDP,nestud,periodo,año,jornada
0,G1,Algoritmos y programación,3,217,23,2,2017,día
1,G2,Algoritmos y programación,3,222,23,2,2017,día


In [19]:
df_profesor.head(2)

Unnamed: 0,IDP,profesor,dedicacion
0,201,Patroclo,TC
1,202,Andrómaca,Cátedra


In [20]:
# 1. combinar 'df_profesor' y 'df_grupo'
dfgp = df_grupo.merge(df_profesor)
dfgp.head()

Unnamed: 0,IDG,curso,creditos,IDP,nestud,periodo,año,jornada,profesor,dedicacion
0,G1,Algoritmos y programación,3,217,23,2,2017,día,Apolo,MT
1,G2,Algoritmos y programación,3,222,23,2,2017,día,Atenea,TC
2,G6,Algoritmos y programación,3,222,22,2,2017,día,Atenea,TC
3,G3,Algoritmos y programación,3,210,21,2,2017,día,Agamenón,Cátedra
4,G5,Algoritmos y programación,3,210,21,2,2017,día,Agamenón,Cátedra


In [21]:
dfgp.sort_values('profesor', inplace=True)

In [22]:
dfgp[['IDG', 'profesor']].head(10)

Unnamed: 0,IDG,profesor
4,G5,Agamenón
3,G3,Agamenón
31,G31,Agenor
22,G19,Andrómaca
0,G1,Apolo
15,G15,Aquiles
7,G7,Artemisa
8,G10,Artemisa
9,G14,Artemisa
1,G2,Atenea


#### **Solución pregunta 2**

_Cuáles son los estudiantes que tiene cada profesor por grupo y por programa académico?_

En esta caso podemos cruzar la tabla anterior con `df_estudiante`, pues son las tablas que tienen la información solicitada, pero debemos hacer uso de otra tabla para lograr hacer el puente y enlazar la información.


In [23]:
dfgp.head()

Unnamed: 0,IDG,curso,creditos,IDP,nestud,periodo,año,jornada,profesor,dedicacion
4,G5,Algoritmos y programación,3,210,21,2,2017,día,Agamenón,Cátedra
3,G3,Algoritmos y programación,3,210,21,2,2017,día,Agamenón,Cátedra
31,G31,Algoritmos y programación,3,221,23,2,2017,día,Agenor,TC
22,G19,Algoritmos y programación,3,202,19,2,2017,noche,Andrómaca,Cátedra
0,G1,Algoritmos y programación,3,217,23,2,2017,día,Apolo,MT


In [24]:
dfel = df_estudiante.merge(df_listado) # Puente
dfel.head()

Unnamed: 0,IDE,programa,IDG,corte1,corte2,prom,fallas,fallaP
0,1500,Ingeniería Mecánica,G5,1.0,1.0,1.0,0,0.0
1,1501,Ingeniería Ambiental,G12,0.0,0.0,0.0,12,70.59
2,1502,Ingeniería De Sistemas,G16,2.5,3.5,3.0,0,0.0
3,1503,Ingeniería Ambiental,G4,4.5,3.0,3.75,0,0.0
4,1504,Ingeniería Ambiental,G6,3.5,2.5,3.0,0,0.0


In [25]:
dfge = dfel.merge(dfgp)
dfge.head()

Unnamed: 0,IDE,programa,IDG,corte1,corte2,prom,fallas,fallaP,curso,creditos,IDP,nestud,periodo,año,jornada,profesor,dedicacion
0,1500,Ingeniería Mecánica,G5,1.0,1.0,1.0,0,0.0,Algoritmos y programación,3,210,21,2,2017,día,Agamenón,Cátedra
1,1620,Ingeniería Ambiental,G5,4.0,3.0,3.5,0,0.0,Algoritmos y programación,3,210,21,2,2017,día,Agamenón,Cátedra
2,1675,Ingeniería De Sistemas,G5,4.0,3.0,3.5,0,0.0,Algoritmos y programación,3,210,21,2,2017,día,Agamenón,Cátedra
3,1702,Ingeniería Ambiental,G5,4.0,3.5,3.75,0,0.0,Algoritmos y programación,3,210,21,2,2017,día,Agamenón,Cátedra
4,1706,Ingeniería De Sistemas,G5,4.0,3.0,3.5,0,0.0,Algoritmos y programación,3,210,21,2,2017,día,Agamenón,Cátedra


In [26]:
## A continuación una posible solución:
dfge.sort_values(['profesor','IDG','programa'], inplace=True)
df1 = dfge[['profesor','IDG','programa','IDE']]
df1.head()

Unnamed: 0,profesor,IDG,programa,IDE
491,Agamenón,G3,Ingeniería Ambiental,1547
495,Agamenón,G3,Ingeniería Ambiental,1648
497,Agamenón,G3,Ingeniería Ambiental,1686
499,Agamenón,G3,Ingeniería Ambiental,1741
500,Agamenón,G3,Ingeniería Ambiental,1785


### ***Solución pregunta 3***

_Cuáles son los promedios de calificación en el primer y segundo corte que tienen cada uno de los profesores en los grupos de Ingeniería de Sistemas?_

In [27]:
df_temp = df_listado.merge(df1)
##
mask  = df_temp["programa"] == "Ingeniería De Sistemas"
mask1 = df_temp["profesor"] == "Apolo"
df_temp[mask & mask1][["corte1","corte2"]].mean()

corte1    3.586957
corte2    2.043478
dtype: float64

## Agrupar datos con el método _groupby_


En el Análisis de la información se suelen usar funciones de resumen, las cuales plantean el agrupamiento de ciertas características por categorías. Para una revisón de la función _groupby_ con ejemplos prácticos visite la página: [tutorialspoint](https://www.tutorialspoint.com/python_pandas/python_pandas_groupby.htm)


### __Resumen de funciones para trabajar con series numéricas en pandas:__
Lista de funciones de pandas y numpy para usar con variables numéricas en dataframes:

`count, sum, mean, mad, median, min, max, mode, abs, prod, std, var, skew, kurt, quantile, cumsum, sumprod, cummax, cummin`






In [28]:
## Ejemplo 1
ipl_data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings',
   'kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'],
   'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1,2],
   'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
   'Points':[876,789,863,673,741,812,756,788,694,701,804,690]}
df = pd.DataFrame(ipl_data)
df

Unnamed: 0,Team,Rank,Year,Points
0,Riders,1,2014,876
1,Riders,2,2015,789
2,Devils,2,2014,863
3,Devils,3,2015,673
4,Kings,3,2014,741
5,kings,4,2015,812
6,Kings,1,2016,756
7,Kings,1,2017,788
8,Riders,2,2016,694
9,Royals,4,2014,701


In [29]:
## Obtenemos los grupos y los índices de los registros de cada grupo.
df.groupby('Team').groups

{'Devils': [2, 3], 'Kings': [4, 6, 7], 'Riders': [0, 1, 8, 11], 'Royals': [9, 10], 'kings': [5]}

In [30]:
## Obtenemos los grupos y los índices de los registros de cada grupo.
df.groupby(['Team','Year']).groups

{('Devils', 2014): [2], ('Devils', 2015): [3], ('Kings', 2014): [4], ('Kings', 2016): [6], ('Kings', 2017): [7], ('Riders', 2014): [0], ('Riders', 2015): [1], ('Riders', 2016): [8], ('Riders', 2017): [11], ('Royals', 2014): [9], ('Royals', 2015): [10], ('kings', 2015): [5]}

In [31]:
df.groupby(['Team','Year']).indices

{('Devils', 2014): array([2]),
 ('Devils', 2015): array([3]),
 ('Kings', 2014): array([4]),
 ('Kings', 2016): array([6]),
 ('Kings', 2017): array([7]),
 ('Riders', 2014): array([0]),
 ('Riders', 2015): array([1]),
 ('Riders', 2016): array([8]),
 ('Riders', 2017): array([11]),
 ('Royals', 2014): array([9]),
 ('Royals', 2015): array([10]),
 ('kings', 2015): array([5])}

In [32]:
## Dataframe con los grupo generados.
grouped = df.groupby('Year')

for name, group in grouped:
    print(name)
    print(group)

2014


Unnamed: 0,Team,Rank,Year,Points
0,Riders,1,2014,876
2,Devils,2,2014,863
4,Kings,3,2014,741
9,Royals,4,2014,701


2015


Unnamed: 0,Team,Rank,Year,Points
1,Riders,2,2015,789
3,Devils,3,2015,673
5,kings,4,2015,812
10,Royals,1,2015,804


2016


Unnamed: 0,Team,Rank,Year,Points
6,Kings,1,2016,756
8,Riders,2,2016,694


2017


Unnamed: 0,Team,Rank,Year,Points
7,Kings,1,2017,788
11,Riders,2,2017,690


In [33]:
## Dataframe con un grupo particular.
grouped = df.groupby('Year')
grouped.get_group(2014)

Unnamed: 0,Team,Rank,Year,Points
0,Riders,1,2014,876
2,Devils,2,2014,863
4,Kings,3,2014,741
9,Royals,4,2014,701


In [34]:
## Cantidad de registros en cada grupo
grouped = df.groupby('Team')
grouped.size()

Team
Devils    2
Kings     3
Riders    4
Royals    2
kings     1
dtype: int64

In [35]:
df

Unnamed: 0,Team,Rank,Year,Points
0,Riders,1,2014,876
1,Riders,2,2015,789
2,Devils,2,2014,863
3,Devils,3,2015,673
4,Kings,3,2014,741
5,kings,4,2015,812
6,Kings,1,2016,756
7,Kings,1,2017,788
8,Riders,2,2016,694
9,Royals,4,2014,701


In [36]:
## Función de agregación
grouped = df.groupby('Year')
grouped['Points'].agg(np.mean)

Year
2014    795.25
2015    769.50
2016    725.00
2017    739.00
Name: Points, dtype: float64

In [37]:
## Varias funciones de agregación para una columna luego de ser agrupados.
grouped = df.groupby('Team')
grouped['Points'].agg([np.sum, np.mean, np.std])

Unnamed: 0_level_0,sum,mean,std
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Devils,1536,768.0,134.350288
Kings,2285,761.666667,24.006943
Riders,3049,762.25,88.567771
Royals,1505,752.5,72.831998
kings,812,812.0,


In [38]:
## Transformación de datos por grupos.
grouped = df.groupby('Team')
score = lambda x: (x - x.mean()) / x.std()*10
grouped.transform(score)

Unnamed: 0,Rank,Year,Points
0,-15.0,-11.61895,12.843272
1,5.0,-3.872983,3.020286
2,-7.071068,-7.071068,7.071068
3,7.071068,7.071068,-7.071068
4,11.547005,-10.910895,-8.608621
5,,,
6,-5.773503,2.182179,-2.360428
7,-5.773503,8.728716,10.969049
8,5.0,3.872983,-7.705963
9,7.071068,-7.071068,-7.071068


In [39]:
## Aquellos grupos con 3 o más registros
df.groupby('Team').filter(lambda x: len(x) >= 3)

Unnamed: 0,Team,Rank,Year,Points
0,Riders,1,2014,876
1,Riders,2,2015,789
4,Kings,3,2014,741
6,Kings,1,2016,756
7,Kings,1,2017,788
8,Riders,2,2016,694
11,Riders,2,2017,690


### Ejemplos de groupby con _examen2.xlsx_

Pruebe los siguientes ejemplos y analice el resultado:

```python
# ejemplos con groupby
dfge.groupby(['profesor','IDG','programa'])[['IDE','corte1']].agg([np.size,np.std})
dfge.groupby(['profesor','IDG','programa']).agg({'corte1': ['mean', 'min','max'], 'corte2': ['std','min','max']})
dfge.groupby(['profesor','IDG','programa']).agg({'corte1': ['mad', 'median', 'mean']})
dfge.groupby(['profesor','IDG']).agg({'programa': ['count', 'first','last','nunique', 'sum']})
dfge.groupby(['profesor','IDG'])['programa'].describe()
```

In [40]:
dfge.head(2)

Unnamed: 0,IDE,programa,IDG,corte1,corte2,prom,fallas,fallaP,curso,creditos,IDP,nestud,periodo,año,jornada,profesor,dedicacion
491,1547,Ingeniería Ambiental,G3,4.5,4.5,4.5,0,0.0,Algoritmos y programación,3,210,21,2,2017,día,Agamenón,Cátedra
495,1648,Ingeniería Ambiental,G3,4.5,4.0,4.25,0,0.0,Algoritmos y programación,3,210,21,2,2017,día,Agamenón,Cátedra


In [41]:
dfge["IDE"].value_counts() ## Todos los estudiantes son distintos

1547    1
2099    1
1983    1
2102    1
2112    1
       ..
1987    1
2002    1
2048    1
2050    1
1866    1
Name: IDE, Length: 617, dtype: int64

In [42]:
# ¿Cuánto estudiantes tiene cada profesor?
dfge.groupby(["profesor"]).size().sort_values(ascending=False)

profesor
Artemisa     62
Menelao      49
Atenea       45
Hefesto      43
Agamenón     42
Polidoro     24
Hermes       24
Hades        24
Apolo        23
Euforbo      23
Agenor       23
Patroclo     23
Aquiles      22
Dolón        21
Néstor       20
Andrómaca    19
Diomedes     19
Odiseo       18
Briseida     17
Héctor       16
Príamo       15
Pándarp      13
Paris        12
Poseidón     12
Eneas         8
dtype: int64

In [43]:
## Obtenemos para cada columna seleccionada y para cada agrupación size = Tamaño, mean = media muestral y std = desviación estandar.
dfge.groupby(['profesor','IDG','programa'])[['corte1','corte2']].agg([np.size,np.mean,np.std])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,corte1,corte1,corte1,corte2,corte2,corte2
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,size,mean,std,size,mean,std
profesor,IDG,programa,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Agamenón,G3,Ingeniería Ambiental,13,4.192308,0.325222,13,2.923077,0.996790
Agamenón,G3,Ingeniería De Sistemas,1,1.000000,,1,1.000000,
Agamenón,G3,Ingeniería Industrial,4,4.250000,0.288675,4,3.500000,1.080123
Agamenón,G3,Ingeniería Mecánica,3,4.333333,0.288675,3,3.166667,1.154701
Agamenón,G5,Ingeniería Ambiental,8,3.875000,0.790569,8,2.812500,0.752970
...,...,...,...,...,...,...,...,...
Pándarp,G18,Ingeniería Ambiental,2,3.500000,0.707107,2,3.750000,1.060660
Pándarp,G18,Ingeniería De Sistemas,2,4.000000,0.000000,2,4.500000,0.000000
Pándarp,G18,Ingeniería Electrónica,4,3.250000,1.322876,4,2.250000,1.500000
Pándarp,G18,Ingeniería Industrial,3,4.166667,0.288675,3,3.833333,1.154701


In [44]:
## Información de los grupos para la variable seleccionada y las distintas funciones de agragación.
dfge.groupby(['profesor','IDG']).agg({'programa': ['count', 'first','last','nunique', 'sum']})

Unnamed: 0_level_0,Unnamed: 1_level_0,programa,programa,programa,programa,programa
Unnamed: 0_level_1,Unnamed: 1_level_1,count,first,last,nunique,sum
profesor,IDG,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Agamenón,G3,21,Ingeniería Ambiental,Ingeniería Mecánica,4,Ingeniería AmbientalIngeniería AmbientalIngeni...
Agamenón,G5,21,Ingeniería Ambiental,Ingeniería Mecánica,5,Ingeniería AmbientalIngeniería AmbientalIngeni...
Agenor,G31,23,Ingeniería De Sistemas,Ingeniería De Sistemas,1,Ingeniería De SistemasIngeniería De SistemasIn...
Andrómaca,G19,19,Ingeniería Ambiental,Ingeniería Mecánica,5,Ingeniería AmbientalIngeniería AmbientalIngeni...
Apolo,G1,23,Ingeniería De Sistemas,Ingeniería De Sistemas,1,Ingeniería De SistemasIngeniería De SistemasIn...
Aquiles,G15,22,Ingeniería Ambiental,Ingeniería Mecánica,4,Ingeniería AmbientalIngeniería AmbientalIngeni...
Artemisa,G10,20,Ingeniería Ambiental,Ingeniería Industrial,3,Ingeniería AmbientalIngeniería AmbientalIngeni...
Artemisa,G14,22,Ingeniería Ambiental,Ingeniería Mecánica,5,Ingeniería AmbientalIngeniería AmbientalIngeni...
Artemisa,G7,20,Ingeniería Ambiental,Ingeniería Mecánica,5,Ingeniería AmbientalIngeniería AmbientalIngeni...
Atenea,G2,23,Ingeniería De Sistemas,Ingeniería De Sistemas,1,Ingeniería De SistemasIngeniería De SistemasIn...


In [45]:
## Infomación de profesor y grupo para la variable categórica 'programa'.
dfge.groupby(['profesor','IDG'])['programa'].describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,count,unique,top,freq
profesor,IDG,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Agamenón,G3,21,4,Ingeniería Ambiental,13
Agamenón,G5,21,5,Ingeniería Ambiental,8
Agenor,G31,23,1,Ingeniería De Sistemas,23
Andrómaca,G19,19,5,Ingeniería Ambiental,7
Apolo,G1,23,1,Ingeniería De Sistemas,23
Aquiles,G15,22,4,Ingeniería Electrónica,13
Artemisa,G10,20,3,Ingeniería Ambiental,16
Artemisa,G14,22,5,Ingeniería Ambiental,16
Artemisa,G7,20,5,Ingeniería Electrónica,8
Atenea,G2,23,1,Ingeniería De Sistemas,23


In [46]:
## Infomación de profesor y grupo para la variable categórica 'programa'.
dfge.groupby(['profesor','IDG'])['corte1'].describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,std,min,25%,50%,75%,max
profesor,IDG,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Agamenón,G3,21.0,4.071429,0.762983,1.0,4.0,4.0,4.5,4.5
Agamenón,G5,21.0,3.928571,0.87014,1.0,4.0,4.0,4.5,5.0
Agenor,G31,23.0,3.217391,0.687983,2.0,2.75,3.0,3.5,5.0
Andrómaca,G19,19.0,3.421053,1.169795,0.0,3.0,3.5,4.0,5.0
Apolo,G1,23.0,3.586957,0.972954,0.5,3.0,4.0,4.0,5.0
Aquiles,G15,22.0,2.204545,0.82605,0.5,1.625,2.5,2.5,3.5
Artemisa,G10,20.0,2.25,1.208522,0.0,1.5,2.5,3.125,4.0
Artemisa,G14,22.0,2.454545,0.998917,0.0,2.0,2.5,3.0,4.0
Artemisa,G7,20.0,2.9,1.187656,0.0,2.0,3.25,4.0,4.5
Atenea,G2,23.0,3.456522,0.76742,1.0,3.0,3.5,4.0,4.5


In [47]:
# Grupos por profesor:
df1.groupby(['profesor'])['IDG'].agg(lambda x: set(x))

profesor
Agamenón            {G3, G5}
Agenor                 {G31}
Andrómaca              {G19}
Apolo                   {G1}
Aquiles                {G15}
Artemisa      {G14, G7, G10}
Atenea              {G6, G2}
Briseida               {G25}
Diomedes               {G13}
Dolón                  {G12}
Eneas                  {G20}
Euforbo                 {G8}
Hades                   {G9}
Hefesto            {G33, G4}
Hermes            {G17, G30}
Héctor                 {G27}
Menelao      {G21, G16, G24}
Néstor                 {G28}
Odiseo                 {G23}
Paris                  {G29}
Patroclo               {G11}
Polidoro               {G32}
Poseidón               {G22}
Príamo                 {G26}
Pándarp                {G18}
Name: IDG, dtype: object

### ***Solución pregunta 3.***

_Cuáles son los promedios de calificación en el primer y segundo corte que tienen cada uno de los profesores en los grupos de Ingeniería de Sistemas?_


Con lo que ya se conoce intente resolver

In [48]:
## Solución pregunta 3.
df_groupby = dfge[dfge['programa']=='Ingeniería De Sistemas'].groupby('profesor')[['corte1','corte2']].mean()
df_groupby

Unnamed: 0_level_0,corte1,corte2
profesor,Unnamed: 1_level_1,Unnamed: 2_level_1
Agamenón,3.5,3.0
Agenor,3.217391,2.673913
Andrómaca,3.5,2.5
Apolo,3.586957,2.043478
Artemisa,3.125,2.125
Atenea,3.425926,2.925926
Diomedes,2.25,1.5
Dolón,4.0,3.166667
Eneas,3.75,4.5
Euforbo,4.0,4.0


### ***Solución de la pregunta 4***

_Qué estudiantes de cada programa han dejado de presentar el examen?_


**Análisis:** Para esta pregunta la información esta en las tablas: 'examen' y 'estudiante'. Al combinar estas dos tablas es necesario forzar a que aparezcan todos los estudiantes incluso los que no presentaron examen. Luego se puede filtrar por aquellos estudiantes que no les aparece nota de examen y se organizan por programa.






**Hint**:

Realice los siguientes tres pasos:

1. Enlace las 2 tablas del anaĺisis con `how=???`
2. Muestre la cantidad de faltantes por carrera con ``pd.groupby()``
3. Construya un dataframe donde se vean los faltantes, el total y % de faltantes.

In [49]:
df_examen.head(2)

Unnamed: 0,IDE,inicio,final,nota,p1,p2,p3,p4,p5,p6,p7,p8,p9,p10
0,1502,18:30:00,19:09:00,2.0,0.0,0.5,0.0,0.0,0.5,,0.0,0.5,0.5,0.0
1,1503,09:05:00,10:13:00,1.0,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.5


In [50]:
df_examen.shape, df_estudiante.shape

((517, 14), (617, 2))

In [51]:
df_estudiante["IDE"].value_counts() ## No tenemos registros repetidos por IDE

1500    1
1914    1
1907    1
1908    1
1909    1
       ..
1707    1
1708    1
1709    1
1710    1
2116    1
Name: IDE, Length: 617, dtype: int64

In [52]:
df_examen["IDE"].value_counts() ## Tenemos 2 registros repetidos por IDE

1900    2
1681    2
1502    1
1913    1
1928    1
       ..
1702    1
1701    1
1700    1
1699    1
2115    1
Name: IDE, Length: 515, dtype: int64

In [53]:
df_examen[df_examen["IDE"] == 1900]

Unnamed: 0,IDE,inicio,final,nota,p1,p2,p3,p4,p5,p6,p7,p8,p9,p10
332,1900,09:25:00,09:55:00,0.5,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.0
333,1900,18:15:00,19:35:00,3.0,0.5,0.0,0.5,0.5,0.5,0.0,0.0,0.0,0.5,0.5


In [54]:
df_examen[df_examen["IDE"] == 1681]

Unnamed: 0,IDE,inicio,final,nota,p1,p2,p3,p4,p5,p6,p7,p8,p9,p10
151,1681,09:12:00,10:29:00,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
152,1681,18:17:00,19:45:00,2.5,0.0,0.0,0.0,0.5,0.5,0.0,0.5,0.0,0.5,0.5


In [55]:
df_estudiante.head(2)

Unnamed: 0,IDE,programa
0,1500,Ingeniería Mecánica
1,1501,Ingeniería Ambiental


In [56]:
dfxe = df_estudiante.merge(df_examen, how = "left")
dfxe.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 619 entries, 0 to 618
Data columns (total 15 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   IDE       619 non-null    int64  
 1   programa  619 non-null    object 
 2   inicio    517 non-null    object 
 3   final     517 non-null    object 
 4   nota      517 non-null    float64
 5   p1        517 non-null    float64
 6   p2        517 non-null    float64
 7   p3        517 non-null    float64
 8   p4        517 non-null    float64
 9   p5        517 non-null    float64
 10  p6        516 non-null    float64
 11  p7        517 non-null    float64
 12  p8        517 non-null    float64
 13  p9        517 non-null    float64
 14  p10       517 non-null    float64
dtypes: float64(11), int64(1), object(3)
memory usage: 77.4+ KB


In [57]:
dfxe.head(10)

Unnamed: 0,IDE,programa,inicio,final,nota,p1,p2,p3,p4,p5,p6,p7,p8,p9,p10
0,1500,Ingeniería Mecánica,,,,,,,,,,,,,
1,1501,Ingeniería Ambiental,,,,,,,,,,,,,
2,1502,Ingeniería De Sistemas,18:30:00,19:09:00,2.0,0.0,0.5,0.0,0.0,0.5,,0.0,0.5,0.5,0.0
3,1503,Ingeniería Ambiental,09:05:00,10:13:00,1.0,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.5
4,1504,Ingeniería Ambiental,09:24:00,10:04:00,1.0,0.0,0.5,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.0
5,1505,Ingeniería De Sistemas,09:09:00,09:48:00,5.0,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5
6,1506,Ingeniería Ambiental,,,,,,,,,,,,,
7,1507,Ingeniería Ambiental,18:36:00,19:00:00,0.5,0.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
8,1508,Ingeniería De Sistemas,18:17:00,19:32:00,3.0,0.0,0.0,0.0,0.5,0.5,0.0,0.5,0.5,0.5,0.5
9,1509,Ingeniería Industrial,09:15:00,10:37:00,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [58]:
mask = dfxe["nota"].isna()

In [59]:
## Serie de pandas a dataframe.
mask = dfxe["nota"].isna()
df_temp = dfxe[mask].groupby("programa")["IDE"].count().sort_values(ascending=True).to_frame()
print(df_temp.reset_index())

Unnamed: 0,programa,IDE
0,Ingeniería Mecánica,9
1,Ingeniería Industrial,11
2,Ingeniería Electrónica,19
3,Ingeniería De Sistemas,20
4,Ingeniería Ambiental,43


In [60]:
## Una posible solución.
df3 = dfxe.groupby('programa')['IDE'].count().to_frame()
df1 = dfxe[mask]
print('Tamaño de tabla: ',df1.shape)
df2 = df1.groupby('programa')['IDE'].count().to_frame()
df2['total'] = df3['IDE']
df2['percent'] = 100*df2.IDE/df2["total"]
print(df2)

Tamaño de tabla:  (102, 15)


Unnamed: 0_level_0,IDE,total,percent
programa,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ingeniería Ambiental,43,231,18.614719
Ingeniería De Sistemas,20,144,13.888889
Ingeniería Electrónica,19,110,17.272727
Ingeniería Industrial,11,78,14.102564
Ingeniería Mecánica,9,56,16.071429


### ***Solución pregunta 5.***

_Cuáles de los estudiantes que presentaron el examen no aparecen en el listado?_

Con lo que ya conoce trate de resolver este punto.

In [61]:
## Primero notemos que todos los estudiantes que presentaron el examen están en el listado
print("El tamaño del dataframe df_examen es:",df_examen.shape)
print("El tamaño del dataframe df_listado es:",df_listado.shape)
print("El tamaño del dataframe con inner join es:", df_examen.merge(df_listado).shape)

El tamaño del dataframe df_examen es: (517, 14)
El tamaño del dataframe df_listado es: (617, 7)
El tamaño del dataframe con inner join es: (517, 20)


In [62]:
## ¿Porqué aumenta el número de registros?
df_listado.merge(df_examen, how="left").shape

(619, 20)

In [63]:
# celda de código para probar

## _**Manejo de Tablas Pivote**_


Las `Pivot table` son tablas de datos de resumen. Estas tablas permiten agrupar información para el análisis de datos. La agrupación de información es posible en filas y columnas, lo cual resulta muy útil para cruzar categorías de diferentes características. Con la información de cruce se calculan diferentes estadísticas, como por ejemplo: suma, promedio, desviación, varianza, entre otros para variables numéricas. Así como también, conteos, cantidad de valores únicos, moda, entre otras para variables de tipo categórico.

Antes de usar una `Pivot Table`, es necesario que se tenga una completa compresión de la estructura de sus datos, la descripción de cada una de las columnas que tiene y los posibles valores que estas puedan tomar y que va usar en el procesamiento de los datos. Luego de entender los datos, ahora debe comprender la pregunta que está intentando resolver mediante una `Pivot table`. 

### El método: `pivot_table`

A continuación se mencionan los parámetros más importantes de la función:
* __dataframe:__ es necesario antes crear una tabla con todos los datos que se van a trabajar.
* __index:__ lista de columnas que serán utilizadas para agrupar por filas
* __columns:__ lista de columnas que se utilizarán para agrupar por columnas, con las categorias de las filas
* __values:__ (opcional) lista de columnas que serán utilizadas para resumir la información
* __aggfunc:__ Lista de funciones que se utilizan para agregar los valores. 
* __fill_value:__ valor para reemplazar valores nulos
* __margins:__ Para agregar subtotales a las filas y columnas, parciales o totales.

Para información adicional de pivot tables [python datascience notebook](https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html)



In [64]:
import seaborn as sns
titanic = sns.load_dataset('titanic')

In [65]:
titanic.head(2)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False


In [66]:
titanic.groupby('sex')[['fare']].mean()

Unnamed: 0_level_0,fare
sex,Unnamed: 1_level_1
female,44.479818
male,25.523893


In [67]:
titanic.groupby(['sex', 'class'])['survived'].agg('mean').unstack()

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [68]:
titanic.pivot_table('survived', index='sex', columns='class')

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [69]:
titanic['survived'].value_counts()

0    549
1    342
Name: survived, dtype: int64

In [70]:
age = pd.cut(titanic['age'], [0, 18, 80])
titanic.pivot_table('survived', ['sex', age], 'class')

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 80]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 80]",0.375,0.071429,0.133663


In [71]:
fare = pd.qcut(titanic['fare'], 2)
titanic.pivot_table('survived', ['sex', age], [fare, 'class'])

Unnamed: 0_level_0,fare,"(-0.001, 14.454]","(-0.001, 14.454]","(-0.001, 14.454]","(14.454, 512.329]","(14.454, 512.329]","(14.454, 512.329]"
Unnamed: 0_level_1,class,First,Second,Third,First,Second,Third
sex,age,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
female,"(0, 18]",,1.0,0.714286,0.909091,1.0,0.318182
female,"(18, 80]",,0.88,0.444444,0.972973,0.914286,0.391304
male,"(0, 18]",,0.0,0.26087,0.8,0.818182,0.178571
male,"(18, 80]",0.0,0.098039,0.125,0.391304,0.030303,0.192308


In [72]:
titanic.pivot_table(index='sex', columns='class', aggfunc={'survived':sum, 'fare':'mean'})

Unnamed: 0_level_0,fare,fare,fare,survived,survived,survived
class,First,Second,Third,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
female,106.125798,21.970121,16.11881,91,70,72
male,67.226127,19.741782,12.661633,45,17,47


In [73]:
titanic.pivot_table('survived', index='sex', columns='class', margins=True)

class,First,Second,Third,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,0.968085,0.921053,0.5,0.742038
male,0.368852,0.157407,0.135447,0.188908
All,0.62963,0.472826,0.242363,0.383838


In [74]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [75]:
f = lambda x: abs(x.mean()-1)

In [76]:
titanic.pivot_table(values = 'survived',index='sex', columns='class', margins=True,\
                    aggfunc=[np.mean, f])

Unnamed: 0_level_0,mean,mean,mean,mean,<lambda>,<lambda>,<lambda>,<lambda>
class,First,Second,Third,All,First,Second,Third,All
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
female,0.968085,0.921053,0.5,0.742038,0.031915,0.078947,0.5,0.257962
male,0.368852,0.157407,0.135447,0.188908,0.631148,0.842593,0.864553,0.811092
All,0.62963,0.472826,0.242363,0.383838,0.37037,0.527174,0.757637,0.616162


### Ejemplo pivot_table 1

**Problema:** Se requiere saber el promedio de las notas del corte 1 y corte 2 agrupadas por profesor y número del grupo (en filas) y clasficadas por el nombre del programa (en columnas).

In [77]:
print(dfel.head(2)) # Estudiante y listado
print(dfgp.head(2)) # Grupo y profesor

Unnamed: 0,IDE,programa,IDG,corte1,corte2,prom,fallas,fallaP
0,1500,Ingeniería Mecánica,G5,1.0,1.0,1.0,0,0.0
1,1501,Ingeniería Ambiental,G12,0.0,0.0,0.0,12,70.59


Unnamed: 0,IDG,curso,creditos,IDP,nestud,periodo,año,jornada,profesor,dedicacion
4,G5,Algoritmos y programación,3,210,21,2,2017,día,Agamenón,Cátedra
3,G3,Algoritmos y programación,3,210,21,2,2017,día,Agamenón,Cátedra


In [78]:
df_merge = dfel.merge(dfgp)
df_merge.columns.values

array(['IDE', 'programa', 'IDG', 'corte1', 'corte2', 'prom', 'fallas',
       'fallaP', 'curso', 'creditos', 'IDP', 'nestud', 'periodo', 'año',
       'jornada', 'profesor', 'dedicacion'], dtype=object)

In [79]:
# celda para probar
df_merge.pivot_table(values = ['corte1','corte2'], index=['IDG',"profesor"],columns="programa",
                     fill_value = "S/E")

Unnamed: 0_level_0,Unnamed: 1_level_0,corte1,corte1,corte1,corte1,corte1,corte2,corte2,corte2,corte2,corte2
Unnamed: 0_level_1,programa,Ingeniería Ambiental,Ingeniería De Sistemas,Ingeniería Electrónica,Ingeniería Industrial,Ingeniería Mecánica,Ingeniería Ambiental,Ingeniería De Sistemas,Ingeniería Electrónica,Ingeniería Industrial,Ingeniería Mecánica
IDG,profesor,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2
G1,Apolo,S/E,3.586957,S/E,S/E,S/E,S/E,2.043478,S/E,S/E,S/E
G10,Artemisa,2.09375,2.0,S/E,3.166667,S/E,1.3125,0.0,S/E,2.333333,S/E
G11,Patroclo,3.357143,3.4,4.0,4.0,S/E,2.5,3.1,3.6,3.25,S/E
G12,Dolón,2.142857,4.0,3.5625,4.75,4.0,1.571429,3.166667,3.4375,4.75,3.5
G13,Diomedes,3.4,2.25,2.0,3.5,2.5,3.15,1.5,1.5,2.0,2.0
G14,Artemisa,2.3125,3.0,2.5,3.0,3.0,1.59375,3.5,2.0,2.0,2.25
G15,Aquiles,1.9,S/E,2.269231,2.0,2.75,1.3,S/E,2.346154,1.5,2.0
G16,Menelao,3.0,2.84375,S/E,S/E,S/E,3.5,2.96875,S/E,S/E,S/E
G17,Hermes,3.3,S/E,S/E,3.666667,4.5,3.8,S/E,S/E,4.333333,4.833333
G18,Pándarp,3.5,4.0,3.25,4.166667,1.0,3.75,4.5,2.25,3.833333,1.25


### Uso de pivot_table

Aplicamos la función sobre los datos preparados:


```python
dfr = dfl.pivot_table(index=['profesor', 'IDG'], columns='programa', values=['corte1', 'corte2'], aggfunc=np.mean)
dfr
```




Ahora le agregamos totales de fila y de columna a los resultados

```python
dfr = dfl.pivot_table(index=['profesor', 'IDG'], columns='programa', values=['corte1', 'corte2'], aggfunc=np.mean, margins='All',\
                       margins_name='Total', dropna=True, fill_value=-1)
dfr
```



In [82]:
# celda de código para probar
#dfr = dfl.pivot_table(index=['profesor', 'IDG'], columns='programa', values=['corte1', 'corte2'],
#                      aggfunc=np.mean, margins='All',margins_name='Total', dropna=True, fill_value=-1)
#dfr

### Ejemplo pivot table 2

**Problema:** Ahora se quiere saber la cantidad de estudiantes a cargo de cada profesor agrupado por dedicación y profesor (en filas) clasificada por el nombre de programa (en columnas).

```python
dfr = dfl.pivot_table(index=['dedicacion','profesor'], columns='programa', values=['nestud'], aggfunc=np.sum, margins='All', margins_name='Total', dropna=True, fill_value=0)
dfr
```



In [83]:
# celda para probar
#dfr = dfl.pivot_table(index=['dedicacion','profesor'], columns='programa', values=['nestud'], 
#                      aggfunc=np.sum, margins='All', margins_name='Total', dropna=True, fill_value=0)
#dfr


## ___Ejercicios.___


Con los datos suminstrados se requiere resolver las siguientes inquietudes:
1. Se quiere hacer un ranking de profesores de acuerdo con el promedio de nota de sus estudiantes
2. Se quiere saber cuáles fueron los estudiantes que pasaron el examen con más o igual a 4.0, con qué profesor estaban, de qué jornada son y a qué grupo pertenecen
3. Saber cuáles fueron los promedios de examen por jornada y por carrera y ordenados por promedio. 
4. Se quiere comparar los estudiantes que presentaron el examen respecto al tiempo que tardaron. Comparar promedios de las calificaciones de los 40 más rápidos contra los 40 más lentos. 
5. Se quiere saber por profesor cuantos pasaron (nota >= 3) el examen y cuantos los perdieron. 
6. Se quiere organizar las preguntas de la más difícil a la más fácil de acuerdo a como respondieron en el examen.
7. Formule dos preguntas acerca de los datos en donde tenga que aplicar ordenamiento, filtrado, agrupación y cruce de datos.
8. Responda las preguntas que planteó en el punto anterior.

## Tarea: revisar:

### 1. Manejo de datos duplicados 

Los dataframes tienen la posibilidad de detectar las filas duplicadas con la función: 

```
df.duplicated({columns})
```

Si no especifica {columns}, se busacarán duplicados teniendo en cuenta todas las columnas. Una vez detectados el dtaframe tiene un función para eliminar filas duplicadas, haciendo:

```
df = df.drop_duplicates()
```

También es posible eliminar filas que duplican solo algunos campos. Con el fin de dejar solo una ocurrencia.

```
df.drop_duplicates(['nombre', 'apellido', 'cédula'], keep='last')
```
En este caso, como no todas las colomnas son iguales se conserva solo la última ocurrencia.


### 2. Manejo de datos perdidos o esperados

Son aquellos datos flatantes en la tabla que por alguna razón o error no se encuentran, o parecen con algún valor o etiqueta de no válido. 
Para reemplazar datos perdidos en un dataframe `df` se usa la función:
```python
promedio = df['nota'].mean()
df['nota'].replace(np.nan, promedio)
```
en donde la opción `promedio` busca el valor promedio de la columna (datos numéricos).