<a href="https://colab.research.google.com/github/CdeCMx-org/datasets-ejemplos/blob/main/Modulo_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

En este módulo vamos a aprender sobre el paquete llamada **Pandas**. Este paquete es muy útil para hacer análisis de datos. Pandas nos permite leer con datos estructurados de forma fácil, rápida e intuitiva. 

La principal estructura de datos que utiliza se llama **DataFrame**,  este es muy similar a la de una hoja de cálculo como las de Excel. Se caracteriza por:

1.   Almacenar datos en celdas
2.   Tiene columnnas con etiquetas (nombres) y filas numeradas.







## Vamos a importar los paquetes que necesitamos para los ejercicios

In [None]:
import pandas as pd
import numpy as np

# Ejemplo 1
## Ingresamos datos manualmente
En el siguiente ejemplo vamos a crear un DataFrame con los datos de un equipo para el proyecto final de clubes de ciencia. La información que deberá tener es la siguiente:


*   4 filas. Un fila por miembro del equipo.
*   3 columnas. Una llamada `nombre`, `edad` y `ciudad`.

El siguiente código crea un DataFrame con dicha información. Para ellos se requiere:


1.   Proporcionar los datos para completar las 12 celdas. La celda de código llama a np.array para generar la matriz 4x3 NumPy.
2.   Identificar los nombres de las dos columnas.






In [None]:
# crear una matriz con Numpy de dimensiones 4x3.
mi_equipo= np.array([["Ana Pau","15","Oaxaca"],["Regina", "17", "Monterrey"],["Ana Sofi", "19", "Xalapa"],["Renata","21","Chihuahua"]])
print(mi_equipo)

[['Ana Pau' '15' 'Oaxaca']
 ['Regina' '17' 'Monterrey']
 ['Ana Sofi' '19' 'Xalapa']
 ['Renata' '21' 'Chihuahua']]


In [None]:
# crear una lista de Python con los nombres de las 3 columnas.
nombres_columnas=["Nombre","Edad","Ciudad"]

# crear el DataFrame
mi_dataframe=pd.DataFrame(data=mi_equipo,columns=nombres_columnas)

# Veamos el DataFrame que creamos
print(mi_dataframe)

     Nombre Edad     Ciudad
0   Ana Pau   15     Oaxaca
1    Regina   17  Monterrey
2  Ana Sofi   19     Xalapa
3    Renata   21  Chihuahua


Podemos extraer los valores de nuestro DataFrame de múltiples formas. Por ejemplo, obtener solo la columna de edades, o solo los datos de uno de los miembros del equipo, o solo los datos que cumplan con alguna condición. 

In [None]:
# Extraer las primeras tres filas de mi DataFrame
print(mi_dataframe.head(3))


     Nombre Edad     Ciudad
0   Ana Pau   15     Oaxaca
1    Regina   17  Monterrey
2  Ana Sofi   19     Xalapa


In [None]:
# Extraer solo la fila 2 (nota que Python empieza a contar desde zero por lo que restamos 1 al número de fila que queremos).
print(mi_dataframe.iloc[[1]])

   Nombre Edad     Ciudad
1  Regina   17  Monterrey


In [None]:
# Extraer las filas 2 a 4
print(mi_dataframe[1:4])

     Nombre Edad     Ciudad
1    Regina   17  Monterrey
2  Ana Sofi   19     Xalapa
3    Renata   21  Chihuahua


In [None]:
# Extraer la columna de edades
print(mi_dataframe["Edad"])

0    15
1    17
2    19
3    21
Name: Edad, dtype: object



**Ejercicio:** Repite el ejercicio anterior pero creando tu propio set de datos. Aprovecha para conocer a tus compañeros, escoge a 3 estudiantes de clubes y preguntales su nombre, edad, ciudad, y comida favorita. Crea un DataFrame con 3 filas y 4 columnas (una fila por estudiante).



In [None]:
## ingresa tu código aquí

# Ejemplo 2
## Extraemos datos de un fuente externa

Como ejemplo utilizaremos los datos ubicados en el siguiente repositorio de GitHub: https://github.com/CdeCMx-org/datasets-ejemplos/tree/main/student

**Información del conjunto de datos:** Estos datos se acercan al rendimiento de los estudiantes en la educación secundaria de dos escuelas portuguesas. Los atributos de los datos incluyen calificaciones de los estudiantes, características demográficas, sociales y relacionadas con la escuela) y se recopilaron mediante el uso de informes y cuestionarios escolares. Se proporcionan dos conjuntos de datos sobre el desempeño en dos materias distintas: Matemáticas (mat) y lengua portuguesa (por). Nota importante: el atributo objetivo G3 tiene una fuerte correlación con los atributos G2 y G1. Esto ocurre porque G3 es la calificación final del año (emitida en el tercer período), mientras que G1 y G2 corresponden a las calificaciones del primer y segundo período.

La fuente original de los datos se encuentra en: P. Cortez and A. Silva. Using Data Mining to Predict Secondary School Student Performance. In A. Brito and J. Teixeira Eds., Proceedings of 5th FUture BUsiness TEChnology Conference (FUBUTEC 2008) pp. 5-12, Porto, Portugal, April, 2008, EUROSIS, ISBN 978-9077381-39-7.
[Web link](http://www3.dsi.uminho.pt/pcortez/student.pdf)




Puedes consultar la [descripción de datos aquí](https://github.com/CdeCMx-org/datasets-ejemplos/blob/main/student/student.txt). Algunos campos importantes para este ejercicio son los siguientes:

*   Columna 1:  school - student's school (binary: 'GP' - Gabriel Pereira or 'MS' - Mousinho da Silveira)
*   Columna 2: - sex - student's sex (binary: 'F' - female or 'M' - male)
*  Columna 3: age - student's age (numeric: from 15 to 22)
*  Columna 14: studytime - weekly study time (numeric: 1 - <2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - >10 hours)
*  Columna 30: absences  - number of school absences (numeric: from 0 to 93)
*  Columna 32: G3 - final grade (numeric: from 0 to 20, output target)


Para leer los datos que contienen las calificaciones del curso de Matematicas, leeremos ingresando directamente el URL dentro de el repositorio de GitHub. 

Da click en el [link](https://raw.githubusercontent.com/CdeCMx-org/datasets-ejemplos/main/student/student-mat.csv) y ve la estructura de los datos. ¿Cómo están separados los campos? Nota que como están separados con ";" vamos a tener que indicarlo al momento de leer los datos.

In [None]:
url = "https://raw.githubusercontent.com/CdeCMx-org/datasets-ejemplos/main/student/student-mat.csv"
df1 = pd.read_csv(url,sep=";")
# Dataset is now stored in a Pandas Dataframe

Vamos a llamar a los datos que acabamos de leer para ver la estructura de los datos

In [None]:
df1

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,reason,guardian,traveltime,studytime,failures,schoolsup,famsup,paid,activities,nursery,higher,internet,romantic,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,course,mother,2,2,0,yes,no,no,no,yes,yes,no,no,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,at_home,other,course,father,1,2,0,no,yes,no,no,no,yes,yes,no,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,at_home,other,other,mother,1,2,3,yes,no,yes,no,yes,yes,yes,no,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,health,services,home,mother,1,3,0,no,yes,yes,yes,yes,yes,yes,yes,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,other,other,home,father,1,2,0,no,yes,yes,no,yes,yes,no,no,4,3,2,1,2,5,4,6,10,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
390,MS,M,20,U,LE3,A,2,2,services,services,course,other,1,2,2,no,yes,yes,no,yes,yes,no,no,5,5,4,4,5,4,11,9,9,9
391,MS,M,17,U,LE3,T,3,1,services,services,course,mother,2,1,0,no,no,no,no,no,yes,yes,no,2,4,5,3,4,2,3,14,16,16
392,MS,M,21,R,GT3,T,1,1,other,other,course,other,1,1,3,no,no,no,no,no,yes,no,no,5,5,3,3,3,3,3,10,8,7
393,MS,M,18,R,LE3,T,3,2,services,other,course,mother,3,1,0,no,no,no,no,no,yes,yes,no,4,4,1,3,4,5,0,11,12,10


Podemos extraer los valores de una columna de dos formas. Ya sea como si fuera un diccionario o un atributo. 

In [None]:
df1['age']

0      18
1      17
2      15
3      15
4      16
       ..
390    20
391    17
392    21
393    18
394    19
Name: age, Length: 395, dtype: int64

In [None]:
df1.age

0      18
1      17
2      15
3      15
4      16
       ..
390    20
391    17
392    21
393    18
394    19
Name: age, Length: 395, dtype: int64




**Ejercicio:** imprime los valores de la columna 'absences'



In [None]:
### Ingresa tu código aquí



## Ordenar datos

Podemos tambien ordernar datos en base a una columna




Ejemplo donde ordenamos los datos en base a la edad


In [None]:
df1.sort_values(by="age")


Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,reason,guardian,traveltime,studytime,failures,schoolsup,famsup,paid,activities,nursery,higher,internet,romantic,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
130,GP,F,15,R,GT3,T,3,4,services,teacher,course,father,2,3,2,no,yes,no,no,yes,yes,yes,yes,4,2,2,2,2,5,0,12,0,0
102,GP,M,15,U,GT3,T,4,4,services,other,course,mother,1,1,0,no,yes,no,yes,no,yes,yes,no,5,3,3,1,1,5,4,10,13,14
103,GP,F,15,U,GT3,T,3,2,services,other,home,mother,2,2,0,yes,yes,yes,no,yes,yes,yes,no,4,3,5,1,1,2,26,7,6,6
104,GP,M,15,U,GT3,A,3,4,services,other,course,mother,1,2,0,no,yes,yes,yes,yes,yes,yes,no,5,4,4,1,1,1,0,16,18,18
105,GP,F,15,U,GT3,A,3,3,other,health,reputation,father,1,4,0,yes,no,no,no,yes,yes,no,no,4,3,3,1,1,4,10,10,11,11
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
376,MS,F,20,U,GT3,T,4,2,health,other,course,other,2,3,2,no,yes,yes,no,no,yes,yes,yes,5,4,3,1,1,3,4,15,14,15
306,GP,M,20,U,GT3,A,3,2,services,other,course,other,1,1,0,no,no,no,yes,yes,yes,no,no,5,5,3,1,1,5,0,17,18,18
390,MS,M,20,U,LE3,A,2,2,services,services,course,other,1,2,2,no,yes,yes,no,yes,yes,no,no,5,5,4,4,5,4,11,9,9,9
392,MS,M,21,R,GT3,T,1,1,other,other,course,other,1,1,3,no,no,no,no,no,yes,no,no,5,5,3,3,3,3,3,10,8,7


También podemos ordenar en base a dos columnas, en este caso *edad* y *sexo*. 

In [None]:
df1.sort_values(by=["age","sex"])

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,reason,guardian,traveltime,studytime,failures,schoolsup,famsup,paid,activities,nursery,higher,internet,romantic,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
2,GP,F,15,U,LE3,T,1,1,at_home,other,other,mother,1,2,3,yes,no,yes,no,yes,yes,yes,no,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,health,services,home,mother,1,3,0,no,yes,yes,yes,yes,yes,yes,yes,3,2,2,1,1,5,2,15,14,15
10,GP,F,15,U,GT3,T,4,4,teacher,health,reputation,mother,1,2,0,no,yes,yes,no,yes,yes,yes,no,3,3,3,1,2,2,0,10,8,9
11,GP,F,15,U,GT3,T,2,1,services,other,reputation,father,3,3,0,no,yes,no,yes,yes,yes,yes,no,5,2,2,1,1,4,4,10,12,12
24,GP,F,15,R,GT3,T,2,4,services,health,course,mother,1,3,0,yes,yes,yes,yes,yes,yes,yes,no,4,3,2,1,1,5,2,10,9,8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
376,MS,F,20,U,GT3,T,4,2,health,other,course,other,2,3,2,no,yes,yes,no,no,yes,yes,yes,5,4,3,1,1,3,4,15,14,15
306,GP,M,20,U,GT3,A,3,2,services,other,course,other,1,1,0,no,no,no,yes,yes,yes,no,no,5,5,3,1,1,5,0,17,18,18
390,MS,M,20,U,LE3,A,2,2,services,services,course,other,1,2,2,no,yes,yes,no,yes,yes,no,no,5,5,4,4,5,4,11,9,9,9
392,MS,M,21,R,GT3,T,1,1,other,other,course,other,1,1,3,no,no,no,no,no,yes,no,no,5,5,3,3,3,3,3,10,8,7


**Ejercicio:** Ordena los datos en base a la calificación final (columna "G3"). 
¿En que orden se encuentran, es decir, sale primero las calificaciones altas o bajas?



In [None]:
## Ingresa tu código aquí




**Ejercicio:** Ahora ordena la calificación final en el orden contrario. 
Hint: agrega la especificación `ascending=TRUE` cuando llames a la funcion.  
Por ejemplo, si ordenamos al edad de menor a mayor sería:
`df1.sort_values(by="age",ascending=TRUE)`




In [None]:
## Ingresa tu código aquí



## Extraer un subconjunto de datos. 
Muchas veces nos interesa restringir nuestros análisis a solo una subpoblación. Para ellos podemos crear un nuevo set de datos que solo contenga los datos que nos interesan. 

En el ejemplo que estamos utilizando tenemos datos sobre los alumnos de dos escuelas secundarias en Portugal. Supongamos que nos interesa analizar los datos de solo una escuela, la columna "school" indica a que escuela pertenece cada alumno, y nos interesa la escuela *Gabriel Pereira* (variable=GP)

Pasos:


1.   Definimos una nueva variable `df1_GP` que solo contiene los datos de la escuela que nos interesa
2.   Nos fijamos en los valores de la columna "school" que son iguales "GP". Eso lo hacemos llamando a la columna y utilizando el signo `==`. Lo que nos da: `df1["school"]=="GP"`. Si imprimimos esta línea solo, lo que nos da es un vector booleano, que indica que filas tienen valores iguales a GP y cuáles no. 


In [None]:
df1["school"]=="GP"

0       True
1       True
2       True
3       True
4       True
       ...  
390    False
391    False
392    False
393    False
394    False
Name: school, Length: 395, dtype: bool

3. Como nos interes obtener todo DataFrame es decir todas las columnas del set de datos original, restringido solo a la escuela Gabriel Pereira, entonces escribmimos `df1["school"]=="GP"`, dentro de df1. 

In [None]:
## Definimos una nueva variable df1_GP que solo contiene los datos de la escuela que nos interesa
df1_GP=df1[df1["school"]=="GP"]

(349, 33)


Podemos comprobar revisando las dimensiones del DataFrame, esto se hace utilizando la función `shape`

In [None]:
## Dimensiones del los datos originales 
print(df1.shape)
## Dimensiones del los datos restringidos a la escuela Gabriel Pereira 
print(df1_GP.shape)

(395, 33)
(349, 33)


# Análisis de datos. Estadísitica descriptiva

El paquete **pandas** te permite extraer información útil de forma simple. A continuación verás algunas funciones útiles que te permitiran realizar análisis de datos de forma sencilla. 


## Extraer el promedio, mínimo y máximo de una columna
La columna "G3" tiene los datos de la calificación final en la materia de matemáticas de las dos escuelas. Nos gustaría saber el promedio total que obtuvieron los alumnos en Matemáticas. 

In [None]:
df1["G3"].mean()

10.415189873417722

In [None]:
df1["G3"].max()

20

In [None]:
df1["G3"].min()

0

## Utiliza la función `describe` para calcular múltiples estadísticos al mismo tiempo y aplicarlo a todos los datos. 

In [None]:
df1.describe()

Unnamed: 0,age,Medu,Fedu,traveltime,studytime,failures,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
count,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0
mean,16.696203,2.749367,2.521519,1.448101,2.035443,0.334177,3.944304,3.235443,3.108861,1.481013,2.291139,3.55443,5.708861,10.908861,10.713924,10.41519
std,1.276043,1.094735,1.088201,0.697505,0.83924,0.743651,0.896659,0.998862,1.113278,0.890741,1.287897,1.390303,8.003096,3.319195,3.761505,4.581443
min,15.0,0.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,3.0,0.0,0.0
25%,16.0,2.0,2.0,1.0,1.0,0.0,4.0,3.0,2.0,1.0,1.0,3.0,0.0,8.0,9.0,8.0
50%,17.0,3.0,2.0,1.0,2.0,0.0,4.0,3.0,3.0,1.0,2.0,4.0,4.0,11.0,11.0,11.0
75%,18.0,4.0,3.0,2.0,2.0,0.0,5.0,4.0,4.0,2.0,3.0,5.0,8.0,13.0,13.0,14.0
max,22.0,4.0,4.0,4.0,4.0,3.0,5.0,5.0,5.0,5.0,5.0,5.0,75.0,19.0,19.0,20.0


**Ejercicio:** 
Repite el ejemplo anterior pero en lugar de utilizar todo el conjunto de datos, restringe los análisis a los alumnos de la escuela Gabriel Pereira. Si te gustan los retos, repite el análisis solo con las mujeres de la escuela Gabriel Pereira. 

In [None]:
# Escribe tu código aquí

