# Análisis de datos en Pandas Ejemplo

## Introducción

Podemos usar esta biblioteca de Python para realizar análisis exploratorio de datos y para encontrar relaciones entre nuestros datos. En este proyecto guiado, exploraremos un conjunto de datos que describen el rendimiento en matemáticas de una muestra de estudiantes de dos distritos escolares de Portugal.

## Carga de los datos

Utilizaremos el data set student-mat.csv:

In [2]:
import pandas as pd
import numpy as np

student = pd.read_csv('Data/student-mat.csv')
student.head()

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,...,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,at_home,other,...,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,at_home,other,...,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,health,services,...,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,other,other,...,4,3,2,1,2,5,4,6,10,10


Vamos a observar primero sus columnas y ver qué contienen. Hay varias formas de ver esto.

In [3]:
student.columns

Index(['school', 'sex', 'age', 'address', 'famsize', 'Pstatus', 'Medu', 'Fedu',
       'Mjob', 'Fjob', 'reason', 'guardian', 'traveltime', 'studytime',
       'failures', 'schoolsup', 'famsup', 'paid', 'activities', 'nursery',
       'higher', 'internet', 'romantic', 'famrel', 'freetime', 'goout', 'Dalc',
       'Walc', 'health', 'absences', 'G1', 'G2', 'G3'],
      dtype='object')

In [5]:
student.dtypes

school        object
sex           object
age            int64
address       object
famsize       object
Pstatus       object
Medu           int64
Fedu           int64
Mjob          object
Fjob          object
reason        object
guardian      object
traveltime     int64
studytime      int64
failures       int64
schoolsup     object
famsup        object
paid          object
activities    object
nursery       object
higher        object
internet      object
romantic      object
famrel         int64
freetime       int64
goout          int64
Dalc           int64
Walc           int64
health         int64
absences       int64
G1             int64
G2             int64
G3             int64
dtype: object

In [6]:
student.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 395 entries, 0 to 394
Data columns (total 33 columns):
school        395 non-null object
sex           395 non-null object
age           395 non-null int64
address       395 non-null object
famsize       395 non-null object
Pstatus       395 non-null object
Medu          395 non-null int64
Fedu          395 non-null int64
Mjob          395 non-null object
Fjob          395 non-null object
reason        395 non-null object
guardian      395 non-null object
traveltime    395 non-null int64
studytime     395 non-null int64
failures      395 non-null int64
schoolsup     395 non-null object
famsup        395 non-null object
paid          395 non-null object
activities    395 non-null object
nursery       395 non-null object
higher        395 non-null object
internet      395 non-null object
romantic      395 non-null object
famrel        395 non-null int64
freetime      395 non-null int64
goout         395 non-null int64
Dalc          395 no

In [9]:
student.shape

(395, 33)

Podemos ver que hay 17 columnas de objects (columnas que contienen strings) y 16 columnas de enteros. Y 395 filas. Normalmente, los datos vienen acompañados de una documentación o una descripción (debe ser así) que tendremos que leer para entender mejor con qué estamos trabajando. Aquí tenemos unna guía:

1 school - student's school (binary: 'GP' - Gabriel Pereira or 'MS' - Mousinho da Silveira)

2 sex - student's sex (binary: 'F' - female or 'M' - male)

3 age - student's age (numeric: from 15 to 22)

4 address - student's home address type (binary: 'U' - urban or 'R' - rural)

5 famsize - family size (binary: 'LE3' - less or equal to 3 or 'GT3' - greater than 3)

6 Pstatus - parent's cohabitation status (binary: 'T' - living together or 'A' - apart)

7 Medu - mother's education (numeric: 0 - none, 1 - primary education (4th grade), 2 â€“ 5th to 9th grade, 3 â€“ secondary education or 4 â€“ higher education)

8 Fedu - father's education (numeric: 0 - none, 1 - primary education (4th grade), 2 â€“ 5th to 9th grade, 3 â€“ secondary education or 4 â€“ higher education)

9 Mjob - mother's job (nominal: 'teacher', 'health' care related, civil 'services' (e.g. administrative or police), 'at_home' or 'other')

10 Fjob - father's job (nominal: 'teacher', 'health' care related, civil 'services' (e.g. administrative or police), 'at_home' or 'other')

11 reason - reason to choose this school (nominal: close to 'home', school 'reputation', 'course' preference or 'other')

12 guardian - student's guardian (nominal: 'mother', 'father' or 'other')

13 traveltime - home to school travel time (numeric: 1 - <15 min., 2 - 15 to 30 min., 3 - 30 min. to 1 hour, or 4 - >1 hour)

14 studytime - weekly study time (numeric: 1 - <2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - >10 hours)

15 failures - number of past class failures (numeric: n if 1<=n<3, else 4)

16 schoolsup - extra educational support (binary: yes or no)

17 famsup - family educational support (binary: yes or no)

18 paid - extra paid classes within the course subject (binary: yes or no)

19 activities - extra-curricular activities (binary: yes or no)

20 nursery - attended nursery school (binary: yes or no)

21 higher - wants to take higher education (binary: yes or no)

22 internet - Internet access at home (binary: yes or no)

23 romantic - with a romantic relationship (binary: yes or no)

24 famrel - quality of family relationships (numeric: from 1 - very bad to 5 - excellent)

25 freetime - free time after school (numeric: from 1 - very low to 5 - very high)

26 goout - going out with friends (numeric: from 1 - very low to 5 - very high)

27 Dalc - workday alcohol consumption (numeric: from 1 - very low to 5 - very high)

28 Walc - weekend alcohol consumption (numeric: from 1 - very low to 5 - very high)

29 health - current health status (numeric: from 1 - very bad to 5 - very good)

30 absences - number of school absences (numeric: from 0 to 93)

31 G1 - first period grade (numeric: from 0 to 20)

31 G2 - second period grade (numeric: from 0 to 20)

32 G3 - final grade (numeric: from 0 to 20, output target)

## Descriptivos

In [10]:
student.describe()

Unnamed: 0,age,Medu,Fedu,traveltime,studytime,failures,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
count,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0
mean,16.696203,2.749367,2.521519,1.448101,2.035443,0.334177,3.944304,3.235443,3.108861,1.481013,2.291139,3.55443,5.708861,10.908861,10.713924,10.41519
std,1.276043,1.094735,1.088201,0.697505,0.83924,0.743651,0.896659,0.998862,1.113278,0.890741,1.287897,1.390303,8.003096,3.319195,3.761505,4.581443
min,15.0,0.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,3.0,0.0,0.0
25%,16.0,2.0,2.0,1.0,1.0,0.0,4.0,3.0,2.0,1.0,1.0,3.0,0.0,8.0,9.0,8.0
50%,17.0,3.0,2.0,1.0,2.0,0.0,4.0,3.0,3.0,1.0,2.0,4.0,4.0,11.0,11.0,11.0
75%,18.0,4.0,3.0,2.0,2.0,0.0,5.0,4.0,4.0,2.0,3.0,5.0,8.0,13.0,13.0,14.0
max,22.0,4.0,4.0,4.0,4.0,3.0,5.0,5.0,5.0,5.0,5.0,5.0,75.0,19.0,19.0,20.0


Algunas observaciones con respecto a los datos:

- La edad mediana en este grupo es de 17 (con una media de 16.696).
- El tiempo mediano de viaje es inferior a 15 minutos.
- Si un estudiante tiene 75 ausencias y la media es un poco más grande que la mediana, podemos asumir que los datos están sesgados (skewed/tienen asimetría) y que este estudiante con 75 ausencias es un valor atípico (outlier).
- La media y la mediana de la calificación se mantuvieron bastante similares durante todo el año, con una media que fluctuó entre 10 y 11 y una mediana que se mantuvo en 11.


También podemos tratar de hacer algunas inferencias con respecto a las variables que contienen caracteres utilizando tablas de contingencia.  Por ejemplo, vamos a ver cuántas mujeres y cuántos hombres han pasado esta encuesta.

In [11]:
pd.crosstab(index=student.sex, columns="count")

col_0,count
sex,Unnamed: 1_level_1
F,208
M,187


Podemos ver que hay más hombres que mujeres. También podemos ver el desglose de los estudiantes que participan en actividades extracurriculares según sexo.

In [13]:
pd.crosstab(index=student.sex, columns=student.activities)

activities,no,yes
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
F,112,96
M,82,105


Parece que la proporción de hombres que participan en actividades extracurriculares es mayor.

También podemos ver el tipo de dirección frente al tamaño de la familia:

In [16]:
pd.crosstab(index=student.address, columns=student.famsize)

famsize,GT3,LE3
address,Unnamed: 1_level_1,Unnamed: 2_level_1
R,68,20
U,213,94


Hay muchos menos estudiantes que viven en áreas rurales y la proporción de ellos que viven en familias mayores de 3 es mayor.

## Creación de columnas

Podemos aportar más a nuestra inferencia si calculamos nuevas columnas utilizando los datos existentes. Por ejemplo, nos gustaría saber cuántos estudiantes mejoraron su calificación entre el primer y el segundo período. Creamos una columna calculada y luego contamos el número de estudiantes que mejoraron y no mejoraron en cada colegio.

In [22]:
student['improvement'] = np.where(student.G2 > student.G1, "improved", "did not improve")
pd.crosstab(index = student['school'], columns = student['improvement'])

improvement,did not improve,improved
school,Unnamed: 1_level_1,Unnamed: 2_level_1
GP,228,121
MS,39,7


In [23]:
student.head()

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3,improvement
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,...,3,4,1,1,3,6,5,6,6,improved
1,GP,F,17,U,GT3,T,1,1,at_home,other,...,3,3,1,1,3,4,5,5,6,did not improve
2,GP,F,15,U,LE3,T,1,1,at_home,other,...,3,2,2,3,3,10,7,8,10,improved
3,GP,F,15,U,GT3,T,4,2,health,services,...,2,2,1,1,5,2,15,14,15,did not improve
4,GP,F,16,U,GT3,T,3,3,other,other,...,3,2,1,2,5,4,6,10,10,improved


Los datos muestran que más de un tercio de los estudiantes del Gabriel Periera mejoraron.

## Tablas dinámicas

Podemos generar una tabla dinámica de estos datos para proporcionarnos un resumen conciso que contendrá una gran cantidad de información. Vamos a generar una tabla dinámica que nos muestre la calificación final media por escuela, sexo y tiempo de estudio semanal:

In [26]:
student.pivot_table(index=["school"], columns=["sex", "studytime"], values=["G3"], fill_value=0)

Unnamed: 0_level_0,G3,G3,G3,G3,G3,G3,G3,G3
sex,F,F,F,F,M,M,M,M
studytime,1,2,3,4,1,2,3,4
school,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
GP,10.652174,9.363636,10.590909,11,10.363636,11.090909,13.923077,11.7
MS,5.25,10.428571,11.571429,0,8.75,10.875,13.0,0.0


Podemos ver que en Mousinho da Silveira no hay estudiantes estudiando la cantidad máxima de tiempo.

El hecho de que los estudiantes que estudian entre 5 y 10 horas por semana tengan más éxito que los estudiantes que estudian más de 10 horas por semana podría atribuirse al pequeño tamaño de la muestra en este grupo.

Podemos examinar esto mirando una tabla dinámica de conteos en lugar de los promedios.

In [28]:
student.pivot_table(index=["school"], columns=["sex", "studytime"], values=["G3"], fill_value=0, aggfunc='count') 

Unnamed: 0_level_0,G3,G3,G3,G3,G3,G3,G3,G3
sex,F,F,F,F,M,M,M,M
studytime,1,2,3,4,1,2,3,4
school,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
GP,23,99,44,17,66,77,13,10
MS,4,14,7,0,12,8,1,0


Podemos ver que el número de estudiantes que estudian el máximo de horas siempre es el más pequeño en cada colegio.