# Procesamiento de Datos

**Docente:** Ph.D. John William Branch  

Aprendizaje de Máquina 
Universidad Nacional - Sede Medellin

## Bibliotecas

Bibliotecas y paquetes de python a utilizar en el siguiente notebook.  
(Deben estar previamente instalados)

In [1]:
%matplotlib inline
import numpy as np
import pandas as pd

## Datos Estructurados

Los datos estructurados son aquellos que estan organizados en variables o atributos. Comunmente se presentan o almacenan en matrices donde cada ejemplo es una fila de la matriz, y cada atributo, una columna.  

Para este caso, se usará un dataset del desempeño de estudiantes en examenes. El primer paso siempre debe ser entener nuestro problema y datos, para luego poder procesarlos de una manera más efectiva.

In [2]:
# Leer los datos utilizando la libreria "pandas"
df = pd.read_csv('data/StudentsPerformance.csv', sep=",")

In [8]:
# Imprimir los primeros 5
df.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


In [9]:
# Imprimir el tamaño del "DataFrame"
df.shape

(1000, 8)

In [10]:
df.describe()

Unnamed: 0,math score,reading score,writing score
count,1000.0,1000.0,1000.0
mean,66.089,69.169,68.054
std,15.16308,14.600192,15.195657
min,0.0,17.0,10.0
25%,57.0,59.0,57.75
50%,66.0,70.0,69.0
75%,77.0,79.0,79.0
max,100.0,100.0,100.0


### Procesamiento de Datos

Aunque los datos estructurados esten organizados por atributos, no siempre se obtienen con las mejores condiciones. Debido a esto muchos conjuntos de datos pueden tener datos faltantes, datos errados, valores no estandarizados, etc.  
Por esto se busca realizar ciertas operaciones y procesamiento para mejorar la calidad de los datos.

### Datos Nulos

In [11]:
# Eliminar las filas donde al menos un dato sea nulo
df_no_null = df.dropna(axis=0, how='any')

In [12]:
# Imprimir el tamaño (shape)
df_no_null.shape

(1000, 8)

In [13]:
# Eliminar las filas donde todos los datos sean nulos
df_no_null_2 = df.dropna(axis=0, how='all')

In [14]:
# Imprimir el tamaño (shape)
df_no_null_2.shape

(1000, 8)

### Nuevos Atributos

In [15]:
df = df_no_null

In [17]:
# Crear una nueva columna con el promedio de los 3 puntajes (math, reading, writing)
df['total score'] = df[['math score', 'reading score', 'writing score']].mean(axis=1)

In [18]:
df.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score,total score
0,female,group B,bachelor's degree,standard,none,72,72,74,72.666667
1,female,group C,some college,standard,completed,69,90,88,82.333333
2,female,group B,master's degree,standard,none,90,95,93,92.666667
3,male,group A,associate's degree,free/reduced,none,47,57,44,49.333333
4,male,group C,some college,standard,none,76,78,75,76.333333


In [19]:
df.shape

(1000, 9)

### Variables dummies

Las variables o atributos categóricos son problemáticos a la hora de aplicar algunos métodos estadísticos y matemáticos. Para esto, se utiliza una técnica para generar nuevas variables que representen el dato de los atributos categóricos. Estas variables reciben el nombre de variables "dummies".

In [20]:
# Crear nuevas columnas a partir de la variable categórica (gender) (revisar documentacion de la función "get_dummies" de pandas)
dummies = pd.get_dummies(df['gender'])
dummies.head()

Unnamed: 0,female,male
0,1,0
1,1,0
2,1,0
3,0,1
4,0,1


In [21]:
df = pd.concat([df, dummies], axis=1)

In [22]:
# Eliminar la columna "gender" del dataframe
df = df.drop(['gender'], axis=1)

In [23]:
df.head()

Unnamed: 0,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score,total score,female,male
0,group B,bachelor's degree,standard,none,72,72,74,72.666667,1,0
1,group C,some college,standard,completed,69,90,88,82.333333,1,0
2,group B,master's degree,standard,none,90,95,93,92.666667,1,0
3,group A,associate's degree,free/reduced,none,47,57,44,49.333333,0,1
4,group C,some college,standard,none,76,78,75,76.333333,0,1


In [24]:
# Crear nuevas columnas a partir de una variable categórica (elegida por el estudiante)
dummies = pd.get_dummies(df['race/ethnicity'])
dummies.head()

Unnamed: 0,group A,group B,group C,group D,group E
0,0,1,0,0,0
1,0,0,1,0,0
2,0,1,0,0,0
3,1,0,0,0,0
4,0,0,1,0,0


In [25]:
df = pd.concat([df, dummies], axis=1)

In [26]:
df.head()

Unnamed: 0,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score,total score,female,male,group A,group B,group C,group D,group E
0,group B,bachelor's degree,standard,none,72,72,74,72.666667,1,0,0,1,0,0,0
1,group C,some college,standard,completed,69,90,88,82.333333,1,0,0,0,1,0,0
2,group B,master's degree,standard,none,90,95,93,92.666667,1,0,0,1,0,0,0
3,group A,associate's degree,free/reduced,none,47,57,44,49.333333,0,1,1,0,0,0,0
4,group C,some college,standard,none,76,78,75,76.333333,0,1,0,0,1,0,0


In [27]:
# Imprimir las columnas del dataframe
df.columns

Index([u'race/ethnicity', u'parental level of education', u'lunch',
       u'test preparation course', u'math score', u'reading score',
       u'writing score', u'total score', u'female', u'male', u'group A',
       u'group B', u'group C', u'group D', u'group E'],
      dtype='object')

### Análisis Estadístico Básico

Al realizar análisis estadístico es posible concluir premisas erradas. Esto por la poco o baja calidad que pueden tener los datos. Por esto, se realiza todo un procesamiento con el fin de mejorar la precisión de los resultados estadísticos.

In [33]:
# Agrupar las filas por la columna "math score" y contarlas (revisar la documentación de groupby de pandas)
df.groupby('math score').count()['lunch']

math score
0       1
8       1
18      1
19      1
22      1
23      1
24      1
26      1
27      2
28      1
29      3
30      2
32      3
33      1
34      2
35      5
36      2
37      4
38      3
39      4
40     10
41      6
42      6
43      5
44      9
45      9
46     11
47     11
48     11
49     17
       ..
71     26
72     18
73     27
74     25
75     21
76     21
77     24
78     14
79     22
80     17
81     22
82     18
83      8
84     11
85     14
86      8
87     16
88     15
89      6
90      8
91      9
92      6
93      4
94      7
95      2
96      3
97      6
98      3
99      3
100     7
Length: 81, dtype: int64

In [31]:
# Agrupar las filas por la columna "race/ethnicity" y calcular el promedio (revisar la documentación de groupby de pandas)
df.groupby('race/ethnicity').mean()['reading score']

race/ethnicity
group A    64.674157
group B    67.352632
group C    69.103448
group D    70.030534
group E    73.028571
Name: reading score, dtype: float64