# Módulo 2. Análisis de datos



# 2. Estadística descriptiva



## Manuel Castillo-Cara
## Machine Learning con Python

In [1]:
# Permite ajustar la anchura de la parte útil de la libreta (reduce los márgenes)
from IPython.core.display import display, HTML
display(HTML("<style>.container{ width:98% }</style>"))

# 1. Introducción

Unos de los errores principales que se cometen cuando se comienza a trabajar con machine learning es tomar decisiones directamente a través de los algoritmos sin un análisis previo del conjunto de datos a trabajar. Es importante que entendamos que, un análisis de datos y un buen preprocesamiento de los mismos antes de realizar un tratamiento de modelado, nos llevará no solamente a obtener mejores y más confiables resultados, sino que entenderemos a la perfección nuestro conjunto de datos dando una gran experiencia en el tiempo en la fase de análisis y tratamiento de datos.

# 1.1. Cargar el conjunto de datos

Para esta práctica vamos a cargar el conjunto de datos de Pima Indian Diabetes para hacer observaciones con las funciones de estadística descriptiva.

In [3]:
import pandas as pd
filename = 'data/pima-indians-diabetes.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = pd.read_csv(filename, names = names)
data

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,627.00,50,1
1,1,85,66,29,0,26.6,351.00,31,0
2,8,183,64,0,0,23.3,672.00,32,1
3,1,89,66,23,94,28.1,167.00,21,0
4,0,137,40,35,168,43.1,2288.00,33,1
5,5,116,74,0,0,25.6,201.00,30,0
6,3,78,50,32,88,31.0,248.00,26,1
7,10,115,0,0,0,35.3,134.00,29,0
8,2,197,70,45,543,30.5,158.00,53,1
9,8,125,96,0,0,0.0,232.00,54,1


#  2. Funciones de estadística descriptiva

La inspección de nuestro conjunto de datos es fundamental para poder entender mejor que técnica utilizar; además, nos ayudará a desarrollar nuestra intuición y hacernos preguntas sobre ellos. Las múltiples perspectivas de sus datos lo desafiarán a pensar en los datos de manera diferente.

# 2.1. Revisar los datos: _head()_ 

Puede revisar las primeras 20 filas de sus datos utilizando la función `head()` en el DataFrame de Pandas. Puede ver que la primera columna enumera el número de fila, lo cual es útil para hacer referencia a una observación específica.

In [4]:
data.head(20)
# dar un primer vistazo

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,627.0,50,1
1,1,85,66,29,0,26.6,351.0,31,0
2,8,183,64,0,0,23.3,672.0,32,1
3,1,89,66,23,94,28.1,167.0,21,0
4,0,137,40,35,168,43.1,2288.0,33,1
5,5,116,74,0,0,25.6,201.0,30,0
6,3,78,50,32,88,31.0,248.0,26,1
7,10,115,0,0,0,35.3,134.0,29,0
8,2,197,70,45,543,30.5,158.0,53,1
9,8,125,96,0,0,0.0,232.0,54,1


# 2.2. Dimensiones de los datos: _shape_ 

Puede revisar la forma y el tamaño de su conjunto de datos imprimiendo la propiedad `shape` en el DataFrame de Pandas. Los resultados se enumeran en filas y luego en columnas. Puede ver que el conjunto de datos tiene 768 filas y 9 columnas

In [5]:
# Dimensions of your data
# necesitamos saber cuantas instancias y atributos tiene , debido a que puede que nuestro 
# codigo puede tardar .
# (Busca la maldicion de la dimensionalidad)
data.shape

(768, 9)

# 2.3. Tipo de datos: _dtypes_ 

Puede enumerar los tipos de datos utilizados por el DataFrame para caracterizar cada atributo utilizando la propiedad `dtypes`. Puede ver que la mayoría de los atributos son enteros y que `mass` y `pedi` son tipos de coma flotante.

In [7]:
# Data Types for Each Attribute
# Esto importante por que los algoritmos que son de taxonomia lineal les interesa 
    # que las caracteristicas sean de tipo numerico . 
# Entonces conocer como son las categorias de nuestros conjunto de datos es importante para 
    # saber como tratarlas 
# Se recomienda que todas las caracteristicas esten dadas del mismo tipo . 
# pasar de categorico a numerico es One-hot encoding(unidad 6)
data.dtypes

preg       int64
plas       int64
pres       int64
skin       int64
test       int64
mass     float64
pedi     float64
age        int64
class      int64
dtype: object

# 2.4. Resumen: _describe()_ 

Puedes ver que obtienes muchos datos. Notará algunas llamadas como `pandas.set_option()` utilizada para cambiar la precisión de los números y el ancho preferido de la salida. Esto es para que sea más legible para este ejemplo. Al describir sus datos de esta manera, vale la pena tomarse un tiempo y revisar las observaciones de los resultados.

In [8]:
# Statistical Summary
# formatear la salida
pd.set_option('display.width',100) # el ancho sea 100 para que se vea bien
pd.set_option('precision', 3) # para que tengan 3 decimales
data.describe() 
# como estan estructurados los datos numericos de nuestro conjuntos de datos
# Cuantas instancias hay , cual es la media de esa instancia , valor medio , valor minimo , max 
# Esto es importante por que nos da una pista que existe valores corruptos . 
# 

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845,120.895,69.105,20.536,79.799,31.993,428.235,33.241,0.349
std,3.37,31.973,19.356,15.952,115.244,7.884,340.486,11.76,0.477
min,0.0,0.0,0.0,0.0,0.0,0.0,0.1,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,205.0,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,337.0,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,591.5,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2329.0,81.0,1.0


# 2.5. Distribución entre clases: _groupby('class').size()_ 

Puede ver que hay casi el doble de observaciones con la clase 0 (sin aparición de diabetes) que con la clase 1 (aparición de diabetes). En este caso podemos observar que las clases se encuentran desbalanceadas por lo que los tenemos que analizar muy los resultados de los algoritmos.

In [10]:
# Class Distribution
# Cuantas instancias tenemos de una clase y cuantas instancias tenemos de otra clase
# Acuerdate que la data de diabeticos era que tiene diabetes si es 1 y no tiene diabetes es 0 .
# Se usa cuando se tiene un problema de clasificacion . 
data.groupby('class').size()
# fijate tengo menos diabeticos que diabeticos ( hay un desbalance en la clase)
# esto va a influir muchisimo en el algoritmo de machine learning . 
# Accuracy : es la tasa de aciertos

class
0    500
1    268
dtype: int64

# 2.6. Correlaciones: _corr()_ 

Puede usar la función `corr()` para calcular una matriz de correlación. La matriz enumera todos los atributos en la parte superior y lateral, para dar correlación entre todos los pares de atributos (dos veces, porque la matriz es simétrica). Puede ver que la línea diagonal a través de la matriz desde las esquinas superior izquierda a inferior derecha de la matriz muestra una correlación perfecta de cada atributo consigo mismo.

In [11]:
# Pairwise Pearson correlations
# Hablar de correlacion es analizar la interaccion de un atributo con otro atiputo
pd.set_option('display.width', 100)
pd.set_option('precision', 3)
correlation = data.corr(method = 'pearson') # correlacion por el metodo de pearson
print(correlation) 
# salida es una matriz , tenemos que analizar la interaccion (medir si las variables son dependiente
    # independientes )
# Lo que nos intresa de machine learning es que la correlacion entre las caracteristicas sea baja
# Pero si nosotros hablamos respecto a la clase , nosotros queremos lo contrario . Que sea mayor
    # a menor a -0.75 o mayor a 0.75 .

        preg   plas   pres   skin   test   mass   pedi    age  class
preg   1.000  0.129  0.141 -0.082 -0.074  0.018 -0.026  0.544  0.222
plas   0.129  1.000  0.153  0.057  0.331  0.221  0.133  0.264  0.467
pres   0.141  0.153  1.000  0.207  0.089  0.282  0.051  0.240  0.065
skin  -0.082  0.057  0.207  1.000  0.437  0.393  0.154 -0.114  0.075
test  -0.074  0.331  0.089  0.437  1.000  0.198  0.185 -0.042  0.131
mass   0.018  0.221  0.282  0.393  0.198  1.000  0.104  0.036  0.293
pedi  -0.026  0.133  0.051  0.154  0.185  0.104  1.000  0.018  0.177
age    0.544  0.264  0.240 -0.114 -0.042  0.036  0.018  1.000  0.238
class  0.222  0.467  0.065  0.075  0.131  0.293  0.177  0.238  1.000


# 2.7. Asimetría: _skew()_

Puede calcular el sesgo de cada atributo utilizando la función `skew()`. El resultado de inclinación muestra una inclinación positiva (derecha) o negativa (izquierda). Los valores más cercanos a cero muestran menos sesgo.

In [12]:
# Skew for each attribute
data.skew()
# podemos ver si existe sesgo o no existe sesgo en los datos 
# si es negativo tiene inclinacion a la izquierda y si es positivo una inclinacon a la derecha 
# si esta cerca a cero significa que tiene una distribucion gausiana casi perfecta.

preg     0.902
plas     0.174
pres    -1.844
skin     0.109
test     2.272
mass    -0.429
pedi     1.562
age      1.130
class    0.635
dtype: float64