<img src="../logo/logo_ev2017.png">

# Table of Contents
* [1. Pandas](#1.-Pandas)
	* [1.1 DataFrames](#1.1-DataFrames)
		* [1.1.1 Crear un DataFrame](#1.1.1-Crear-un-DataFrame)
	* [1.2 Cargar Datasets mediante Pandas](#1.2-Cargar-Datasets-mediante-Pandas)
	* [1.4 Exportando DataFrames](#1.4-Exportando-DataFrames)
	* [1.5 Operaciones del álgebra relacional. Función Merge](#1.5-Operaciones-del-álgebra-relacional.-Función-Merge)
	* [1.6 Acceso a los datos (filas y columnas)](#1.6-Acceso-a-los-datos-%28filas-y-columnas%29)
	* [1.7 Actualización de datos de un DataFrame](#1.7-Actualización-de-datos-de-un-DataFrame)
		* [1.7.1 Modificando valores del DataFrame](#1.7.1-Modificando-valores-del-DataFrame)
		* [1.7.2 Borrando columnas en un DataFrame (__pop__ y __drop__)](#1.7.2-Borrando-columnas-en-un-DataFrame-%28__pop__-y-__drop__%29)
		* [1.7.3 Insertar datos en un DataFrame](#1.7.3-Insertar-datos-en-un-DataFrame)
	* [1.8 Tratamiento de valores nulos](#1.8-Tratamiento-de-valores-nulos)
	* [1.9 Consultas](#1.9-Consultas)
	* [1.10 Grupos y funciones de agrupación](#1.10-Grupos-y-funciones-de-agrupación)
	* [1.11 Primeros estadísticos](#1.11-Primeros-estadísticos)
		* [1.11.1 Matriz de correlación](#1.11.1-Matriz-de-correlación)
* [2. Maching Learning](#2.-Maching-Learning)
	* [2.2 Predicción con Arboles de decisión](#2.2-Predicción-con-Arboles-de-decisión)
	* [2.3 Predicción con Random Forest](#2.3-Predicción-con-Random-Forest)


#  Pandas

La librería __pandas__ de Python proporciona estructuras de datos de alto nivel y herramientas diseñadas específicamente para conseguir un análisis de los datos rápido y sencillo.

* Pandas está construida sobre la librería __NumPy__

__Aspectos más importantes__:
    
* Ofrece una estructurade datos bidimensional : DataFrame
* Filas y  columnas indexadas (Selección de filas y columas a través de su nombre)
* Selección mediante máscaras
* Permite el tratamiento de datos perdidos (missing data)
* Operaciones elemento a elemento (sin iteración al igual que en NumPy)
* Soporta Grupos y operaciones de agrupación
* Amplia gama de operaciones estadísticas (mean, std, corr, etc.)
* Operaciones aritméticas y operaciones del álgebra relacional (Merging, joining, data set concatenation)

In [1]:
import numpy as np
import pandas as pd     # importamos el módulo pandas

##  DataFrames

La estructura __DataFrame__ está diseñada para manejar datos representados en forma de tabla. Esta será la estructura de datos más habitual.
* Las filas están indexadas.
    * Podemos verlo como filas con nombre. Por defecto, si no decimos otra cosa, dicho nombre será un número entero
* Las columnas están etiquetadas.
    * La etiqueta se corresponde con el nombre de la columna.

Un __DataFrame__ puede verse como una tabla de SQL o una hoja de cálculo.


###  Crear un DataFrame

Hay varias formas de crear un __DataFrame__. Podemos crearlo indicando los datos que contiene y el nombre de las columnas.

In [7]:
# crear un array de tuplas
clientes = ['Rafa','Rafa','Antonio','Pedro','Elena']
importes = [968, 155, 77, 578, 100]

lista_datos = list(zip(clientes, importes))
lista_datos

[('Rafa', 968), ('Rafa', 155), ('Antonio', 77), ('Pedro', 578), ('Elena', 100)]

In [3]:
zip?

In [8]:
# crear un DataFrame
tabla = pd.DataFrame( data    = lista_datos,            # lista de tuplas
                      columns = ['nombres_clientes', 'importe_factura'])  
tabla

Unnamed: 0,nombres_clientes,importe_factura
0,Rafa,968
1,Rafa,155
2,Antonio,77
3,Pedro,578
4,Elena,100


La función __describe__ permite hacer un análisis de los datos de cada una de las columnas de la tabla mostrando varias medidas estadísticas. Los datos que muestra son mínimo valor, máximo, media, percentiles, etc. de las columnas numéricas (variables cuantitativas). En caso de las columnas de otro tipo (string, tipo fecha) muestra otro tipo de valores (cantidad de valores, cantidad de valores distintos, etc).

Como podemos ver, el intérprete de Python indexa las filas con un número entero comenzando por el cero (0,1, ...).

In [9]:
# analisis de los datos de las columnas
tabla.describe()    # por defecto, medidas para variables cuantitativas

Unnamed: 0,importe_factura
count,5.0
mean,375.6
std,389.128899
min,77.0
25%,100.0
50%,155.0
75%,578.0
max,968.0


In [11]:
tabla.shape

(5, 2)

También es posible crear un __DataFrame__ a partir de un diccionario. 
* Las claves del diccionario serán los nombres de las columnas 
* Los valores del diccionario constituirán las filas

In [12]:
datos = {"clientes" : ['Rafa','Rafa','Antonio','Pedro','Elena'], 
         "importes" : [968, 155, 77, 578, 100]
         }
mi_tabla = pd.DataFrame(datos, index = [1971, 1971, 1985, 1985, 1987])
mi_tabla.head()

Unnamed: 0,clientes,importes
1971,Rafa,968
1971,Rafa,155
1985,Antonio,77
1985,Pedro,578
1987,Elena,100


* Podemos crear un DataFrame indexando las filas con un tipo de dato que no sea por defecto (int).
* Podemos crear un DataFrame cambiando la posición de las columnas, incluso con menos columnas.

En el caso de DataFrames, los principales atributos son los siguientes:

* __columns__ : devuelve las etiquetas de las columnas del DataFrame
* __index__ : devuelve los índices de las filas del DataFrame
* __values__ : devuelve los datos del DataFrame. 


In [16]:
mi_tabla.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5 entries, 1971 to 1987
Data columns (total 2 columns):
clientes    5 non-null object
importes    5 non-null int64
dtypes: int64(1), object(1)
memory usage: 120.0+ bytes


In [18]:
mi_tabla.loc[1971]['clientes']

1971    Rafa
1971    Rafa
Name: clientes, dtype: object

In [6]:
mi_tabla.columns

Index(['clientes', 'importes'], dtype='object')

In [14]:
mi_tabla.index

Int64Index([1971, 1971, 1985, 1985, 1987], dtype='int64')

Los datos del DateFrame se pueden obtener usando el atributo __values__. El resultado será un array de NumPy:

In [15]:
mi_tabla.values

array([['Rafa', 968],
       ['Rafa', 155],
       ['Antonio', 77],
       ['Pedro', 578],
       ['Elena', 100]], dtype=object)

In [9]:
type(mi_tabla.values)

numpy.ndarray

##  Cargar Datasets mediante Pandas

Pandas es capaz de leer datos de ficheros en formatos:
     * csv, 
     * txt,
     * excel, 
     * json, 
     * html,
     * xml, 
     * ...

Las funciones  más utilizadas en pandas para leer datos en formato texto son __read_csv__ y __read_table__. Estas funciones ofrecen una gran flexibilidad a la hora de leer un fichero de texto plano.

__Ejemplo 1__

El dataset [HR_comma.csv  (612 KB)](./datos/HR_comma.csv) contiene ciertos registros relacionados con los empleados de una empresa de los últimos 5 años.

In [20]:
tabla = pd.read_csv('./datos/HR_comma.csv')
tabla.head(6)    # muestro solo las 6 primeras entradas

Unnamed: 0,nivel_de_satisfaccion,ultima_encuesta,numero_de_proyectos,media_horas_mes,horas_en_la_empresa,accidente_de_trabajo,deja_la_empresa,promociona,dep,salario
0,0.38,0.53,2.0,157,3,0,1.0,0,sales,low
1,0.8,0.86,5.0,262,6,0,1.0,0,sales,medium
2,0.11,0.88,7.0,272,4,0,1.0,0,,medium
3,0.72,0.87,5.0,223,5,0,1.0,0,sales,low
4,0.37,0.52,,159,3,0,1.0,0,sales,low
5,0.41,0.5,2.0,153,3,0,1.0,0,sales,low


In [21]:
pd.read_excel?

Podemos preguntar por la forma que tiene el DataFrame:

In [22]:
tabla.shape       # informa del número de filas y columnas

(14999, 10)

La función __info__ nos proporciona más información. Nombre de las variables, su tipo, el número de valores no nulos, etc.

In [23]:
tabla.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14999 entries, 0 to 14998
Data columns (total 10 columns):
nivel_de_satisfaccion    14999 non-null float64
ultima_encuesta          14999 non-null float64
numero_de_proyectos      14998 non-null float64
media_horas_mes          14999 non-null int64
horas_en_la_empresa      14999 non-null int64
accidente_de_trabajo     14999 non-null int64
deja_la_empresa          14998 non-null float64
promociona               14999 non-null int64
dep                      14998 non-null object
salario                  14997 non-null object
dtypes: float64(4), int64(4), object(2)
memory usage: 1.1+ MB


In [24]:
tabla.describe()

Unnamed: 0,nivel_de_satisfaccion,ultima_encuesta,numero_de_proyectos,media_horas_mes,horas_en_la_empresa,accidente_de_trabajo,deja_la_empresa,promociona
count,14999.0,14999.0,14998.0,14999.0,14999.0,14999.0,14998.0,14999.0
mean,0.612834,0.716102,3.803174,201.050337,3.498233,0.14461,0.238032,0.021268
std,0.248631,0.171169,1.232546,49.943099,1.460136,0.351719,0.425893,0.144281
min,0.09,0.36,2.0,96.0,2.0,0.0,0.0,0.0
25%,0.44,0.56,3.0,156.0,3.0,0.0,0.0,0.0
50%,0.64,0.72,4.0,200.0,3.0,0.0,0.0,0.0
75%,0.82,0.87,5.0,245.0,4.0,0.0,0.0,0.0
max,1.0,1.0,7.0,310.0,10.0,1.0,1.0,1.0


__Ejemplo 2:__

Si no nos interesan todas las columnas, podemos indicar mediante una lista las columnas en las que estamos interesados.

In [15]:
columnas_carga = ['nivel_de_satisfaccion', 'numero_de_proyectos', 'dep', 'salario' ]
tabla = pd.read_csv('./datos/HR_comma.csv',
                     usecols = columnas_carga )

tabla.head(6)    # muestro solo las 6 primeras entradas

Unnamed: 0,nivel_de_satisfaccion,numero_de_proyectos,dep,salario
0,0.38,2.0,sales,low
1,0.8,5.0,sales,medium
2,0.11,7.0,,medium
3,0.72,5.0,sales,low
4,0.37,,sales,low
5,0.41,2.0,sales,low


__Ejemplo 3:__

También nos puede interesar que alguna de las columnas sea el índice de la tabla. Por ejemplo, la columna de departamento.

In [16]:
columnas_carga = ['nivel_de_satisfaccion', 'numero_de_proyectos', 'dep', 'salario' ]
tabla = pd.read_csv('./datos/HR_comma.csv',
                     usecols = columnas_carga, 
                     index_col = [2])

tabla.tail(15)    # muestro solo las 15 últimas filas

Unnamed: 0_level_0,nivel_de_satisfaccion,numero_de_proyectos,salario
dep,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
technical,0.4,2.0,medium
technical,0.91,5.0,medium
technical,0.85,4.0,low
technical,0.9,5.0,low
technical,0.46,2.0,low
technical,0.43,2.0,low
support,0.89,5.0,low
support,0.09,6.0,low
support,0.4,2.0,low
support,0.76,6.0,low


__Ejemplo 4:__

Movilens Dataset recoge datos películas, valoraciones y etiquetas. La información se distribuye en 3 tablas.

- ratings.dat (252 MB)) - El fichero recoge 10.000.054  valoraciones  de los usuarios
- [tags.dat](./datos/ml-10M/movies.dat) (3.5 MB) - Contiene 95.580 etiquetas 
- movies.dat (510 KB) - Datos de 10.681 películas

Toda esta información ha sido recogida por el sistema de recomendación online MovieLens y se utiliza con mucha frecuencia en los sistemas de recomendación que aplican algoritmos de aprendizaje.

La url para descargar los datos:     http://grouplens.org/datasets/movielens/

In [17]:
ruta_ratings = './datos/ml-10M/ratings.dat'
ruta_tags = './datos/ml-10M/tags.dat'

Tenemos la posibilidad de cargar solo algunas filas, para ver el aspecto de los datos.

In [18]:
# Parseo de fechas 
from datetime import datetime
dateparse = lambda x: datetime.fromtimestamp(float(x))

df_ratings = pd.read_csv(ruta_ratings, sep = '::', header = None,
                         names = ['UserID', 'MovieID', 'Starts', 'Date'],
                         engine ='python',
                  #      nrows = 3000,
                         parse_dates=[3], date_parser=dateparse) 

In [19]:
df_ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000054 entries, 0 to 10000053
Data columns (total 4 columns):
UserID     int64
MovieID    int64
Starts     float64
Date       datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(2)
memory usage: 305.2 MB


In [20]:
df_ratings.head()

Unnamed: 0,UserID,MovieID,Starts,Date
0,1,122,5.0,1996-08-02 13:24:06
1,1,185,5.0,1996-08-02 12:58:45
2,1,231,5.0,1996-08-02 12:56:32
3,1,292,5.0,1996-08-02 12:57:01
4,1,316,5.0,1996-08-02 12:56:32


__Ejemplo:__

In [21]:
# Parseo de fechas 
from datetime import datetime
dateparse = lambda x: datetime.fromtimestamp(float(x))

df_ratings_2 = pd.read_csv(ruta_ratings, sep = '::', header = None,
                         names = ['id_usuario', 'id_peli', 'puntuacion', 'Fecha'],
                         engine ='python',
                         nrows = 3000,
                         index_col =['id_usuario', 'id_peli'],
                         parse_dates=[3], date_parser=dateparse) 

In [22]:
df_ratings_2

Unnamed: 0_level_0,Unnamed: 1_level_0,puntuacion,Fecha
id_usuario,id_peli,Unnamed: 2_level_1,Unnamed: 3_level_1
1,122,5.0,1996-08-02 13:24:06
1,185,5.0,1996-08-02 12:58:45
1,231,5.0,1996-08-02 12:56:32
1,292,5.0,1996-08-02 12:57:01
1,316,5.0,1996-08-02 12:56:32
1,329,5.0,1996-08-02 12:56:32
1,355,5.0,1996-08-02 13:14:34
1,356,5.0,1996-08-02 13:00:53
1,362,5.0,1996-08-02 13:21:25
1,364,5.0,1996-08-02 13:01:47


##  Exportando DataFrames

Para exportar un DataFrame a un fichero con extensión __csv__  utilizamos la función [__to_csv__](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html). Para exportar un DataFrame a un fichero con extensión __xlsx__ utilizamos la función __to_excel__:
* Ambas funciones admiten una gran cantidad de parámetros. Opcionalmente podemos generar un fichero csv/xlsx con cabeceras o sin ellas, con índices o sin ellos.

In [23]:
df_ratings_2.to_excel('./datos/resultado.xlsx',
                      header = True, index = False)

##  Operaciones del álgebra relacional. Función Merge

Es la operación __join__ al estilo del álgebra relacional. Permite combinar filas  de dos o más tablas (DataFrames) basándose en una o varias claves. 
Hay tres tipos de __merge__: 
    * interno (inner), 
    * externo (outer), 
    * cruzado(left, right)


In [24]:
d1 ={'País' : ['Estonia','Estonia', 'Ireland', 'Spain'],
     'Cantidad' : [  8.4,  6.7 ,    227,  58.9 ] , 
     'Producto' : ['A', 'B', 'A', 'Z'] }
     
d2 ={'Producto' : ['A', 'B', 'C'],
     'Descripción' : [  'Leche',  'Cereales',   'Aceite' ] }
    

In [25]:
t1 = pd.DataFrame( d1 )
t1

Unnamed: 0,País,Cantidad,Producto
0,Estonia,8.4,A
1,Estonia,6.7,B
2,Ireland,227.0,A
3,Spain,58.9,Z


In [26]:
t2 = pd.DataFrame( d2 )
t2

Unnamed: 0,Producto,Descripción
0,A,Leche
1,B,Cereales
2,C,Aceite


La función `pd.merge` permite combinar los dataframes `t1` y `t2`  usando como campos de combinación la columna `Producto`. Veamos ejemplos con distintas opciones:

In [27]:
result = pd.merge(t1, t2, on = ['Producto'])               
result

Unnamed: 0,País,Cantidad,Producto,Descripción
0,Estonia,8.4,A,Leche
1,Ireland,227.0,A,Leche
2,Estonia,6.7,B,Cereales


La opción `left` combina dos dataframes devolviendo aquellas filas que tienen valores idénticos en las columnas que se comparan para unir ambas tablas, y todas las filas del dataframe de la izquierda, tengan o no correspondencia con las filas del dataframe de la derecha. Las que no tengan correspondencia se rellenan con `NaN`.

In [28]:
result = pd.merge(t1, t2, on=['Producto'], how='left')
result

Unnamed: 0,País,Cantidad,Producto,Descripción
0,Estonia,8.4,A,Leche
1,Estonia,6.7,B,Cereales
2,Ireland,227.0,A,Leche
3,Spain,58.9,Z,


La opción `outer` combina los dos dataframes devolviendo la unión de las filas devueltas por la opción `left` y `right`:

In [29]:
result = pd.merge(t1, t2,  how='outer', on=['Producto']).pais  == 'es'
result

AttributeError: 'DataFrame' object has no attribute 'pais'

In [None]:
pd.merge?

## Acceso a los datos (filas y columnas)

Para acceder a las columnas, podemos usar la notación '.' (como si fuera un atributo) o con la notación empleada en los diccionarios, utilizando como clave el nombre de la columna.

In [None]:
tabla = pd.read_csv('./datos/HR_comma.csv')
tabla.head()

In [None]:
tabla.salario

In [None]:
tabla[ 'salario' ]    #  Acceso utilizando notación corchetes 

En Pandas se utiliza la función __loc__ para realizar un accceso a los datos más eficiente que las notaciones anteriores.

```
loc[filas, columnas]

```

In [None]:
resultado = tabla.loc[:, ['nivel_de_satisfaccion','salario']]  #acceso más eficiente
resultado.head()

Si queremos saber el número de empleados para cada uno de los valores de salario, podemos obtenerlo mediante la función __value_counts()__.

In [None]:
tabla.salario.value_counts()

In [None]:
# Visualizar diagrama de barras
import matplotlib as mpl
import matplotlib.pyplot as plt

%matplotlib inline
serie = tabla.salario.value_counts()

In [None]:
serie.plot(kind='bar');

##  Actualización de datos de un DataFrame

###  Modificando valores del DataFrame

Para actualizar los datos de una columna podemos utilizar un valor concreto:

In [None]:
# Si no existe la variable `sexo` la crea
# Si exite la modifica
tabla['sexo'] = 'FFFFnnnnn'
tabla.head()

Modifica una columna existente:

In [None]:
tabla['numero_de_proyectos'] = tabla['numero_de_proyectos'] + 1
tabla.head()

> Las operaciones sobre DataFrames son vectorizadas, al igual que ocurría con las operaciones sobre los objetos ndarray de NumPy.

__Ejemplo__:

Podemos crear una nueva columna en el DataFrame, cuyos valores se obtengan a partir del `salario`.

In [None]:
def salario2euros(val):
    if val == 'medium':
        return 200
    elif val == 'low':
        return 100
    elif val == 'high':
        return 300
    else:
        pass

tabla['salario €'] = tabla.salario.apply(salario2euros)
tabla.head()

###  Borrando columnas en un DataFrame (__pop__ y __drop__)

La función __pop__ borra la columna especificada del DataFrame y guarda la columna borrada en un objeto de tipo __Serie__.
- Modifica el DataFrame

La función __drop__ permite borrar tanto filas como columnas.
- No modifica el DataFrame. Devuelve el resultado en un nuevo DataFrame.
- No permite acceder a los elementos borrados.

In [None]:
columna_sexo = tabla.pop('sexo')
columna_sexo

In [None]:
tabla.head()     # ha desaparecido la columna 'sexo'

También es posible utilizar la función __drop__ para eliminar tanto filas como columnas.

In [None]:
# borramos las filas correspondientes a las etiquetas 0 y 3
nuevo_df = tabla.drop([0,3])
nuevo_df.head()

In [None]:
tabla.head()     # ojo, después de borrar, la tabla original no se modofica

Para borrar columnas, es necesario indicar en la llamada a la función que queremos actura sobre el eje 1 ( axis = 1 ),  que se corresponde con las columnas.

In [None]:
# borramos dos columnas
otro = tabla.drop(['nivel_de_satisfaccion', 'ultima_encuesta'], axis = 1)
otro.head()

###  Insertar datos en un DataFrame

Podemos utilizar la función __insert__ para insertar la columna `sexo` que hemos eliminado anteriormente en una determinada posición.

In [None]:
# inserta la columna en la segunda posición 
tabla.insert(2, 'Sexo_empleado', columna_sexo)
tabla.head()

##  Tratamiento de valores nulos

El término valores perdidos (missing values) se refiere a los valores que no aparecen o que se encuentran marcados con un valor por defecto.
En pandas estos valores vienen marcados como NaN.

Una de las opciones para filtrar estos valores es la función __dropna__.

In [None]:
tabla.head()

In [None]:
tabla_sinNAN = tabla.dropna()
tabla_sinNAN.head()

In [None]:
tabla.head()

En los casos en los no deseamos eliminar filas con valores NaN, podemos sustituir los valores NaN por un valor por defecto. Para ello usamos la función __fillna()__.
* Si queremos un valor por defecto para cada variable, usaremos un diccionario como parámetro de __fillna__.

In [None]:
# Podemos ver las variables que tienen nulos
tabla.info()

In [None]:
valores = {'numero_de_proyectos': 0, 'dep' : 'otros'}
tabla.fillna(valores).head()

In [None]:
tabla.head()     # cuidado: fillna no modifica la tabla

##  Consultas

La sección de partes de un DataFrame se realiza mediante máscaras. Veamos algunos ejemplos:

* Selección de tuplas con nivel de satisfacción superior a 0.5

In [None]:
mascara = tabla.nivel_de_satisfaccion  > 0.5
mascara.head()

In [None]:
# selección de tuplas que cumplen la máscara
resultado = tabla[mascara]
resultado.head()

In [None]:
len(resultado)   # número de tuplas devueltas

* Selección de tuplas con nivel de satisfacción superior a 0.5 del departamento `hr`

In [None]:
mascara_sat = tabla.nivel_de_satisfaccion  > 0.5
mascara_hr  = tabla.dep == 'hr'
resultadoC2 = tabla[mascara_sat & mascara_hr]
resultadoC2.head()

In [None]:
len(resultadoC2)

* Selección de tuplas con nivel de satisfacción superior a 0.5 del departamento `hr`. Mostrar los resultado ordenados por nivel de satisfacción

In [None]:
resultadoC2.sort_values(by = 'nivel_de_satisfaccion')

##  Grupos y funciones de agrupación

Después de cargar los datos y procesarlos (limpiar y preparar) una de las tareas más habituales es agrupar los datos en base a alguna variable cualitativa, para posteriormente realizar alguna operación sobre cada uno de los grupos obtenidos.

Pandas proporciona la operación __groupby__ para este fin. La operación __groupby__ se define como la unión de tres procesos (dividir-aplicar-combinar los resultados).

__Ejemplo:__

El fichero [tips.csv](./datos/tips.csv) recoge los datos referentes a las reservas de un restaurante. Muestra los datos del precio de la factura, la propina, sexo de la persona que hizo la reserva, el día, el número de comensales, etc.

In [None]:
tips = pd.read_csv('./datos/tips.csv',
                   skiprows = 1,
                   names = ['Importe_Factura', 'Propina', 'Sexo', 'Fumador', 'Dia',
                              'Tipo', 'Comensales']
                          )
tips.head()

Deseamos conocer la media del importe de factura dependiendo del sexo y de si el cliente en fumador o no.

In [None]:
tips.groupby(['Sexo','Fumador']).Propina.agg?

In [None]:
tips.groupby(['Sexo','Fumador']).Propina.agg

In [None]:
tips_g = tips.groupby(['Sexo','Fumador']).Propina.agg([np.max, np.min])
tips_g

__Ejemplo:__
    
Agrupando con funciones:    

In [None]:
df_tags = pd.read_csv(ruta_tags, sep = '::', header = None,
                        engine ='python',
                        names = ['UserID','MovieID','Tag','Timestamp'], 
                        parse_dates=[3], date_parser=dateparse, 
                        index_col = [3])
df_tags.head()

In [None]:
from datetime import datetime, date, time

def calcular_dia(f):
    return f.weekday()    # devuelve el día de la semana

# calculamos el número de tags realizados en cada día de la semana
# agrupar + aplicar + combinar
df_tags.groupby(calcular_dia).UserID.count() 

##  Primeros estadísticos

La librería __Pandas__ ofrece una colección de operaciones estadísticas basadas en las mismas operaciones  de la librería Numpy. En el caso de pandas, todas ellas ignoran los valores NaN.



In [None]:
tabla.mean()

In [None]:
# número de empleados que han dejado la empresa
tabla['deja_la_empresa'].sum()

In [None]:
tabla['nivel_de_satisfaccion'].std()

### Matriz de correlación

Cargamos de nuevo la tabla:

In [None]:
tabla = pd.read_csv('./datos/HR_comma.csv')
tabla.head(3)    # muestro solo las 3 primeras entradas

In [None]:
corrmat = tabla.corr()
corrmat

In [None]:
import seaborn as sns

f, ax = plt.subplots(figsize=(4, 3))
# mapa de calor 
sns.heatmap(corrmat, vmax=.8, square=True);
ax.set_title('Correlación entre las variables')

Podemos visualizar la matriz de correlación por salarios. Para ello lo que hacemos es dividir los datos en tres partes:
* los datos de los empleados con salario `low`
* los datos de los empleados con salario `medium`
* los datos de los empleados con salario `high`

In [None]:
# datos de los empleados con salario `low`
mascara_low = tabla['salario'] == 'low'
mascara_low
salario_low = tabla[mascara_low]
len(salario_low)

In [None]:
# datos de los empleados con salario `medium`
mascara_medium = tabla['salario'] == 'medium'
mascara_medium
salario_medium = tabla[mascara_medium]
len(salario_medium)

In [None]:
# datos de los empleados con salario `high`
mascara_high = tabla['salario'] == 'high'
mascara_high
salario_high = tabla[mascara_high]
len(salario_high)

In [None]:
corrmat_low = salario_low.corr()
corrmat_medium = salario_medium.corr()
corrmat_high = salario_high.corr()

In [None]:
# mapa de calor 
f, ax = plt.subplots(figsize=(7, 2.5))
ax = sns.heatmap(corrmat_low, vmax=.7, square=False, annot=True, fmt='.1f');
ax.set_title('Correlación - Empleados con salario "low"');

In [None]:
# mapa de calor 
f, ax = plt.subplots(figsize=(7, 2.5))
ax = sns.heatmap(corrmat_high, vmax=.7, square=False, annot=True, fmt='.2f')
ax.set_title('Correlación - Empleados con salario "high"');

#  Maching Learning

__Scikit-learn__ es una librería que incluye la implementación de un gran número de algoritmos de apredizaje, siendo básica para trabajar con __ML__.

La podemos utilizar para realizar _clasificaciones_, _extraccion de características, _regresiones_, _agrupaciones_, _reducción de dimensiones_, _selección de modelos_ o _preprocesamiento_.

Esta librería también nos facilita las tareas de evaluación, diagnostico y validaciones cruzadas ya que nos proporciona varios métodos de fábrica para poder realizar estas tareas de forma muy simple.

¿Se puede predecir la característica `deja_la_empresa` a partir del resto de los datos?

`deja_la_empres` = 1

In [None]:

from sklearn.preprocessing import LabelEncoder
#from   sklearn.model_selection import train_test_split       # sustituye a cross_validation
from sklearn.cross_validation import train_test_split         # desapare en la versión 0.20
# importando el modelo de regresión logística


from sklearn.calibration import CalibratedClassifierCV
from sklearn.feature_selection import SelectFromModel;

Lo primero que hacemos es convertir las variables categóricas en variables indicadoras. Lo hacemos mediante la función __get_dummies()__.

In [None]:
tabla = pd.read_csv('./datos/HR_comma.csv')
tabla = tabla.dropna()                             # borramos las observaciones con NaN

# variables categóricas en variables indicadoras
tabla_copy = pd.get_dummies(tabla)                 # guardamos el resultado en una copia
tabla_copy.head()

In [None]:
tabla_copy.info()      # No hay NaN en la tabla

A continuación, construimos la matriz de variables independientes `X` y la varaible dependiente `y`.

In [None]:
# y = variable dependiente
y = tabla_copy.pop('deja_la_empresa')
# X = matriz de variables independientes
X = tabla_copy

In [None]:
y.unique(), len(y)         # valores distintos de la variable y

In [None]:
X.head()

In [None]:
len(X)

Para aplicar el modelo de regresión logística, el tipo de los datos (y, X) ha de ser array de NumPy.

In [None]:
type(y), type(X)

Nos quedamos con los valores de la Serie y del DataFrame

In [None]:
y = y.values
X = X.values

In [None]:
type(y), type(X)

Dividimos los datasets en entrenamiento y evaluación:

In [None]:
# Xtrain con el 80% de los datos
# Xtest  con el 20 de los datos
Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.20)
len(Xtest), len(Xtest)/len(X),len(Xtrain), len(Xtrain)/len(X)

##  Predicción con Arboles de decisión

In [None]:
# Importando el arbol de decisión
from sklearn.tree import DecisionTreeClassifier

# Creando el modelo. Árboles con profundidad 3
modelo_ad = DecisionTreeClassifier(max_depth = 3 )     # Creando el modelo
# Ajustando el modelo
modelo_ad.fit(Xtrain, ytrain);


In [None]:
# calculamos las bondad del ajuste para los datos de test y de entrenamiento
ajuste_test = modelo_ad.score(Xtest, ytest)      #coef de determinación o bondad del ajuste
print('Bondad del ajuste con Árbol de decisión: ', ajuste_test)

##  Predicción con Random Forest

Uno de los métodos más populares usados por los científicos de datos es el algoritmo __Random Forest__, uno de los mejores algoritmos de clasificación, capaz de organizar grandes cantidades de datos con exactitud.

In [None]:
# Importando el random forest
from sklearn.ensemble import RandomForestClassifier

# Creando el modelo
modelo_rf = RandomForestClassifier()
# Ajustando el modelo
modelo_rf.fit(Xtrain, ytrain)

# Realizando las predicciones
y_predic_test = modelo_rf.predict(Xtest)


In [None]:
# calculamos las bondad del ajuste para los datos de test y de entrenamiento
ajuste_test = modelo_rf.score(Xtest, ytest)      #coef de determinación o bondad del ajuste
print('Bondad del ajuste con Random Forest: ', ajuste_test)

Parece que el modelo Random forest ofrece mejores resultados. Además podemos conocer las características que más influyen en el modelo. 
En nuestro ejemplo tenemos 20 características: 

In [None]:
tabla_copy.shape

In [None]:
# nombres de las características
caracteristicas = tabla_copy.columns.values      
caracteristicas

In [None]:
# estimación de la importancia de las características
# el valor más alto corresponde a la característica más importante
estimacion = modelo_rf.feature_importances_
estimacion

Emparejamos cada característica con su estimación:

In [None]:
estimaciones = dict(zip(caracteristicas, estimacion))
estimaciones
valores = pd.DataFrame(estimaciones, index = ['valor'])
valores = valores.T
valores

In [None]:
plt.figure(figsize=(5, 3))
valores.plot(kind = 'bar',  
             width = 0.3  ,         #anchura de las barras
             align = 'center'
             )
plt.title('Estimación importancia - Random Forest')
plt.ylabel('Importancia estimada')
plt.xlabel('Características')
plt.legend(loc='best')
plt.tight_layout()

# References



* [Python Data Analysis Library](http://pandas.pydata.org/)
* [Python for Data Analysis](http://shop.oreilly.com/product/0636920023784.do)
