### Minería de datos descriptiva

En esta práctica vamos a trabajar con la información extraída de un portal de valoración de películas. En concreto se ha extraído información de 943 usuarios del portal, 1682 películas y 100.000 valoraciones realizadas por los usuarios a las películas. La información de cada tipo de entidad está almacenada en su correspondiente documento .csv:
* u.user: contiene la información de los 943 usuarios
* u.item: contiene la información de las 1.682 películas
* u.data: contiene la información de las 100.000 valoraciones de los usuarios a las películas

En primer lugar se importa una librería para realizar las comparaciones entre los resultados obtenidos y los que se deberían obtener a lo largo de la práctica. De este modo podéis saber en muchos apartados si el resultado es correcto.

In [1]:
from test_helper import Test

Importa los paquetes numpy, pandas y matplotlib.pyplot como np, pd y plt

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

Lee y obtén un DataFrame de cada una de las entidades
* De los usuarios debes leer solamente las columnas: user_id, age, sex, occupation y zip_code. Utiliza como separador: '|'
* De las películas debes leer solamente las columnas: movie_id, title, release_date, video_release_date e imdb_url. Utiliza como separador: '|'. Como este fichero contiene más de esos campos se debe especificar que éstos son los 5 primeros por lo que hay que incluir en la llamada a read_csv la opción usecols=range(5)
* De las valoraciones debes leer solamente las columnas: user_id, movie_id, rating y unix_timestamp. Utiliza como separador: '\t'

En todos los casos debéis utilizar como codificación latin-1.

In [3]:
u_cols = ['user_id', 'age', 'sex', 'occupation', 'zip_code']
users = pd.read_csv('u.user', sep='|', names=u_cols, encoding='latin-1')

r_cols = ['user_id', 'movie_id', 'rating', 'unix_timestamp']
ratings = pd.read_csv('u.data', sep='\t', names=r_cols, encoding='latin-1')

m_cols = ['movie_id', 'title', 'release_date', 'video_release_date', 'imdb_url']
movies = pd.read_csv('u.item', sep='|', names=m_cols, usecols=range(5), encoding='latin-1')

Muestra por pantalla el número de usuarios masculinos (sex=='M') y femeninos (sex=='F'). ¿Está balanceado? Para contar el número de elementos de una columna se debe utilizar la función count de Pandas.

In [17]:
numUsuariosMasculinos = users.sex[users.sex=='M'].count()
numUsuariosFemeninos = users.sex[users.sex=='F'].count()

In [18]:
Test.assertEquals(numUsuariosMasculinos, 670, 'Número de usuarios masculinos incorreto')
Test.assertEquals(numUsuariosFemeninos, 273, 'Número de usuarios femeninos incorreto')

1 test passed.
1 test passed.


Obtén una descripción completa (función describe) de la columna rating de ratings. ¿Qué tipo de valoración se hacen en imdb? Sabiendo que la mejor valoración es 5 y la peor 1, ¿Hay más comentarios positivos o negativos? 

In [19]:
ratings.rating.describe

<bound method NDFrame.describe of 0        3
1        3
2        1
3        2
4        1
        ..
99995    3
99996    5
99997    1
99998    2
99999    3
Name: rating, Length: 100000, dtype: int64>

¿Has observado que podemos establecer una relación entre los 3 dataframes? Vamos a verlo: el primero (users) contiene la información de los usuarios que hacen los reviews. Parece ser que el user_id sirve para identificar a cada usuario unívocamente; El segundo (movies) contiene la información de las películas que están siendo valoradas. Parece ser que movie_id sirve para identificar unívocamente cada una de las películas; El tercero (ratings) contiene, por cada fila, el identificador del usuario, el identificador de la película y la valoración numérica que dicho usuario ha otorgado a la correspondiente película. Está claro que podemos establecer una relación users-ratings-movies.

Para explotar la información de las 3 entidades se debe generar un DataFrame con la unión de la información de los 3 existentes. LLama al DataFrame generado PRU (películas rating usuarios). Muestra las tres primeras entradas del DataFrame generado.

Recordar que para realizar la unión se debe utilizar la función merge de los DataFrames que equivale al join de SQL. Realizad la unión en el orden mencionado en el párrafo anterior.

In [27]:
PRU = movies.merge(ratings, on='movie_id').merge(users,on='user_id')
PRU.head(3)

Unnamed: 0,movie_id,title,release_date,video_release_date,imdb_url,user_id,rating,unix_timestamp,age,sex,occupation,zip_code
0,1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...,308,4,887736532,60,M,retired,95076
1,4,Get Shorty (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Get%20Shorty%...,308,5,887737890,60,M,retired,95076
2,5,Copycat (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Copycat%20(1995),308,4,887739608,60,M,retired,95076


In [28]:
Test.assertEquals(list(PRU['movie_id'].head(3)), [1, 4, 5], 'Unión incorrecta')

1 test passed.


A partir del DataFrame *PRU*, obten por cada película (id y título) el número de veces que ha sido valorada y ordena las películas de mayor a  menor según el número de valoraciones. Guarda las 25 películas con un mayor número de valoraciones en una variable llamada most_rated y muestrala por pantalla.

NOTA: se deben utilizar las funciones groupby, count y sort_values.

In [111]:
most_rated = PRU.groupby(['movie_id','title']).count().sort_values(by=['rating'],ascending=False).head(25)
most_rated

Unnamed: 0_level_0,Unnamed: 1_level_0,release_date,video_release_date,imdb_url,user_id,rating,unix_timestamp,age,sex,occupation,zip_code
movie_id,title,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
50,Star Wars (1977),583,0,583,583,583,583,583,583,583,583
258,Contact (1997),509,0,509,509,509,509,509,509,509,509
100,Fargo (1996),508,0,508,508,508,508,508,508,508,508
181,Return of the Jedi (1983),507,0,507,507,507,507,507,507,507,507
294,Liar Liar (1997),485,0,485,485,485,485,485,485,485,485
286,"English Patient, The (1996)",481,0,481,481,481,481,481,481,481,481
288,Scream (1996),478,0,478,478,478,478,478,478,478,478
1,Toy Story (1995),452,0,452,452,452,452,452,452,452,452
300,Air Force One (1997),431,0,431,431,431,431,431,431,431,431
121,Independence Day (ID4) (1996),429,0,429,429,429,429,429,429,429,429


In [112]:
Test.assertEquals(list(most_rated.index.get_level_values(0)), [50,258,100,181,294,286,288,1,300,121,174,127,56,7,98,237,117,172,222,313,204,405,79,210,151], 'Peliculas más valoradas incorrectas')

1 test passed.


A partir del DataFrame *PRU*, crea un DataFrame llamado movie_stats en el que se calcule por cada película (id y título) el número de veces que haya sido valorada y la media de sus valoraciones. Las valoraciones están almacenadas en el campo llamado rating. Ordena el dataFrame de mayor a menor por la media de las valoraciones. 

Muestra las 5 con mayor media de sus valoraciones.

NOTAS:
* Debéis utilizar las funciones groupby, agg y sort_values
* Para realizar la cuenta y la media de las valoraciones debéis utilizar las funciones size y mean de Numpy.

In [121]:
movie_stats = PRU.groupby(['movie_id','title']).agg(['count', 'mean']).sort_values(by=[('rating','mean')],ascending=False)
movie_stats.head(5)

Unnamed: 0_level_0,Unnamed: 1_level_0,video_release_date,video_release_date,user_id,user_id,rating,rating,unix_timestamp,unix_timestamp,age,age
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,count,mean,count,mean,count,mean,count,mean
movie_id,title,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2
814,"Great Day in Harlem, A (1994)",0,,1,13.0,1,5.0,1,886302261.0,1,47.0
1599,Someone Else's America (1995),0,,1,437.0,1,5.0,1,880142614.0,1,27.0
1201,Marlene Dietrich: Shadow and Light (1996),0,,1,90.0,1,5.0,1,891383687.0,1,60.0
1122,They Made Me a Criminal (1939),0,,1,60.0,1,5.0,1,883326498.0,1,50.0
1653,Entertaining Angels: The Dorothy Day Story (1996),0,,1,675.0,1,5.0,1,889489913.0,1,34.0


In [114]:
Test.assertEquals(list(movie_stats.head().index.get_level_values(0)), [814,1599,1201,1122,1653], 'Peliculas incorrectas')

1 test passed.


Si observamos los resultados de la consulta anterior, podemos ver que las películas de mayor media son raras en el sentido de que han sido valoradas muy pocas veces. 

Por ello se debe crear un nuevo DataFrame (a partir del DataFrame movie_stats), llamado movie_stats_top15, que contenga las 15 películas con mayor media de valoraciones que hayan sido valoradas al menos 100 veces. Muestralo por pantalla.

NOTA:
* Debéis utilizar el DataFrame creado en la celda anterior y recordar que la función agg devuelve multi-índices
* Debéis utilizar la función sort_values

In [136]:
# Array (Serie) de booleanos de tantas posiciones como películas
    # en cada posición se pone True si tiene 100 o más valoraciones y False en caso contrario
atleast_100 = movie_stats[('rating','count')]>=100
# Utilizar el array anterior para seleecionar las 15 mejores películas
movie_stats_top15 = movie_stats.loc[atleast_100].sort_values(by=[('rating','mean')],ascending=False).head(15)

In [135]:
Test.assertEquals(list(movie_stats_top15.index.get_level_values(0)), [408,318,169,483,64,603,12,50,178,134,427,357,98,480,127], 'Peliculas incorrectas')

1 test passed.


Como vemos, estas películas son muy conocidas a diferencia de las anteriores.

Ahora se desea obtener la información de las películas correspondientes a las 50 más valoradas.

Para ello, se debe hacer lo siguiente:
* Crear un objeto de Series a partir del DataFrame PRU, llamado most_50, cuyo índice sean los identificadores (movie_id) y el número de valoraciones de las 50 películas que tengan un mayor número de valoraciones. 
    * Recordad que groupby devuelve un objeto cuyos índices son los valores agrupados.
* Crear un DataFrame a partir del DataFrame PRU, llamado top50pelis, que contenta la información de las películas correspondientes a las obtenidas en el apartado anterior. Se deben comparar los identificadores de las películas que son los índices tanto de la Serie creada como del DataFrame PRU.
* Mostrar los 5 primeros registros tanto de most_50 como de top50pelis por pantalla.

NOTAS: 
* Para crear la serie most_50 se deben utilizar las funciones groupby, count y sort_values.
* Para crear el DataFrame top50pelis debéis conocer que
    * La lista de índices correspondientes a una Serie se obtienen con la función index, nombreSerie.index
    * La función isin que chuequea si un elemento de una lista está en otra (o en una Series).

In [197]:
most_50 = PRU.groupby(['movie_id']).count().sort_values(by=['rating'],ascending=False).head(50).groupby(['rating'])

In [204]:
most_50 = PRU.groupby(['movie_id']).count().sort_values(ascending=False).head(50)
top50pelis = PRU[PRU.movie_id.isin(most_50.index)]
top50pelis.head(10)

Unnamed: 0,movie_id,title,release_date,video_release_date,imdb_url,user_id,rating,unix_timestamp,age,sex,occupation,zip_code
0,1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...,308,4,887736532,60,M,retired,95076
3,7,Twelve Monkeys (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Twelve%20Monk...,308,4,887738847,60,M,retired,95076
5,9,Dead Man Walking (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Dead%20Man%20...,308,4,887737194,60,M,retired,95076
8,15,Mr. Holland's Opus (1995),29-Jan-1996,,http://us.imdb.com/M/title-exact?Mr.%20Holland...,308,3,887739426,60,M,retired,95076
12,22,Braveheart (1995),16-Feb-1996,,http://us.imdb.com/M/title-exact?Braveheart%20...,308,4,887737647,60,M,retired,95076
15,25,"Birdcage, The (1996)",08-Mar-1996,,"http://us.imdb.com/M/title-exact?Birdcage,%20T...",308,4,887740649,60,M,retired,95076
26,50,Star Wars (1977),01-Jan-1977,,http://us.imdb.com/M/title-exact?Star%20Wars%2...,308,5,887737431,60,M,retired,95076
29,56,Pulp Fiction (1994),01-Jan-1994,,http://us.imdb.com/M/title-exact?Pulp%20Fictio...,308,5,887736924,60,M,retired,95076
34,64,"Shawshank Redemption, The (1994)",01-Jan-1994,,http://us.imdb.com/M/title-exact?Shawshank%20R...,308,4,887737383,60,M,retired,95076
38,69,Forrest Gump (1994),01-Jan-1994,,http://us.imdb.com/M/title-exact?Forrest%20Gum...,308,2,887738664,60,M,retired,95076


In [202]:
Test.assertEquals(list(top50pelis.head(10).index.get_level_values(0)), [0,3,5,8,12,15,16,26,29,34], 'Peliculas incorrectas')

1 test failed. Peliculas incorrectas


Exception: Peliculas incorrectas

Se desea analizar la edad de los usuarios que realizan las valoraciones en el portal. Para ello se debe mostrar en un gráfico de barras en forma de histograma que muestre la distribución de la edad de los usuarios. 

Para realizar la gráfica es necesario utilizar la función plot de los DataFrames con la función histograma (hist) especificando el número de grupos que deseas mostrar (bins=numGrupos). Para añadir información al gráfico se debe añadir un título y el nombre de los ejes  mediante las funciones/campos correspondientes de matplotlib.pyplot: abrir primero una figura de matplotlib.pyplot y luego especificar el contenido de los campos title, xlabel y ylabel.

Realiza el gráfica mostrando 30 grupos de edad diferentes.

In [None]:
# <RELLENAR>

Se desea profundizar en el análisis de la influencia de la edad en las valoraciones realizadas. Para ello el director del portal desea crear grupos de usuarios por edad (grupos de 10 años). Para ello se debe utilizar la función *cut* ofrecida por pandas (información en http://pandas.pydata.org/pandas-docs/stable/generated/pandas.cut.html) aplicando el siguiente proceso:
* Crear nombres para los grupos de edad generados ya que vamos a transformar una variable numérica (edad) en categórica
    * groupNames = ['0-9', '10-19', '20-29', '30-39', '40-49', '50-59', '60-69', '70-79']
* Utilizar la función *cut* para realizar la transformación de los valores, la llamada a la función y los parámetros que son necesarios para esta práctica son los siguientes:
    * pandas.cut(x, bins, right=True, labels=None)
        * x: los valores a transformar: la variable edad
        * bins: los valores por los que realizar la transformación: 0, 10, 20, 30, 40, 50, 60, 70 y 80.
        * right: booleano que si está a True indica que se cogen los valores entre el bin izquierdo (sin incluir) y el derecho (incluido), es decir, con los bins anteriores se realizarían los grupos de edad (0, 10], (10, 20], (20, 30], etc...Si está a False no se coge el bin derecho y se coge el izquierdo: [0, 10), [10, 20), [20, 30), etc... Asignar este campo a False.
        * labels: los nombres de los nuevos valores: los que acabamos de definir en el paso anterior
    * La función cut devuelve una Serie con valores categóricos si el parámetro labels tiene valor e integers si no tiene valor. Guardar el resultado en una variable auxiliar.
* Crear un nuevo campo, llamado *age_group*, en el DataFrame PRU en el que se almacene el resultado de la función cut.

In [None]:
# groupNames = <RELLENAR> 
# aux = <RELLENAR> 
# PRU['age_group'] = <RELLENAR>

In [None]:
Test.assertEquals(list(PRU['age_group'].head(5)), ['60-69','60-69','60-69','60-69','60-69'], 'Grupos creados incorrectamente')

Ahora se desea obtener el número de valoraciones que han hecho usuarios de cada grupo de edad así como sus valoraciones medias. De esta forma podremos saber si existen diferencias en las valoraciones entre los distintos grupos de edad.

Para ello se debe crear un DataFrame a partir del DataFrame inicial PRU, llamado valoracionesPorGrupoEdad, en el que se obtenga para cada grupo de edad de los usuarios el número de valoraciones realizada así como la media de las mismas. Muestralo por pantalla.

NOTA:
* Debéis utilizar las funciones groupby, agg así como size y mean de numpy.

In [None]:
valoracionesPorGrupoEdad = <RELLENAR>

In [None]:
Test.assertEquals(list(valoracionesPorGrupoEdad[('rating','size')]), [43,8181,39535,25696,15021,8704,2623,197], 'Estadisticas creadas incorrectamente')

El propietario del portal quiere responder a la siguiente pregunta: ¿En qué películas de las 50 con mayor número de valoraciones están más en desacuerdo los hombres y las mujeres? 

Para resolverla se debe realizar el siguiente proceso:
* Crear una pivot table, llamada pivoted, sobre el DataFrame guardado en top50pelis, con los valores agrupados por el título de cada película, calculando la media de las valoraciones (campo rating) en función del sexo (campo sex).
* Añadir una columna llamada diff a la pivot table resultante (pivoted) que sea la diferencia entre las valoraciones medias realizadas por hombres y mujeres. 
    * Para añadir una columna a la pivot table se debe poner el nombre de la pivot table y entre corchetes el nombre del nuevo campo. Luego se guarda el resultado de la operación.
* Ordena de mayor a menor el DataFrame de acuerdo a dicha diferencia con la instrucción sort_values.
* Muestra una gráfica de barras horizontales en la que se muestren las diferencias entre las valoraciones de hombres y mujeres para las películas en estudio.

NOTA:
* Para crear un gráfico de barras horizontales utilizar la función plot especificando el tipo de gráfico y el tamaño del mismo (plot(kind='barh', figsize=[9, 15]))

In [None]:
# pivoted = <RELLENAR>
# pivoted['diff'] = <RELLENAR>
# pivoted = <RELLENAR>

In [None]:
Test.assertEquals(list(map(lambda x: round(x, 2), pivoted['diff'][:10].values)),[0.33, 0.32, 0.24, 0.24, 0.23, 0.22, 0.22, 0.22, 0.17, 0.17], 'Pivot table mal creada')