
<img src="img/viu_logo.png" width="200">

## 01MIAR - Procesamiento de Datos

<img src="img/This-is-fine.jpg" width="300">

*Ivan Fuertes*

*Benjamin Arroquia Cuadros*

In [2]:
import numpy as np
import pandas as pd
import zipfile as zp # para descomprimir archivos zip
import urllib.request # para descargar de URL
import os

### Uniendo datasets con 'join' y 'merge'
- merge() == join()
 - 'join' utiliza por defecto los índices para unir
- Utilizando el parámetro 'on'
 - Si las columnas difieren, 'left_on' y 'right_on'
- Diagrama de Venn para unión de tablas:

<img src="img/venn_diagram.png" width="500">

### Combinar varios datasets 
- En base a un elemento en común (índice)
- MovieLens 'UserId'

In [4]:

# descargar MovieLens dataset
# url = 'http://files.grouplens.org/datasets/movielens/ml-1m.zip'  
local_zip = os.path.join("data", "ml-1m.zip")
# urllib.request.urlretrieve(url, local_zip)
# descomprimiendo archivo zip
with zp.ZipFile(local_zip, 'r') as zipp: 
    print('Extracting all files...') 
    zipp.extractall(os.path.join("res")) # destino
    print('Done!') 

Extracting all files...
Done!


In [5]:
ruta_users = os.path.join("res", "ml-1m", "users.dat")
ruta_ratings = os.path.join("res", "ml-1m", "ratings.dat")
ruta_movies = os.path.join("res", "ml-1m", "movies.dat")

users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0,
    header=None, names=['UserID','Gender','Age','Occupation','Zip-code'], engine='python', encoding="ISO-8859-1")

ratings_dataset = pd.read_csv(ruta_ratings, sep='::', index_col=0, 
    header=None, names=['UserID','MovieID','Rating','Timestamp'], engine='python', encoding="ISO-8859-1")

movies_dataset = pd.read_csv(ruta_movies, sep='::', index_col=0, 
    header=None, names=['MovieID','Title','Genre'], engine='python', encoding="ISO-8859-1")

In [6]:
display(users_dataset.sample(5))

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
5358,M,35,7,10625
3834,M,18,2,2322
5187,M,18,16,6510
3982,M,56,13,95929
326,M,50,11,25302


In [7]:
display(ratings_dataset.sample(5))

Unnamed: 0_level_0,MovieID,Rating,Timestamp
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4218,588,4,965317289
5198,141,2,961687691
3118,3198,3,969408454
5011,44,4,962637031
839,1288,4,980554888


In [8]:
movies_dataset

Unnamed: 0_level_0,Title,Genre
MovieID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Toy Story (1995),Animation|Children's|Comedy
2,Jumanji (1995),Adventure|Children's|Fantasy
3,Grumpier Old Men (1995),Comedy|Romance
4,Waiting to Exhale (1995),Comedy|Drama
5,Father of the Bride Part II (1995),Comedy
...,...,...
3948,Meet the Parents (2000),Comedy
3949,Requiem for a Dream (2000),Drama
3950,Tigerland (2000),Drama
3951,Two Family House (2000),Drama


In [17]:
movies_dataset.loc[movies_dataset.index == 3536] # devuelve un dataFrame pandas.core.frame.DataFrame
# se trabajan mas con DataFrame

Unnamed: 0_level_0,Title,Genre
MovieID,Unnamed: 1_level_1,Unnamed: 2_level_1
3536,Keeping the Faith (2000),Comedy|Romance


In [15]:
movies_dataset.loc[3536]
# type(movies_dataset.loc[3536]) # Devuelve un tipo series pandas.core.series.Series

Title    Keeping the Faith (2000)
Genre              Comedy|Romance
Name: 3536, dtype: object

In [None]:
# 
# movies_dataset.loc[movies_dataset.index == 3536, :]

# movies_dataset[movies_dataset.index == 3536]
# type(movies_dataset.loc[movies_dataset.index == 3536, :])
# movies_dataset.loc[movies_dataset.index == 3536, :]


In [9]:
display(users_dataset.sample(5))
display(ratings_dataset.sample(5))

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
3818,M,45,17,32837
3780,M,1,0,46979
1085,M,25,7,34695
5525,F,1,10,55311
1772,M,56,2,90680


Unnamed: 0_level_0,MovieID,Rating,Timestamp
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1757,2028,5,974708443
1061,596,5,974950038
2102,852,3,974654205
5791,1571,3,958091132
2248,1994,3,974595895


In [18]:
users_dataset.shape, ratings_dataset.shape # tamaño, numero de registros

((6040, 4), (1000209, 3))

In [19]:
# combinando users y ratings, ¿Cómo?. right, queremos que a la derecha este ratings_dataset
combined_dataset = users_dataset.merge(right=ratings_dataset, on='UserID', how='inner') # parametro 'on' define la columna pivote
display(combined_dataset.head(5))
print(len(combined_dataset))

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code,MovieID,Rating,Timestamp
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,F,1,10,48067,1193,5,978300760
1,F,1,10,48067,661,3,978302109
1,F,1,10,48067,914,3,978301968
1,F,1,10,48067,3408,4,978300275
1,F,1,10,48067,2355,5,978824291


1000209


In [20]:
combined_dataset = users_dataset.merge(right=ratings_dataset, left_index=True, right_index=True, how='inner') # parametro 'on' define la columna pivote
display(combined_dataset.head(5))
print(len(combined_dataset))

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code,MovieID,Rating,Timestamp
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,F,1,10,48067,1193,5,978300760
1,F,1,10,48067,661,3,978302109
1,F,1,10,48067,914,3,978301968
1,F,1,10,48067,3408,4,978300275
1,F,1,10,48067,2355,5,978824291


1000209


In [21]:
# combinando movies y el resto
all_dataset = combined_dataset.merge(movies_dataset, on='MovieID', how='inner')
display(all_dataset.head(5))

Unnamed: 0,Gender,Age,Occupation,Zip-code,MovieID,Rating,Timestamp,Title,Genre
0,F,1,10,48067,1193,5,978300760,One Flew Over the Cuckoo's Nest (1975),Drama
1,M,56,16,70072,1193,5,978298413,One Flew Over the Cuckoo's Nest (1975),Drama
2,M,25,12,32793,1193,4,978220179,One Flew Over the Cuckoo's Nest (1975),Drama
3,M,25,7,22903,1193,4,978199279,One Flew Over the Cuckoo's Nest (1975),Drama
4,M,50,1,95350,1193,5,978158471,One Flew Over the Cuckoo's Nest (1975),Drama


In [22]:
all_dataset["Age"].count() # si sale el total de los registros significa que no ay nulos

1000209

### Concatenate
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html

## Pivot
- Representar los datos en función a varios parámetros, agregando
```python
pivot_table(<lista de valores>, index=<agregador primario>, columns=<agregador secundario>)
```
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html
- https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html

In [None]:
# display(all_dataset.pivot_table('Rating', index='Gender', columns='Age'))
# display(all_dataset.pivot_table('Rating', index='Gender', columns='Age', aggfunc='count'))
display(all_dataset.pivot_table('Rating', index='Age', columns='Gender', aggfunc=['count', max,np.mean]))

## Agrupaciones
- agg -> funciones estadísticas de agregación
- Series.unique() -> valores únicos
- pd.value_counts -> ocurrencias

## Manipulación de strings
```python
split(): separar en bloques en función de un carácter
replace(): reemplazar un carácter por otro
index(): encontrar la posición de un carácter
```

In [None]:
# Ejemplo con MovieLens: Genre
## 1: obtener todos los géneros por separado
## 2: crear un dataset de géneros
## 3: por película, marcar género por separado
## 4: unir con dataset original
display(movies_dataset.head(3))

In [None]:
all_genres = movies_dataset['Genre'].apply(lambda x : x.split('|'))

# print(all_genres)
# print([genre for x in all_genres for genre in x])
# genres = pd.unique([genre for movie in all_genres for genre in movie])
# la suma aplica a al dato tipo lista
genres = pd.unique(all_genres.sum())
print(genres)

In [None]:
# crear tabla con columnas por género
zeros = np.zeros( (len(movies_dataset), len(genres)) )
genres_frame = pd.DataFrame(zeros, columns=genres)
display(genres_frame.head(3))

Vamos a calcular un One Hot Encoding

In [None]:
%%time
# Otra forma de hacerlo con loc
for i, genre in enumerate(movies_dataset['Genre']):
    genres_frame.loc[i, genre.split('|')] = 1
movies_split_genre = movies_dataset.join(genres_frame)

In [None]:
movies_split_genre

In [None]:
%%time
columns_genres = genres_frame.columns # lista de generos (columnas)
# para cada película, marcar género con 1
for i, genre in enumerate(movies_dataset['Genre']):
    inds = columns_genres.get_indexer(genre.split('|')) # retorna los indices correspondientes a los generos de cada pelicula
    genres_frame.iloc[i,inds] = 1 # localiza las columnas del genero correspondiente, marca con 1
# display(genres_frame.head(5))
movies_split_genre = movies_dataset.join(genres_frame)

In [None]:
%%time
movies_dataset["genero_ls"] = movies_dataset['Genre'].apply(lambda x : x.split('|'))
df_unstacked = movies_dataset.loc[:, ["genero_ls"]]\
                            .assign(gen=1)\
                            .explode("genero_ls")\
                            .reset_index(drop=False)\
                            .set_index(keys=["MovieID", "genero_ls"])\
                            .unstack("genero_ls", fill_value=0)\
                            .droplevel(0, axis=1)

pd.concat([movies_dataset.loc[:, ["Title"]], df_unstacked], axis=1).head()
df_unstacked
movies_dataset.loc[:, ["Title"]]

In [None]:
# O utilizar ScikitLearn
# pip install -U scikit-learn
from sklearn.preprocessing import MultiLabelBinarizer

In [None]:
%%timeit
movies_dataset["genero_ls"] = movies_dataset['Genre'].apply(lambda x : x.split('|'))
mlb = MultiLabelBinarizer()
X = mlb.fit_transform(movies_dataset["genero_ls"])
movies_dataset.join(pd.DataFrame(X, columns=mlb.classes_))

In [None]:
display(movies_split_genre.head(5))

#### Replace e index para extraer el año de la película

In [None]:
movies_dataset = pd.read_csv(ruta_movies, sep='::', index_col=0, 
    header=None, names=['MovieID','Title','Genre'], engine='python', encoding="ISO-8859-1")
display(movies_dataset.sample(5))

In [None]:
display(movies_dataset.head(2))

In [None]:
# extraer el año de la columna Title
def split_year(title):
    index = title.index('(')
    return title[index:].replace('(','').replace(')','')
    
# crear nueva columna Year
movies_dataset['Year'] = movies_dataset['Title'].apply(split_year)
display(movies_dataset.sample(2))
movies_dataset["Year"].unique()

In [None]:
movies_dataset = pd.read_csv(ruta_movies, sep='::', index_col=0, 
    header=None, names=['MovieID','Title','Genre'], engine='python', encoding="ISO-8859-1")
display(movies_dataset.sample(5))
# eliminar el año de la columna Title
def remove_year(title):
    index = title.index('(')
    return title[:index-1].strip()

movies_dataset['Title'] = movies_dataset['Title'].apply(remove_year)
display(movies_dataset.head(2))


#### Expresiones regulares
https://docs.python.org/3/library/re.html

- import re

In [None]:
users_dataset.sample(10)

In [None]:
# ¿Cómo localizar que 'Zip-code' tiene un formato erróneo?
users_dataset.sample(5)

# users_dataset['Zip-code'].str.match('^[0-9]{5}$')

display(users_dataset[users_dataset['Zip-code'].str.match('^\d{5}$') == False])

# ^\d{5}$
# ^ = start of the string
# \d = decimal string
# {5} = 5 repeticiones de decimales
# $ = end of string

In [None]:
movies_dataset = pd.read_csv(ruta_movies, sep='::', index_col=0, 
    header=None, names=['MovieID','Title','Genre'], engine='python', encoding="ISO-8859-1")
display(movies_dataset.head(2))

In [None]:
# ¿Cómo extraer el año con regex en el formato adecuado?
display(movies_dataset['Title'].str.extract('(\d{4})'))

# (\d{4})
# (= busca apertura parentesis
# \d = decimal string
# {4} = 4 repeticiones de decimales
# ) = cierre de parentesis

## Operaciones con colecciones
```python
reduce: aplicar una operación y retornar un valor
map: aplicar  una operación y retornar una secuencia
filter: retorna una secuencia con elementos que cumplen una condición
```


## Reduce
- Aplicar una operación matemática a cada uno de los elementos de una colección
- Diferente de 'apply()' porque retorna un valor numérico
- Ejemplo: Detección de géneros en años específicos

https://docs.python.org/3/library/functools.html

In [None]:
from functools import reduce # necesario para reduce

lista = [1, 3, 5, 7, 9]
print(reduce(lambda x,y: x + y, lista))

In [None]:
movies_1975 = movies_split_genre[ movies_split_genre['Title'].str.contains('1975') ]
movies_1975.head(3)

In [None]:
any_drama = reduce(lambda x,y : bool(x) | bool(y),movies_1975['Drama']) # hay algún drama en 1975
print(any_drama)

all_comedy = reduce(lambda x,y : bool(x) & bool(y),movies_1975['Comedy']) # son todas las películas de 1975 comedias?
print(all_comedy)

In [None]:
print(movies_1975['Drama'].any()) # Comprueba si hay algún valor que puede cumplir  
print(movies_1975['Comedy'].all()) # Comprueba si todos los valores son True

In [None]:
# Observar el tipo de dato antes para ver si es posible aplicar las funciones
print(movies_1975.dtypes)
print(movies_1975['Comedy'].unique())

## Filter
- retorna una secuencia con elementos que cumplen una condición
- Ejemplo: obtener las películas de 1975 que contienen 'The' en el título

In [None]:
filtro = filter(lambda x : 'The' in x, movies_1975['Title'])
list(filtro)
# ¿Están todos los títulos con "The"? si tiene mayúsculas o no...

In [None]:
filtro = filter(lambda x : 'the' in x, movies_1975['Title'].str.lower())
list(filtro)

## Map
- aplicar  una operación y retornar una secuencia
- Cambiar el valor integral de la columna 'Comedy' por bool

In [None]:
mapa = map(lambda x : bool(x), movies_split_genre['Comedy'])
movies_split_genre.loc[:,'Comedy'] = list(mapa)
display(movies_split_genre.head(4))

## Transformación de variables (calidad de datos)
- Valores no definidos
- Valores duplicados
- Discretización (valores categóricos)

In [None]:
matrix = pd.DataFrame(np.random.randint(10,size=(5,10)))
matrix[matrix < 2] = np.nan
display(matrix)

In [None]:
# nulos por columna
print(matrix.isnull().sum(axis=0))
display(matrix.isna().sum())

In [None]:
# Cantidad valores nulos
print(matrix.isnull().sum(axis=1).sum())

In [None]:
# numero de no nulos por fila
print(matrix.count(axis=1))

In [None]:
# Número de nulos por fila
print(matrix.shape[1] - matrix.count(axis=1))

In [None]:
# Representación de las filas en las que una determinada columna tiene nulos
display(matrix[matrix[1].isnull()])

In [None]:
# Conteo de valores que aparecen en el dataset
valores = [3, 9]
# Identificación de valores de dominio que se encuentran en un listado
display(matrix[matrix[6].isin(valores)])

In [None]:
display(matrix)

In [None]:
## Tratamiento de valores nulos
# eliminar
display(matrix.dropna(axis=1))

In [None]:
# eliminar si no hay un número de valores no NaN
display(matrix)
display(matrix.dropna(thresh=8))

In [None]:
# sustituir por un valor fijo
display(matrix.fillna(-1))

In [None]:
# sustituir por valor dinámico (copia)
display(matrix)
display(matrix.fillna(method='ffill')) # bfill y ffill

In [None]:
# sustituir por valor dinámico (interpolación)
display(matrix)
display(matrix.interpolate())

#### Tratar valores duplicados

In [None]:
serie = pd.Series(['a','b','c','a','c','a','g'])
print(serie.duplicated())

In [None]:
df = all_dataset
display(df.head(3))

# Eliminación de los duplicados en una columna definida
df2 = df.drop_duplicates(subset="Gender", keep='last', inplace=False)
display(df2)

#### Discretización (valores categóricos)
- Tras Series y DataFrame, objeto para categorías: Categorical
```python
categorias = pd.cut(<valores>, <bins>) 
```

In [None]:
# especificar los bloques
bins = [0,18,35,65,99]
edades = [16,25,18,71,44,100,12]
categorias = pd.cut(edades,bins)
print(categorias)

In [None]:
categorias.value_counts()

In [None]:
# especificar el número de bloques
bins = 5
edades = [0,6,8,16,25,18,71,44,100]
categorias = pd.cut(edades,bins) # rangos idénticos (similar distancia de rangos)
print(categorias)
print(categorias.value_counts())

In [None]:
bins = 5
edades = [1,6,8,16,25,18,71,44,100]
categorias = pd.qcut(edades,bins) # rangos homogéneos (similar número de valores)
print(categorias)
print(categorias.value_counts())

## Visualización

In [None]:
movies_dataset.assign(tip_rate=tips["tip"] / tips["total_bill"]) #TODO: columna de asignación al vuelo