
<img src="img/viu_logo.png" width="200">

## 04EPPY - Ciencia de Datos e Inteligencia Artificial
### Procesamiento de Datos

![logo](img/python_logo.png)

*Òscar Garibo*

# Sumario
- Trabajo con strings
- Combinando datasets
- Limpieza de datos
 - map, filter, reduce
 - filling missing values
 - valores duplicados
 - categorizacion de datos

In [1]:
import numpy as np
import pandas as pd

In [2]:
import pickle, os

In [3]:
import csv

In [None]:
with open('nombre_fichero.txt', 'r') as f:
    lines = f.readlines()

In [None]:
lines[0]

In [None]:
df = pd.DataFrame()
df.to

In [5]:
a = 'Òscar'
b = 50
c = 190

print('La persona {} tienes {} años y mide {} centímetros'.format(a,b,c))

La persona Òscar tienes 50 años y mide 190 centímetros


In [None]:
print(f"La persona {a} tiene {b} años y mide {c} centímetros.")

In [None]:
f = open("nombre_fichero.txt", "w")
f.write(f"La persona {a} tiene {b} años y mide {c} centímetros.\n")
f.close()

### Combinar varios datasets 
- En base a un elemento en común (índice)
- MovieLens 'UserId'

In [6]:
import zipfile as zp # para descomprimir archivos zip
import urllib.request # para descargar de URL
import os

# descargar MovieLens dataset
url = 'http://files.grouplens.org/datasets/movielens/ml-1m.zip'  
local_zip = os.path.join("res", "ml-1m.zip")
urllib.request.urlretrieve(url, local_zip)
# descomprimiendo archivo zip
with zp.ZipFile(local_zip, 'r') as zipp: 
    print('Extracting all files...') 
    zipp.extractall(os.path.join("res")) # destino
    print('Done!') 

FileNotFoundError: [Errno 2] No such file or directory: 'res/ml-1m.zip'

In [None]:
with open("res/ml-1m/users.dat") as f:
    _ratings = f.readlines()
_ratings[:2]

In [None]:
root_path = os.path.join("res", "ml-1m" )

ratings_dataset = pd.read_csv(os.path.join(root_path, "ratings.dat"), sep='::',
                                index_col=0, engine='python',
                                names=['UserID','MovieID','Rating','Timestamp'])

users_dataset = pd.read_csv(os.path.join(root_path, "users.dat"),sep='::',
                              index_col=0, engine='python',
                              names=['UserID','Gender','Age','Occupation','Zip-code'])

In [None]:
users_dataset.sample(5)

In [None]:
ratings_dataset.sample(5)

### Uniendo datasets con 'join' y 'merge'
- merge() == join()
 - 'join' utiliza por defecto los índices para unir
- Utilizando el parámetro 'on'
 - Si las columnas difieren, 'left_on' y 'right_on'
 
 https://i.stack.imgur.com/hMKKt.jpg

In [None]:
len(users_dataset)

In [None]:
len(ratings_dataset)

In [None]:
# combinando users y ratings, ¿Cómo?
combined_dataset = users_dataset.merge(ratings_dataset, on='UserID', how='inner') # parametro 'on' define la columna pivote
display(combined_dataset.sample(5))
len(combined_dataset)

In [None]:
combined_dataset.head(1)

In [None]:
1::Toy Story (1995)::Animation|Children's|Comedy
2::Jumanji (1995)::Adventure|Children's|Fantasy


In [None]:
movies_dataset = pd.read_csv(os.path.join(root_path, "movies.dat"),sep='::', index_col=0, engine='python',names=['Movie_ID','Title','Genre'], encoding='latin1')
movies_dataset.sample(5)

In [None]:
# combinando movies y el resto
all_dataset = combined_dataset.merge(movies_dataset,left_on='MovieID', right_on='Movie_ID', how='inner')#, left_index=True, right_index=True)
all_dataset.sample(5)

In [None]:
all_dataset = combined_dataset.merge(movies_dataset,left_on='MovieID', right_on='Movie_ID', how='inner')
all_dataset.head(5)

In [None]:
len(all_dataset)

### Concatenate
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html

## Pivot
- Representar los datos en función a varios parámetros, agregando
```python
pivot_table(<lista de valores>, index=<agregador primario>, columns=<agregador secundario>)
```
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html

In [None]:
# all_dataset.pivot_table('Rating', index='Gender', columns='Age')
# all_dataset.pivot_table('Rating', index='Gender', columns='Age', aggfunc='count')
all_dataset.pivot_table('Rating', index='Gender', columns='Age', aggfunc=['count', 'mean'])

## Agrupaciones
- agg -> funciones estadísticas de agregación
- Series.unique() -> valores únicos
- pd.value_counts -> ocurrencias

## Manipulación de strings
```python
split(): separar en bloques en función de un carácter
replace(): reemplazar un carácter por otro
index(): encontrar la posición de un carácter
```

In [None]:
# Ejemplo con MovieLens: Genre
## 1: obtener todos los géneros por separado
## 2: crear un dataset de géneros
## 3: por película, marcar género por separado
## 4: unir con dataset original
movies_dataset.head(3)

In [None]:
movies_dataset.iloc[0]['Genre']

In [None]:
len(movies_dataset)

In [None]:
def separa(texto):
    return texto.split('|')

In [None]:
separa("Animation|Children's|Comedy")

In [None]:
all_genres = movies_dataset['Genre'].apply(lambda x : x.split('|'))
print(all_genres)

# print([genre for x in all_genres for genre in x])

genres = pd.unique([genre for x in all_genres for genre in x])
print(genres)
print(len(genres))

In [None]:
[genre for x in all_genres for genre in x]

In [None]:
color, 

In [None]:
{azul, rojo, verde}                     rojo | azul | verde
'rojo'                                   1      0       0
'azul'                                   0      1       0   
'azul|verde'                             0      1       1

In [None]:
# crear tabla con columnas por género
zeros = np.zeros( (len(movies_dataset), len(genres)) )
genres_frame = pd.DataFrame(zeros, columns=genres)
genres_frame.head(3)

In [None]:
for i, genre in enumerate(movies_dataset['Genre']):
    print(i, genre)

In [None]:
movies_dataset.head(5)

In [None]:
columns_genres = genres_frame.columns # lista de generos (columnas)
# para cada película, marcar género con 1
for i, genre in enumerate(movies_dataset['Genre']):
    inds = columns_genres.get_indexer(genre.split('|')) # retorna los indices correspondientes a los generos de cada pelicula
    print(i, inds)
    
    genres_frame.iloc[i,inds] = 1 # localiza las columnas del genero correspondiente, marca con 1

In [None]:
inds = columns_genres.get_indexer()

In [None]:
genres_frame.head(5)

In [None]:
# unir con dataset original
movies_split_genre = movies_dataset.reset_index().join(genres_frame)

In [None]:
display(movies_split_genre.head(5))

#### Replace e index para extraer el año de la película

In [None]:
movies_dataset.head(2)

In [None]:
def split_year(title):
    index = title.index('(')
    return title[index:].replace('(','').replace(')','')
    
# crear nueva columna Year
movies_dataset['Year'] = movies_dataset['Title'].apply(split_year)
display(movies_dataset.sample(30))

In [None]:
# extraer el año de la columna Title
def split_year(title):
    index = title.index('(')
    return title[index:].replace('(','').replace(')','')
    
# crear nueva columna Year
movies_dataset['Year'] = movies_dataset['Title'].apply(split_year)
display(movies_dataset.sample(30))

In [None]:
movies_dataset2 = movies_dataset.copy()
display(movies_dataset2)

In [None]:
'Requiem for a Dream (2000)'[-6:].index('(')

In [None]:
# eliminar el año de la columna Title
def remove_year(title):
    index = title.index('(')
    return title[:index-1].strip()

movies_dataset2['Title'] = movies_dataset2['Title'].apply(remove_year)
movies_dataset2.head(25)

#### Expresiones regulares
https://docs.python.org/3/library/re.html

- import re

In [None]:
# ¿Cómo localizar que 'Zip-code' tiene un formato erróneo?
#users_dataset.sample(5)

# users_dataset['Zip-code'].str.match('^\d{5}$')

display(users_dataset[users_dataset['Zip-code'].str.match('^\d{5}$') == True])

# ^\d{5}$
# ^ = start of the string
# \d = decimal string
# {5} = 5 repeticiones de decimales
# $ = end of string

In [None]:
len(users_dataset)

In [None]:
# ¿Cómo extraer el año con regex en el formato adecuado?
movies_dataset = pd.read_csv(os.path.join(root_path, "movies.dat"),sep='::', engine='python',names=['MovieID','Title','Genre'], encoding='latin1')
display(movies_dataset.head(2))
#years = movies_dataset['Title'].str.extract('(\d{4})')
#movies_dataset['Year'] = years

movies_dataset['Year'] = movies_dataset['Title'].str.extract('(\d{4})')

movies_dataset.head(40)

# (\d{4})
# (= busca apertura parentesis
# \d = decimal string
# {4} = 4 repeticiones de decimales
# ) = cierre de parentesis

## Operaciones con colecciones
```python
reduce: aplicar una operación y retornar un valor
map: aplicar  una operación y retornar una secuencia
filter: retorna una secuencia con elementos que cumplen una condición
```


## Reduce
- Aplicar una operación matemática a cada uno de los elementos de una colección
- Diferente de 'apply()' porque retorna un valor numérico
- Ejemplo: Detección de géneros en años específicos

https://docs.python.org/3/library/functools.html

In [None]:
from functools import reduce # necesario para reduce

lista = [1, 3, 5, 7, 9]
print(reduce(lambda x,y: x + y, lista))

In [None]:
movies_split_genre.head()

In [None]:
bool(0.0)

In [None]:
movies_1975 = movies_split_genre[ movies_split_genre['Title'].str.contains('1975') ]
display(movies_1975)

In [None]:
0 OR 0 = 0
0 OR 1 = 1
1 OR 0 = 1
1 OR 1 = 1

0 AND 0 = 0
0 AND 1 = 0
1 AND 0 = 0
1 AND 1 = 1

In [None]:
any_drama = reduce(lambda x,y : bool(x) | bool(y),movies_1975['Drama']) # hay algún drama en 1975
print(any_drama)

all_comedy = reduce(lambda x,y : bool(x) & bool(y),movies_1975['Comedy']) # son todas las películas de 1975 comedias?
print(all_comedy)

In [None]:
print(movies_1975['Drama'].any()) # Comprueba si hay algún valor que puede cumplir  
print(movies_1975['Comedy'].all()) # Comprueba si todos los valores son True

In [None]:
# Observar el tipo de dato antes para ver si es posible aplicar las funciones
print(movies_1975.dtypes)
print(movies_1975['Comedy'].unique())

## Filter
- retorna una secuencia con elementos que cumplen una condición
- Ejemplo: obtener las películas de 1975 que contienen 'The' en el título

In [None]:
'the' in 'The good doctor'#.lower()

In [None]:
filtro = filter(lambda x : 'The' in x, movies_1975['Title'])
list(filtro)
# ¿Están todos los títulos con "The"? si tiene mayúsculas o no...

In [None]:
filtro = filter(lambda x : 'the' in x, movies_1975['Title'])
list(filtro)

In [None]:
'the' in 'Brother, Can You Spare a Dime? (1975)'

In [None]:
filtro = filter(lambda x : 'the' in x, movies_1975['Title'].str.lower())
list(filtro)

## Map
- aplicar  una operación y retornar una secuencia
- Cambiar el valor integral de la columna 'Comedy' por bool

In [None]:
bool(1.0)

In [None]:
mapa = map(lambda x : bool(x), movies_1975['Comedy'])

#for item in mapa:
#    print(item)
movies_1975.loc[:,'Comedy'] = list(mapa)
movies_1975.head()

# Fins aquí 7/9/2023

## Transformación de variables (calidad de datos)
- Valores no definidos
- Valores duplicados
- Discretización (valores categóricos)

In [None]:
matrix = pd.DataFrame(np.random.randint(10,size=(5,10)))
#matrix[matrix < 2] = np.nan
matrix

In [None]:
matrix[matrix < 2] = np.nan
matrix

In [None]:
# nulos por columna
matrix.isnull().sum()
# matrix.isna().sum()

In [None]:
# Cantidad valores nulos
matrix.isnull().sum().sum()

In [None]:
# numero de no nulos por fila
matrix.count(axis=1)

In [None]:
# Número de nulos por fila
matrix.shape[1] - matrix.count(axis=1)

In [None]:
# Representación de las filas en las que una determinada columna tiene nulos
matrix[matrix[7].isnull()]

In [None]:
# Conteo de valores que aparecen en el dataset
valores = [3, 7]
# Identificación de valores de dominio que se encuentran en un listado
matrix[matrix[6].isin(valores)]

In [None]:
matrix

In [None]:
## Tratamiento de valores nulos
# eliminar
matrix2 = matrix.dropna()
display(matrix2)

In [None]:
# eliminar si no hay un número de valores no NaN
matrix3 = matrix.dropna(thresh=2)
display(matrix3)

In [None]:
# sustituir por un valor fijo
matrix.fillna(-1)

In [None]:
matrix

In [None]:
# sustituir por valor dinámico (copia)
print(matrix)
matrix4 = matrix.fillna(method='bfill') # bfill: valor siguiente fila y ffill
matrix4

In [None]:
# sustituir por valor dinámico (copia)
print(matrix)
matrix5 = matrix.fillna(method='ffill') # bfill: valor siguiente fila/columna y ffill: anterior fila/columna
matrix5

In [None]:
# sustituir por valor dinámico (interpolación)
print(matrix)
matrix.interpolate?

#### Tratar valores duplicados

In [None]:
serie = pd.Series(['a','b','c','a','c','a','g'])
serie.duplicated()

In [None]:
df = all_dataset
display(df)
# eliminar
# Eliminación de los duplicados en una columna definida
df2 = df.drop_duplicates(subset="Gender", keep='last', inplace=False)
display(df2)

In [None]:
df.drop_duplicates(subset="MovieID", keep='last', inplace=False)

#### Discretización (valores categóricos)
- Tras Series y DataFrame, objeto para categorías: Categorical
```python
categorias = pd.cut(<valores>, <bins>) 
```

In [None]:
# especificar los bloques
bins = [0,18,35,65,99]
edades = [16,25,18,71,44,100,12]
categorias = pd.cut(edades,bins)
print(categorias)

In [None]:
categorias.value_counts()

In [None]:
# especificar el número de bloques
bins = 5
edades = [0,6,8,16,25,18,71,44,100]
categorias = pd.cut(edades,bins) # rangos idénticos (similar distancia de rangos)
print(categorias)
print(categorias.value_counts())

In [None]:
bins = 3
edades = [1,6,8,16,25,18,71,44,100]
categorias = pd.qcut(edades,bins) # rangos homogéneos (similar número de valores)
print(categorias)
print(categorias.value_counts())