
<img src="img/viu_logo.png" width="200">

## 01MIAR - Pandas

![logo](img/python_logo.png)

*Ivan Fuertes / Franklin Alvarez*

# Pandas
- Librería (de facto estándar) para estructurar datos tabulares
- Multivariable (string, int, float, bool...)
- Dos clases:
  - Series (1 dimensión)
  - DataFrames (2+ dimensiones)

In [None]:
# librería externa
import pandas as pd
from pandas import Series, DataFrame

In [None]:
pd.__version__

# Series
- Datos unidimensionales (similar a NumPy)
- Elementos + índices modificables

In [None]:
countries = pd.Series(['Spain','Andorra','Gibraltar','Portugal','France'])
print(countries)

print(countries[2])

In [None]:
# especificando el índice
countries = pd.Series(['Spain','Andorra','Gibraltar','Portugal','France'],
                       index=range(10,60,10))
print(countries)

In [None]:
# los índices pueden ser de más tipos
football_cities = pd.Series(['Barcelona','Madrid','Valencia','Sevilla'], 
                            index=['a','b','c','d'])
print(football_cities)

In [None]:
# Atributos
football_cities.name = 'Ciudades con dos equipos en primera' # nombrar la Serie
football_cities.index.name = 'Id' # Describir los índices
print(football_cities)

In [None]:
# acceso similar a NumPy o listas, según posición (no recomendado)
print(football_cities[2])

# acceso a través del índice semántico (recomendado)
print(football_cities['c'])

# Tratamiento similar a ndarray

In [None]:
# múltiple recolección de elementos
print(football_cities[ ['a','c'] ])
# print(football_cities[ [0, 3] ])

In [None]:
# slicing
print(football_cities['a':'c']) # incluye ambos extremos con el indice semantico
# print(football_cities[0:3])     # el segundo término sigue siendo exclusivo

In [None]:
#cast a list
lista = list(football_cities[:'c'])
print(lista)

In [None]:
type(football_cities[:'c'])

In [None]:
#cast a ndarray
import numpy as np

cities = np.array(football_cities[:'c'])
print(cities)
print(type(cities))

In [None]:
# cas a dictionary
lista = dict(football_cities[:'c'])
print(lista)

In [None]:
# uso de masks para seleccionar
fibonacci = pd.Series([0, 1, 1, 2, 3, 5, 8, 13, 21])
fibonacci.name = "Serie de Fibonacci"
print(fibonacci)
print()

mask = fibonacci > 10
mask.name = "Máscara mayores que 10"
print(mask)
print()

masked_fibo = fibonacci[mask]
masked_fibo.name = "Fibonacci original enmascarado"
print(masked_fibo) # Conserva los índices de la serie original

In [None]:
# Para que 2 series sean igualesm 
print(masked_fibo)
print()

dst = pd.Series([13,21])
dst.name = "Fibonacci mayores de 10"
print(dst)
print()

# El método equals verifica si dos Series son iguales
print("¿Son series iguales?:",dst.equals(masked_fibo))

In [None]:
# Podemos resetear (y eliminar) los índices
mi_fb = masked_fibo.reset_index(drop=True)
mi_fb.name = "Fibonacci original enmascarado con índices reseteados (y eliminados)"

print(mi_fb)
print()
print(dst)
print()
print("¿Son series iguales?:",dst.equals(mi_fb))

In [None]:
# aplicar funciones de numpy a la serie
import numpy as np

print(np.sum(fibonacci))

In [None]:
#filtrado con np.where
distances = pd.Series([12.1,np.nan,12.8,76.9,6.1,7.2])

valid_distances = np.where(pd.notnull(distances),distances,0)

print(valid_distances)
print(type(valid_distances))

### Iteración

In [None]:
# iterar sobre elementos
for value in fibonacci:
    print('Value: ' + str(value))

# iterar sobre indices
# for index in fibonacci.index:
#     print('Index: ' + str(index))

In [None]:
# iterar sobre elementos e índices al mismo tiempo
for index, value in fibonacci.items():
    print('Index: ' + str(index) + '  Value: ' + str(value))

## Series como diccionarios
- Interpretar el índice como clave
- Acepta operaciones para diccionarios

In [None]:
# crear una serie a partir de un diccionario
serie = pd.Series( { 'Carlos' : 100, 'Marcos': 98} )

print(serie)
print()
print("Índices:",serie.index)
print("Valores:",serie.values)

In [None]:
# añade y elimina elementos a través de índices
serie['Pedro'] = 12
del serie['Marcos']

print(serie)

In [None]:
# query una serie
# print(serie['Marcos']) # Falla cuando es eliminado en la celda anterior

buscado = 'Marcos'

if buscado in serie:
    print(serie['Marcos'])
else:
    print("{} no se ha encontrado".format(buscado))


## Operaciones entre series

In [None]:
# suma de dos series
# suma de valores con el mismo índice (NaN si no aparece en ambas)
serie1 = pd.Series([10,20,30,40], index=range(4) )
serie2 = pd.Series([1,2,3], index=[0,2,3] )
print(serie1 + serie2)

In [None]:
# resta de series (similar a la suma)
print(serie1 - serie2)

In [None]:
# puedes utilizar una máscara con la función de pandas isnull() para cambiar los NaN por un valor deseado
result = serie1 + serie2
result.name = "Resultado con NaNs"
print(result)

print()
mask = pd.isnull(result) # mask con isnull()
result[mask] = 0
result.name = "Resultado sin NaNs"
print(result)

###  Diferencias entre Pandas Series y diccionario
* Diccionario, es una estructura que relaciona las claves y los valores de forma arbitraria.
* Series, estructura de forma estricta listas de valores con listas de índice asignado en la posición.
* Series, es más eficiente para ciertas operaciones que los dicionarios.
* En las Series los valores de entrada pueden ser listas o Numpy arrays.
* En Series los índices semánticos pueden ser integers o caracteres, en los valores igual.
* Series se podría entender entre una lista y un diccionario Python, pero es de una dimensión.

# DataFrame
- Datos tabulares (filas x columnas)
- Columnas: Series con índices compartidos

In [None]:
# crear un DataFrame a partir de un diccionario de elementos de la misma longitud
diccionario = { "Nombre" : ["Marisa","Laura","Manuel", np.nan], 
                "Edad" : [34,29,12, 52] }

# las claves identifican columnas
frame = pd.DataFrame(diccionario)

display(frame) # Con dataframes siempre utilizar display!!
# print(frame)   # No recomendado por su aspecto visual

In [None]:
# las claves identifican columnas
frame = pd.DataFrame(diccionario, index = ['a', 'b', 'c', 'd'])
display(frame)

In [None]:
# además de 'index', el parámetro 'columns' especifica el número y orden de las columnas
frame = pd.DataFrame(diccionario, columns = ['Nacionalidad', 'Nombre', 'Edad', 'Profesion'], index=['5','6','7','8'])
display(frame)

In [None]:
# acceso a columnas devuelve una serie
nombres = frame['Nombre']
print(nombres)
print(type(nombres))

In [None]:
#siempre que el nombre de la columna lo permita (espacios, ...)
nombres = frame.Nombre
print(nombres)

In [None]:
# acceso al primer nombre del DataFrame frame??
print(frame['Nombre']['5']) # [column, index]
# print(frame.Nombre['5'])    # .column[index]
# print(nombres['5'])         # desde la serie

### Formas de crear un DataFrame
* Con una Serie de pandas
* Lista de diccionarios
* Dicionario de Series de Pandas
* Con un array de Numpy de dos dimensiones
* Con array estructurado de Numpy 

## Modificar DataFrames

In [None]:
# añadir columnas con un valor por defecto
frame['Direccion'] = 'Desconocida'
display(frame)

In [None]:
# Podemos actualizar todos los valores de una columna si tenemos datos para todas las filas
lista_direcciones = ['Rue 13 del Percebe, 13', 'Evergreen Terrace, 3', 'Av de los Rombos, 12', 'Av Madrid, 305']

frame['Direccion'] = lista_direcciones
display(frame)

In [None]:
# Podemos añadir fila si tenemos datos para todas las columnas
user_2 = ['Alemania','Klaus',20, 'Repartidor', 'Desconocida']

frame.loc[3] = user_2
display(frame)

In [None]:
# eliminar fila (similar a Series)

frame2 = frame.drop(3) # por qué no se ha borrado?
display(frame)
# display(frame2)

# frame.drop(3, inplace = True) # Opción inplace
# display(frame)

In [None]:
frame.drop("Nacionalidad", axis=1, inplace = True) # Opción axis me elimina columnas
display(frame)

In [None]:
#eliminar columna
del frame['Profesion']
display(frame)

In [None]:
# acceder a la traspuesta (como una matriz)
display(frame.T)

## Iteración

In [None]:
# iteración sobre el DataFrame por columnas
for a in frame:
    print("Valor iterado:", a)
    print(frame[a])
    print()

In [None]:
# iteracion por filas
for value in frame.values:
    print(value)
    print(type(value))
    print()

In [None]:
# Iterar por elemento
for values in frame.values:
    for value in values: 
        print(value)

## Indexación y slicing con DataFrames

In [None]:
d1 = {'ciudad':'Valencia', 'temperatura':10, 'o2':1}
d2 = {'ciudad':'Barcelona', 'temperatura':8}
d3 = {'ciudad':'Valencia', 'temperatura':9}
d4 = {'ciudad':'Madrid', 'temperatura':10, 'humedad':80}
d5 = {'ciudad':'Sevilla', 'temperatura':15, 'humedad':50, 'co2':6}
d6 = {'ciudad':'Valencia', 'temperatura':10, 'humedad':90, 'co2':10}

ls_data = [d1, d2, d3, d4, d5, d6]  # lista de diccionarios

df_data = pd.DataFrame(ls_data, index = list('abcdef'))
display(df_data)

 * Acceder a columnas

In [None]:
# indexación con nombre de columna (por columnas)
display(df_data[['ciudad', 'o2']])

 * Acceder a filas por índice de posicion `iloc`

In [None]:
# indexar por posición con 'iloc'
print(df_data.iloc[0]) # --> Series de la primera fila (qué marca los índices)

 * Acceder a filas por índice semántico `loc`

In [None]:
# indexar semántico con 'loc'
print(df_data.loc['a']) # --> Series de la fila con índice 'a'

In [None]:
# qué problema puede tener este fragmento?
frame = pd.DataFrame({"Name" : ['Carlos','Pedro'], "Age" : [34,22]}, index=[1,0])
display(frame)

In [None]:
# por defecto, pandas interpreta índice posicional --> error en frames
# cuando hay posible ambigüedad, utilizar loc y iloc
print('Primera fila\n')
print(frame.iloc[0])

print('\nElemento con index 0\n')
print(frame.loc[0])

 * Axis para definir si uso `loc` e `iloc` por columnas

In [None]:
# ambos aceptan 'axis' como argumento
print(df_data.iloc(axis=1)[0]) # --> todos los valores asignados a la primera columna 'ciudad'
# print(df_data.loc(axis=1)['ciudad']) # --> equivalente df_data['ciudad']

 * Slicing con índice de posición

In [None]:
# Acceso a un valor concreto por indice posicional [row, col]
print(df_data.iloc[1,1])

# Acceso a todos los valores hasta un índice por enteros
# display(df_data.iloc[:3,:4]) # [slice_row, slice_col]

# Posible, pero no recomendado, hacer slicing posicional sin utilizar el iloc
# display(df_data[:-1])
# display(df_data[1:2])

 * Slicing con índice semántico

In [None]:
# Acceso a datos de manera explícita, indice semantico (se incluyen)
display(df_data.loc[:'b'])
# print(df_data.loc['a', 'temperatura'])
# display(df_data.loc[:'c', :'o2'])
# display(df_data.loc[:'c', 'temperatura':'o2'])

# Acceso por lista de columnas deseadas
# display(df_data.loc[:, ['ciudad','o2']])

## Warning para slices

 * Ya Pandas no permite utilizar slices para modificar dataframes.
 * Si haces un slice, e intentas cambiar su valor, Python te dará un `SettingWithCopyWarning`. Este Warning te está avisando de que este slice no modificará el dataframe original.
 * Si quieres deshacerte de este Warning puedes:
     * Indicar explícitamente que pretendes utilizar el slice cómo copia.
     * Poner a `None` la opción `pd.options.mode.chained_assignment` en la librería de Pandas. (Recomendado sólo si estamos conscientes de esta nueva implementación de slices en Pandas)

In [None]:
# # Desactivar warning
# pd.options.mode.chained_assignment = None

# Ya Pandas no permite modificar dataframes por referencia,
display(df_data)

serie = df_data.loc['a']
serie.name = "Antes de modificar valor"
print(serie)
print()

serie.iloc[2] = 3000  # setting with copy warning!!!
serie.name = "Después de modificar valor"
print(serie)

display(df_data)

# Volver activar warning
pd.options.mode.chained_assignment = 'warn'

In [None]:
# copiar data frame
df_2 = df_data.loc['a'].copy()
df_2.iloc[2] = 3000

display(df_2)
display(df_data)

## Objeto Index de Pandas

In [None]:
# Contrucción de índices
ind = pd.Index([2, 3, 5, 23, 26])
# recuperar datos
print(ind[3])
print(ind[::2])

In [None]:
# usar un objeto index al crear dataframe
frame = pd.DataFrame({"Name" : ['Carlos','Pedro', 'Manolo', 'Luis', 'Alberto'], "Age" : [34,22,15,55,23]}, index=ind)
display(frame)

In [None]:
# Son inmutables! No se modifican los datos. 
ind[3] = 8

In [None]:
# change index column
frame = pd.DataFrame({"Name" : ['Carlos','Pedro', 'Manolo', 'Luis', 'Alberto'], "Age" : [34,22,15,55,23]}, index=ind)
display(frame)

frame.set_index('Age', inplace=True)
display(frame)

## Mascaras

¿Cómo filtrar filas y columnas? Por ejemplo, para todos los personajes, obtener 'Name' y 'Strength'

In [None]:
frame = pd.DataFrame({"Name" : ['Carlos','Pedro', 'Manolo', 'Luis', 'Alberto'], "Age" : [34,22,15,55,23]}, index=ind)
display(frame)

mask = frame['Age'] > 25
print(mask)

display(frame.loc[mask])

In [None]:
mask2 = frame['Name'] == "Manolo"
display(frame.loc[mask | mask2])

# Cargar y guardar datos en pandas

In [None]:
# Guardar a csv
import os
ruta = os.path.join("res" ,"o_frame.csv")

frame.to_csv(ruta, sep=';') # sep por defecto: ','

In [None]:
loaded = pd.read_csv(ruta, sep=';')
display(loaded)

In [None]:
loaded = pd.read_csv(ruta, sep=';', index_col = 0)
display(loaded)

#### otros argumentos to_csv()
- na_rep='string' --> representar valores NaN en el archivo csv

#### otros argumentos read_csv()
- na_values='string'


Pandas también ofrece funciones para leer/guardar a otros formatos estándares: JSON, HDF5 o Excel en su [API](https://pandas.pydata.org/pandas-docs/stable/reference/io.html)

# Ejemplo práctico en pandas
- [MovieLens dataset](https://grouplens.org/datasets/movielens/)
 - Reviews de películas
 - 1 millón de entradas
 - Datos demográficos de usuarios
 
 
- Objetivos:
 - Remover reviews de menores de edad
 - Visualizar datos agrupados por género
 - Guardar nuevo dataframe limpiado

In [None]:
import numpy as np
import pandas as pd
import zipfile # para descomprimir archivos zip
import urllib.request # para descargar de URL
import os

# descargar MovieLens dataset
url = 'http://files.grouplens.org/datasets/movielens/ml-1m.zip'  
ruta = os.path.join("res", "ml-1m.zip")
urllib.request.urlretrieve(url, ruta)

In [None]:
# descomprimiendo archivo zip
ruta_ext = os.path.join("res")
with zipfile.ZipFile(ruta, 'r') as z: 
    print('Extracting all files...') 
    z.extractall(ruta_ext) # destino
    print('Done!') 
    
# take a look at readme y revisar formatos

In [None]:
ruta_users = os.path.join("res", "ml-1m", "users.dat")

users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0, engine='python')
display(users_dataset)

In [None]:
# Varios problemas
# sin cabecera! primer valor se ha perdido
# las columnas no tienen nombres
pd.read_csv?

In [None]:
# especificar nombres, cargar sin cabecera
users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0,
    header=None, names=['UserID','Gender','Age','Occupation','Zip-code'], engine='python')
display(users_dataset)

In [None]:
# samplear la tabla 
display(users_dataset.sample(20))

In [None]:
# samplear la cabeza
display(users_dataset.head(4))

In [None]:
# samplear la cola
display(users_dataset.tail(4))

In [None]:
# tipos de datos sobre las columnas
users_dataset.dtypes

In [None]:
display(users_dataset[users_dataset['Zip-code'].str.len() > 5])

In [None]:
# información general sobre atributos numéricos
display(users_dataset.describe())

In [None]:
users_dataset.info()

In [None]:
# incluir otros atributos (no todo tiene sentido)
display(users_dataset.describe(include='all'))

In [None]:
# cuántos usuarios son mujeres (Gender='F')
len(users_dataset[users_dataset['Gender'] == 'F'])

# select count(*) from users_dataset where users_dataset.Gender = 'F'

In [None]:
# mostrar solo los menores de edad
under_age = users_dataset[users_dataset['Age'] == 1]
print(len(under_age))
display(under_age.sample(10))

In [None]:
# filtrar edad incorrecta (míninimo 18) Forma incorrecta
users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0,
    header=None, names=['UserID','Gender','Age','Occupation','Zip-code'], engine='python')

mask = users_dataset['Age'] == 1
under_age = users_dataset[mask]
display(under_age) # Esto ya no es una referencia

under_age['Age'] = np.nan # SettingWithCopyWarning nos avisa que estamos intentando cambiar utilizando un slice
display(under_age.head())

display(users_dataset.head()) # No se ha modificado el original

In [None]:
# filtrar edad incorrecta (míninimo 18) Forma correcta - no utilizar slicing
users_dataset.loc[mask, 'Age'] = np.nan

display(users_dataset.head())

In [None]:
# filtrar edad incorrecta (míninimo 18) Remove them from the dataset
mask_isnull = pd.isnull(users_dataset['Age'])

i_drop = users_dataset.loc[mask_isnull].index
print("Índices que quiero eliminar:", i_drop)

users_dataset.drop(i_drop, inplace = True)
display(users_dataset.head(4))

In [None]:
# Agrupar datos por atributos
display(users_dataset.groupby(by='Gender'))
# display(users_dataset.groupby(by='Gender').describe())

In [None]:
# Grabar la tabla modificada
# Cambiar el separador a ','
# Guardar NaN como 'null'
ruta_output = os.path.join('res', 'ml-1m', 'o_users_processed.csv')
users_dataset.to_csv(ruta_output, sep=',',na_rep='null')

# Ejercicios
- Hacer un análisis general de los otros dos archivos CSV en ml-1m ('movies.dat' y 'ratings.dat')
- Analizando el dataset ratings.dat, ¿hay algún usuario que no tenga ninguna review? ¿Cuántos tienen menos de 30 reviews?

In [None]:
# especificar nombres, cargar sin cabecera
ruta_ratings = os.path.join("res", "ml-1m", "ratings.dat")

ratings_dataset = pd.read_csv(ruta_ratings, sep='::',
    header=None, names=['UserID','MovieID','Rating','Timestamp'], engine='python')
display(ratings_dataset)

In [None]:
# hay algún usuario que no tenga ninguna review
n_users_with_reviews = len(ratings_dataset.groupby(by='UserID'))
n_users = len(users_dataset)
print(n_users - n_users_with_reviews)

In [None]:
# Cuántos tienen menos de 30 reviews
ratings_under_30 = ratings_dataset.groupby(['UserID'])['UserID'].filter(lambda x: len(x) < 30).value_counts()
display(ratings_under_30)
print(len(ratings_under_30))