
<img src="img/viu_logo.png" width="200">

## 01MAIR - Introducción a Python
### Tema 4 - Estructuras de datos: Pandas

![logo](img/python_logo.png)

*Benjamin Arroquia Cuadros*

*Carlos Fernández Musoles*

# En la clase anterior
- NumPy para datos numéricos
- Filtrado de datos con np.where
- Valores aleatorios

# Sumario
- Series y DataFrame
- Indexacion, slicing
- Grabar y cargar a archivo
- MovieLens dataset 

# pandas
- Librería (de facto estándar) para estructurar datos tabulares
- Multivariable (string, int, float, bool...)
- Dos clases:
 - Series (1 dimensión)
 - DataFrames (2+ dimensiones)

In [1]:
# librería externa
import pandas as pd
from pandas import Series, DataFrame

# Series
- Datos unidimensionales (similar a NumPy)
- Elementos + índices modificables

In [2]:
countries = pd.Series (['Spain','Andorra','Gibraltar','Portugal','France'])
# equivalente a Series(...) si se ha importado con from pandas import Series, DataFrame
countries

0        Spain
1      Andorra
2    Gibraltar
3     Portugal
4       France
dtype: object

In [3]:
# especificando el índice
countries = pd.Series (['Spain','Andorra','Gibraltar','Portugal','France'],index=range(10,60,10))
countries

10        Spain
20      Andorra
30    Gibraltar
40     Portugal
50       France
dtype: object

In [4]:
# los índices pueden ser de más tipos
football_cities = pd.Series(['Barcelona','Madrid','Valencia','Sevilla'], index=['a','b','c','d'])
football_cities

a    Barcelona
b       Madrid
c     Valencia
d      Sevilla
dtype: object

In [5]:
football_cities.name = 'Ciudades con dos equipos en primera' # nombrar la Serie
football_cities.index.name = 'Id' # Describir los índices
football_cities

Id
a    Barcelona
b       Madrid
c     Valencia
d      Sevilla
Name: Ciudades con dos equipos en primera, dtype: object

In [6]:
# acceso similar a NumPy o listas
football_cities[0]
# acceso a través del índice semántico
football_cities['a'] == football_cities[0]

True

# Tratamiento similar a ndarray

In [7]:
# múltiple recolección de elementos
football_cities[ ['a','c'] ]

Id
a    Barcelona
c     Valencia
Name: Ciudades con dos equipos en primera, dtype: object

In [8]:
# slicing
football_cities[:'c'] # incluye ambos extremos! == football_cities[:3]

Id
a    Barcelona
b       Madrid
c     Valencia
Name: Ciudades con dos equipos en primera, dtype: object

In [9]:
# uso de masks para seleccionar
fibonacci = pd.Series([0,1,1,2,3,5,8,13,21])
mask = fibonacci > 10 # qué aspecto tiene 'mask'?
fibonacci[mask]

7    13
8    21
dtype: int64

In [10]:
# aplicar funciones a la serie
import numpy as np
np.sum(fibonacci)

54

In [11]:
#filtrado con np.where
distances = pd.Series([12.1,np.nan,12.8,76.9,6.1,7.2])
valid_distances = np.where(pd.notnull(distances),distances,0)
valid_distances

array([12.1,  0. , 12.8, 76.9,  6.1,  7.2])

### Iteración

In [12]:
# iterar sobre elementos
for value in fibonacci:
    print('Value: ' + str(value))
    # iterar sobre indices
for index in fibonacci.index:
    print('Index: ' + str(index))

Value: 0
Value: 1
Value: 1
Value: 2
Value: 3
Value: 5
Value: 8
Value: 13
Value: 21
Index: 0
Index: 1
Index: 2
Index: 3
Index: 4
Index: 5
Index: 6
Index: 7
Index: 8


In [13]:
# ¿cómo iterar sobre elementos e índices al mismo tiempo?
for index,value in  fibonacci.iteritems():
    print('Value:' +str(value)+ ' Index:'+str(index))

Value:0 Index:0
Value:1 Index:1
Value:1 Index:2
Value:2 Index:3
Value:3 Index:4
Value:5 Index:5
Value:8 Index:6
Value:13 Index:7
Value:21 Index:8


In [14]:
for index,value in enumerate(fibonacci):
    print('Value:' +str(value)+ ' Index:'+str(index))

Value:0 Index:0
Value:1 Index:1
Value:1 Index:2
Value:2 Index:3
Value:3 Index:4
Value:5 Index:5
Value:8 Index:6
Value:13 Index:7
Value:21 Index:8


In [15]:
for value,i in zip(fibonacci, fibonacci.index):
     print('Value:' +str(value)+ ' Index:'+str(index))

Value:0 Index:8
Value:1 Index:8
Value:1 Index:8
Value:2 Index:8
Value:3 Index:8
Value:5 Index:8
Value:8 Index:8
Value:13 Index:8
Value:21 Index:8


## Series como diccionarios
- Interpretar el índice como clave
- Acepta operaciones para diccionarios

In [16]:
# crear una serie a partir de un diccionario
serie = pd.Series( { 'Carlos' : 100, 'Marcos': 98} )
serie.index
serie.values
serie

Carlos    100
Marcos     98
dtype: int64

In [17]:
# añade y elimina elementos a través de índices
serie['Pedro'] = 12
del serie['Marcos']
serie

Carlos    100
Pedro      12
dtype: int64

In [18]:
# query una serie
if 'Carlos' in serie:
    serie['Carlos'] = 2
serie

Carlos     2
Pedro     12
dtype: int64

## Operaciones entre series

In [19]:
# suma de dos series
# suma de valores con el mismo índice (NaN si no aparece en ambas)
serie1 = pd.Series([10,20,30,40],index=range(4) )
serie2 = pd.Series([1,2,3],index=range(3) )
serie1 + serie2

0    11.0
1    22.0
2    33.0
3     NaN
dtype: float64

In [20]:
# resta de series (similar a la suma)
serie1 - serie2

0     9.0
1    18.0
2    27.0
3     NaN
dtype: float64

In [21]:
# operaciones de pre-filtrado
result = serie1 + serie2
result[pd.isnull(result)] = 0 # mask con isnull()
result

0    11.0
1    22.0
2    33.0
3     0.0
dtype: float64

###  Diferencias entre Pandas Series y diccionario
* Diccionario, es una estructura que relaciona las claves y los valores de forma arbitraria.
* Series, estructura de forma estricta listas de valores con listas de índice µasignado en la posición.
* Series, es más eficiente para ciertas operaciones que los dicionarios.
* En las Series los valores de entrada pueden ser listas o Numpy arrays.
* En Series los índices semánticos pueden ser integers o caracteres, en los valores igual.
* Series se podría entender entre una lista y in diccionario Python, pero es de una dimensión.

# DataFrame
- Datos tabulares (filas x columnas)
- Columnas: Series con índices compartidos

In [22]:
# crear un DataFrame a partir de un diccionario de elementos de la misma longitud
diccionario = { "nombre" : ["Marisa","Laura","Manuel"], "edad" : [34,29,12] }
# las claves identifican columnas
frame = pd.DataFrame(diccionario) # acepta 'index'
frame

Unnamed: 0,nombre,edad
0,Marisa,34
1,Laura,29
2,Manuel,12


In [23]:
# además de 'index', el parámetro 'columns' especifica el número y orden de las columnas
frame = pd.DataFrame(diccionario,columns=['Nacionalidad', 'nombre', 'edad', 'profesion'])
frame

Unnamed: 0,Nacionalidad,nombre,edad,profesion
0,,Marisa,34,
1,,Laura,29,
2,,Manuel,12,


In [24]:
# acceso a columnas
nombres = frame['nombre'] # equivalente a frame.nombres
print(nombres)
type(nombres)

0    Marisa
1     Laura
2    Manuel
Name: nombre, dtype: object


pandas.core.series.Series

### Formas de crear un DataFrame
* Con una Serie de pandas
* Lista de diccionarios
* Dicionario de Series de Pandas
* Con un array de Numpy de dos dimensiones
* Con array estructurado de Numpy 

In [25]:
# acceso al primer nombre del DataFrame frame?
nombres[0]
frame['nombre'][0]
nombres.iloc[0]
frame.nombre[0]

'Marisa'

## Modificar DataFrames

In [26]:
# añadir columnas
frame = pd.DataFrame(diccionario,columns=['Nacionalidad', 'nombre', 'edad', 'profesion'])
frame['direccion'] = 'Desconocida'
frame

Unnamed: 0,Nacionalidad,nombre,edad,profesion,direccion
0,,Marisa,34,,Desconocida
1,,Laura,29,,Desconocida
2,,Manuel,12,,Desconocida


In [27]:
# añadir elemento (requiere todos los valores)
user_2 = ['Alemania','Klaus',39, 'none', 'Desconocida']
frame.loc[len(frame)] = user_2
frame

Unnamed: 0,Nacionalidad,nombre,edad,profesion,direccion
0,,Marisa,34,,Desconocida
1,,Laura,29,,Desconocida
2,,Manuel,12,,Desconocida
3,Alemania,Klaus,39,none,Desconocida


In [28]:
# eliminar fila (similar a Series)
frame = frame.drop(2) # por qué necesitamos reasignar el frame?

frame

Unnamed: 0,Nacionalidad,nombre,edad,profesion,direccion
0,,Marisa,34,,Desconocida
1,,Laura,29,,Desconocida
3,Alemania,Klaus,39,none,Desconocida


In [29]:
#eliminar columna
del frame['direccion']
frame

Unnamed: 0,Nacionalidad,nombre,edad,profesion
0,,Marisa,34,
1,,Laura,29,
3,Alemania,Klaus,39,none


In [30]:
# acceder a la inversa (como una matriz)
frame.T

Unnamed: 0,0,1,3
Nacionalidad,,,Alemania
nombre,Marisa,Laura,Klaus
edad,34,29,39
profesion,,,none


## Iteración

In [31]:
# iteración sobre el DataFrame?
for a in frame:
    print(a) # qué es 'a'?

Nacionalidad
nombre
edad
profesion


In [32]:
for value in frame.values:
    print(value)

[nan 'Marisa' 34 nan]
[nan 'Laura' 29 nan]
['Alemania' 'Klaus' 39 'none']


In [33]:
# iterar sobre filas y luego sobre cada valor?
for a, value in zip(frame, frame.values):
    print(a)
    print(value)


Nacionalidad
[nan 'Marisa' 34 nan]
nombre
[nan 'Laura' 29 nan]
edad
['Alemania' 'Klaus' 39 'none']


## Indexación y slicing con DataFrames

In [34]:
d1 = {'ciudad':'Valencia', 'temperatura':10, 'benja':1}
d2 = {'ciudad':'Barcelona', 'temperatura':8}
d3 = {'ciudad':'Valencia', 'temperatura':9}
d4 = {'ciudad':'Madrid', 'temperatura':10, 'humedad':80}
d5 = {'ciudad':'Sevilla', 'temperatura':15, 'humedad':50, 'co2':6}
d6 = {'ciudad':'Valencia', 'temperatura':10, 'humedad':90, 'co2':10}
ls_data = [d1, d2, d3, d4, d5, d6]
df_data = pd.DataFrame(ls_data)
df_data

Unnamed: 0,benja,ciudad,co2,humedad,temperatura
0,1.0,Valencia,,,10
1,,Barcelona,,,8
2,,Valencia,,,9
3,,Madrid,,80.0,10
4,,Sevilla,6.0,50.0,15
5,,Valencia,10.0,90.0,10


In [35]:
# Aceso a un valor concreto por la posición
print(df_data.iloc[3, 2])
# Aceso a todos los valores hasta un índice por enteros
print(df_data.iloc[:3,:4])
# Acceso a datos de manera explícita. Si el índice tuviera strings se deberían de poner los strings
print(df_data.loc[:2, :"humedad"])
# Combinación entre enteros y literal
print(df_data.ix[:3,'humedad'])

nan
   benja     ciudad  co2  humedad
0    1.0   Valencia  NaN      NaN
1    NaN  Barcelona  NaN      NaN
2    NaN   Valencia  NaN      NaN
   benja     ciudad  co2  humedad
0    1.0   Valencia  NaN      NaN
1    NaN  Barcelona  NaN      NaN
2    NaN   Valencia  NaN      NaN
0     NaN
1     NaN
2     NaN
3    80.0
Name: humedad, dtype: float64


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  


In [36]:
print(frame)
# indexación con nombre de columna (por columnas)
frame['edad'] # --> Series

  Nacionalidad  nombre  edad profesion
0          NaN  Marisa    34       NaN
1          NaN   Laura    29       NaN
3     Alemania   Klaus    39      none


0    34
1    29
3    39
Name: edad, dtype: int64

In [37]:
# indexación con índice posicional (no permitido!). Esto busca columna.
frame.iloc[0,:-1]

Nacionalidad       NaN
nombre          Marisa
edad                34
Name: 0, dtype: object

In [38]:
# indexar por posición con 'iloc'
frame.iloc[0] # --> Series de la primera fila (qué marca los índices)

Nacionalidad       NaN
nombre          Marisa
edad                34
profesion          NaN
Name: 0, dtype: object

In [40]:
frame

Unnamed: 0,Nacionalidad,nombre,edad,profesion
0,,Marisa,34,
1,,Laura,29,
3,Alemania,Klaus,39,none


In [39]:
# indexar semántico con 'loc'
frame.loc['a'] # --> Series de la fila con índice 'a'

KeyError: 'a'

In [41]:
# ambos aceptan 'axis' como argumento (para buscar por fila [axis=1] o columna [axis=0])
frame.iloc(axis=1)[0] # --> todos los valores asignados a la primera columna 'Nacionalidad'
#frame.loc(axis=1)['Nacionalidad'] # --> preferible el equivalente frame['Nacionalidad']

0         NaN
1         NaN
3    Alemania
Name: Nacionalidad, dtype: object

In [42]:
# qué problema puede tener este fragmento?
frame = pd.DataFrame({"Name" : ['Carlos','Pedro'], "Age" : [34,22]}, index=[1,0])
frame

Unnamed: 0,Name,Age
1,Carlos,34
0,Pedro,22


In [43]:
# por defecto, pandas interpreta índice posicional --> error en frames
# cuando hay posible ambigüedad, utilizar loc y iloc
print('Primera fila\n')
print(frame.iloc[0])
print('\nElemento con index 0\n')
print(frame.loc[0])

Primera fila

Name    Carlos
Age         34
Name: 1, dtype: object

Elemento con index 0

Name    Pedro
Age        22
Name: 0, dtype: object


## Objeto Index de Pandas

In [44]:
# Contrucción de índices
ind = pd.Index([2, 3, 5, 7, 11])
# recuperar datos
print(ind[3])
print(ind[::2])

7
Int64Index([2, 5, 11], dtype='int64')


In [None]:
l = [1, 3]
l[1] = 55
# Son inmutables! No se modifican los datos. 
ind[3] = 8

## Slicing

In [45]:
d_and_d_characters = {'Name' : ['bundenth','theorin','barlok'], 'Strength' : [10,12,19], 'Wisdom' : [20,13,6]}
character_data = pd.DataFrame(d_and_d_characters, index=['a','b','c'])
print(character_data)
character_data[:-1]
character_data[1:2]

       Name  Strength  Wisdom
a  bundenth        10      20
b   theorin        12      13
c    barlok        19       6


Unnamed: 0,Name,Strength,Wisdom
b,theorin,12,13


In [46]:
# slicing con índice semántico
character_data[['Name','Strength']]

Unnamed: 0,Name,Strength
a,bundenth,10
b,theorin,12
c,barlok,19


In [53]:
#slicing con 'loc' e 'iloc'
character_data.iloc[1:]
character_data.loc[:'b']

Unnamed: 0,Name,Strength,Wisdom
b,theorin,12,13
c,barlok,19,6


¿Cómo filtrar filas y columnas? Por ejemplo, para todos los personajes, obtener 'Name' y 'Strength'

In [48]:
character_data[['Name', 'Strength']]

Unnamed: 0,Name,Strength
a,bundenth,10
b,theorin,12
c,barlok,19


In [49]:
# usando 'loc' para hacer slicing
character_data.loc[:,'Name':'Strength']

Unnamed: 0,Name,Strength
a,bundenth,10
b,theorin,12
c,barlok,19


In [50]:
# usando 'loc' para buscar específicamente filas y columnas
character_data.loc[ ['a','c'], ['Name','Wisdom'] ]

Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


In [51]:
# cómo harías lo mismo con 'iloc'?
character_data.iloc[[0,2],[0,2]]

Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


#### ¿Cómo obtendrías una lista de los personajes con el atributo Strength > 11?

In [52]:
# Como ejercicio, cómo listar los personajes con Strength > 15 o Wisdom > 11
serie=character_data[character_data['Strength']>15]
serie2=character_data[character_data['Wisdom']>11]
serie

Unnamed: 0,Name,Strength,Wisdom
c,barlok,19,6


# Cargar y guardar datos en pandas

In [None]:
# Guardar a csv
character_data.to_csv('d_d_characters.csv',sep=';') # sep por defecto: ','

In [None]:
loaded = pd.read_table('d_d_characters.csv',sep=';', index_col=0) # qué sucede si no se especifica index_col?

In [None]:
loaded

#### otros argumentos to_csv()
- na_rep='string' --> representar valores NaN en el archivo csv

#### otros argumentos read_table()
- na_values='string'


Pandas también ofrece funciones para grabar a otros formatos estándares: JSON, HDF5 o Excel en su [API](https://pandas.pydata.org/pandas-docs/stable/api.html#input-output).

# Ejemplo práctico en pandas
- [MovieLens dataset](https://grouplens.org/datasets/movielens/)
 - Reviews de películas
 - 1 millón de entradas
 - Datos demográficos de usuarios

In [None]:
import numpy as np
import pandas as pd
import zipfile # para descomprimir archivos zip
import urllib.request # para descargar de URL

# descargar MovieLens dataset
url = 'http://files.grouplens.org/datasets/movielens/ml-1m.zip'  
urllib.request.urlretrieve(url, 'm1-1m.zip')

In [None]:
# descomprimiendo archivo zip
with zipfile.ZipFile('m1-1m.zip', 'r') as zip: 
    print('Extracting all files...') 
    zip.extractall('movie_lens') # destinación
    print('Done!') 

In [None]:
# archivos creados
%ls "movie_lens/ml-1m"

In [None]:
users_dataset = pd.read_table('movie_lens/ml-1m/users.dat',sep='::',index_col=0, header=None)
users_dataset

In [None]:
# Varios problemas
# sin cabecera! primer valor se ha perdido
# las columnas no tienen nombres
# demasiados datos imprimidos!
pd.read_table?

In [None]:
# especificar nombres, cargar sin cabecera
users_dataset = pd.read_table('movie_lens/ml-1m/users.dat',sep='::',index_col=0,header=None,names=['UserID','Gender','Age','Occupation','Zip-code'])
users_dataset

In [None]:
# samplear la tabla 
users_dataset.sample(1)

In [None]:
users_dataset.head()
users_dataset.tail()

In [None]:
# información general sobre atributos numéricos
users_dataset.describe()

In [None]:
# incluir otros atributos (no todo tiene sentido)
users_dataset.describe(include='all')

In [None]:
# cuántos usuarios son mujeres (Gender='F')
print(len(users_dataset[users_dataset['Gender'] == 'F']))
print(len(users_dataset[users_dataset['Gender'] == 'M']))

In [None]:
# mostrar solo los menores de edad
under_age = users_dataset[users_dataset['Age'] < 18]
print(len(under_age))
under_age.sample(10)

filtrar edad incorrecta (míninimo 18)

In [None]:
mayores=users_dataset[users_dataset['Age']>18]
mayores.sample(5)
mayores.tail()
mayores.head()

In [None]:
import numpy as np
under_age['Age'] = np.nan
users_dataset[users_dataset['Age'] < 18] = under_age
users_dataset.head()


Agrupar datos por atributos

In [None]:
users_dataset.groupby(by='Age').describe()

Grabar la tabla modificada

In [None]:
# Cambiar el separador a ','
# Guardar NaN como 'null'
users_dataset.to_csv('ml-1m/users_processed.dat',sep=',',na_rep='null')

In [None]:
%pycat resources/ml-1m/users_processed.dat

# Ejercicios
- Hacer un análisis general de los otros dos archivos CSV en ml-1m ('movies.dat' y 'ratings.dat')
- Analizando el dataset ratings.dat, ¿hay algún usuario que no tenga ninguna review? ¿Cuántos tienen menos de 30 reviews?