## Estructuras de datos. Librería Pandas (I).

![logo](img/pandas-logo.png)

# Sumario
- Series y DataFrame
- Indexación, slicing
- Grabar y cargar a archivo
- MovieLens dataset 

# Pandas
- Librería (de facto estándar) para estructurar datos tabulares
- Multivariable (string, int, float, bool...)
- Dos clases de estructuras de datos:
  - Series (1 dimensión)
  - DataFrames (2+ dimensiones)

In [1]:
# librería externa
import pandas as pd
from pandas import Series, DataFrame
import warnings
warnings.filterwarnings("ignore")

# Series
- Datos unidimensionales (similar a NumPy)
- Elementos + índices modificables

In [2]:
countries = pd.Series(['Spain','Andorra','Gibraltar','Portugal','France'])
print(countries)

0        Spain
1      Andorra
2    Gibraltar
3     Portugal
4       France
dtype: object


In [3]:
# especificando el índice
countries = pd.Series (['Spain','Andorra','Gibraltar','Portugal','France'],
                       index=range(10,60,10))
print(countries)

10        Spain
20      Andorra
30    Gibraltar
40     Portugal
50       France
dtype: object


In [4]:
# los índices pueden ser de más tipos
football_cities = pd.Series(['Barcelona','Madrid','Valencia','Sevilla'], 
                            index=['a','b','c','d'])
print(football_cities)

a    Barcelona
b       Madrid
c     Valencia
d      Sevilla
dtype: object


In [5]:
# Atributos
football_cities.name = 'Ciudades con dos equipos en primera' # nombrar la Serie
football_cities.index.name = 'Id' # Describir los índices
print(football_cities)

Id
a    Barcelona
b       Madrid
c     Valencia
d      Sevilla
Name: Ciudades con dos equipos en primera, dtype: object


In [6]:
# acceso similar a NumPy o listas, según posición
print(football_cities[2])

# acceso a través del índice semántico
print(football_cities['c'])

print(football_cities['c'] == football_cities[2])

Valencia
Valencia
True


# Tratamiento similar a ndarray

In [7]:
# múltiple recolección de elementos
print(football_cities[ ['a','c'] ])
print(football_cities[ [0, 3] ])

Id
a    Barcelona
c     Valencia
Name: Ciudades con dos equipos en primera, dtype: object
Id
a    Barcelona
d      Sevilla
Name: Ciudades con dos equipos en primera, dtype: object


In [8]:
# slicing
print(football_cities[:'c']) # incluye ambos extremos con el indice semantico
print(football_cities[:2])

Id
a    Barcelona
b       Madrid
c     Valencia
Name: Ciudades con dos equipos en primera, dtype: object
Id
a    Barcelona
b       Madrid
Name: Ciudades con dos equipos en primera, dtype: object


In [10]:
#casting de una lista
lista = list(football_cities[:'c'])
print(lista)

['Barcelona', 'Madrid', 'Valencia']


In [11]:
# uso de masks para seleccionar
fibonacci = pd.Series([0, 1, 1, 2, 3, 5, 8, 13, 21])
mask = fibonacci > 10
print(mask)

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7     True
8     True
dtype: bool


In [12]:
print(fibonacci[mask])

7    13
8    21
dtype: int64


In [13]:
# aplicar funciones de numpy a la serie
import numpy as np

np.sum(fibonacci)

np.int64(54)

In [14]:
#filtrado con np.where
distances = pd.Series([12.1,np.nan,12.8,76.9,6.1,7.2])
# la función np.where devuelve un array con los valores que cumplen la condición
valid_distances = np.where(pd.notnull(distances),distances,0) # np.where(<condición>,<valor verdadero>,<valor falso>
print(valid_distances)

[12.1  0.  12.8 76.9  6.1  7.2]


### Iteración

In [15]:
# iterar sobre elementos (values)
for value in fibonacci:
    print('Value: ' + str(value))

# iterar sobre indices
for index in fibonacci.index:
    print('Index: ' + str(index))

Value: 0
Value: 1
Value: 1
Value: 2
Value: 3
Value: 5
Value: 8
Value: 13
Value: 21
Index: 0
Index: 1
Index: 2
Index: 3
Index: 4
Index: 5
Index: 6
Index: 7
Index: 8


In [16]:
# iterar sobre elementos e índices al mismo tiempo
for index, value in fibonacci.items():  #.iteritems()
    print('Index: ' + str(index) + '  Value: ' + str(value))

Index: 0  Value: 0
Index: 1  Value: 1
Index: 2  Value: 1
Index: 3  Value: 2
Index: 4  Value: 3
Index: 5  Value: 5
Index: 6  Value: 8
Index: 7  Value: 13
Index: 8  Value: 21


In [17]:
for index, value in zip(fibonacci.index, fibonacci):
    print('Index: ' + str(index) + '  Value: ' + str(value))  

Index: 0  Value: 0
Index: 1  Value: 1
Index: 2  Value: 1
Index: 3  Value: 2
Index: 4  Value: 3
Index: 5  Value: 5
Index: 6  Value: 8
Index: 7  Value: 13
Index: 8  Value: 21


## Series como diccionarios
- Interpretar el índice como clave
- Acepta operaciones para diccionarios

In [18]:
# crear una serie a partir de un diccionario
serie = pd.Series( { 'Carlos' : 100, 'Marcos': 98} )
print(serie.index)
print(serie.values)
print(serie)

Index(['Carlos', 'Marcos'], dtype='object')
[100  98]
Carlos    100
Marcos     98
dtype: int64


In [19]:
# añade y elimina elementos a través de índices
serie['Pedro'] = 12
del serie['Marcos']
print(serie)

Carlos    100
Pedro      12
dtype: int64


In [20]:
# query una serie
if 'Carlos' in serie:
    serie['Carlos'] = 2
    
print(serie)

Carlos     2
Pedro     12
dtype: int64


## Operaciones entre series

In [21]:
# suma de dos series
# suma de valores con el mismo índice (NaN si no aparece en ambas)
serie1 = pd.Series([10,20,30,40],index=range(4) )
serie2 = pd.Series([1,2,3],index=range(3) )
print(serie1 + serie2)

0    11.0
1    22.0
2    33.0
3     NaN
dtype: float64


In [22]:
# resta de series (similar a la suma)
print(serie1 - serie2)

0     9.0
1    18.0
2    27.0
3     NaN
dtype: float64


In [23]:
# operaciones de pre-filtrado
result = serie1 + serie2
print(pd.isnull(result))
result[pd.isnull(result)] = 0 # mask con isnull()
print(result)

0    False
1    False
2    False
3     True
dtype: bool
0    11.0
1    22.0
2    33.0
3     0.0
dtype: float64


###  Diferencias entre Pandas Series y diccionario
* Diccionario, es una estructura que relaciona las claves y los valores de forma arbitraria.
* Series, estructura de forma estricta listas de valores con listas de índice asignado en la posición.
* Series, es más eficiente para ciertas operaciones que los dicionarios.
* En las Series los valores de entrada pueden ser listas o Numpy arrays.
* En Series los índices semánticos pueden ser integers o caracteres, en los valores igual.
* Series se podría entender entre una lista y un diccionario Python, pero es de una dimensión.

# DataFrame
- Datos tabulares (filas x columnas)
- Columnas: Series con índices compartidos

<img src="img/pandas-dataframe.png" width="600">

In [22]:
import pandas as pd
import numpy as np

In [24]:
# crear un DataFrame a partir de un diccionario de elementos de la misma longitud
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"], 
                "Edad" : [34,29,12] }
# las claves identifican columnas
frame = pd.DataFrame(diccionario)
display(frame)

Unnamed: 0,Nombre,Edad
0,Marisa,34
1,Laura,29
2,Manuel,12


In [35]:
# crear un DataFrame a partir de un diccionario de elementos de la misma longitud
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"], 
                "Edad" : [34,29,12] }
# las claves identifican columnas
frame = pd.DataFrame(diccionario, index = ['a', 'b', 'c'])
display(frame)

Unnamed: 0,Nombre,Edad
a,Marisa,34
b,Laura,29
c,Manuel,12


In [26]:
# además de 'index', el parámetro 'columns' especifica el número y orden de las columnas
frame = pd.DataFrame(diccionario, columns = ['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,
2,,Manuel,12,


In [27]:
# acceso a columnas
nombres = frame['Nombre']
display(nombres)
type(nombres)

0    Marisa
1     Laura
2    Manuel
Name: Nombre, dtype: object

pandas.core.series.Series

In [28]:
#siempre que el nombre de la columna lo permita (espacios, ...)
nombres = frame.Nombre
display(nombres)
type(nombres)

0    Marisa
1     Laura
2    Manuel
Name: Nombre, dtype: object

pandas.core.series.Series

In [29]:
# acceso al primer nombre del DataFrame frame??
print(frame['Nombre'][0])
print(frame.Nombre[0])
print(nombres[0])

Marisa
Marisa
Marisa


### Formas de crear un DataFrame
* Con una Serie de pandas
* Lista de diccionarios
* Dicionario de Series de Pandas
* Con un array de Numpy de dos dimensiones
* Con array estructurado de Numpy 

In [30]:
# Usando una serie para crear un DF
data = pd.DataFrame (pd.Series([1,2,3,4]))
data

Unnamed: 0,0
0,1
1,2
2,3
3,4


In [10]:
data = pd.DataFrame (pd.Series([1,2,3,4],[10,20,30,40]),columns=['Valores']) # índices
data

Unnamed: 0,Valores
10,1
20,2
30,3
40,4


In [20]:
col1 = pd.Series([1,2,3,4])
col2 = pd.Series([10,20,30,40])
matriz ={ 'Col1' : col1, 'Col2' : col2 } # diccionario
data = pd.DataFrame(matriz) # filas y columnas
data

Unnamed: 0,Col1,Col2
0,1,10
1,2,20
2,3,30
3,4,40


In [31]:
# Usando lista de diccionarios
persona1 = {"Nombre": "Marisa","Apellido":"Perez","Edad":15}
persona2 = {"Nombre": "Juan","Apellido":"Martin","Edad":20}
persona3 = {"Nombre": "Ramon","Apellido":"Sanchez","Edad":69}
personas = pd.DataFrame([persona1,persona2,persona3])
personas

Unnamed: 0,Nombre,Apellido,Edad
0,Marisa,Perez,15
1,Juan,Martin,20
2,Ramon,Sanchez,69


In [32]:
personasConIndice = pd.DataFrame([persona1,persona2,persona3], index=['a','b','c'])
personasConIndice

Unnamed: 0,Nombre,Apellido,Edad
a,Marisa,Perez,15
b,Juan,Martin,20
c,Ramon,Sanchez,69


In [19]:
# Diccionario de series de Pandas

diccio = ({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
notas = Series(diccio)
notas

Matemáticas     6.0
Economía        4.5
Programación    8.5
dtype: float64

In [20]:
calificaciones = pd.DataFrame(notas)
calificaciones

Unnamed: 0,0
Matemáticas,6.0
Economía,4.5
Programación,8.5


In [22]:
# Crear dataframe a partir de array de Numpy
import numpy as np
array = np.random.randn(4, 3)
array

array([[ 1.23855854,  0.73094093,  1.85901927],
       [-0.09233709, -0.1435708 , -0.94461243],
       [-0.22383761, -0.27059857,  0.81248573],
       [ 0.15500018,  1.72469697, -0.56022741]])

In [23]:
df = pd.DataFrame(np.random.randn(4, 3), columns=['a', 'b', 'c'])
df

Unnamed: 0,a,b,c
0,0.700254,0.065597,1.458776
1,-0.593532,-1.1426,0.432103
2,1.811079,1.039241,0.501358
3,-1.259731,-0.702888,0.822514


In [25]:
# a partir de array Numpy estructurado
datos = np.array([[2,3,4],
                  [5,6,7],
                  [8,9,10]])
datos_df =pd.DataFrame(datos)

print(datos_df)
datos_df

   0  1   2
0  2  3   4
1  5  6   7
2  8  9  10


Unnamed: 0,0,1,2
0,2,3,4
1,5,6,7
2,8,9,10


In [32]:
# Crear un dataframe con números aleatorios de 4 Columnas y 5 Filas
# Crear listas rápidamente usando la función split 'A B C D E'.split()
# Esto evita tener que escribir repetidamente las comas

df = pd.DataFrame(np.random.randn(6,4), # 6 filas, 4 columnas
                  index='A B C D E F'.split(), # índices/etiquetas filas
                  columns='W X Y Z'.split() ) # columnas
df 

Unnamed: 0,W,X,Y,Z
A,0.23431,0.557859,-0.729418,0.917281
B,-0.747108,-0.151848,1.153793,-1.197957
C,-1.452687,3.276811,1.188434,0.871472
D,0.718764,0.333847,-0.752573,-0.688583
E,1.035514,1.391175,-0.792888,-0.446024
F,-0.603811,0.060278,0.886645,-1.462438


## Modificar DataFrames

In [36]:
# añadir columnas
frame = pd.DataFrame(diccionario,columns=['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])
frame['Direccion'] = 'Desconocida' # añadir una columna con un valor constante
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Marisa,34,,Desconocida
1,,Laura,29,,Desconocida
2,,Manuel,12,,Desconocida


In [37]:
# añadir fila (requiere todos los valores)
user_2 = ['Alemania','Klaus',39, 'none', 'Desconocida']
# user_2 = ['Alemania', 'none', 'Desconocida']
frame.loc[len(frame)] = user_2
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Marisa,34,,Desconocida
1,,Laura,29,,Desconocida
2,,Manuel,12,,Desconocida
3,Alemania,Klaus,39,none,Desconocida


In [38]:
# eliminar fila (similar a Series)
frame = pd.DataFrame(diccionario,columns=['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])

# frame = frame.drop(2) # por qué necesitamos reasignar el frame?
# display(frame)

frame.drop(2, inplace = True) # elimina la fila 2. inplace = True modifica el DataFrame original!!!
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,


In [35]:
#eliminar columna
del frame['Profesion'] # elimina la columna 'Profesion' del DataFrame original
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad
0,,Marisa,34
1,,Laura,29


In [32]:
# acceder a la traspuesta (como una matriz)
display(frame.T)

Unnamed: 0,0,1
Nacionalidad,,
Nombre,Marisa,Laura
Edad,34,29


## Iteración

In [39]:
# iteración sobre el DataFrame?
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"], 
                "Edad" : [34,29,12] }
frame = pd.DataFrame(diccionario, columns=[1, 'Nombre', 'Edad', 'Profesion'])

for a in frame:
    print(a) # qué es 'a'? Nombre de la columna
    print(type(a)) # es el tipo del nombre de la columna

1
<class 'int'>
Nombre
<class 'str'>
Edad
<class 'str'>
Profesion
<class 'str'>


In [40]:
frame

Unnamed: 0,1,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,
2,,Manuel,12,


In [41]:
# iteracion sobre filas
for value in frame.values:
    print(value)
    print(type(value))

[nan 'Marisa' 34 nan]
<class 'numpy.ndarray'>
[nan 'Laura' 29 nan]
<class 'numpy.ndarray'>
[nan 'Manuel' 12 nan]
<class 'numpy.ndarray'>


In [42]:
# iterar sobre filas y luego sobre cada valor?
for values in frame.values:
    for value in values: 
        print(value)
        print(type(value))

nan
<class 'float'>
Marisa
<class 'str'>
34
<class 'int'>
nan
<class 'float'>
nan
<class 'float'>
Laura
<class 'str'>
29
<class 'int'>
nan
<class 'float'>
nan
<class 'float'>
Manuel
<class 'str'>
12
<class 'int'>
nan
<class 'float'>


## Indexación y slicing con DataFrames

In [40]:
d1 = {'ciudad':'Valencia', 'temperatura':10, 'o2':1}
d2 = {'ciudad':'Barcelona', 'temperatura':8}
d3 = {'ciudad':'Valencia', 'temperatura':9}
d4 = {'ciudad':'Madrid', 'temperatura':10, 'humedad':80}
d5 = {'ciudad':'Sevilla', 'temperatura':15, 'humedad':50, 'co2':6}
d6 = {'ciudad':'Valencia', 'temperatura':10, 'humedad':90, 'co2':10}
ls_data = [d1, d2, d3, d4, d5, d6]  # lista de diccionarios
df_data = pd.DataFrame(ls_data, index = list('abcdef'))
display(df_data)

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [41]:
# Acceso a un valor concreto por indice posicional [row, col]
print(df_data.iloc[3, 1])


10


In [42]:
# # Acceso a todos los valores hasta un índice por enteros
display(df_data.iloc[:3,:4]) # filas 0, 1, 2 y columnas 0, 1, 2, 3

Unnamed: 0,ciudad,temperatura,o2,humedad
a,Valencia,10,1.0,
b,Barcelona,8,,
c,Valencia,9,,


In [45]:
# # Acceso a datos de manera explícita, indice semantico (se incluyen)
display(df_data.loc['b', 'temperatura']) # fila 'd' y columna 'temperatura'
print(df_data.loc['b', 'temperatura'])

np.int64(8)

8


In [47]:
# Acceso a un valor concreto por indice posicional [row, col]
# print(df_data.iloc[3, 1])

# # Acceso a todos los valores hasta un índice por enteros
# display(df_data.iloc[:3,:4])

# # Acceso a datos de manera explícita, indice semantico (se incluyen)
# display(df_data.loc['d', 'temperatura'])
# display(df_data.loc[:'c', :'o2'])
# display(df_data.loc[:'c', 'temperatura':'o2'])

display(df_data.loc[:, ['ciudad','o2']])

Unnamed: 0,ciudad,o2
a,Valencia,1.0
b,Barcelona,
c,Valencia,
d,Madrid,
e,Sevilla,
f,Valencia,


In [47]:
# indexación con nombre de columna (por columnas)
print(df_data['ciudad']) # --> Series

display(df_data[['ciudad', 'o2']])

a     Valencia
b    Barcelona
c     Valencia
d       Madrid
e      Sevilla
f     Valencia
Name: ciudad, dtype: object


Unnamed: 0,ciudad,o2
a,Valencia,1.0
b,Barcelona,
c,Valencia,
d,Madrid,
e,Sevilla,
f,Valencia,


In [49]:
# indexación con índice posicional (no permitido!). Esto busca columna.
print(df_data[0]) 

KeyError: 0

In [51]:
# indexar por posición con 'iloc'
print(df_data.iloc[0]) # --> Series de la primera fila (qué marca los índices)

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object


In [52]:
# indexar semántico con 'loc'
df_data.loc['a'] # --> Series de la fila con índice 'a'

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object

In [49]:
# indexar semántico con 'loc'
df_data.loc[:'b'] # --> DataFrame hasta fila con índice 'b'

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,


In [52]:
# si se modifica una porcion del dataframe se modifica el dataframe original (referencia)
serie = df_data.loc['a'] # referencia a la primera fila y se almacena en la variable "serie"
serie[2] = 3000 # modifica el valor de la serie
display(df_data) # se ha modificado el DataFrame original

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  serie[2] = 3000
  serie[2] = 3000


Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [54]:
serie

ciudad         Valencia
temperatura          10
o2                 3000
humedad             NaN
co2                 NaN
Name: a, dtype: object

In [55]:
df_data.loc['a']= serie # se modifica el DataFrame original
display(df_data) # se ha modificado el DataFrame original

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,3000.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [56]:


# copiar data frame
df_2 = df_data.copy()
df_2

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,3000.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [58]:
# ambos aceptan 'axis' como argumento
df_data.iloc(axis=1)[0] # --> todos los valores asignados a la primera columna 'ciudad'
# df_data.loc(axis=1)['ciudad'] # --> preferible el equivalente frame['ciudad']

a     Valencia
b    Barcelona
c     Valencia
d       Madrid
e      Sevilla
f     Valencia
Name: ciudad, dtype: object

In [59]:
# qué problema puede tener este fragmento?
frame = pd.DataFrame({"Name" : ['Carlos','Pedro'], "Age" : [34,22]}, index=[1,0])
display(frame)

Unnamed: 0,Name,Age
1,Carlos,34
0,Pedro,22


In [60]:
# por defecto, pandas interpreta índice posicional --> error en frames
# cuando hay posible ambigüedad, utilizar loc y iloc
print('Primera fila\n')
print(frame.iloc[0]) # primera fila
print('\nElemento con index 0\n')
print(frame.loc[0]) # elemento con índice 0, no la primera fila

Primera fila

Name    Carlos
Age         34
Name: 1, dtype: object

Elemento con index 0

Name    Pedro
Age        22
Name: 0, dtype: object


## Objeto Index de Pandas

In [61]:
# Contrucción de índices
ind = pd.Index([2, 3, 5, 7, 11])
# recuperar datos
print(ind[3])
print(ind[::2]) # slicing con paso 2 (índices pares: 0, 2, 4)

7
Index([2, 5, 11], dtype='int64')


In [62]:
# Son inmutables! No se modifican los datos. 
ind[3] = 8

TypeError: Index does not support mutable operations

## Slicing

In [63]:
# slice por filas
d_and_d_characters = {'Name' : ['bundenth','theorin','barlok'], 'Strength' : [10,12,19], 'Wisdom' : [20,13,6]}
character_data = pd.DataFrame(d_and_d_characters, index=['a','b','c'])
display(character_data)
display(character_data[:-1])
display(character_data[1:2])

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13
c,barlok,19,6


Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13


Unnamed: 0,Name,Strength,Wisdom
b,theorin,12,13


In [65]:
# slicing para columnas
display(character_data[['Name','Strength']])

Unnamed: 0,Name,Strength
a,bundenth,10
b,theorin,12
c,barlok,19


In [66]:
#slicing con 'loc' e 'iloc'
display(character_data.iloc[1:]) # slicing con 'iloc' (posicional). No incluye la primera fila
display(character_data.loc[:'b']) # slicing con 'loc' (semántico). Incluye la fila 'b'

Unnamed: 0,Name,Strength,Wisdom
b,theorin,12,13
c,barlok,19,6


Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13


¿Cómo filtrar filas y columnas? Por ejemplo, para todos los personajes, obtener 'Name' y 'Strength'

In [67]:
# usando 'loc' para hacer slicing
display(character_data.loc[:,'Name':'Strength']) # slicing. El primer parámetro es para filas (seleccionamos todas), el segundo para columnas (seleccionamos de 'Name' a 'Strength')

Unnamed: 0,Name,Strength
a,bundenth,10
b,theorin,12
c,barlok,19


In [68]:
# usando 'loc' para buscar específicamente filas y columnas
display(character_data.loc[ ['a','c'], ['Name','Wisdom'] ])

Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


In [10]:
# lo mismo con 'iloc'?
display(character_data.iloc[[0,2],[0,2]])
display(character_data.iloc[[0,-1],[0,-1]])

Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


In [11]:
# Filtrado de datos
# lista de los personajes con el atributo Strength > 11
display(character_data.loc[character_data['Strength'] > 11, ['Name', 'Strength']]) # seleccionamos las filas que cumplen la condición y las columnas 'Name' y 'Strength'

Unnamed: 0,Name,Strength
b,theorin,12
c,barlok,19


In [12]:
# listar los personajes con Strength > 15 o Wisdom > 15
display(character_data.loc[(character_data['Strength'] > 15) | (character_data['Wisdom'] > 15)])

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
c,barlok,19,6


# Cargar y guardar datos en pandas

In [None]:
# Guardar a csv
import os
ruta = os.path.join("res" ,"o_d_d_characters.csv") # ruta del archivo. Usamos os.path.join para que sea compatible con todos los sistemas operativos y para concatenar las rutas
character_data.to_csv(ruta, sep=';') # separador por defecto: ','

In [None]:
loaded = pd.read_csv(ruta, sep=';')
display(loaded)

In [None]:
loaded = pd.read_csv(ruta, sep=';', index_col = 0)
display(loaded)

#### otros argumentos to_csv()
- na_rep='string' --> representar valores NaN en el archivo csv

#### otros argumentos read_csv()
- na_values='string'


Pandas también ofrece funciones para leer/guardar a otros formatos estándares: JSON, HDF5 o Excel en su [API](https://pandas.pydata.org/pandas-docs/stable/reference/io.html)

# Ejemplo práctico en pandas
- [MovieLens dataset](https://grouplens.org/datasets/movielens/)
 - Reviews de películas
 - 1 millón de entradas
 - Datos demográficos de usuarios

In [69]:
import numpy as np
import pandas as pd
import zipfile # para descomprimir archivos zip
import urllib.request # para descargar de URL
import os

In [70]:
# descargar MovieLens dataset
url = 'http://files.grouplens.org/datasets/movielens/ml-1m.zip'  
ruta = os.path.join("res", "ml-1m.zip") # debemos tener el directorio 'res' creado !!!
urllib.request.urlretrieve(url, ruta)

('res/ml-1m.zip', <http.client.HTTPMessage at 0x7f05000dc9d0>)

In [71]:
# descomprimiendo archivo zip
ruta_ext = os.path.join("res")
with zipfile.ZipFile(ruta, 'r') as zip: 
    print('Extracting all files...') 
    zip.extractall(ruta_ext) # destinación
    print('Done!') 
    
# take a look at readme y revisar formatos

Extracting all files...
Done!


In [72]:
ruta_users = os.path.join("res", "ml-1m", "users.dat")

users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0, engine='python')
display(users_dataset)

Unnamed: 0_level_0,F,1.1,10,48067
1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,02460
5,M,25,20,55455
6,F,50,9,55117
...,...,...,...,...
6036,F,25,15,32603
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,01060


In [73]:
# Varios problemas
# sin cabecera! primer valor se ha perdido
# las columnas no tienen nombres
pd.read_csv? # para ver la documentación de la función 'read_csv'

[0;31mSignature:[0m
[0mpd[0m[0;34m.[0m[0mread_csv[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mfilepath_or_buffer[0m[0;34m:[0m [0;34m'FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0;34m*[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msep[0m[0;34m:[0m [0;34m'str | None | lib.NoDefault'[0m [0;34m=[0m [0;34m<[0m[0mno_default[0m[0;34m>[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mdelimiter[0m[0;34m:[0m [0;34m'str | None | lib.NoDefault'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mheader[0m[0;34m:[0m [0;34m"int | Sequence[int] | None | Literal['infer']"[0m [0;34m=[0m [0;34m'infer'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mnames[0m[0;34m:[0m [0;34m'Sequence[Hashable] | None | lib.NoDefault'[0m [0;34m=[0m [0;34m<[0m[0mno_default[0m[0;34m>[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mindex_col[0m[0;34m:[0m [0;34m'IndexLabel | Literal[False] | None'[0m [0

In [74]:
# especificar nombres, cargar sin cabecera
users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0,
    header=None, names=['UserID','Gender','Age','Occupation','Zip-code'], engine='python')
display(users_dataset)

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,02460
5,M,25,20,55455
...,...,...,...,...
6036,F,25,15,32603
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,01060


In [75]:
# samplear la tabla 
display(users_dataset.sample(10)) # muestra 10 filas aleatorias

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1456,M,25,2,98074
3472,M,25,6,33156
4167,M,25,20,22032
786,M,25,0,55987
4527,M,18,0,38111
3205,F,35,16,80304
4265,M,25,12,3060
853,M,25,17,55447
432,M,45,16,55306
1483,M,18,4,54481


In [76]:
# samplear la cabeza
display(users_dataset.head(4))

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,2460


In [77]:
# samplear la cola
display(users_dataset.tail(4))

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,1060
6040,M,25,6,11106


In [78]:
# tipos de datos sobre las columnas
users_dataset.dtypes

Gender        object
Age            int64
Occupation     int64
Zip-code      object
dtype: object

In [79]:
display(users_dataset[users_dataset['Zip-code'].str.len() > 5]) # seleccionamos las filas que cumplen la condición cuya longitud del código postal es mayor que 5

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
161,M,45,16,98107-2117
233,F,45,20,37919-4204
293,M,56,1,55337-4056
458,M,50,16,55405-2546
506,M,25,16,55103-1006
...,...,...,...,...
5682,M,18,0,23455-4959
5904,F,45,12,954025
5925,F,25,0,90035-4444
5967,M,50,16,73069-5429


In [80]:
# información general sobre atributos numéricos
display(users_dataset.describe())

Unnamed: 0,Age,Occupation
count,6040.0,6040.0
mean,30.639238,8.146854
std,12.895962,6.329511
min,1.0,0.0
25%,25.0,3.0
50%,25.0,7.0
75%,35.0,14.0
max,56.0,20.0


In [81]:
users_dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6040 entries, 1 to 6040
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Gender      6040 non-null   object
 1   Age         6040 non-null   int64 
 2   Occupation  6040 non-null   int64 
 3   Zip-code    6040 non-null   object
dtypes: int64(2), object(2)
memory usage: 235.9+ KB


In [82]:
# incluir otros atributos (no todo tiene sentido)
display(users_dataset.describe(include='all')) 

Unnamed: 0,Gender,Age,Occupation,Zip-code
count,6040,6040.0,6040.0,6040.0
unique,2,,,3439.0
top,M,,,48104.0
freq,4331,,,19.0
mean,,30.639238,8.146854,
std,,12.895962,6.329511,
min,,1.0,0.0,
25%,,25.0,3.0,
50%,,25.0,7.0,
75%,,35.0,14.0,


In [83]:
# cuántos usuarios son mujeres (Gender='F')
len(users_dataset[users_dataset['Gender'] == 'F'])

# select count(*) from users_dataset where users_dataset.Gender = 'F'

1709

In [86]:
# mostrar solo los menores de edad 
under_age = users_dataset[users_dataset['Age'] < 18] # seleccionamos las filas cuyo valor de 'Age' es menor que 19
print(len(under_age))
display(under_age.sample(10))

222


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
19,M,1,10,48073
1182,M,1,10,91326
2285,F,1,10,13090
2467,M,1,10,44224
4087,M,1,4,63376
5525,F,1,10,55311
5243,M,1,10,54220
5118,M,1,10,95123
5420,F,1,19,14850
5296,F,1,0,27245


In [87]:
# filtrar edad incorrecta (míninimo 18)
under_age.loc['Age'] = np.nan
display(under_age.head())

users_dataset[users_dataset['Age'] < 18] = under_age
display(users_dataset.head())

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  under_age.loc['Age'] = np.nan


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1.0,10.0,48067
19,M,1.0,10.0,48073
51,F,1.0,10.0,10562
75,F,1.0,10.0,1748
86,F,1.0,10.0,54467


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,2460
5,M,25,20,55455


In [88]:
# Agrupar datos por atributos
display(users_dataset.groupby(by='Age').describe()) # agrupamos por 'Age' y mostramos estadísticas descriptivas de cada grupo

Unnamed: 0_level_0,Occupation,Occupation,Occupation,Occupation,Occupation,Occupation,Occupation,Occupation
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Age,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1,222.0,9.009009,4.382184,0.0,10.0,10.0,10.0,19.0
18,1103.0,6.666364,5.873533,0.0,4.0,4.0,10.5,20.0
25,2096.0,8.159828,6.48661,0.0,2.0,7.0,14.0,20.0
35,1193.0,8.804694,6.459703,0.0,2.0,7.0,15.0,20.0
45,550.0,8.294545,6.600254,0.0,1.0,7.0,15.0,20.0
50,496.0,8.538306,6.368368,0.0,2.0,7.0,14.0,20.0
56,380.0,9.078947,6.13817,0.0,2.0,12.0,13.0,20.0


In [89]:
# Grabar la tabla modificada
# Cambiar el separador a ','
# Guardar NaN como 'null'
ruta_output = os.path.join('res', 'ml-1m', 'o_users_processed.dat') # ruta de salida del archivo con nombre 'o_users_processed.dat'
users_dataset.to_csv(ruta_output, sep=',',na_rep='null')

In [109]:
!cat ./res/o_users_processed.dat # muestra el contenido del archivo


UserID,Gender,Age,Occupation,Zip-code
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,02460
5,M,25,20,55455
6,F,50,9,55117
7,M,35,1,06810
8,M,25,12,11413
9,M,25,17,61614
10,F,35,1,95370
11,F,25,1,04093
12,M,25,12,32793
13,M,45,1,93304
14,M,35,0,60126
15,M,25,7,22903
16,F,35,0,20670
17,M,50,1,95350
18,F,18,3,95825
19,M,1,10,48073
20,M,25,14,55113
21,M,18,16,99353
22,M,18,15,53706
23,M,35,0,90049
24,F,25,7,10023
25,M,18,4,01609
26,M,25,7,23112
27,M,25,11,19130
28,F,25,1,14607
29,M,35,7,33407
30,F,35,7,19143
31,M,56,7,06840
32,F,25,0,19355
33,M,45,3,55421
34,F,18,0,02135
35,M,45,1,02482
36,M,25,3,94123
37,F,25,9,66212
38,F,18,4,02215
39,M,18,4,61820
40,M,45,0,10543
41,F,18,4,15116
42,M,25,8,24502
43,M,25,12,60614
44,M,45,17,98052
45,F,45,16,94110
46,M,18,19,75602
47,M,18,4,94305
48,M,25,4,92107
49,M,18,12,77084
50,F,25,2,98133
51,F,1,10,10562
52,M,18,4,72212
53,M,25,0,96931
54,M,50,1,56723
55,F,35,12,55303
56,M,35,20,60440
57,M,18,19,30350
58,M,25,2,30303
59,F,50,1,55413
60,M,50,1

# Ejercicios
- Hacer un análisis general de los otros dos archivos CSV en ml-1m ('movies.dat' y 'ratings.dat')
- Analizando el dataset ratings.dat, ¿hay algún usuario que no tenga ninguna review? ¿Cuántos tienen menos de 30 reviews?

## <img src="img/by-nc.png" width="200">