## Estructuras de datos. Librería Pandas (I).

![logo](img/pandas-logo.png)

# Sumario
- Series y DataFrame
- Indexación, slicing
- Grabar y cargar a archivo
- MovieLens dataset 

# Pandas
- Librería (de facto estándar) para estructurar datos tabulares
- Multivariable (string, int, float, bool...)
- Dos clases de estructuras de datos:
  - Series (1 dimensión)
  - DataFrames (2+ dimensiones)

In [60]:
# librería externa
import pandas as pd
from pandas import Series, DataFrame
import warnings
warnings.filterwarnings("ignore")

# Series
- Datos unidimensionales (similar a NumPy)
- Elementos + índices modificables

In [61]:
countries = pd.Series(['Spain','Andorra','Gibraltar','Portugal','France'])
print(countries)

0        Spain
1      Andorra
2    Gibraltar
3     Portugal
4       France
dtype: object


In [62]:
# especificando el índice
countries = pd.Series (['Spain','Andorra','Gibraltar','Portugal','France'],
                       index=range(10,35,5))
print(countries)

10        Spain
15      Andorra
20    Gibraltar
25     Portugal
30       France
dtype: object


In [63]:
# los índices pueden ser de más tipos
football_cities = pd.Series(['Barcelona','Madrid','Valencia','Sevilla'], 
                            index=['a','b','c','d'])
print(football_cities)

a    Barcelona
b       Madrid
c     Valencia
d      Sevilla
dtype: object


In [64]:
# Atributos
football_cities.name = 'Ciudades con dos equipos en primera' # nombrar la Serie
football_cities.index.name = 'Id' # Describir los índices
print(football_cities)

Id
a    Barcelona
b       Madrid
c     Valencia
d      Sevilla
Name: Ciudades con dos equipos en primera, dtype: object


In [65]:
# acceso similar a NumPy o listas, según posición
print(football_cities[2])

# acceso a través del índice semántico
print(football_cities['c'])

print(football_cities['c'] == football_cities[2])

Valencia
Valencia
True


# Tratamiento similar a ndarray

In [66]:
# múltiple recolección de elementos
print(football_cities[ ['a','c'] ])
print(football_cities[ [0, 3] ])

Id
a    Barcelona
c     Valencia
Name: Ciudades con dos equipos en primera, dtype: object
Id
a    Barcelona
d      Sevilla
Name: Ciudades con dos equipos en primera, dtype: object


In [67]:
# slicing
print(football_cities[:'c']) # incluye ambos extremos con el indice semantico
print(football_cities[:2])

Id
a    Barcelona
b       Madrid
c     Valencia
Name: Ciudades con dos equipos en primera, dtype: object
Id
a    Barcelona
b       Madrid
Name: Ciudades con dos equipos en primera, dtype: object


In [68]:
#casting de una lista
lista = list(football_cities[:'c'])
print(lista)

['Barcelona', 'Madrid', 'Valencia']


In [69]:
# uso de masks para seleccionar
fibonacci = pd.Series([0, 1, 1, 2, 3, 5, 8, 13, 21])
mask = fibonacci > 10
print(mask)

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7     True
8     True
dtype: bool


In [70]:
print(fibonacci[mask])

7    13
8    21
dtype: int64


In [71]:
# aplicar funciones de numpy a la serie
import numpy as np

print(np.sum(fibonacci))

54


In [72]:
#filtrado con np.where
distances = pd.Series([12.1,np.nan,12.8,76.9,6.1,7.2])
# la función np.where devuelve un array con los valores que cumplen la condición
valid_distances = np.where(pd.notnull(distances),distances,0) # np.where(<condición>,<valor verdadero>,<valor falso>
print(valid_distances)

[12.1  0.  12.8 76.9  6.1  7.2]


### Iteración

In [73]:
# iterar sobre elementos (values)
for value in fibonacci:
    print('Value: ' + str(value))

# iterar sobre indices
for index in fibonacci.index:
    print('Index: ' + str(index))

Value: 0
Value: 1
Value: 1
Value: 2
Value: 3
Value: 5
Value: 8
Value: 13
Value: 21
Index: 0
Index: 1
Index: 2
Index: 3
Index: 4
Index: 5
Index: 6
Index: 7
Index: 8


In [74]:
# iterar sobre elementos e índices al mismo tiempo
for index, value in fibonacci.items():  #.iteritems()
    print('Index: ' + str(index) + '  Value: ' + str(value))

Index: 0  Value: 0
Index: 1  Value: 1
Index: 2  Value: 1
Index: 3  Value: 2
Index: 4  Value: 3
Index: 5  Value: 5
Index: 6  Value: 8
Index: 7  Value: 13
Index: 8  Value: 21


In [75]:
for index, value in zip(fibonacci.index, fibonacci):
    print('Index: ' + str(index) + '  Value: ' + str(value))  

Index: 0  Value: 0
Index: 1  Value: 1
Index: 2  Value: 1
Index: 3  Value: 2
Index: 4  Value: 3
Index: 5  Value: 5
Index: 6  Value: 8
Index: 7  Value: 13
Index: 8  Value: 21


## Series como diccionarios
- Interpretar el índice como clave
- Acepta operaciones para diccionarios

In [76]:
# crear una serie a partir de un diccionario
serie = pd.Series( { 'Carlos' : 100, 'Marcos': 98} )
print(serie.index)
print(serie.values)
print(serie)

Index(['Carlos', 'Marcos'], dtype='object')
[100  98]
Carlos    100
Marcos     98
dtype: int64


In [77]:
# añade y elimina elementos a través de índices
serie['Pedro'] = 12
del serie['Marcos']
print(serie)

Carlos    100
Pedro      12
dtype: int64


In [78]:
# query una serie
if 'Carlos' in serie:
    serie['Carlos'] = 2
    
print(serie)

Carlos     2
Pedro     12
dtype: int64


## Operaciones entre series

In [79]:
# suma de dos series
# suma de valores con el mismo índice (NaN si no aparece en ambas)
serie1 = pd.Series([10,20,30,40],index=range(4) )
serie2 = pd.Series([1,2,3],index=range(3) )
print(serie1 + serie2)

0    11.0
1    22.0
2    33.0
3     NaN
dtype: float64


In [80]:
# resta de series (similar a la suma)
print(serie1 - serie2)

0     9.0
1    18.0
2    27.0
3     NaN
dtype: float64


In [81]:
# operaciones de pre-filtrado
result = serie1 + serie2
print(pd.isnull(result))
result[pd.isnull(result)] = 0 # mask con isnull()
print(result)

0    False
1    False
2    False
3     True
dtype: bool
0    11.0
1    22.0
2    33.0
3     0.0
dtype: float64


###  Diferencias entre Pandas Series y diccionario
* Diccionario, es una estructura que relaciona las claves y los valores de forma arbitraria.
* Series, estructura de forma estricta listas de valores con listas de índice asignado en la posición.
* Series, es más eficiente para ciertas operaciones que los dicionarios.
* En las Series los valores de entrada pueden ser listas o Numpy arrays.
* En Series los índices semánticos pueden ser integers o caracteres, en los valores igual.
* Series se podría entender entre una lista y un diccionario Python, pero es de una dimensión.

# DataFrame
- Datos tabulares (filas x columnas)
- Columnas: Series con índices compartidos

<img src="img/pandas-dataframe.png" width="600">

In [82]:
import pandas as pd
import numpy as np

In [83]:
# crear un DataFrame a partir de un diccionario de elementos de la misma longitud
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"], 
                "Edad" : [34,29,12] }
# las claves identifican columnas
frame = pd.DataFrame(diccionario)
display(frame)

Unnamed: 0,Nombre,Edad
0,Marisa,34
1,Laura,29
2,Manuel,12


In [84]:
# crear un DataFrame a partir de un diccionario de elementos de la misma longitud
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"], 
                "Edad" : [34,29,12] }
# las claves identifican columnas
frame = pd.DataFrame(diccionario, index = ['a', 'b', 'c'])
display(frame)

Unnamed: 0,Nombre,Edad
a,Marisa,34
b,Laura,29
c,Manuel,12


In [85]:
# además de 'index', el parámetro 'columns' especifica el número y orden de las columnas
frame = pd.DataFrame(diccionario, columns = ['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,
2,,Manuel,12,


In [86]:
# acceso a columnas
nombres = frame['Nombre']
display(nombres)
type(nombres)

0    Marisa
1     Laura
2    Manuel
Name: Nombre, dtype: object

pandas.core.series.Series

In [87]:
#siempre que el nombre de la columna lo permita (espacios, ...)
nombres = frame.Nombre
display(nombres)
type(nombres)

0    Marisa
1     Laura
2    Manuel
Name: Nombre, dtype: object

pandas.core.series.Series

In [88]:
# acceso al primer nombre del DataFrame frame??
print(frame['Nombre'][0])
print(frame.Nombre[0])
print(nombres[0])

Marisa
Marisa
Marisa


### Formas de crear un DataFrame
* Con una Serie de pandas
* Lista de diccionarios
* Dicionario de Series de Pandas
* Con un array de Numpy de dos dimensiones
* Con array estructurado de Numpy 

In [89]:
# Usando una serie para crear un DF
import pandas as pd
data = pd.DataFrame (pd.Series([1,2,3,4]))
data

Unnamed: 0,0
0,1
1,2
2,3
3,4


In [90]:
data = pd.DataFrame (pd.Series([1,2,3,4],[10,20,30,40]),columns=['Valores']) # índices
data

Unnamed: 0,Valores
10,1
20,2
30,3
40,4


In [91]:
col1 = pd.Series([1,2,3,4])
col2 = pd.Series([10,20,30,40])
matriz ={ 'Col1' : col1, 'Col2' : col2 } # diccionario
data = pd.DataFrame(matriz) # filas y columnas
data

Unnamed: 0,Col1,Col2
0,1,10
1,2,20
2,3,30
3,4,40


In [92]:
# Usando lista de diccionarios
persona1 = {"Nombre": "Marisa","Apellido":"Perez","Edad":15, "email": "yo@miemail.com"}
persona2 = {"Nombre": "Juan","Apellido":"Martin","Edad":20}
persona3 = {"Nombre": "Ramon","Apellido":"Sanchez","Edad":69}
personas = pd.DataFrame([persona1,persona2,persona3])
personas

Unnamed: 0,Nombre,Apellido,Edad,email
0,Marisa,Perez,15,yo@miemail.com
1,Juan,Martin,20,
2,Ramon,Sanchez,69,


In [93]:
personasConIndice = pd.DataFrame([persona1,persona2,persona3], index=['a','b','c'])
personasConIndice

Unnamed: 0,Nombre,Apellido,Edad,email
a,Marisa,Perez,15,yo@miemail.com
b,Juan,Martin,20,
c,Ramon,Sanchez,69,


In [94]:
# Diccionario de series de Pandas
from pandas import Series
diccio = ({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
notas = Series(diccio)
notas

Matemáticas     6.0
Economía        4.5
Programación    8.5
dtype: float64

In [95]:
calificaciones = pd.DataFrame(notas)
calificaciones

Unnamed: 0,0
Matemáticas,6.0
Economía,4.5
Programación,8.5


In [96]:
# Crear dataframe a partir de array de Numpy
import numpy as np
array = np.random.randn(4, 3)
array

array([[-0.81783924,  0.78520111, -0.81809552],
       [ 1.23130028, -0.65188006,  0.72383298],
       [ 0.60001595, -0.06055252,  0.85620018],
       [ 0.40249675, -0.48184675, -0.22439759]])

In [97]:
df = pd.DataFrame(np.random.randn(4, 3), columns=['a', 'b', 'c'])
df

Unnamed: 0,a,b,c
0,1.103415,-1.724096,1.124385
1,-1.458801,0.923351,-0.218218
2,-2.101105,-2.684909,-0.19464
3,-0.14204,0.77742,-0.761703


In [98]:
# a partir de array Numpy estructurado
datos = np.array([[2,3,4],
                  [5,6,7],
                  [8,9,10]])
datos_df =pd.DataFrame(datos)

print(datos_df)
datos_df

   0  1   2
0  2  3   4
1  5  6   7
2  8  9  10


Unnamed: 0,0,1,2
0,2,3,4
1,5,6,7
2,8,9,10


In [99]:
# Crear un dataframe con números aleatorios de 4 Columnas y 5 Filas
# Crear listas rápidamente usando la función split 'A B C D E'.split()
# Esto evita tener que escribir repetidamente las comas

df = pd.DataFrame(np.random.randn(6,4), # 6 filas, 4 columnas
                  index='A B C D E F'.split(), # índices/etiquetas filas
                  columns='W X Y Z'.split() ) # columnas
df 

Unnamed: 0,W,X,Y,Z
A,0.673471,-1.580118,-1.189695,-1.256525
B,0.883041,0.155323,-0.698422,-0.739831
C,-0.124719,1.549879,0.89067,0.220754
D,-0.377559,-1.682152,0.29406,0.567316
E,-0.057611,0.600331,0.451493,0.221904
F,0.510092,-0.046281,-1.77508,0.838295


## Modificar DataFrames

In [100]:
# añadir columnas
frame = pd.DataFrame(diccionario,columns=['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])
frame['Direccion'] = 'Desconocida' # añadir una columna con un valor constante
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Marisa,34,,Desconocida
1,,Laura,29,,Desconocida
2,,Manuel,12,,Desconocida


In [101]:
# añadir fila (requiere todos los valores)
user_2 = ['Alemania','Klaus',39, 'none', 'Desconocida']
# user_2 = ['Alemania', 'none', 'Desconocida']
frame.loc[len(frame)] = user_2
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Marisa,34,,Desconocida
1,,Laura,29,,Desconocida
2,,Manuel,12,,Desconocida
3,Alemania,Klaus,39,none,Desconocida


In [102]:
# eliminar fila (similar a Series)
frame = pd.DataFrame(diccionario,columns=['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])

# frame = frame.drop(2) # por qué necesitamos reasignar el frame?
# display(frame)

frame.drop(2, inplace = True) # elimina la fila 2. inplace = True modifica el DataFrame original!!!
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,


In [103]:
#eliminar columna
del frame['Profesion'] # elimina la columna 'Profesion' del DataFrame original
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad
0,,Marisa,34
1,,Laura,29


In [104]:
# acceder a la traspuesta (como una matriz)
display(frame.T)


Unnamed: 0,0,1
Nacionalidad,,
Nombre,Marisa,Laura
Edad,34,29


## Iteración

In [105]:
# iteración sobre el DataFrame?
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"], 
                "Edad" : [34,29,12] }
frame = pd.DataFrame(diccionario, columns=[1, 'Nombre', 'Edad', 'Profesion'])

for a in frame:
    print(a) # qué es 'a'? Nombre de la columna
    print(type(a)) # es el tipo del nombre de la columna

1
<class 'int'>
Nombre
<class 'str'>
Edad
<class 'str'>
Profesion
<class 'str'>


In [106]:
frame

Unnamed: 0,1,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,
2,,Manuel,12,


In [107]:
# iteracion sobre filas
for value in frame.values:
    print(value)
    print(type(value))

[nan 'Marisa' 34 nan]
<class 'numpy.ndarray'>
[nan 'Laura' 29 nan]
<class 'numpy.ndarray'>
[nan 'Manuel' 12 nan]
<class 'numpy.ndarray'>


In [108]:
# iterar sobre filas y luego sobre cada valor?
for values in frame.values:
    for value in values: 
        print(value)
        print(type(value))

nan
<class 'float'>
Marisa
<class 'str'>
34
<class 'int'>
nan
<class 'float'>
nan
<class 'float'>
Laura
<class 'str'>
29
<class 'int'>
nan
<class 'float'>
nan
<class 'float'>
Manuel
<class 'str'>
12
<class 'int'>
nan
<class 'float'>


## Indexación y slicing con DataFrames

In [109]:
d1 = {'ciudad':'Valencia', 'temperatura':10, 'o2':1}
d2 = {'ciudad':'Barcelona', 'temperatura':8}
d3 = {'ciudad':'Valencia', 'temperatura':9}
d4 = {'ciudad':'Madrid', 'temperatura':10, 'humedad':80}
d5 = {'ciudad':'Sevilla', 'temperatura':15, 'humedad':50, 'co2':6}
d6 = {'ciudad':'Valencia', 'temperatura':10, 'humedad':90, 'co2':10}
ls_data = [d1, d2, d3, d4, d5, d6]  # lista de diccionarios
df_data = pd.DataFrame(ls_data, index = list('abcdef'))
display(df_data)

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [110]:
# Acceso a un valor concreto por indice posicional [row, col]
print(df_data.iloc[3, 1])


10


In [111]:
# # Acceso a todos los valores hasta un índice por enteros
display(df_data.iloc[:3,:4]) # filas 0, 1, 2 y columnas 0, 1, 2, 3

Unnamed: 0,ciudad,temperatura,o2,humedad
a,Valencia,10,1.0,
b,Barcelona,8,,
c,Valencia,9,,


In [112]:
# # Acceso a datos de manera explícita, indice semantico (se incluyen)
display(df_data.loc['b', 'temperatura']) # fila 'd' y columna 'temperatura'
print(df_data.loc['b', 'temperatura'])

np.int64(8)

8


In [113]:
# Acceso a un valor concreto por indice posicional [row, col]
# print(df_data.iloc[3, 1])

# # Acceso a todos los valores hasta un índice por enteros
# display(df_data.iloc[:3,:4])

# # Acceso a datos de manera explícita, indice semantico (se incluyen)
# display(df_data.loc['d', 'temperatura'])
# display(df_data.loc[:'c', :'o2'])
# display(df_data.loc[:'c', 'temperatura':'o2'])

display(df_data.loc[:, ['ciudad','o2']])

Unnamed: 0,ciudad,o2
a,Valencia,1.0
b,Barcelona,
c,Valencia,
d,Madrid,
e,Sevilla,
f,Valencia,


In [114]:
# indexación con nombre de columna (por columnas)
print(df_data['ciudad']) # --> Series

display(df_data[['ciudad', 'o2']])

a     Valencia
b    Barcelona
c     Valencia
d       Madrid
e      Sevilla
f     Valencia
Name: ciudad, dtype: object


Unnamed: 0,ciudad,o2
a,Valencia,1.0
b,Barcelona,
c,Valencia,
d,Madrid,
e,Sevilla,
f,Valencia,


In [115]:
# indexación con índice posicional (no permitido!). Esto busca columna.
print(df_data[0]) 

KeyError: 0

In [None]:
# indexar por posición con 'iloc'
print(df_data.iloc[0]) # --> Series de la primera fila (qué marca los índices)

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object


In [None]:
# indexar semántico con 'loc'
df_data.loc['a'] # --> Series de la fila con índice 'a'

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object

In [None]:
# indexar semántico con 'loc'
df_data.loc[:'b'] # --> DataFrame hasta fila con índice 'b'

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,


In [None]:
# si se modifica una porcion del dataframe se modifica el dataframe original (referencia)
serie = df_data.loc['a'] # referencia a la primera fila y se almacena en la variable "serie"
#serie[2] = 3000 # modifica el valor de la serie
serie.iloc[2]=3000
display(df_data) # se ha modificado el DataFrame original

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  serie.iloc[2]=3000


Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,3000.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [None]:
df_data

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,3000.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [None]:
serie

ciudad         Valencia
temperatura          10
o2                 3000
humedad             NaN
co2                 NaN
Name: a, dtype: object

In [None]:
df_data.loc['a']= serie # se modifica el DataFrame original
display(df_data) # se ha modificado el DataFrame original

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,3000.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [None]:


# copiar data frame
df_2 = df_data.copy()
df_2

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,3000.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [None]:
# ambos aceptan 'axis' como argumento
df_data.iloc(axis=1)[0] # --> todos los valores asignados a la primera columna 'ciudad'
# df_data.loc(axis=1)['ciudad'] # --> preferible el equivalente frame['ciudad']

a     Valencia
b    Barcelona
c     Valencia
d       Madrid
e      Sevilla
f     Valencia
Name: ciudad, dtype: object

In [None]:
# qué problema puede tener este fragmento?
frame = pd.DataFrame({"Name" : ['Carlos','Pedro'], "Age" : [34,22]}, index=[1,0])
display(frame)

Unnamed: 0,Name,Age
1,Carlos,34
0,Pedro,22


In [None]:
# por defecto, pandas interpreta índice posicional --> error en frames
# cuando hay posible ambigüedad, utilizar loc y iloc
print('Primera fila\n')
print(frame.iloc[0]) # primera fila
print('\nElemento con index 0\n')
print(frame.loc[0]) # elemento con índice 0, no la primera fila

Primera fila

Name    Carlos
Age         34
Name: 1, dtype: object

Elemento con index 0

Name    Pedro
Age        22
Name: 0, dtype: object


## Objeto Index de Pandas

In [None]:
# Contrucción de índices
ind = pd.Index([2, 3, 5, 7, 11])
# recuperar datos
print(ind[3])
print(ind[::2]) # slicing con paso 2 (índices pares: 0, 2, 4)

7
Index([2, 5, 11], dtype='int64')


In [None]:
# Son inmutables! No se modifican los datos. 
ind[3] = 8

TypeError: Index does not support mutable operations

## Slicing

In [None]:
# slice por filas
d_and_d_characters = {'Name' : ['bundenth','theorin','barlok'], 'Strength' : [10,12,19], 'Wisdom' : [20,13,6]}
character_data = pd.DataFrame(d_and_d_characters, index=['a','b','c'])
display(character_data)
display(character_data[:-1])
display(character_data[1:2])

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13
c,barlok,19,6


Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13


Unnamed: 0,Name,Strength,Wisdom
b,theorin,12,13


In [None]:
# slicing para columnas
display(character_data[['Name','Strength']])

Unnamed: 0,Name,Strength
a,bundenth,10
b,theorin,12
c,barlok,19


In [None]:
#slicing con 'loc' e 'iloc'
display(character_data.iloc[1:]) # slicing con 'iloc' (posicional). No incluye la primera fila
display(character_data.loc[:'b']) # slicing con 'loc' (semántico). Incluye la fila 'b'

Unnamed: 0,Name,Strength,Wisdom
b,theorin,12,13
c,barlok,19,6


Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13


¿Cómo filtrar filas y columnas? Por ejemplo, para todos los personajes, obtener 'Name' y 'Strength'

In [None]:
# usando 'loc' para hacer slicing
display(character_data.loc[:,'Name':'Strength']) # slicing. El primer parámetro es para filas (seleccionamos todas), el segundo para columnas (seleccionamos de 'Name' a 'Strength')

Unnamed: 0,Name,Strength
a,bundenth,10
b,theorin,12
c,barlok,19


In [None]:
# usando 'loc' para buscar específicamente filas y columnas
display(character_data.loc[ ['a','c'], ['Name','Wisdom'] ])

Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


In [None]:
# lo mismo con 'iloc'?
display(character_data.iloc[[0,2],[0,2]])
display(character_data.iloc[[0,-1],[0,-1]])

Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


In [None]:
# Filtrado de datos
# lista de los personajes con el atributo Strength > 11
display(character_data.loc[character_data['Strength'] > 11, ['Name', 'Strength']]) # seleccionamos las filas que cumplen la condición y las columnas 'Name' y 'Strength'

Unnamed: 0,Name,Strength
b,theorin,12
c,barlok,19


In [None]:
# listar los personajes con Strength > 15 o Wisdom > 15
display(character_data.loc[(character_data['Strength'] > 15) | (character_data['Wisdom'] > 15)])

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
c,barlok,19,6


# Cargar y guardar datos en pandas

In [None]:
# Guardar a csv
import os
ruta = os.path.join("res" ,"o_d_d_characters.csv") # ruta del archivo. Usamos os.path.join para que sea compatible con todos los sistemas operativos y para concatenar las rutas
character_data.to_csv(ruta, sep=';') # separador por defecto: ','

In [None]:
loaded = pd.read_csv(ruta, sep=';')
display(loaded)

Unnamed: 0.1,Unnamed: 0,Name,Strength,Wisdom
0,a,bundenth,10,20
1,b,theorin,12,13
2,c,barlok,19,6


In [None]:
loaded = pd.read_csv(ruta, sep=';', index_col = 0)
display(loaded)

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13
c,barlok,19,6


#### otros argumentos to_csv()
- na_rep='string' --> representar valores NaN en el archivo csv

#### otros argumentos read_csv()
- na_values='string'


Pandas también ofrece funciones para leer/guardar a otros formatos estándares: JSON, HDF5 o Excel en su [API](https://pandas.pydata.org/pandas-docs/stable/reference/io.html)

# Ejemplo práctico en pandas
- [MovieLens dataset](https://grouplens.org/datasets/movielens/)
 - Reviews de películas
 - 1 millón de entradas
 - Datos demográficos de usuarios

In [None]:
import numpy as np
import pandas as pd
import zipfile # para descomprimir archivos zip
import urllib.request # para descargar de URL
import os

In [None]:
# descargar MovieLens dataset
url = 'http://files.grouplens.org/datasets/movielens/ml-1m.zip'  
ruta = os.path.join("res", "ml-1m.zip") # debemos tener el directorio 'res' creado !!!
urllib.request.urlretrieve(url, ruta)

('res\\ml-1m.zip', <http.client.HTTPMessage at 0x26fe9247310>)

In [None]:
# descomprimiendo archivo zip
ruta_ext = os.path.join("res")
with zipfile.ZipFile(ruta, 'r') as zip: 
    print('Extracting all files...') 
    zip.extractall(ruta_ext) # destinación
    print('Done!') 
    
# take a look at readme y revisar formatos

Extracting all files...
Done!


In [None]:
ruta_users = os.path.join("res", "ml-1m", "users.dat")

users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0, engine='python')
display(users_dataset)

Unnamed: 0_level_0,F,1.1,10,48067
1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,02460
5,M,25,20,55455
6,F,50,9,55117
...,...,...,...,...
6036,F,25,15,32603
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,01060


In [None]:
# Varios problemas
# sin cabecera! primer valor se ha perdido
# las columnas no tienen nombres
help(pd.read_csv) # para ver la documentación de la función 'read_csv'

Help on function read_csv in module pandas.io.parsers.readers:

read_csv(filepath_or_buffer: 'FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]', *, sep: 'str | None | lib.NoDefault' = <no_default>, delimiter: 'str | None | lib.NoDefault' = None, header: "int | Sequence[int] | None | Literal['infer']" = 'infer', names: 'Sequence[Hashable] | None | lib.NoDefault' = <no_default>, index_col: 'IndexLabel | Literal[False] | None' = None, usecols: 'UsecolsArgType' = None, dtype: 'DtypeArg | None' = None, engine: 'CSVEngine | None' = None, converters: 'Mapping[Hashable, Callable] | None' = None, true_values: 'list | None' = None, false_values: 'list | None' = None, skipinitialspace: 'bool' = False, skiprows: 'list[int] | int | Callable[[Hashable], bool] | None' = None, skipfooter: 'int' = 0, nrows: 'int | None' = None, na_values: 'Hashable | Iterable[Hashable] | Mapping[Hashable, Iterable[Hashable]] | None' = None, keep_default_na: 'bool' = True, na_filter: 'bool' = True, verbose: 'bool | 

In [None]:
# especificar nombres, cargar sin cabecera
users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0,
    header=None, names=['UserID','Gender','Age','Occupation','Zip-code'], engine='python')
display(users_dataset)

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,02460
5,M,25,20,55455
...,...,...,...,...
6036,F,25,15,32603
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,01060


In [None]:
# samplear la tabla 
display(users_dataset.sample(10)) # muestra 10 filas aleatorias

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
5023,M,35,20,91505
927,F,25,20,91105
5948,M,56,13,12124
175,F,25,2,95123
1834,M,35,5,10990
5937,M,25,12,60622
1136,F,35,7,90274
4865,F,35,14,2130
1579,M,25,0,60201
3783,M,25,7,97267


In [None]:
# samplear la cabeza
display(users_dataset.head(4))

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,2460


In [None]:
# samplear la cola
display(users_dataset.tail(4))

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,1060
6040,M,25,6,11106


In [None]:
# tipos de datos sobre las columnas
users_dataset.dtypes

Gender        object
Age            int64
Occupation     int64
Zip-code      object
dtype: object

In [None]:
display(users_dataset[users_dataset['Zip-code'].str.len() > 5]) # seleccionamos las filas que cumplen la condición cuya longitud del código postal es mayor que 5

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
161,M,45,16,98107-2117
233,F,45,20,37919-4204
293,M,56,1,55337-4056
458,M,50,16,55405-2546
506,M,25,16,55103-1006
...,...,...,...,...
5682,M,18,0,23455-4959
5904,F,45,12,954025
5925,F,25,0,90035-4444
5967,M,50,16,73069-5429


In [None]:
display(users_dataset[users_dataset['Age'] == 1])

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
19,M,1,10,48073
51,F,1,10,10562
75,F,1,10,01748
86,F,1,10,54467
...,...,...,...,...
5844,F,1,10,02131
5953,M,1,10,21030
5973,M,1,10,54701
5989,F,1,10,74114


In [None]:
# información general sobre atributos numéricos
display(users_dataset.describe())

Unnamed: 0,Age,Occupation
count,6040.0,6040.0
mean,30.639238,8.146854
std,12.895962,6.329511
min,1.0,0.0
25%,25.0,3.0
50%,25.0,7.0
75%,35.0,14.0
max,56.0,20.0


In [None]:
users_dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6040 entries, 1 to 6040
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Gender      6040 non-null   object
 1   Age         6040 non-null   int64 
 2   Occupation  6040 non-null   int64 
 3   Zip-code    6040 non-null   object
dtypes: int64(2), object(2)
memory usage: 235.9+ KB


In [None]:
# incluir otros atributos (no todo tiene sentido)
display(users_dataset.describe(include='all')) 

Unnamed: 0,Gender,Age,Occupation,Zip-code
count,6040,6040.0,6040.0,6040.0
unique,2,,,3439.0
top,M,,,48104.0
freq,4331,,,19.0
mean,,30.639238,8.146854,
std,,12.895962,6.329511,
min,,1.0,0.0,
25%,,25.0,3.0,
50%,,25.0,7.0,
75%,,35.0,14.0,


In [None]:
# cuántos usuarios son mujeres (Gender='F')
len(users_dataset[users_dataset['Gender'] == 'F'])

# select count(*) from users_dataset where users_dataset.Gender = 'F'

1709

In [None]:
# mostrar solo los menores de edad 
under_age = users_dataset[users_dataset['Age'] < 18] # seleccionamos las filas cuyo valor de 'Age' es menor que 19
print(len(under_age))
display(under_age.sample(10))

222


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2806,M,1,10,15208
5114,F,1,10,22932
2042,M,1,10,79358
4572,F,1,10,17036
2346,F,1,10,48105
875,M,1,10,94707
4102,M,1,10,48655
2810,F,1,10,64093
884,M,1,10,49454
1509,M,1,0,11803


In [None]:
print(under_age)

       Gender  Age  Occupation Zip-code
UserID                                 
1           F  1.0        10.0    48067
19          M  1.0        10.0    48073
51          F  1.0        10.0    10562
75          F  1.0        10.0    01748
86          F  1.0        10.0    54467
...       ...  ...         ...      ...
5953        M  1.0        10.0    21030
5973        M  1.0        10.0    54701
5989        F  1.0        10.0    74114
6006        F  1.0         0.0    01036
Age       NaN  NaN         NaN      NaN

[223 rows x 4 columns]


In [None]:
# filtrar edad incorrecta (míninimo 18)
under_age.loc['Age'] = np.nan
display(under_age.head())

users_dataset[users_dataset['Age'] < 18] = under_age
display(users_dataset.head())

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1.0,10.0,48067
19,M,1.0,10.0,48073
51,F,1.0,10.0,10562
75,F,1.0,10.0,1748
86,F,1.0,10.0,54467


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,2460
5,M,25,20,55455


In [None]:
# Agrupar datos por atributos
display(users_dataset.groupby(by='Age').describe()) # agrupamos por 'Age' y mostramos estadísticas descriptivas de cada grupo

Unnamed: 0_level_0,Occupation,Occupation,Occupation,Occupation,Occupation,Occupation,Occupation,Occupation
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Age,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1,222.0,9.009009,4.382184,0.0,10.0,10.0,10.0,19.0
18,1103.0,6.666364,5.873533,0.0,4.0,4.0,10.5,20.0
25,2096.0,8.159828,6.48661,0.0,2.0,7.0,14.0,20.0
35,1193.0,8.804694,6.459703,0.0,2.0,7.0,15.0,20.0
45,550.0,8.294545,6.600254,0.0,1.0,7.0,15.0,20.0
50,496.0,8.538306,6.368368,0.0,2.0,7.0,14.0,20.0
56,380.0,9.078947,6.13817,0.0,2.0,12.0,13.0,20.0


In [None]:
# Grabar la tabla modificada
# Cambiar el separador a ','
# Guardar NaN como 'null'
ruta_output = os.path.join('res', 'ml-1m', 'o_users_processed.dat') # ruta de salida del archivo con nombre 'o_users_processed.dat'
users_dataset.to_csv(ruta_output, sep=',',na_rep='null')

In [None]:
!cat ./res/o_users_processed.dat # muestra el contenido del archivo


"cat" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


# Ejercicios
- Hacer un análisis general de los otros dos archivos CSV en ml-1m ('movies.dat' y 'ratings.dat')
- Analizando el dataset ratings.dat, ¿hay algún usuario que no tenga ninguna review? ¿Cuántos tienen menos de 30 reviews?

## <img src="img/by-nc.png" width="200">

In [4]:
import pandas as pd
import numpy as np
ruta_movies = os.path.join("res", "ml-1m", "movies.dat")
movies_dataset = pd.read_csv(ruta_movies, sep='::',
    header=None, names=['User_ID','Title','Type'], engine='python')

movies_dataset

Unnamed: 0,User_ID,Title,Type
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
3878,3948,Meet the Parents (2000),Comedy
3879,3949,Requiem for a Dream (2000),Drama
3880,3950,Tigerland (2000),Drama
3881,3951,Two Family House (2000),Drama


In [5]:
movies_dataset.describe()

Unnamed: 0,User_ID
count,3883.0
mean,1986.049446
std,1146.778349
min,1.0
25%,982.5
50%,2010.0
75%,2980.5
max,3952.0


In [6]:
movies_dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3883 entries, 0 to 3882
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   User_ID  3883 non-null   int64 
 1   Title    3883 non-null   object
 2   Type     3883 non-null   object
dtypes: int64(1), object(2)
memory usage: 91.1+ KB


In [7]:
display(movies_dataset[movies_dataset['Type'] == "Drama"])

Unnamed: 0,User_ID,Title,Type
13,14,Nixon (1995),Drama
25,26,Othello (1995),Drama
26,27,Now and Then (1995),Drama
29,30,Shanghai Triad (Yao a yao yao dao waipo qiao) ...,Drama
30,31,Dangerous Minds (1995),Drama
...,...,...,...
3845,3915,Girlfight (2000),Drama
3846,3916,Remember the Titans (2000),Drama
3879,3949,Requiem for a Dream (2000),Drama
3880,3950,Tigerland (2000),Drama


In [8]:
display(movies_dataset.groupby(by="Type").describe())

Unnamed: 0_level_0,User_ID,User_ID,User_ID,User_ID,User_ID,User_ID,User_ID,User_ID
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Action,65.0,1889.215385,1251.227141,9.0,667.00,1599.0,2990.00,3879.0
Action|Adventure,25.0,1856.520000,1098.284235,44.0,1049.00,1681.0,2748.00,3807.0
Action|Adventure|Animation,1.0,3000.000000,,3000.0,3000.00,3000.0,3000.00,3000.0
Action|Adventure|Animation|Children's|Fantasy,1.0,558.000000,,558.0,558.00,558.0,558.00,558.0
Action|Adventure|Animation|Horror|Sci-Fi,1.0,610.000000,,610.0,610.00,610.0,610.00,610.0
...,...,...,...,...,...,...,...,...
Sci-Fi|Thriller|War,1.0,2287.000000,,2287.0,2287.00,2287.0,2287.00,2287.0
Sci-Fi|War,1.0,750.000000,,750.0,750.00,750.0,750.00,750.0
Thriller,101.0,2091.534653,1187.931223,18.0,965.00,2212.0,3064.00,3947.0
War,12.0,2082.666667,1183.067226,632.0,772.75,2298.0,3134.25,3670.0


In [9]:
# 1. Extraer el año y crear una nueva columna 'Año'
# La expresión regular r'\((\d{4})\)$' busca cuatro dígitos (\d{4})
# dentro de paréntesis \( \) al final de la cadena ($) y los captura
movies_dataset['year'] = movies_dataset['Title'].str.extract(r'\((\d{4})\)$')


# 2. Crear una columna 'Titulo' sin el año
# Usamos .str.replace para eliminar el año (incluyendo el espacio y los paréntesis)
# del título original.

movies_dataset['Titulo'] = movies_dataset['Title'].str.replace(r'\s\(\d{4}\)$', '', regex=True)

# 3. Eliminar la columna original 'Titulo_Completo' si ya no la necesitas
movies_dataset = movies_dataset.drop(columns=['Title'])

display(movies_dataset)
# 4. Reordenar las columnas para mayor claridad
#df_movies = movies_dataset[['ID', 'Titulo', 'Año', 'Genero']]
#display(df_movies)


Unnamed: 0,User_ID,Type,year,Titulo
0,1,Animation|Children's|Comedy,1995,Toy Story
1,2,Adventure|Children's|Fantasy,1995,Jumanji
2,3,Comedy|Romance,1995,Grumpier Old Men
3,4,Comedy|Drama,1995,Waiting to Exhale
4,5,Comedy,1995,Father of the Bride Part II
...,...,...,...,...
3878,3948,Comedy,2000,Meet the Parents
3879,3949,Drama,2000,Requiem for a Dream
3880,3950,Drama,2000,Tigerland
3881,3951,Drama,2000,Two Family House


In [10]:
display(movies_dataset.groupby(by="year").describe())

Unnamed: 0_level_0,User_ID,User_ID,User_ID,User_ID,User_ID,User_ID,User_ID,User_ID
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1919,3.0,2925.333333,178.981377,2821.0,2822.00,2823.0,2977.50,3132.0
1920,2.0,3270.000000,55.154329,3231.0,3250.50,3270.0,3289.50,3309.0
1921,1.0,3310.000000,,3310.0,3310.00,3310.0,3310.00,3310.0
1922,2.0,2271.500000,1306.026225,1348.0,1809.75,2271.5,2733.25,3195.0
1923,3.0,3003.666667,715.311354,2230.0,2685.00,3140.0,3390.50,3641.0
...,...,...,...,...,...,...,...,...
1996,345.0,1078.515942,591.310813,61.0,734.00,1004.0,1407.00,3874.0
1997,315.0,1790.968254,448.666012,779.0,1545.50,1657.0,1848.50,3620.0
1998,337.0,2305.667656,480.954077,887.0,1878.00,2305.0,2575.00,3887.0
1999,283.0,2975.583039,377.934855,2235.0,2683.50,2894.0,3174.50,3913.0


In [16]:
movies_1995 = len(movies_dataset[movies_dataset['year'] == '1995'])
display(movies_1995)


342

In [11]:
ruta_ratings = os.path.join("res", "ml-1m", "ratings.dat")
ratings_dataset = pd.read_csv(ruta_ratings, sep='::', index_col=0,
    header=None, names=['User_Id','Review','Nota','Ref'], engine='python')

ratings_dataset

Unnamed: 0_level_0,Review,Nota,Ref
User_Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1193,5,978300760
1,661,3,978302109
1,914,3,978301968
1,3408,4,978300275
1,2355,5,978824291
...,...,...,...
6040,1091,1,956716541
6040,1094,5,956704887
6040,562,5,956704746
6040,1096,4,956715648


In [12]:
ratings_dataset.describe()

Unnamed: 0,Review,Nota,Ref
count,1000209.0,1000209.0,1000209.0
mean,1865.54,3.581564,972243700.0
std,1096.041,1.117102,12152560.0
min,1.0,1.0,956703900.0
25%,1030.0,3.0,965302600.0
50%,1835.0,4.0,973018000.0
75%,2770.0,4.0,975220900.0
max,3952.0,5.0,1046455000.0


In [13]:
ratings_dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1000209 entries, 1 to 6040
Data columns (total 3 columns):
 #   Column  Non-Null Count    Dtype
---  ------  --------------    -----
 0   Review  1000209 non-null  int64
 1   Nota    1000209 non-null  int64
 2   Ref     1000209 non-null  int64
dtypes: int64(3)
memory usage: 30.5 MB


In [14]:

display(ratings_dataset[ratings_dataset['Review'] < 30])

Unnamed: 0_level_0,Review,Nota,Ref
User_Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,5,978824268
2,21,1,978299839
5,6,2,978245916
5,16,3,978245645
5,24,1,978242934
...,...,...,...
6037,17,4,956709701
6040,1,3,957717358
6040,17,3,956704584
6040,25,3,957717322


In [22]:
display(ratings_dataset[ratings_dataset['Review'] == 0])

Unnamed: 0_level_0,Review,Nota,Ref
User_Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
