## Estructuras de datos. Librería Pandas (I).

![logo](img/pandas-logo.png)

# Sumario
- Series y DataFrame
- Indexación, slicing
- Grabar y cargar a archivo
- MovieLens dataset 

# Pandas
- Librería (de facto estándar) para estructurar datos tabulares
- Multivariable (string, int, float, bool...)
- Dos clases de estructuras de datos:
  - Series (1 dimensión)
  - DataFrames (2+ dimensiones)

In [1]:
# librería externa
import pandas as pd
from pandas import Series, DataFrame
import warnings
warnings.filterwarnings("ignore")

# Series
- Datos unidimensionales (similar a NumPy)
- Elementos + índices modificables

In [2]:
countries = pd.Series(['Spain','Andorra','Gibraltar','Portugal','France'])
print(countries)

0        Spain
1      Andorra
2    Gibraltar
3     Portugal
4       France
dtype: object


In [3]:
# especificando el índice
countries = pd.Series (['Spain','Andorra','Gibraltar','Portugal','France'],
                       index=range(10,60,10))
print(countries)

10        Spain
20      Andorra
30    Gibraltar
40     Portugal
50       France
dtype: object


In [4]:
# los índices pueden ser de más tipos
football_cities = pd.Series(['Barcelona','Madrid','Valencia','Sevilla'], 
                            index=['a','b','c','d'])
print(football_cities)

a    Barcelona
b       Madrid
c     Valencia
d      Sevilla
dtype: object


In [5]:
# Atributos
football_cities.name = 'Ciudades con dos equipos en primera' # nombrar la Serie
football_cities.index.name = 'Id' # Describir los índices
print(football_cities)

Id
a    Barcelona
b       Madrid
c     Valencia
d      Sevilla
Name: Ciudades con dos equipos en primera, dtype: object


In [6]:
# acceso similar a NumPy o listas, según posición
print(football_cities[2])

# acceso a través del índice semántico
print(football_cities['c'])

print(football_cities['c'] == football_cities[2])

Valencia
Valencia
True


# Tratamiento similar a ndarray

In [7]:
# múltiple recolección de elementos
print(football_cities[ ['a','c'] ])
print(football_cities[ [0, 3] ])

Id
a    Barcelona
c     Valencia
Name: Ciudades con dos equipos en primera, dtype: object
Id
a    Barcelona
d      Sevilla
Name: Ciudades con dos equipos en primera, dtype: object


In [8]:
# slicing
print(football_cities[:'c']) # incluye ambos extremos con el indice semantico
print(football_cities[:2])

Id
a    Barcelona
b       Madrid
c     Valencia
Name: Ciudades con dos equipos en primera, dtype: object
Id
a    Barcelona
b       Madrid
Name: Ciudades con dos equipos en primera, dtype: object


In [9]:
#casting de una lista
lista = list(football_cities[:'c'])
print(lista)

['Barcelona', 'Madrid', 'Valencia']


In [10]:
# uso de masks para seleccionar
fibonacci = pd.Series([0, 1, 1, 2, 3, 5, 8, 13, 21])
mask = fibonacci > 10
print(mask)

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7     True
8     True
dtype: bool


In [11]:
print(fibonacci[mask])

7    13
8    21
dtype: int64


In [12]:
# aplicar funciones de numpy a la serie
import numpy as np

np.sum(fibonacci)

np.int64(54)

In [13]:
#filtrado con np.where
distances = pd.Series([12.1,np.nan,12.8,76.9,6.1,7.2])
# la función np.where devuelve un array con los valores que cumplen la condición
valid_distances = np.where(pd.notnull(distances),distances,0) # np.where(<condición>,<valor verdadero>,<valor falso>
print(valid_distances)

[12.1  0.  12.8 76.9  6.1  7.2]


### Iteración

In [14]:
# iterar sobre elementos (values)
for value in fibonacci:
    print('Value: ' + str(value))

# iterar sobre indices
for index in fibonacci.index:
    print('Index: ' + str(index))

Value: 0
Value: 1
Value: 1
Value: 2
Value: 3
Value: 5
Value: 8
Value: 13
Value: 21
Index: 0
Index: 1
Index: 2
Index: 3
Index: 4
Index: 5
Index: 6
Index: 7
Index: 8


In [15]:
# iterar sobre elementos e índices al mismo tiempo
for index, value in fibonacci.items():  #.iteritems()
    print('Index: ' + str(index) + '  Value: ' + str(value))

Index: 0  Value: 0
Index: 1  Value: 1
Index: 2  Value: 1
Index: 3  Value: 2
Index: 4  Value: 3
Index: 5  Value: 5
Index: 6  Value: 8
Index: 7  Value: 13
Index: 8  Value: 21


In [16]:
for index, value in zip(fibonacci.index, fibonacci):
    print('Index: ' + str(index) + '  Value: ' + str(value))  

Index: 0  Value: 0
Index: 1  Value: 1
Index: 2  Value: 1
Index: 3  Value: 2
Index: 4  Value: 3
Index: 5  Value: 5
Index: 6  Value: 8
Index: 7  Value: 13
Index: 8  Value: 21


## Series como diccionarios
- Interpretar el índice como clave
- Acepta operaciones para diccionarios

In [17]:
# crear una serie a partir de un diccionario
serie = pd.Series( { 'Carlos' : 100, 'Marcos': 98} )
print(serie.index)
print(serie.values)
print(serie)

Index(['Carlos', 'Marcos'], dtype='object')
[100  98]
Carlos    100
Marcos     98
dtype: int64


In [18]:
# añade y elimina elementos a través de índices
serie['Pedro'] = 12
del serie['Marcos']
print(serie)

Carlos    100
Pedro      12
dtype: int64


In [19]:
# query una serie
if 'Carlos' in serie:
    serie['Carlos'] = 2
    
print(serie)

Carlos     2
Pedro     12
dtype: int64


## Operaciones entre series

In [20]:
# suma de dos series
# suma de valores con el mismo índice (NaN si no aparece en ambas)
serie1 = pd.Series([10,20,30,40],index=range(4) )
serie2 = pd.Series([1,2,3],index=range(3) )
print(serie1 + serie2)

0    11.0
1    22.0
2    33.0
3     NaN
dtype: float64


In [21]:
# resta de series (similar a la suma)
print(serie1 - serie2)

0     9.0
1    18.0
2    27.0
3     NaN
dtype: float64


In [22]:
# operaciones de pre-filtrado
result = serie1 + serie2
print(pd.isnull(result))
result[pd.isnull(result)] = 0 # mask con isnull()
print(result)

0    False
1    False
2    False
3     True
dtype: bool
0    11.0
1    22.0
2    33.0
3     0.0
dtype: float64


###  Diferencias entre Pandas Series y diccionario
* Diccionario, es una estructura que relaciona las claves y los valores de forma arbitraria.
* Series, estructura de forma estricta listas de valores con listas de índice asignado en la posición.
* Series, es más eficiente para ciertas operaciones que los dicionarios.
* En las Series los valores de entrada pueden ser listas o Numpy arrays.
* En Series los índices semánticos pueden ser integers o caracteres, en los valores igual.
* Series se podría entender entre una lista y un diccionario Python, pero es de una dimensión.

# DataFrame
- Datos tabulares (filas x columnas)
- Columnas: Series con índices compartidos

<img src="img/pandas-dataframe.png" width="600">

In [23]:
import pandas as pd
import numpy as np

In [24]:
# crear un DataFrame a partir de un diccionario de elementos de la misma longitud
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"], 
                "Edad" : [34,29,12] }
# las claves identifican columnas
frame = pd.DataFrame(diccionario)
display(frame)

Unnamed: 0,Nombre,Edad
0,Marisa,34
1,Laura,29
2,Manuel,12


In [25]:
# crear un DataFrame a partir de un diccionario de elementos de la misma longitud
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"], 
                "Edad" : [34,29,12] }
# las claves identifican columnas
frame = pd.DataFrame(diccionario, index = ['a', 'b', 'c'])
display(frame)

Unnamed: 0,Nombre,Edad
a,Marisa,34
b,Laura,29
c,Manuel,12


In [26]:
# además de 'index', el parámetro 'columns' especifica el número y orden de las columnas
frame = pd.DataFrame(diccionario, columns = ['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,
2,,Manuel,12,


In [27]:
# acceso a columnas
nombres = frame['Nombre']
display(nombres)
type(nombres)

0    Marisa
1     Laura
2    Manuel
Name: Nombre, dtype: object

pandas.core.series.Series

In [28]:
#siempre que el nombre de la columna lo permita (espacios, ...)
nombres = frame.Nombre
display(nombres)
type(nombres)

0    Marisa
1     Laura
2    Manuel
Name: Nombre, dtype: object

pandas.core.series.Series

In [29]:
# acceso al primer nombre del DataFrame frame??
print(frame['Nombre'][0])
print(frame.Nombre[0])
print(nombres[0])

Marisa
Marisa
Marisa


### Formas de crear un DataFrame
* Con una Serie de pandas
* Lista de diccionarios
* Dicionario de Series de Pandas
* Con un array de Numpy de dos dimensiones
* Con array estructurado de Numpy 

In [30]:
# Usando una serie para crear un DF
data = pd.DataFrame (pd.Series([1,2,3,4]))
data

Unnamed: 0,0
0,1
1,2
2,3
3,4


In [31]:
data = pd.DataFrame (pd.Series([1,2,3,4],[10,20,30,40]),columns=['Valores']) # índices
data

Unnamed: 0,Valores
10,1
20,2
30,3
40,4


In [32]:
col1 = pd.Series([1,2,3,4])
col2 = pd.Series([10,20,30,40])
matriz ={ 'Col1' : col1, 'Col2' : col2 } # diccionario
data = pd.DataFrame(matriz) # filas y columnas
data

Unnamed: 0,Col1,Col2
0,1,10
1,2,20
2,3,30
3,4,40


In [33]:
# Usando lista de diccionarios
persona1 = {"Nombre": "Marisa","Apellido":"Perez","Edad":15}
persona2 = {"Nombre": "Juan","Apellido":"Martin","Edad":20}
persona3 = {"Nombre": "Ramon","Apellido":"Sanchez","Edad":69}
personas = pd.DataFrame([persona1,persona2,persona3])
personas

Unnamed: 0,Nombre,Apellido,Edad
0,Marisa,Perez,15
1,Juan,Martin,20
2,Ramon,Sanchez,69


In [34]:
personasConIndice = pd.DataFrame([persona1,persona2,persona3], index=['a','b','c'])
personasConIndice

Unnamed: 0,Nombre,Apellido,Edad
a,Marisa,Perez,15
b,Juan,Martin,20
c,Ramon,Sanchez,69


In [35]:
# Diccionario de series de Pandas

diccio = ({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
notas = Series(diccio)
notas

Matemáticas     6.0
Economía        4.5
Programación    8.5
dtype: float64

In [36]:
calificaciones = pd.DataFrame(notas)
calificaciones

Unnamed: 0,0
Matemáticas,6.0
Economía,4.5
Programación,8.5


In [37]:
# Crear dataframe a partir de array de Numpy
import numpy as np
array = np.random.randn(4, 3)
array

array([[-1.32312897,  0.84876264,  0.42116423],
       [-0.33301247,  1.10600324,  0.71055384],
       [ 0.92221173,  2.19890675,  0.05943635],
       [ 1.05486748, -0.29200282,  0.74623506]])

In [38]:
df = pd.DataFrame(np.random.randn(4, 3), columns=['a', 'b', 'c'])
df

Unnamed: 0,a,b,c
0,-0.813787,-1.109528,1.269435
1,0.878262,-0.641563,1.441546
2,-0.230036,-0.485752,0.913255
3,1.230748,-0.604528,-0.905803


In [39]:
# a partir de array Numpy estructurado
datos = np.array([[2,3,4],
                  [5,6,7],
                  [8,9,10]])
datos_df =pd.DataFrame(datos)

print(datos_df)
datos_df

   0  1   2
0  2  3   4
1  5  6   7
2  8  9  10


Unnamed: 0,0,1,2
0,2,3,4
1,5,6,7
2,8,9,10


In [40]:
# Crear un dataframe con números aleatorios de 4 Columnas y 5 Filas
# Crear listas rápidamente usando la función split 'A B C D E'.split()
# Esto evita tener que escribir repetidamente las comas

df = pd.DataFrame(np.random.randn(6,4), # 6 filas, 4 columnas
                  index='A B C D E F'.split(), # índices/etiquetas filas
                  columns='W X Y Z'.split() ) # columnas
df 

Unnamed: 0,W,X,Y,Z
A,1.359245,0.160532,-0.902452,0.771442
B,-0.049525,-0.31319,0.266205,-1.31463
C,-1.144585,0.579385,-0.624413,-0.239046
D,0.407779,-1.63825,-0.751968,-0.256347
E,1.589372,-0.768768,0.772897,0.67238
F,2.360291,-0.350969,-0.091516,0.553384


## Modificar DataFrames

In [41]:
# añadir columnas
frame = pd.DataFrame(diccionario,columns=['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])
frame['Direccion'] = 'Desconocida' # añadir una columna con un valor constante
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Marisa,34,,Desconocida
1,,Laura,29,,Desconocida
2,,Manuel,12,,Desconocida


In [42]:
# añadir fila (requiere todos los valores)
user_2 = ['Alemania','Klaus',39, 'none', 'Desconocida']
# user_2 = ['Alemania', 'none', 'Desconocida']
frame.loc[len(frame)] = user_2
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Marisa,34,,Desconocida
1,,Laura,29,,Desconocida
2,,Manuel,12,,Desconocida
3,Alemania,Klaus,39,none,Desconocida


In [43]:
# eliminar fila (similar a Series)
frame = pd.DataFrame(diccionario,columns=['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])

# frame = frame.drop(2) # por qué necesitamos reasignar el frame?
# display(frame)

frame.drop(2, inplace = True) # elimina la fila 2. inplace = True modifica el DataFrame original!!!
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,


In [44]:
#eliminar columna
del frame['Profesion'] # elimina la columna 'Profesion' del DataFrame original
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad
0,,Marisa,34
1,,Laura,29


In [45]:
# acceder a la traspuesta (como una matriz)
display(frame.T)

Unnamed: 0,0,1
Nacionalidad,,
Nombre,Marisa,Laura
Edad,34,29


## Iteración

In [46]:
# iteración sobre el DataFrame?
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"], 
                "Edad" : [34,29,12] }
frame = pd.DataFrame(diccionario, columns=[1, 'Nombre', 'Edad', 'Profesion'])

for a in frame:
    print(a) # qué es 'a'? Nombre de la columna
    print(type(a)) # es el tipo del nombre de la columna

1
<class 'int'>
Nombre
<class 'str'>
Edad
<class 'str'>
Profesion
<class 'str'>


In [47]:
frame

Unnamed: 0,1,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,
2,,Manuel,12,


In [48]:
# iteracion sobre filas
for value in frame.values:
    print(value)
    print(type(value))

[nan 'Marisa' 34 nan]
<class 'numpy.ndarray'>
[nan 'Laura' 29 nan]
<class 'numpy.ndarray'>
[nan 'Manuel' 12 nan]
<class 'numpy.ndarray'>


In [49]:
# iterar sobre filas y luego sobre cada valor?
for values in frame.values:
    for value in values: 
        print(value)
        print(type(value))

nan
<class 'float'>
Marisa
<class 'str'>
34
<class 'int'>
nan
<class 'float'>
nan
<class 'float'>
Laura
<class 'str'>
29
<class 'int'>
nan
<class 'float'>
nan
<class 'float'>
Manuel
<class 'str'>
12
<class 'int'>
nan
<class 'float'>


## Indexación y slicing con DataFrames

In [50]:
d1 = {'ciudad':'Valencia', 'temperatura':10, 'o2':1}
d2 = {'ciudad':'Barcelona', 'temperatura':8}
d3 = {'ciudad':'Valencia', 'temperatura':9}
d4 = {'ciudad':'Madrid', 'temperatura':10, 'humedad':80}
d5 = {'ciudad':'Sevilla', 'temperatura':15, 'humedad':50, 'co2':6}
d6 = {'ciudad':'Valencia', 'temperatura':10, 'humedad':90, 'co2':10}
ls_data = [d1, d2, d3, d4, d5, d6]  # lista de diccionarios
df_data = pd.DataFrame(ls_data, index = list('abcdef'))
display(df_data)

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [53]:
# Acceso a un valor concreto por indice posicional [row, col]
print(df_data.iloc[3, 1])


10


In [54]:
# # Acceso a todos los valores hasta un índice por enteros
display(df_data.iloc[:3,:4]) # filas 0, 1, 2 y columnas 0, 1, 2, 3

Unnamed: 0,ciudad,temperatura,o2,humedad
a,Valencia,10,1.0,
b,Barcelona,8,,
c,Valencia,9,,


In [55]:
# # Acceso a datos de manera explícita, indice semantico (se incluyen)
display(df_data.loc['b', 'temperatura']) # fila 'd' y columna 'temperatura'
print(df_data.loc['b', 'temperatura'])

np.int64(8)

8


In [56]:
# Acceso a un valor concreto por indice posicional [row, col]
# print(df_data.iloc[3, 1])

# # Acceso a todos los valores hasta un índice por enteros
# display(df_data.iloc[:3,:4])

# # Acceso a datos de manera explícita, indice semantico (se incluyen)
# display(df_data.loc['d', 'temperatura'])
# display(df_data.loc[:'c', :'o2'])
# display(df_data.loc[:'c', 'temperatura':'o2'])

display(df_data.loc[:, ['ciudad','o2']])

Unnamed: 0,ciudad,o2
a,Valencia,1.0
b,Barcelona,
c,Valencia,
d,Madrid,
e,Sevilla,
f,Valencia,


In [57]:
# indexación con nombre de columna (por columnas)
print(df_data['ciudad']) # --> Series

display(df_data[['ciudad', 'o2']])

a     Valencia
b    Barcelona
c     Valencia
d       Madrid
e      Sevilla
f     Valencia
Name: ciudad, dtype: object


Unnamed: 0,ciudad,o2
a,Valencia,1.0
b,Barcelona,
c,Valencia,
d,Madrid,
e,Sevilla,
f,Valencia,


In [58]:
# indexación con índice posicional (no permitido!). Esto busca columna.
print(df_data[0]) 

KeyError: 0

In [59]:
# indexar por posición con 'iloc'
print(df_data.iloc[0]) # --> Series de la primera fila (qué marca los índices)

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object


In [60]:
# indexar semántico con 'loc'
df_data.loc['a'] # --> Series de la fila con índice 'a'

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object

In [61]:
# indexar semántico con 'loc'
df_data.loc[:'b'] # --> DataFrame hasta fila con índice 'b'

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,


In [62]:
# si se modifica una porcion del dataframe se modifica el dataframe original (referencia)
serie = df_data.loc['a'] # referencia a la primera fila y se almacena en la variable "serie"
serie[2] = 3000 # modifica el valor de la serie
display(df_data) # se ha modificado el DataFrame original

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [63]:
serie

ciudad         Valencia
temperatura          10
o2                 3000
humedad             NaN
co2                 NaN
Name: a, dtype: object

In [64]:
df_data.loc['a']= serie # se modifica el DataFrame original
display(df_data) # se ha modificado el DataFrame original

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,3000.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [65]:


# copiar data frame
df_2 = df_data.copy()
df_2

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,3000.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [66]:
# ambos aceptan 'axis' como argumento
df_data.iloc(axis=1)[0] # --> todos los valores asignados a la primera columna 'ciudad'
# df_data.loc(axis=1)['ciudad'] # --> preferible el equivalente frame['ciudad']

a     Valencia
b    Barcelona
c     Valencia
d       Madrid
e      Sevilla
f     Valencia
Name: ciudad, dtype: object

In [67]:
# qué problema puede tener este fragmento?
frame = pd.DataFrame({"Name" : ['Carlos','Pedro'], "Age" : [34,22]}, index=[1,0])
display(frame)

Unnamed: 0,Name,Age
1,Carlos,34
0,Pedro,22


In [68]:
# por defecto, pandas interpreta índice posicional --> error en frames
# cuando hay posible ambigüedad, utilizar loc y iloc
print('Primera fila\n')
print(frame.iloc[0]) # primera fila
print('\nElemento con index 0\n')
print(frame.loc[0]) # elemento con índice 0, no la primera fila

Primera fila

Name    Carlos
Age         34
Name: 1, dtype: object

Elemento con index 0

Name    Pedro
Age        22
Name: 0, dtype: object


## Objeto Index de Pandas

In [69]:
# Contrucción de índices
ind = pd.Index([2, 3, 5, 7, 11])
# recuperar datos
print(ind[3])
print(ind[::2]) # slicing con paso 2 (índices pares: 0, 2, 4)

7
Index([2, 5, 11], dtype='int64')


In [70]:
# Son inmutables! No se modifican los datos. 
ind[3] = 8

TypeError: Index does not support mutable operations

## Slicing

In [71]:
# slice por filas
d_and_d_characters = {'Name' : ['bundenth','theorin','barlok'], 'Strength' : [10,12,19], 'Wisdom' : [20,13,6]}
character_data = pd.DataFrame(d_and_d_characters, index=['a','b','c'])
display(character_data)
display(character_data[:-1])
display(character_data[1:2])

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13
c,barlok,19,6


Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13


Unnamed: 0,Name,Strength,Wisdom
b,theorin,12,13


In [72]:
# slicing para columnas
display(character_data[['Name','Strength']])

Unnamed: 0,Name,Strength
a,bundenth,10
b,theorin,12
c,barlok,19


In [73]:
#slicing con 'loc' e 'iloc'
display(character_data.iloc[1:]) # slicing con 'iloc' (posicional). No incluye la primera fila
display(character_data.loc[:'b']) # slicing con 'loc' (semántico). Incluye la fila 'b'

Unnamed: 0,Name,Strength,Wisdom
b,theorin,12,13
c,barlok,19,6


Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13


¿Cómo filtrar filas y columnas? Por ejemplo, para todos los personajes, obtener 'Name' y 'Strength'

In [74]:
# usando 'loc' para hacer slicing
display(character_data.loc[:,'Name':'Strength']) # slicing. El primer parámetro es para filas (seleccionamos todas), el segundo para columnas (seleccionamos de 'Name' a 'Strength')

Unnamed: 0,Name,Strength
a,bundenth,10
b,theorin,12
c,barlok,19


In [75]:
# usando 'loc' para buscar específicamente filas y columnas
display(character_data.loc[ ['a','c'], ['Name','Wisdom'] ])

Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


In [76]:
# lo mismo con 'iloc'?
display(character_data.iloc[[0,2],[0,2]])
display(character_data.iloc[[0,-1],[0,-1]])

Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


In [77]:
# Filtrado de datos
# lista de los personajes con el atributo Strength > 11
display(character_data.loc[character_data['Strength'] > 11, ['Name', 'Strength']]) # seleccionamos las filas que cumplen la condición y las columnas 'Name' y 'Strength'

Unnamed: 0,Name,Strength
b,theorin,12
c,barlok,19


In [78]:
# listar los personajes con Strength > 15 o Wisdom > 15
display(character_data.loc[(character_data['Strength'] > 15) | (character_data['Wisdom'] > 15)])

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
c,barlok,19,6


# Cargar y guardar datos en pandas

In [80]:
# Guardar a csv
import os
ruta = os.path.join("res" ,"o_d_d_characters.csv") # ruta del archivo. Usamos os.path.join para que sea compatible con todos los sistemas operativos y para concatenar las rutas
character_data.to_csv(ruta, sep=';') # separador por defecto: ','

In [81]:
loaded = pd.read_csv(ruta, sep=';')
display(loaded)

Unnamed: 0.1,Unnamed: 0,Name,Strength,Wisdom
0,a,bundenth,10,20
1,b,theorin,12,13
2,c,barlok,19,6


In [82]:
loaded = pd.read_csv(ruta, sep=';', index_col = 0)
display(loaded)

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13
c,barlok,19,6


#### otros argumentos to_csv()
- na_rep='string' --> representar valores NaN en el archivo csv

#### otros argumentos read_csv()
- na_values='string'


Pandas también ofrece funciones para leer/guardar a otros formatos estándares: JSON, HDF5 o Excel en su [API](https://pandas.pydata.org/pandas-docs/stable/reference/io.html)

# Ejemplo práctico en pandas
- [MovieLens dataset](https://grouplens.org/datasets/movielens/)
 - Reviews de películas
 - 1 millón de entradas
 - Datos demográficos de usuarios

In [83]:
import numpy as np
import pandas as pd
import zipfile # para descomprimir archivos zip
import urllib.request # para descargar de URL
import os

In [84]:
# descargar MovieLens dataset
url = 'http://files.grouplens.org/datasets/movielens/ml-1m.zip'  
ruta = os.path.join("res", "ml-1m.zip") # debemos tener el directorio 'res' creado !!!
urllib.request.urlretrieve(url, ruta)

('res\\ml-1m.zip', <http.client.HTTPMessage at 0x1b7bd431ed0>)

In [85]:
# descomprimiendo archivo zip
ruta_ext = os.path.join("res")
with zipfile.ZipFile(ruta, 'r') as zip: 
    print('Extracting all files...') 
    zip.extractall(ruta_ext) # destinación
    print('Done!') 
    
# take a look at readme y revisar formatos

Extracting all files...
Done!


In [86]:
ruta_users = os.path.join("res", "ml-1m", "users.dat")

users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0, engine='python')
display(users_dataset)

Unnamed: 0_level_0,F,1.1,10,48067
1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,02460
5,M,25,20,55455
6,F,50,9,55117
...,...,...,...,...
6036,F,25,15,32603
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,01060


In [87]:
# Varios problemas
# sin cabecera! primer valor se ha perdido
# las columnas no tienen nombres
pd.read_csv? # para ver la documentación de la función 'read_csv'

SyntaxError: invalid syntax (206843272.py, line 4)

In [88]:
# especificar nombres, cargar sin cabecera
users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0,
    header=None, names=['UserID','Gender','Age','Occupation','Zip-code'], engine='python')
display(users_dataset)

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,02460
5,M,25,20,55455
...,...,...,...,...
6036,F,25,15,32603
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,01060


In [89]:
# samplear la tabla 
display(users_dataset.sample(10)) # muestra 10 filas aleatorias

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
4044,F,35,3,95826
5619,F,18,4,22310
1324,M,35,16,7030
408,M,25,11,2143
2993,M,18,19,12133
4034,M,25,0,21113
3202,F,18,4,24060
3881,M,18,2,44515
2447,M,25,14,3051
3842,F,35,16,92054


In [90]:
# samplear la cabeza
display(users_dataset.head(4))

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,2460


In [91]:
# samplear la cola
display(users_dataset.tail(4))

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,1060
6040,M,25,6,11106


In [92]:
# tipos de datos sobre las columnas
users_dataset.dtypes

Gender        object
Age            int64
Occupation     int64
Zip-code      object
dtype: object

In [93]:
display(users_dataset[users_dataset['Zip-code'].str.len() > 5]) # seleccionamos las filas que cumplen la condición cuya longitud del código postal es mayor que 5

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
161,M,45,16,98107-2117
233,F,45,20,37919-4204
293,M,56,1,55337-4056
458,M,50,16,55405-2546
506,M,25,16,55103-1006
...,...,...,...,...
5682,M,18,0,23455-4959
5904,F,45,12,954025
5925,F,25,0,90035-4444
5967,M,50,16,73069-5429


In [94]:
# información general sobre atributos numéricos
display(users_dataset.describe())

Unnamed: 0,Age,Occupation
count,6040.0,6040.0
mean,30.639238,8.146854
std,12.895962,6.329511
min,1.0,0.0
25%,25.0,3.0
50%,25.0,7.0
75%,35.0,14.0
max,56.0,20.0


In [95]:
users_dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6040 entries, 1 to 6040
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Gender      6040 non-null   object
 1   Age         6040 non-null   int64 
 2   Occupation  6040 non-null   int64 
 3   Zip-code    6040 non-null   object
dtypes: int64(2), object(2)
memory usage: 235.9+ KB


In [96]:
# incluir otros atributos (no todo tiene sentido)
display(users_dataset.describe(include='all')) 

Unnamed: 0,Gender,Age,Occupation,Zip-code
count,6040,6040.0,6040.0,6040.0
unique,2,,,3439.0
top,M,,,48104.0
freq,4331,,,19.0
mean,,30.639238,8.146854,
std,,12.895962,6.329511,
min,,1.0,0.0,
25%,,25.0,3.0,
50%,,25.0,7.0,
75%,,35.0,14.0,


In [97]:
# cuántos usuarios son mujeres (Gender='F')
len(users_dataset[users_dataset['Gender'] == 'F'])

# select count(*) from users_dataset where users_dataset.Gender = 'F'

1709

In [98]:
# mostrar solo los menores de edad 
under_age = users_dataset[users_dataset['Age'] < 18] # seleccionamos las filas cuyo valor de 'Age' es menor que 19
print(len(under_age))
display(under_age.sample(10))

222


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
4997,M,1,10,90210
4135,M,1,10,46321
2346,F,1,10,48105
2060,M,1,1,48304
1241,M,1,10,11803
5662,M,1,10,7960
2199,M,1,10,60613
5751,F,1,0,14167
1919,M,1,0,94525
1878,M,1,10,92846


In [99]:
# filtrar edad (míninimo 18) --- FORMA INCORRECTA---
under_age.loc['Age'] = np.nan
display(under_age.head())

users_dataset[users_dataset['Age'] < 18] = under_age
display(users_dataset.head())

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1.0,10.0,48067
19,M,1.0,10.0,48073
51,F,1.0,10.0,10562
75,F,1.0,10.0,1748
86,F,1.0,10.0,54467


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,2460
5,M,25,20,55455


In [100]:
# FORMA CORRECTA 
# En una sola línea:
# "En el DataFrame 'users_dataset', para las filas donde la edad es < 18, 
#  en la columna 'Age', poner el valor np.nan"
users_dataset.loc[users_dataset['Age'] < 18, 'Age'] = np.nan

In [101]:
under_age=users_dataset[users_dataset['Age'] == np.nan]  # no funciona así!!!
under_age # sigue teniendo los menores de edad

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1


In [102]:
# Filtra el dataset y se queda con las filas donde la edad es nula (NaN)
under_age = users_dataset[users_dataset['Age'].isnull()]
under_age

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,,10,48067
19,M,,10,48073
51,F,,10,10562
75,F,,10,01748
86,F,,10,54467
...,...,...,...,...
5844,F,,10,02131
5953,M,,10,21030
5973,M,,10,54701
5989,F,,10,74114


In [103]:
# .isna() hace lo mismo que .isnull()
display(users_dataset[users_dataset['Age'].isna()])

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,,10,48067
19,M,,10,48073
51,F,,10,10562
75,F,,10,01748
86,F,,10,54467
...,...,...,...,...
5844,F,,10,02131
5953,M,,10,21030
5973,M,,10,54701
5989,F,,10,74114


In [104]:
# Agrupar datos por atributos
display(users_dataset.groupby(by='Age').describe()) # agrupamos por 'Age' y mostramos estadísticas descriptivas de cada grupo

Unnamed: 0_level_0,Occupation,Occupation,Occupation,Occupation,Occupation,Occupation,Occupation,Occupation
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Age,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
18.0,1103.0,6.666364,5.873533,0.0,4.0,4.0,10.5,20.0
25.0,2096.0,8.159828,6.48661,0.0,2.0,7.0,14.0,20.0
35.0,1193.0,8.804694,6.459703,0.0,2.0,7.0,15.0,20.0
45.0,550.0,8.294545,6.600254,0.0,1.0,7.0,15.0,20.0
50.0,496.0,8.538306,6.368368,0.0,2.0,7.0,14.0,20.0
56.0,380.0,9.078947,6.13817,0.0,2.0,12.0,13.0,20.0


In [105]:
# Grabar la tabla modificada
# Cambiar el separador a ','
# Guardar NaN como 'null'
ruta_output = os.path.join('res', 'ml-1m', 'o_users_processed.dat') # ruta de salida del archivo con nombre 'o_users_processed.dat'
users_dataset.to_csv(ruta_output, sep=',',na_rep='null')

In [106]:
!cat ./res/o_users_processed.dat # muestra el contenido del archivo


"cat" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


# Ejercicios
- Hacer un análisis general de los otros dos archivos CSV en ml-1m ('movies.dat' y 'ratings.dat')
- Analizando el dataset ratings.dat, ¿hay algún usuario que no tenga ninguna review? ¿Cuántos tienen menos de 30 reviews?

## <img src="img/by-nc.png" width="200">

In [108]:
import os
import pandas as pd
ruta_movies = os.path.join("res", "ml-1m", "movies.dat")
movies_dataset = pd.read_csv(ruta_movies, sep='::',
    header=None, names=['Movie_ID','Title_Year','Genres'], engine='python')

display(movies_dataset)

Unnamed: 0,Movie_ID,Title_Year,Genres
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
3878,3948,Meet the Parents (2000),Comedy
3879,3949,Requiem for a Dream (2000),Drama
3880,3950,Tigerland (2000),Drama
3881,3951,Two Family House (2000),Drama


In [109]:
movies_dataset.describe()

Unnamed: 0,Movie_ID
count,3883.0
mean,1986.049446
std,1146.778349
min,1.0
25%,982.5
50%,2010.0
75%,2980.5
max,3952.0


In [110]:
movies_dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3883 entries, 0 to 3882
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Movie_ID    3883 non-null   int64 
 1   Title_Year  3883 non-null   object
 2   Genres      3883 non-null   object
dtypes: int64(1), object(2)
memory usage: 91.1+ KB


In [111]:
display(movies_dataset.groupby(by='Genres').describe())

Unnamed: 0_level_0,Movie_ID,Movie_ID,Movie_ID,Movie_ID,Movie_ID,Movie_ID,Movie_ID,Movie_ID
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Genres,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Action,65.0,1889.215385,1251.227141,9.0,667.00,1599.0,2990.00,3879.0
Action|Adventure,25.0,1856.520000,1098.284235,44.0,1049.00,1681.0,2748.00,3807.0
Action|Adventure|Animation,1.0,3000.000000,,3000.0,3000.00,3000.0,3000.00,3000.0
Action|Adventure|Animation|Children's|Fantasy,1.0,558.000000,,558.0,558.00,558.0,558.00,558.0
Action|Adventure|Animation|Horror|Sci-Fi,1.0,610.000000,,610.0,610.00,610.0,610.00,610.0
...,...,...,...,...,...,...,...,...
Sci-Fi|Thriller|War,1.0,2287.000000,,2287.0,2287.00,2287.0,2287.00,2287.0
Sci-Fi|War,1.0,750.000000,,750.0,750.00,750.0,750.00,750.0
Thriller,101.0,2091.534653,1187.931223,18.0,965.00,2212.0,3064.00,3947.0
War,12.0,2082.666667,1183.067226,632.0,772.75,2298.0,3134.25,3670.0


In [112]:
# 2. Aplicar la expresión regular para extraer el título y el año
# El resultado son dos nuevas columnas en el DataFrame.

# Expresión regular:
# (.+): Primer grupo (el título)
# \s: Un espacio
# \(([0-9]{4})\): Segundo grupo (el año entre paréntesis)
regex_title_year = r'(.+)\s\(([0-9]{4})\)$'

movies_dataset[['Title', 'Year']] = movies_dataset['Title_Year'].str.extract(regex_title_year)

# 3. Limpiar y Reordenar el DataFrame (opcional, pero recomendado)

# Eliminamos la columna original que contiene título y año juntos
movies_dataset = movies_dataset.drop('Title_Year', axis=1)

# Mostramos el resultado
print("\nDataFrame después de la separación:\n", movies_dataset.head())


DataFrame después de la separación:
    Movie_ID                        Genres                        Title  Year
0         1   Animation|Children's|Comedy                    Toy Story  1995
1         2  Adventure|Children's|Fantasy                      Jumanji  1995
2         3                Comedy|Romance             Grumpier Old Men  1995
3         4                  Comedy|Drama            Waiting to Exhale  1995
4         5                        Comedy  Father of the Bride Part II  1995


In [113]:
movies_1995 = len(movies_dataset[movies_dataset['Year'] == '1995'])
display(movies_1995)

342

- Analizando el dataset ratings.dat, ¿hay algún usuario que no tenga ninguna review? ¿Cuántos tienen menos de 30 reviews?

In [114]:
ruta_ratings = os.path.join("res", "ml-1m", "ratings.dat")
ratings_df = pd.read_csv(ruta_ratings, sep='::',
    header=None, names=['User_Id','Reviews','Note','Ref'], engine='python')

display(ratings_df.head())

Unnamed: 0,User_Id,Reviews,Note,Ref
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291


In [115]:
ratings_df.describe()

Unnamed: 0,User_Id,Reviews,Note,Ref
count,1000209.0,1000209.0,1000209.0,1000209.0
mean,3024.512,1865.54,3.581564,972243700.0
std,1728.413,1096.041,1.117102,12152560.0
min,1.0,1.0,1.0,956703900.0
25%,1506.0,1030.0,3.0,965302600.0
50%,3070.0,1835.0,4.0,973018000.0
75%,4476.0,2770.0,4.0,975220900.0
max,6040.0,3952.0,5.0,1046455000.0


In [116]:
ratings_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000209 entries, 0 to 1000208
Data columns (total 4 columns):
 #   Column   Non-Null Count    Dtype
---  ------   --------------    -----
 0   User_Id  1000209 non-null  int64
 1   Reviews  1000209 non-null  int64
 2   Note     1000209 non-null  int64
 3   Ref      1000209 non-null  int64
dtypes: int64(4)
memory usage: 30.5 MB


In [117]:
display(ratings_df.groupby(by='User_Id').describe())

Unnamed: 0_level_0,Reviews,Reviews,Reviews,Reviews,Reviews,Reviews,Reviews,Reviews,Note,Note,Note,Note,Note,Ref,Ref,Ref,Ref,Ref,Ref,Ref,Ref
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
User_Id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
1,53.0,1560.547170,935.976178,1.0,783.00,1270.0,2340.00,3408.0,53.0,4.188679,...,5.0,5.0,53.0,9.784297e+08,2.270962e+05,978300019.0,978301398.0,978302039.0,978302281.0,978824351.0
2,129.0,1784.015504,1040.349122,21.0,1096.00,1687.0,2571.00,3893.0,129.0,3.713178,...,5.0,5.0,129.0,9.782993e+08,6.054037e+02,978298124.0,978298813.0,978299297.0,978299839.0,978300174.0
3,51.0,1787.450980,1007.032975,104.0,1196.50,1394.0,2543.50,3868.0,51.0,3.901961,...,5.0,5.0,51.0,9.782978e+08,4.239870e+02,978297018.0,978297539.0,978297757.0,978298147.0,978298504.0
4,21.0,1932.000000,1070.516184,260.0,1198.00,1387.0,2947.00,3702.0,21.0,4.190476,...,5.0,5.0,21.0,9.782942e+08,1.165415e+02,978293924.0,978294199.0,978294230.0,978294260.0,978294282.0
5,198.0,1762.747475,1079.861293,6.0,873.50,1725.5,2712.00,3799.0,198.0,3.146465,...,4.0,5.0,198.0,9.782445e+08,1.477219e+03,978241072.0,978243170.0,978244808.0,978245763.0,978246585.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6036,888.0,1855.752252,1003.534508,4.0,1080.75,1936.0,2712.25,3576.0,888.0,3.302928,...,4.0,5.0,888.0,9.567280e+08,1.983400e+04,956709349.0,956711270.0,956716780.0,956753311.0,956755196.0
6037,202.0,1773.579208,967.878120,17.0,1033.50,1578.5,2528.50,3543.0,202.0,3.717822,...,4.0,5.0,202.0,9.567261e+08,3.011010e+04,956708997.0,956709629.0,956718700.0,956719206.0,956801840.0
6038,20.0,1640.650000,955.084580,232.0,1145.00,1286.0,2284.50,3548.0,20.0,3.800000,...,5.0,5.0,20.0,9.567093e+08,3.582094e+03,956706827.0,956707005.0,956707604.0,956709471.5,956717204.0
6039,123.0,1546.235772,899.497875,48.0,923.50,1211.0,2135.00,3549.0,123.0,3.878049,...,4.0,5.0,123.0,9.567083e+08,1.130632e+04,956705158.0,956705497.0,956705811.0,956706035.0,956758029.0


In [118]:
zero_reviews = len(ratings_df[ratings_df['Reviews'] == 0])
print(zero_reviews)

0


In [119]:
less_than30_reviews = len(ratings_df[ratings_df['Reviews'] < 30])
print(less_than30_reviews)

14199
