
<img src="img/viu_logo.png" width="200">

## 01MIAR - Estructuras de datos, Pandas

![logo](img/python_logo.png)

*Ivan Fuertes*

# Sumario
- Series y DataFrame
- Indexacion, slicing
- Grabar y cargar a archivo
- MovieLens dataset 

# Pandas
- Librería (de facto estándar) para estructurar datos tabulares
- Multivariable (string, int, float, bool...)
- Dos clases:
  - Series (1 dimensión)
  - DataFrames (2+ dimensiones)

In [2]:
# librería externa
import pandas as pd
from pandas import Series, DataFrame

# Series
- Datos unidimensionales (similar a NumPy)
- Elementos + índices modificables

In [None]:
#Por defecto panda le pone indices a las series
countries = pd.Series(['Spain','Andorra','Gibraltar','Portugal','France'])
print(countries)

In [None]:
# especificando el índice de los datos
countries = pd.Series(['Spain','Andorra','Gibraltar','Portugal','France'],
                       index=range(10,60,10))
print(countries)

In [4]:
# los índices pueden ser de más tipos, por ejemplo alfanúmerico
football_cities = pd.Series(['Barcelona','Madrid','Valencia','Sevilla'], 
                            index=['a','b','c','d'])


print(football_cities)

a    Barcelona
b       Madrid
c     Valencia
d      Sevilla
dtype: object


In [None]:
# Atributos
football_cities.name = 'Ciudades con dos equipos en primera' # nombrar la Serie
#Nombrar la columna indece
football_cities.index.name = 'Id' # Describir los índices
print(football_cities)

In [None]:
# A pesar de especificar los indexes semanticos, se mantienen los indexes normales de 0 a n elementos
# acceso similar a NumPy o listas, según posición
print(football_cities[2])

# acceso a través del índice semántico
print(football_cities['c'])

print(football_cities['c'] == football_cities[2])

# Tratamiento similar a ndarray

In [5]:
# múltiple recolección de elementos
print(football_cities[ ['a','c'] ])
print(football_cities[ [0, 3] ])

a    Barcelona
c     Valencia
dtype: object
a    Barcelona
d      Sevilla
dtype: object


In [None]:
# slicing
print(football_cities[:'c']) # incluye ambos extremos con el indice semantico
print(football_cities[:2]) #pero el indice posicional no

In [6]:
#cast a list
lista = list(football_cities[:'c'])
print(lista)

['Barcelona', 'Madrid', 'Valencia']


In [7]:
#cast a ndarray
import numpy as np

cities = np.array(football_cities[:'c'])
print(cities)
print(type(cities))

['Barcelona' 'Madrid' 'Valencia']
<class 'numpy.ndarray'>


In [9]:
# uso de masks para seleccionar
fibonacci = pd.Series([0, 1, 1, 2, 3, 5, 8, 13, 21])

mask = fibonacci > 10
print(mask)
print(fibonacci[mask])

dst = pd.Series([13,21])
print(dst)


fb = fibonacci[mask]
#Reinicia los indexes, pero el atributo inplace le dice que necesita que esos cambios se apliquen al objeto actual
#si el inplace es false, crea un objeto nuevo y no modifica el existente, por defecto el valor de inplace es false
#fb2 = fb.reset_index(drop=True,inplace=False)
#Place the cursor inside the parenthesis of the function, hold down shift , and press tab
fb.reset_index(drop=True,inplace=True)
print(fb)

#equals determina si una serie o un dataframe son iguales
dst.equals(fb)

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7     True
8     True
dtype: bool
7    13
8    21
dtype: int64
0    13
1    21
dtype: int64
0    13
1    21
dtype: int64


True

In [None]:
# aplicar funciones de numpy a la serie
import numpy as np
# todas las funciones de numpy aceptan ndarrays, series y dataframes
np.sum(fibonacci)

In [None]:
#filtrado con np.where

distances = pd.Series([12.1,np.nan,12.8,76.9,6.1,7.2])

valid_distances = np.where(pd.notnull(distances),distances,0)

print(valid_distances)
print(type(valid_distances))

### Iteración

In [12]:
# iterar sobre elementos
for value in fibonacci:
    print('Value: ' + str(value))

# iterar sobre indices
for index in fibonacci.index:
    print('Index: ' + str(index))

Value: 0
Value: 1
Value: 1
Value: 2
Value: 3
Value: 5
Value: 8
Value: 13
Value: 21
Index: 0
Index: 1
Index: 2
Index: 3
Index: 4
Index: 5
Index: 6
Index: 7
Index: 8


In [10]:
# iterar sobre elementos e índices al mismo tiempo
for index, value in fibonacci.items():
    print('Index: ' + str(index) + '  Value: ' + str(value))

Index: 0  Value: 0
Index: 1  Value: 1
Index: 2  Value: 1
Index: 3  Value: 2
Index: 4  Value: 3
Index: 5  Value: 5
Index: 6  Value: 8
Index: 7  Value: 13
Index: 8  Value: 21


In [11]:
for index, value in zip(fibonacci.index, fibonacci):
    print('Index: ' + str(index) + '  Value: ' + str(value))  

Index: 0  Value: 0
Index: 1  Value: 1
Index: 2  Value: 1
Index: 3  Value: 2
Index: 4  Value: 3
Index: 5  Value: 5
Index: 6  Value: 8
Index: 7  Value: 13
Index: 8  Value: 21


## Series como diccionarios
- Interpretar el índice como clave
- Acepta operaciones para diccionarios

In [14]:
# crear una serie a partir de un diccionario
serie = pd.Series( { 'Carlos' : 100, 'Marcos': 98} )

print(serie.index)
print(serie.values)

print(serie)
print(type(serie))

Index(['Carlos', 'Marcos'], dtype='object')
[100  98]
Carlos    100
Marcos     98
dtype: int64
<class 'pandas.core.series.Series'>


In [15]:
# añade y elimina elementos a través de índices
#añadir elementos a una serie como una lista, especificando el indece
#semantioc y posicional
serie['Pedro'] = 12

#eliminar un elemento en una serie
del serie['Marcos']
print(serie)

Carlos    100
Pedro      12
dtype: int64


In [16]:
# query una serie
# print(serie['Marcos'])
serie['Marcos'] = 289
if 'Marcos' in serie:
    print(serie['Marcos'])
    
print(serie)

289
Carlos    100
Pedro      12
Marcos    289
dtype: int64


## Operaciones entre series

In [18]:
# suma de dos series
# suma de valores con el mismo índice (NaN si no aparece en ambas)
serie1 = pd.Series([10,20,30,40], index=range(4) )
#serie1 = pd.Series([10,20,30,40], index=range(10,50,10) )
serie2 = pd.Series([1,2,3], index=range(3) )
print(serie1 + serie2)

0    11.0
1    22.0
2    33.0
3     NaN
dtype: float64


In [None]:
# resta de series (similar a la suma)
print(serie1 - serie2)

In [None]:
# operaciones de pre-filtrado
result = serie1 + serie2
result[pd.isnull(result)] = 0 # mask con isnull()
print(result)

###  Diferencias entre Pandas Series y diccionario
* Diccionario, es una estructura que relaciona las claves y los valores de forma arbitraria.
* Series, estructura de forma estricta listas de valores con listas de índice asignado en la posición.
* Series, es más eficiente para ciertas operaciones que los dicionarios.
* En las Series los valores de entrada pueden ser listas o Numpy arrays.
* En Series los índices semánticos pueden ser integers o caracteres, en los valores igual.
* Series se podría entender entre una lista y un diccionario Python, pero es de una dimensión.

# DataFrame
- Datos tabulares (filas x columnas)
- Columnas: Series con índices compartidos
- Los dataframes son columnas de series, estas series se pueden visualizar como columnas verticales 

In [None]:
# crear un DataFrame a partir de un diccionario de elementos de la misma longitud
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"], 
                "Edad" : [34,29,12] }

# las claves identifican columnas
frame = pd.DataFrame(diccionario)
display(frame)

In [19]:
# crear un DataFrame a partir de un diccionario de elementos de la misma longitud
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"], 
                "Edad" : [34,29,12] }

# las claves identifican columnas
#añadir indeces semanticos al DataFrame
frame = pd.DataFrame(diccionario, index = ['a', 'b', 'c'])
display(frame)

Unnamed: 0,Nombre,Edad
a,Marisa,34
b,Laura,29
c,Manuel,12


In [None]:
# además de 'index', el parámetro 'columns' especifica el número y orden de las columnas
#si agrego dos columnas más y esas no tienen valores el dataframe pone su valor con Nan
#Nunca nombrar columnas que su nombre contenga espacios
frame = pd.DataFrame(diccionario, columns = ['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])
display(frame)

In [None]:
# acceso a columnas
#accedo por medio del nombre de la columna y eso al final es una serie
#por eso es que decimos que un dataframe es una colección de series
nombres = frame['Nombre']
display(nombres)
#esto es una serie
type(nombres)

#En los dataframe No modificar mediante slicing, sino hacerlo por medio de un copy
nombres[0] = 'Pepe'

In [None]:
#siempre que el nombre de la columna lo permita (espacios, ...)
#si elnombre de la columna tiene espacios ya no se puede accedeer de esta manera
nombres = frame.Nombre
display(nombres)
type(nombres)

In [None]:
# acceso al primer nombre del DataFrame frame??
print(frame['Nombre'][0])
print(frame.Nombre[0])
print(nombres[0])

### Formas de crear un DataFrame
* Con una Serie de pandas
* Lista de diccionarios
* Dicionario de Series de Pandas
* Con un array de Numpy de dos dimensiones
* Con array estructurado de Numpy 

## Modificar DataFrames

In [None]:
# añadir columnas
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"], 
                "Edad" : [34,29,12] }

frame = pd.DataFrame(diccionario,columns=['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])
frame['Direccion'] = 'Desconocida'
#si la columna ya existe, la actualiza sino la crea
#frame['Nacionalidad'] = 'Desconocida'
display(frame)

In [None]:
# añadir fila (requiere todos los valores)

user_2 = ['Alemania','Klaus',20, 'none', 'Desconocida']
frame.loc[100] = user_2
display(frame)

In [20]:
# eliminar fila (similar a Series)
frame = pd.DataFrame(diccionario,columns=['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])

# frame = frame.drop(2) # por qué necesitamos reasignar el frame?, si no ocupamos el inplace debemos reasignarlo, de lo contrario
#este crea uno dataframe nuevo
# display(frame)
#borrar una fila, de esta forma es mucho más eficiente
frame.drop(2, axis=0, inplace = True)
#Borrar una columna
frame.drop('Nombre', axis=1, inplace = True)

display(frame)

Unnamed: 0,Nacionalidad,Edad,Profesion
0,,34,
1,,29,


In [None]:
#eliminar columna
del frame['Profesion']
#Borrar una columna
#frame.drop('Nombre', axis=1, inplace = True)
display(frame)

In [None]:
# acceder a la traspuesta (como una matriz)
display(frame.T)

## Iteración

In [None]:
# iteración sobre el DataFrame?
frame = pd.DataFrame(diccionario, columns=['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])

for a in frame:
    print(a) # qué es 'a'?
    print(type(a))

In [None]:
# iteracion sobre filas
#las filas son ndarray y las columnas son series
for value in frame.values:
    print(value)
    print(type(value))

In [None]:
# iterar sobre filas y luego sobre cada valor?

for values in frame.values:
    for value in values: 
        print(value)

## Indexación y slicing con DataFrames

In [5]:
d1 = {'ciudad':'Valencia', 'temperatura':10, 'o2':1}
d2 = {'ciudad':'Barcelona', 'temperatura':8}
d3 = {'ciudad':'Valencia', 'temperatura':9}
d4 = {'ciudad':'Madrid', 'temperatura':10, 'humedad':80}
d5 = {'ciudad':'Sevilla', 'temperatura':15, 'humedad':50, 'co2':6}
d6 = {'ciudad':'Valencia', 'temperatura':10, 'humedad':90, 'co2':10}

ls_data = [d1, d2, d3, d4, d5, d6]  # lista de diccionarios
df_data = pd.DataFrame(ls_data, index = list('abcdef'))
display(df_data)

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [6]:
# Acceso a un valor concreto por indice posicional [row, col]
print(df_data.iloc[1,1])

# Acceso a todos los valores hasta un índice por enteros
display(df_data.iloc[:3,:4])

# Acceso a datos de manera explícita, indice semantico (se incluyen)
#The loc property gets, or sets, the value(s) of the specified labels.
#dataframe.loc[row, column)  
display(df_data.loc['d', 'temperatura'])
display(df_data.loc[:'c', :'o2'])
display(df_data.loc[:'c', 'temperatura':'o2'])
#acceder a columnas especificas
display(df_data.loc[:, ['ciudad','o2']])

8


Unnamed: 0,ciudad,temperatura,o2,humedad
a,Valencia,10,1.0,
b,Barcelona,8,,
c,Valencia,9,,


10

Unnamed: 0,ciudad,temperatura,o2
a,Valencia,10,1.0
b,Barcelona,8,
c,Valencia,9,


Unnamed: 0,temperatura,o2
a,10,1.0
b,8,
c,9,


Unnamed: 0,ciudad,o2
a,Valencia,1.0
b,Barcelona,
c,Valencia,
d,Madrid,
e,Sevilla,
f,Valencia,


In [None]:
# indexación con nombre de columna (por columnas)
print(df_data['ciudad']) # --> Series

display(df_data[['ciudad', 'o2']])

In [None]:
# indexación con índice posicional (no permitido!). Esto busca columna.
# df_data[0]

In [8]:
# indexar por posición con 'iloc'
print(df_data.iloc[0]) # --> Series de la primera fila (qué marca los índices)
#las columnas se transforman en indeces semanticos

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object


In [7]:
# indexar semántico con 'loc'
df_data.loc['a'] # --> Series de la fila con índice 'a'

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object

In [None]:
# indexar semántico con 'loc'
df_data.loc[:'b'] # --> DataFrame de la fila con índice 'a'

In [21]:
# si se modifica una porcion del dataframe se modifica el dataframe original (referencia)
serie = df_data.loc['a']
serie[2] = 3000

display(df_data)

# copiar data frame
df_2 = df_data.copy()

NameError: name 'df_data' is not defined

In [12]:
# ambos aceptan 'axis' como argumento
# df_data.iloc(axis=1)[0] # --> todos los valores asignados a la primera columna 'ciudad'
df_data.lo(axis=1)['ciudad'] # --> equivalente frame['ciudad']
#Acceder a una fila con loc especificando el axis y especificando el indice de la fila
#df_data.loc(axis=0)['a'] # --> equivalente frame['ciudad']


a     Valencia
b    Barcelona
c     Valencia
d       Madrid
e      Sevilla
f     Valencia
Name: ciudad, dtype: object

In [None]:
# qué problema puede tener este fragmento?
frame = pd.DataFrame({"Name" : ['Carlos','Pedro'], "Age" : [34,22]}, index=[1,0])
display(frame)

In [None]:
# por defecto, pandas interpreta índice posicional --> error en frames
# cuando hay posible ambigüedad, utilizar loc y iloc
print('Primera fila\n')
print(frame.iloc[0])
print('\nElemento con index 0\n')
print(frame.loc[0])

## Objeto Index de Pandas

In [None]:
# Contrucción de índices
ind = pd.Index([2, 3, 5, 23, 26])
# recuperar datos
print(ind[3])
print(ind[::2])

In [None]:
# usar un objeto index al crear dataframe
frame = pd.DataFrame({"Name" : ['Carlos','Pedro', 'Manolo', 'Luis', 'Alberto'], "Age" : [34,22,15,55,23]}, index=ind)
display(frame)

In [None]:
# Son inmutables! No se modifican los datos. 
ind[3] = 8

## Slicing

In [13]:
# slice por filas
d_and_d_characters = {'Name' : ['bundenth','theorin','barlok'], 'Strength' : [10,12,19], 'Wisdom' : [20,13,6]}
character_data = pd.DataFrame(d_and_d_characters, index=['a','b','c'])
display(character_data)
display(character_data[:-1])
display(character_data[1:2])

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13
c,barlok,19,6


Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13


Unnamed: 0,Name,Strength,Wisdom
b,theorin,12,13


In [None]:
# slicing para columnas
display(character_data[['Name','Wisdom']])

In [None]:
#slicing con 'loc' e 'iloc'
display(character_data.iloc[1:])
display(character_data.loc[:'b','Name':'Strength'])

¿Cómo filtrar filas y columnas? Por ejemplo, para todos los personajes, obtener 'Name' y 'Strength'

In [None]:
# usando 'loc' para hacer slicing
display(character_data.loc[:,'Name':'Strength'])

In [None]:
# usando 'loc' para buscar específicamente filas y columnas
display(character_data.loc[ ['a','c'], ['Name','Wisdom'] ])

In [None]:
# lo mismo con 'iloc'?
display(character_data.iloc[[0,2],[0,2]])
display(character_data.iloc[[0,-1],[0,-1]])

In [14]:
# lista de los personajes con el atributo Strength > 11
#primero filas y luego columnas
display(character_data.loc[character_data['Strength'] > 11, ['Name', 'Strength']])

Unnamed: 0,Name,Strength
b,theorin,12
c,barlok,19


In [None]:
# listar los personajes con Strength > 15 o Wisdom > 15
#doble condicional para filas
display(character_data.loc[(character_data['Strength'] > 15) | (character_data['Wisdom'] > 15)])

# Cargar y guardar datos en pandas

In [15]:
# Guardar a csv
import os
ruta = os.path.join("res" ,"o_d_d_characters.csv")

character_data.to_csv(ruta, sep=';') # sep por defecto: ','

In [None]:
loaded = pd.read_csv(ruta, sep=';')
display(loaded)

In [None]:
#como guarda los indexes como una columna más del dataframe
#se le especifica index_col=0 para que se leea con los indexes correctos
loaded = pd.read_csv(ruta, sep=';', index_col = 0)
display(loaded)

#### otros argumentos to_csv()
- na_rep='string' --> representar valores NaN en el archivo csv

#### otros argumentos read_csv()
- na_values='string'


Pandas también ofrece funciones para leer/guardar a otros formatos estándares: HTML,JSON, HDF5 o Excel en su [API](https://pandas.pydata.org/pandas-docs/stable/reference/io.html)

# Ejemplo práctico en pandas
- [MovieLens dataset](https://grouplens.org/datasets/movielens/)
 - Reviews de películas
 - 1 millón de entradas
 - Datos demográficos de usuarios
 
 Primero ver lo que tiene ese dataset, el tipo de información que hay, el formato del fichero
 Que representa la información.
 Que significado tiene la información.
 como tratarlo el fichero.
 

In [20]:
import numpy as np
import pandas as pd
import zipfile # para descomprimir archivos zip
import urllib.request # para descargar de URL
import os

# descargar MovieLens dataset
url = 'http://files.grouplens.org/datasets/movielens/ml-1m.zip'  
ruta = os.path.join("res", "ml-1m.zip")
urllib.request.urlretrieve(url, ruta)

('res\\ml-1m.zip', <http.client.HTTPMessage at 0x200a2183790>)

In [21]:
# descomprimiendo archivo zip
#esta es la ruta destino
ruta_ext = os.path.join("res")
# 'r' modo lectura
with zipfile.ZipFile(ruta, 'r') as z: 
    print('Extracting all files...') 
    z.extractall(ruta_ext) # destino
    print('Done!') 
    
# take a look at readme y revisar formatos

Extracting all files...
Done!


In [23]:
ruta_users = os.path.join("res", "ml-1m", "users.dat")

users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0, engine='python')
display(users_dataset)

Unnamed: 0_level_0,F,1.1,10,48067
1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,02460
5,M,25,20,55455
6,F,50,9,55117
...,...,...,...,...
6036,F,25,15,32603
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,01060


In [24]:
# Varios problemas
# sin cabecera! primer valor se ha perdido
# las columnas no tienen nombres
pd.read_csv?

In [25]:
# especificar nombres, cargar sin cabecera
users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0,
    header=None, names=['UserID','Gender','Age','Occupation','Zip-code'], engine='python')
display(users_dataset)

#Las asignación del nombre de las columnas es diferente cuando se crea un dataframe
#frame = pd.DataFrame(diccionario, columns=['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,02460
5,M,25,20,55455
...,...,...,...,...
6036,F,25,15,32603
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,01060


In [None]:
# samplear la tabla 
#con el metodo sample me regresa un número de filas aleatoreas
display(users_dataset.sample(10))

In [None]:
# samplear la cabeza
display(users_dataset.head(4))

In [None]:
# samplear la cola
display(users_dataset.tail(4))

In [None]:
# tipos de datos sobre las columnas
users_dataset.dtypes

In [None]:
display(users_dataset[users_dataset['Zip-code'].str.len() > 5])

In [None]:
# información general sobre atributos numéricos
display(users_dataset.describe())

In [None]:
users_dataset.info()

In [None]:
# incluir otros atributos (no todo tiene sentido)
display(users_dataset.describe(include='all'))

In [None]:
# cuántos usuarios son mujeres (Gender='F')
len(users_dataset[users_dataset['Gender'] == 'F'])

#usar where para tener el mismo resultado, se puede????


# select count(*) from users_dataset where users_dataset.Gender = 'F'

In [29]:
# mostrar solo los menores de edad
under_age = users_dataset[users_dataset['Age'] ==1]
print(len(under_age))
#Condicional equivalente por las consideraciones del README
under_age2 = users_dataset[users_dataset['Age'] < 18]
print(len(under_age2))

display(under_age.sample(10))

222
222


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
75,F,1,10,01748
1187,F,1,0,90210
470,F,1,10,55068
3537,M,1,10,97402
1054,M,1,10,75040
5558,M,1,10,02446
1673,M,1,10,98043-3621
5390,M,1,0,78130
5228,M,1,0,75070
2133,F,1,10,01607


In [None]:
# filtrar edad incorrecta (míninimo 18) SettingWithCopyWarning!!!
users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0,
    header=None, names=['UserID','Gender','Age','Occupation','Zip-code'], engine='python')
under_age = users_dataset[users_dataset['Age'] == 1]

# under_age.loc['Age'] = np.nan
# display(under_age.head())

users_dataset[users_dataset['Age'] < 18] = under_age
display(users_dataset.head())

In [None]:
# filtrar edad incorrecta (míninimo 18) Fixing it by Copying the slice
users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0,
    header=None, names=['UserID','Gender','Age','Occupation','Zip-code'], engine='python')
under_age = users_dataset[users_dataset['Age'] == 1]
#Manera correcta de modificar un dataset, se crea una copia de la porción a modificar 
under_age_copy = under_age.copy()
#Se le cambia los valores
under_age_copy['Age'] = np.nan
display(under_age_copy.head())
#se asigna esa copia con los nuevos valores a los elemeentos del dataset original
#el users_dataset['Age'] < 18 es equivalente a users_dataset['Age'] == 1 por las consideraciones del READEME
users_dataset[users_dataset['Age'] < 18] = under_age_copy
display(users_dataset.head())

In [None]:
# filtrar edad incorrecta (míninimo 18) Remove them from the dataset
users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0,
    header=None, names=['UserID','Gender','Age','Occupation','Zip-code'], engine='python')

display(users_dataset[users_dataset['Age'] == 1].head(4))

#Como modificar datos de un datset sin el copy ni el warning
# el users_dataset['Age'] == 1 , hace referencia que solo se tomen valores iguales a 1
# y el Age indica que esa condicion aplica para los valores de la columna Age
#recordar que con los dataframes se accede fila y columna, no columna y fila como generalmente lo hacemos!
users_dataset.loc[users_dataset['Age'] == 1,'Age'] = np.nan
display(users_dataset.loc[pd.isnull(users_dataset['Age'])].head(4))

#le paso los indexes de los elementos que deseo eliminar,
#recordar que el inplace es para que el impacto tenga efecto en el dataset que estoy trabajando 
#y no en la copia que se genera si el inplace es false
users_dataset.drop(users_dataset[pd.isnull(users_dataset['Age'])].index, inplace = True)
display(users_dataset.head(4))

In [None]:
# Agrupar datos por atributos
# el describe muestra información general sobre atributos numéricos
#asi como está comprara el Gender con la columna númerica Ocupation
#si le incluimos el all entonces compararia el Gender con todas las columnas incluyendo las que no son númericas.
display(users_dataset.groupby(by='Gender').describe())

In [None]:
# Grabar la tabla modificada
# Cambiar el separador a ','
# Guardar NaN como 'null'
ruta_output = os.path.join('res', 'ml-1m', 'o_users_processed.csv')
users_dataset.to_csv(ruta_output, sep=',',na_rep='null')

# Ejercicios
- Hacer un análisis general de los otros dos archivos CSV en ml-1m ('movies.dat' y 'ratings.dat')
- Analizando el dataset ratings.dat, ¿hay algún usuario que no tenga ninguna review? ¿Cuántos tienen menos de 30 reviews?