<div style="display:flex; justify-content:center; align-items:center; margin:25px 0;">
    
![jupyter](img/logo.png)

</div>

# Ficheros

<div style="display:flex; justify-content:center; align-items:center; margin:25px 0;">
    
![jupyter](img/python.png)

</div>

<div align="center">
    
## **Nombre**: ***Adriel Bedoya***

</div>

## Pandas

Es una librería para estructurar datos tabulares, es multivariable (string, bool) y tiene dos clases: **Series** que es de una dimensión (1D) y **DataFrames** que tiene 2 dimensiones (2D)

In [2]:
# Libería externa
import pandas as pd
from pandas import Series, DataFrame

In [3]:
#Para ver la versión
pd.__version__

'2.3.3'

## Series

Tiene datos unidimensionales (una sola dimensión), tiene elementos y se pueden modificar sus índices

In [4]:
#Así creamos una serie con Pandas
paises = pd.Series(["España", "Andorra", "Portugal", "Francia", "Perú"])
print(paises)

0      España
1     Andorra
2    Portugal
3     Francia
4        Perú
dtype: object


In [8]:
#Especificamos el índice
#Imprime en el orden del 10 al 50 porque tiene salto de 10
paises = pd.Series(["España", "Andorra", "Portugal", "Francia", "Perú"], index = range(10,60,10))
print(paises)

10      España
20     Andorra
30    Portugal
40     Francia
50        Perú
dtype: object


In [13]:
#Los índices también pueden ser de más tipos
ciudades_fuchibol = pd.Series(["Quito", "Guayaquil", "Cuenca", "Manabí"], index=["a","b","c","d"])
print(ciudades_fuchibol)

a        Quito
b    Guayaquil
c       Cuenca
d       Manabí
dtype: object


In [15]:
#Ahora con atributos
ciudades_fuchibol.name = "Ciudades con 5 equipos en primera división" #Con esto ponemos un encabezado a los elementos
ciudades_fuchibol.index.name = "Identificador" #Con esto ponemos encabezado a los índices
print(ciudades_fuchibol)

Identificador
a        Quito
b    Guayaquil
c       Cuenca
d       Manabí
Name: Ciudades con 5 equipos en primera división, dtype: object


In [16]:
#El acceso es similar a Numpy o a las listas, según su posición
print(ciudades_fuchibol[1])

Guayaquil


  print(ciudades_fuchibol[1])


In [27]:
#Actualmente se utiliza array.iloc[posición]
print(ciudades_fuchibol.iloc[2])

Cuenca


In [29]:
#Acceso a través del índice semántico
print(ciudades_fuchibol['c']) #Por aquí si se puede hacer como las listas o arrays

print(ciudades_fuchibol['c']) == ciudades_fuchibol.iloc[2]

Cuenca
Cuenca


False

## Tratamiento Similar a Ndarray

In [34]:
#Múltiple recolección de elementos
print(ciudades_fuchibol[['a', 'c']])
print("-------------------------------------------")
print(ciudades_fuchibol.iloc[[0,3]])

Identificador
a     Quito
c    Cuenca
Name: Ciudades con 5 equipos en primera división, dtype: object
-------------------------------------------
Identificador
a     Quito
d    Manabí
Name: Ciudades con 5 equipos en primera división, dtype: object


In [37]:
#Ahora con slicing
#Incluye ambos extremnos inicio y fin con el índice semántico
print(ciudades_fuchibol[:'c'])

print("----------------------------------------")

#Aquí le decimos de la posición 0 a la 2
print(ciudades_fuchibol[:2])

Identificador
a        Quito
b    Guayaquil
c       Cuenca
Name: Ciudades con 5 equipos en primera división, dtype: object
----------------------------------------
Identificador
a        Quito
b    Guayaquil
Name: Ciudades con 5 equipos en primera división, dtype: object


In [38]:
#Casteo a Lista

#Básicamente haremos un parse desde el índice a hasta la c
lista_ejemplo = list(ciudades_fuchibol[:'c'])
print(lista_ejemplo)
print(type(lista_ejemplo))

['Quito', 'Guayaquil', 'Cuenca']
<class 'list'>


In [39]:
#Recordemos que es una Serie de Pandas
type(ciudades_fuchibol[:'c'])

pandas.core.series.Series

In [40]:
#Cast a un array de numpy

import numpy as np
#Convertimos la Serie en un array que almacenará en la variable 'ciudades'
ciudades = np.array(ciudades_fuchibol[:'c'])
print(ciudades)
print(type(ciudades))

['Quito' 'Guayaquil' 'Cuenca']
<class 'numpy.ndarray'>


In [42]:
#Casteo a Diccionario
lista = dict(ciudades_fuchibol[:'c'])
print(lista)

{'a': 'Quito', 'b': 'Guayaquil', 'c': 'Cuenca'}


In [48]:
#Uso para mask para seleccionar

#Creamos una serie que tenga dentro fibonacci
fibonacci = pd.Series([0, 1, 1, 2, 3, 5, 8, 13, 21])
print("primero: ", fibonacci)

print("---------------")
#Creamos una máscara que tenga la condición que vea cuales son mayores a 10
#En bool
mask = fibonacci > 10
print("segundo: ",mask)

print("---------------")
#Con esto, podremos ver los números dentro de la Serie en vez de el valor boolean
print("tercero: ", fibonacci[mask])
print("---------------")
#Creamos una serie nueva
dst = pd.Series([13,21])
print("cuarto: ", dst)
print("---------------")
#Decimos si "dst" es igual a fibonacci cosa que no pasa porque hay más indices
dst.equals(fibonacci)
#Guardamos en esta variable los números que son mayores a 10
fb = fibonacci[mask]
#Reseteamos los index
#Drop reemplaza los índices por los default (0,1,2,3)
#inplace modifica la serie directamente
fb.reset_index(drop=True, inplace=True)

print(fb)#print
#Ahora si saldrá true porque tenemos los mismos valores e índices
dst.equals(fb)

primero:  0     0
1     1
2     1
3     2
4     3
5     5
6     8
7    13
8    21
dtype: int64
---------------
segundo:  0    False
1    False
2    False
3    False
4    False
5    False
6    False
7     True
8     True
dtype: bool
---------------
tercero:  7    13
8    21
dtype: int64
---------------
cuarto:  0    13
1    21
dtype: int64
---------------
0    13
1    21
dtype: int64


True

In [49]:
#Aplicar funciones de Numpy a la Serie
import numpy as np
#Lo que hacemos acá es sumar todos los números dentro de fibonacci
print(np.sum(fibonacci))

54


In [50]:
#filtrado con np.where
#Creamos una serie con valores y el nan significa que no tien valor
distances = pd.Series([12.1,np.nan,12.8,76.9,6.1,7.2])
#Abajo haremos una comprobación donde veremos que todo nan devuelva el número 2
#pd.notnull() = devuelve True si el valor no es NaN y devuelve false si lo es
#el np.where funciona como un if vectorizado en el cual
#Si no es NaN
valid_distances = np.where(pd.notnull(distances),distances,2)
print(valid_distances)
print(type(valid_distances))

[12.1  2.  12.8 76.9  6.1  7.2]
<class 'numpy.ndarray'>


### Iteración

In [51]:
#iterar sobre elementos
for value in fibonacci:
    print('Value: ' + str(value))

Value: 0
Value: 1
Value: 1
Value: 2
Value: 3
Value: 5
Value: 8
Value: 13
Value: 21


In [52]:
# iterar sobre indices
for index in fibonacci.index:
    print('Index: ' + str(index))


Index: 0
Index: 1
Index: 2
Index: 3
Index: 4
Index: 5
Index: 6
Index: 7
Index: 8


In [53]:
# iterar sobre elementos e índices al mismo tiempo mediante el método de pandas
for index, value in fibonacci.items():
    print('Index: ' + str(index) + ' Value: ' + str(value))

Index: 0 Value: 0
Index: 1 Value: 1
Index: 2 Value: 1
Index: 3 Value: 2
Index: 4 Value: 3
Index: 5 Value: 5
Index: 6 Value: 8
Index: 7 Value: 13
Index: 8 Value: 21


In [54]:
#Hace lo mismo que el código de arriba pero usando zip
for index, value in zip(fibonacci.index, fibonacci):
    print('Index: ' + str(index) + ' Value: ' + str(value))

Index: 0 Value: 0
Index: 1 Value: 1
Index: 2 Value: 1
Index: 3 Value: 2
Index: 4 Value: 3
Index: 5 Value: 5
Index: 6 Value: 8
Index: 7 Value: 13
Index: 8 Value: 21


### Series en Diccionarios

Interpreta el índice como una clave y acepta operaciones para diccionarios

In [59]:
# crear una serie a partir de un diccionario

#Creamos una serie
serie = pd.Series( { 'Carlos' : 100, 'Marcos': 98} )
print("---------------------------")
#Vemos los índices
print(serie.index)
print("---------------------------")
#Vemos los valores
print(serie.values)
print("---------------------------")
#print de valores completos
print(serie)
print("---------------------------")
print(type(serie))

---------------------------
Index(['Carlos', 'Marcos'], dtype='object')
---------------------------
[100  98]
---------------------------
Carlos    100
Marcos     98
dtype: int64
---------------------------
<class 'pandas.core.series.Series'>


In [60]:
# añade y elimina elementos a través de índices
serie['Pedro'] = 12
serie['Pedro']=15
del serie['Marcos']
print(serie)


Carlos    100
Pedro      15
dtype: int64


In [64]:
# query una serie

#print(serie['Marcos'])
print("-----------------------------------")
#Si Marcos está en la serie
if 'Marcos' in serie:
    #imprime los valores de la serie de Marcos
    print(serie['Marcos'])
    
print(serie)

-----------------------------------
Carlos    100
Pedro      15
dtype: int64


### Operadores entre Series

In [66]:
# suma de dos series
# Los índices se suman de manera uniforme, si sobra o falta un índice, ese se hace NaN
serie1 = pd.Series([10,20,30,40], index=range(4) )
serie2 = pd.Series([1,2,3], index=range(3) ) #este no tiene índice 3, por lo cual, se hace NaN
suma = serie1 + serie2
print(suma)


0    11.0
1    22.0
2    33.0
3     NaN
dtype: float64


In [67]:
# resta de series (similar a la suma)
print(serie1 - serie2)

0     9.0
1    18.0
2    27.0
3     NaN
dtype: float64


In [68]:
# operaciones de pre-filtrado
result = serie1 + serie2
#Si es nulo, entonces el valor será 0
result[pd.isnull(result)] = 0 # mask con isnull()
print(result)

0    11.0
1    22.0
2    33.0
3     0.0
dtype: float64


#### Diferencias entre Pandas Series y Diccionarios
Diccionario es una estructura que relaciona clave y valor de forma arbitraria, por otro lado, Series es una estructura de forma estricta de listas de valores con listas de índice asignado en la posición.

Las Series son más eficientes para ciertas operaciones que los diccionarios, también los valores de entrada pueden ser listas o Arrays de Numpy.

En las Series, los índices semánticos pueden ser enteros o caracteres, en los valores pasa de la misma manera. Además, se podría entender entre una lista y un diccionario Python, pero sería de manera unidimensional (1D)

## DataFrame
Son datos tabulares, es decir, que se basan en filas y columnas. Las columnas son Series con índices compartidos

In [70]:
#Crear un DataFrame a partir de un diccionario de elementos de la misma longuitud
diccionario = {
    "Nombre": ["Marisa", "Laura", "Manuel"],
    "Edad": [34,29,12]
}
print(diccionario)

#Las claves se identifican como columnas (los encabezados)
frame = pd.DataFrame(diccionario)
display(frame)

{'Nombre': ['Marisa', 'Laura', 'Manuel'], 'Edad': [34, 29, 12]}


Unnamed: 0,Nombre,Edad
0,Marisa,34
1,Laura,29
2,Manuel,12


In [72]:
diccionario = {
    "Nombre": ["Marisa", "Yudi", "Carmilla"],
    "Edad": [34,29,12]
}

#Aquí cambiamos a índices semánticos
frame = pd.DataFrame(diccionario, index = ['a','b','c'])
display(frame)

Unnamed: 0,Nombre,Edad
a,Marisa,34
b,Yudi,29
c,Carmilla,12


In [79]:
#Además del index, el parámetro 'columns' especifica el número y orden de las columnas
frame = pd.DataFrame(
    diccionario, columns = [
        'Nacionalidad','Nombre','Edad','Profesion','Genero'
    ]
)

display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Genero
0,,Marisa,34,,
1,,Yudi,29,,
2,,Carmilla,12,,


In [76]:
#Acceso a columnas
nombres = frame['Nombre'] #como en el diccionario
display(nombres)
print(type(nombres))
print("--------------------------------------")
edades = frame['Edad']
display(edades)
print(type(edades))


0      Marisa
1        Yudi
2    Carmilla
Name: Nombre, dtype: object

<class 'pandas.core.series.Series'>
--------------------------------------


0    34
1    29
2    12
Name: Edad, dtype: int64

<class 'pandas.core.series.Series'>


In [82]:
#Siempre que el nombre de la columna lo permita (como espacios, comas, etc)
#Para que esto funcione no debe tener
#No tenga espacios
#No tenga comas
#No empiece por números
#No coincida con métodos de Pandas (sum, mean, etc.)

nombres = frame.Nombre
display(nombres)
type(nombres)

0      Marisa
1        Yudi
2    Carmilla
Name: Nombre, dtype: object

pandas.core.series.Series

In [83]:
#Acceso al primer nombre del DataFrame de frame

print(frame['Nombre'][0])
print(frame.Nombre[0])
print(nombres[0])

Marisa
Marisa
Marisa


#### Formas de Crear un DataFrame

1. Con una Serie de Pandas
2. Lista de diccionarios
3. Diccionario de Series en Pandas
4. Array de Numpy 2D
5. Array estructurado de Numpy

### Modificar DataFrames

In [84]:
#Añadir Columnas
diccionariox = {
    "Nombre": ["Alejandro" , "Martín", "PatricioCulon"],
    "Edad" : [34,29,12]
}

frame = pd.DataFrame(diccionariox, columns = ["Nacionalidad","Nombre","Edad","Profesion","Direccion"])
frame['Direccion'] = 'Desconocida'
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Alejandro,34,,Desconocida
1,,Martín,29,,Desconocida
2,,PatricioCulon,12,,Desconocida


In [85]:
lista_direcciones = ['Rue 13 del Percebe, 13', 'Evergreen Terrace, 3', 'Av de los Rombos, 12']

In [86]:
frame['Direccion'] = lista_direcciones
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Alejandro,34,,"Rue 13 del Percebe, 13"
1,,Martín,29,,"Evergreen Terrace, 3"
2,,PatricioCulon,12,,"Av de los Rombos, 12"


In [87]:
#Añadir fila (requiere de todos los valores)

user_2 = ['Alemania', 'Klaus', 20, 'none', 'Desconocida']
frame.loc[3] = user_2
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Alejandro,34,,"Rue 13 del Percebe, 13"
1,,Martín,29,,"Evergreen Terrace, 3"
2,,PatricioCulon,12,,"Av de los Rombos, 12"
3,Alemania,Klaus,20,none,Desconocida


In [90]:
#Eliminar Fila

#Eliminar por índice
frame = pd.DataFrame(diccionario, columns=['Nacionalidad','Nombre','Edad','Profesion'])
frame = frame.drop(2)
display(frame)

#Eliminar la columna Nombre
frame.drop('Nombre', axis = 1, inplace = True)
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Yudi,29,


Unnamed: 0,Nacionalidad,Edad,Profesion
0,,34,
1,,29,


In [91]:
#eliminar columna
del frame['Profesion']
display(frame)

Unnamed: 0,Nacionalidad,Edad
0,,34
1,,29


In [93]:
# acceder a la traspuesta (como una matriz)
#Intercambia filas x columnas, y columnas x filas
#Las columnas pasan a ser filas y Los índices pasan a ser columnas
#En matemáticas, la traspuesta de una matriz intercambia filas por columnas
#Pandas aplica el mismo concepto a DataFrame
display(frame.T)

Unnamed: 0,0,1
Nacionalidad,,
Edad,34.0,29.0


## Iteración

In [95]:
frame = pd.DataFrame(diccionario, columns = ['Nacionalidad','Nombre','Edad','Profesion'])
display(frame)

#Cuando iteras directamente sobre un DataFrame
#No recorres filas
#Recorres los nombres de las columnas.
for a in frame:
    print(a)
    print(type(a))

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Yudi,29,
2,,Carmilla,12,


Nacionalidad
<class 'str'>
Nombre
<class 'str'>
Edad
<class 'str'>
Profesion
<class 'str'>


In [96]:
# iteracion sobre filas
for value in frame.values:
    print(value)
    print(type(value))

[nan 'Marisa' 34 nan]
<class 'numpy.ndarray'>
[nan 'Yudi' 29 nan]
<class 'numpy.ndarray'>
[nan 'Carmilla' 12 nan]
<class 'numpy.ndarray'>


In [97]:
# iterar sobre filas y luego sobre cada valor
for values in frame.values:
    for value in values:
        print(value)

nan
Marisa
34
nan
nan
Yudi
29
nan
nan
Carmilla
12
nan


### Indexación y slicing con DataFrames

In [101]:
d1 = {'ciudad':'Valencia', 'temperatura':10, 'o2':1}
d2 = {'ciudad':'Barcelona', 'temperatura':8}
d3 = {'ciudad':'Valencia', 'temperatura':9}
d4 = {'ciudad':'Madrid', 'temperatura':10, 'humedad':80}
d5 = {'ciudad':'Sevilla', 'temperatura':15, 'humedad':50, 'co2':6}
d6 = {'ciudad':'Valencia', 'temperatura':10, 'humedad':90, 'co2':10}

ls_data = [d1,d2,d3,d4,d5,d6]
df_data = pd.DataFrame(ls_data, index = list("abcdef"))
display(df_data)

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [102]:
#Acceso a un valor concreto por el índice por posición
print(df_data.iloc[1,1]) #fila 1 x col 1

8


In [103]:
#Acceso a todos los valores hasta un índice por enteros
#Filas = todas las filas desde la posición 0 hasta la 2
#Col = todas las columnas desde la posición 0 hasta la 3
display(df_data.iloc[:3, :4])

Unnamed: 0,ciudad,temperatura,o2,humedad
a,Valencia,10,1.0,
b,Barcelona,8,,
c,Valencia,9,,


In [106]:
# Acceso a datos de manera explícita, indice semantico (se incluyen)

#accede a la fila con índice a y columna de temperatura
#Devuelve un valor
display(df_data.loc['a', 'temperatura'])
print("----------------------------------")
#Selecciona las filas de a hacia c
#Seleciiona las columnas desde el inicio hasta o2
display(df_data.loc[:'c', :'o2'])
print("----------------------------------")
#Selecciona todas las filas hasta c
#Selecciona las columnas desde temperatura hasta o2
display(df_data.loc[:'c', 'temperatura':'o2'])
print("----------------------------------")
#Selecciona todas las filas
#Selecciona solo 2 columnas = ciudad y o2
display(df_data.loc[:, ['ciudad','o2']])

np.int64(10)

----------------------------------


Unnamed: 0,ciudad,temperatura,o2
a,Valencia,10,1.0
b,Barcelona,8,
c,Valencia,9,


----------------------------------


Unnamed: 0,temperatura,o2
a,10,1.0
b,8,
c,9,


----------------------------------


Unnamed: 0,ciudad,o2
a,Valencia,1.0
b,Barcelona,
c,Valencia,
d,Madrid,
e,Sevilla,
f,Valencia,


In [108]:
# indexación con nombre de columna (por columnas)

#Aquí usas indexación por corchetes con el nombre de la columna.
#Al pasar un string, Pandas devuelve una Serie.
print(df_data['ciudad'])
#Aquí nos devuelve un dataframe
display(df_data[['ciudad', 'o2']])

a     Valencia
b    Barcelona
c     Valencia
d       Madrid
e      Sevilla
f     Valencia
Name: ciudad, dtype: object


Unnamed: 0,ciudad,o2
a,Valencia,1.0
b,Barcelona,
c,Valencia,
d,Madrid,
e,Sevilla,
f,Valencia,


In [109]:
# indexación con índice posicional (no permitido!).
#Pandas siempre interpreta algo como nombre de columna,
#no como índice de fila. 
df_data[0] #saldrá error


KeyError: 0

In [111]:
# indexar por posición con 'iloc'

#Series de la primera fila (qué marca los índices)
print(df_data.iloc[0]) #Devuelve la primera fila del DataFrame.

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object


In [113]:
# indexar semántico con 'loc'
# lo mismo de arriba pero para letras
df_data.loc['a'] # --> Series de la fila con índice 'a'

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object

In [114]:
# indexar semántico con 'loc'
#Podemos buscar en un rango de índices, todo lo anterior hacia b
df_data.loc[:'b'] #a y b


Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,


In [117]:
# slicing anidado

#Busca las filas que sean anteriores hacia b (incluyendo b) 
#en el otro loc, mostrar todas las filas anteriores pero solo mostrar las 2 columnas o2 y humedad
df_data.loc[:'b'].loc[:,["o2", "humedad"]]

Unnamed: 0,o2,humedad
a,1.0,
b,,


In [124]:
#Si se modifica una porción del dataframe, se modifica el dataframe original
#Referencia

display(df_data)
print("------------------------------------------")

serie = df_data.loc['a']
print(serie)
print("------------------------------------------")

serie.iloc[2] = 3000
display(df_data)
print("------------------------------------------")
df_2 = df_data.loc('a').copy()
df_2.iloc[2]== 3000

display(df_2)
display(df_data)

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


------------------------------------------
ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object
------------------------------------------


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  serie.iloc[2] = 3000


Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


------------------------------------------


ValueError: No axis named a for object type DataFrame

In [125]:
df_data.loc(axis=1)['ciudad'] # --> equivalente frame['ciudad']

a     Valencia
b    Barcelona
c     Valencia
d       Madrid
e      Sevilla
f     Valencia
Name: ciudad, dtype: object

In [126]:
# qué problema puede tener este fragmento?
frame = pd.DataFrame({"Name" : ['Carlos','Pedro'], "Age" : [34,22]}, index=[1,0])
display(frame)

Unnamed: 0,Name,Age
1,Carlos,34
0,Pedro,22


In [127]:
# por defecto, pandas interpreta índice posicional --> error en frames
# cuando hay posible ambigüedad, utilizar loc y iloc
print('Primera fila\n')
print(frame.iloc[0])
print('\nElemento con index 0\n')
print(frame.loc[0])

Primera fila

Name    Carlos
Age         34
Name: 1, dtype: object

Elemento con index 0

Name    Pedro
Age        22
Name: 0, dtype: object


### Objeto Index de Pandas

In [2]:
#Construcción de Índices
import pandas as pd

ind = pd.Index([2,3,5,23,26])

#recuperar datos
print(ind[3])
print(ind[::2])

23
Index([2, 5, 26], dtype='int64')


In [3]:
#Usar un objeto index al crear dataframe
frame = pd.DataFrame({"Name" : ['Carlos','Pedro', 'Manolo', 'Luis', 'Alberto'], "Age":[34,22,15,55,23]}, index = ind)

display(frame)

Unnamed: 0,Name,Age
2,Carlos,34
3,Pedro,22
5,Manolo,15
23,Luis,55
26,Alberto,23


In [4]:
#Son inmutables, no se modifican los datos
ind[3] = 666

TypeError: Index does not support mutable operations

In [5]:
#Cambiar índice de la columna
frame = pd.DataFrame({"Name" : ['Carlos','Pedro', 'Manolo', 'Luis', 'Alberto'], "Age":[34,22,15,55,23]}, index = ind)
display(frame)
print("------------------------------------------------")
#Usa la columna 'Age' como nuevo índice
#Elimina 'Age' de las columnas
#inplace=True modifica el DataFrame original
frame.set_index('Age', inplace= True)
display(frame)

Unnamed: 0,Name,Age
2,Carlos,34
3,Pedro,22
5,Manolo,15
23,Luis,55
26,Alberto,23


------------------------------------------------


Unnamed: 0_level_0,Name
Age,Unnamed: 1_level_1
34,Carlos
22,Pedro
15,Manolo
55,Luis
23,Alberto


### Slicing

In [6]:
d_and_d_characters = {
    'Name': ['bundenth','theorin','barlok'],
    'Strength': [10, 12, 19],
    'Wisdom': [20, 13, 6]
}
character_data = pd.DataFrame(d_and_d_characters, index=['a','b','c'])
print("------------------------------------------")
display(character_data)
print("------------------------------------------")
display(character_data[:-1])
print("------------------------------------------")
display(character_data[1:2])
print("------------------------------------------")


------------------------------------------


Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13
c,barlok,19,6


------------------------------------------


Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13


------------------------------------------


Unnamed: 0,Name,Strength,Wisdom
b,theorin,12,13


------------------------------------------


In [7]:
# slicing para columnas
display(character_data[['Name','Wisdom']])

Unnamed: 0,Name,Wisdom
a,bundenth,20
b,theorin,13
c,barlok,6


In [8]:
#slicing con 'loc' e 'iloc'

#.iloc trabaja solo con posiciones numéricas.
#Solo acepta números
#No incluye extremos
display(character_data.iloc[1:])
#.loc usa labels (nombres), no posiciones.
#incluye extremos
#Es semántico
display(character_data.loc[:'b','Name':'Strength'])

Unnamed: 0,Name,Strength,Wisdom
b,theorin,12,13
c,barlok,19,6


Unnamed: 0,Name,Strength
a,bundenth,10
b,theorin,12


##### ¿Cómo filtrar filas y columnas? Por ejemplo, para todos los personajes, obtener ‘Name’ y ‘Strength’

In [9]:
#1) usando 'loc' para hacer slicing
display(character_data.loc[:,'Name':'Strength'])

Unnamed: 0,Name,Strength
a,bundenth,10
b,theorin,12
c,barlok,19


In [10]:
#2) usando 'loc' para buscar específicamente filas y columnas
display(character_data.loc[ ['a','c'], ['Name','Wisdom'] ])


Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


In [11]:
#3) Usando lo mismo pero esta vez con 'iloc'
#de la fila 0 hasta la 1, desde la columna 0 hasta la 1
display(character_data.iloc[[0,2],[0,2]])
#de la primera fila a la última, de la primera columna hasta la última
display(character_data.iloc[[0,-1],[0,-1]])

Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


In [12]:
# lista de los personajes con el atributo Strength > 11
display(character_data.loc[character_data['Strength'] > 11, ['Name','Strength']])

Unnamed: 0,Name,Strength
b,theorin,12
c,barlok,19


In [13]:
 # listar los personajes con Strength > 15 o Wisdom > 15
display(character_data.loc[(character_data['Strength'] > 15) | (character_data['Wisdom'] > 15)])


Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
c,barlok,19,6


## Cargar y Guardar Datos en Pandas

In [14]:
#Guardar a CSV
import os

ruta_archivo = os.path.join("res", "o_d_d_characters.csv")
#character_data.to_csv(ruta, sep=';') # sep por defecto: ','

loaded = pd.read_csv(ruta_archivo, sep=';')
display(loaded)

Unnamed: 0.1,Unnamed: 0,Name,Strength,Wisdom
0,a,bundenth,10,20
1,b,theorin,12,13
2,c,barlok,19,6


In [15]:
ruta = os.path.join("res","titanic.csv")

titanic = pd.read_csv(ruta, sep=',')
display(titanic)

loaded = pd.read_csv(ruta, sep=',', index_col = 0)
display(loaded)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


# Ejercicio Práctico con Pandas
- [MovieLens Dataset](https://grouplens.org/datasets/movielens/)
- Review de Películas
- 1 millón de entradas
- Datos demográficos

In [16]:
import numpy as np
import pandas as pd
#Descomponer archivos
import zipfile
#Para descargar URL
import urllib.request
import os

#1) Descargar MovieLens dataset

url = 'http://files.grouplens.org/datasets/movielens/ml-1m.zip'
ruta = os.path.join("res", "ml-1m.zip")
urllib.request.urlretrieve(url, ruta)

('res\\ml-1m.zip', <http.client.HTTPMessage at 0x21a1709d210>)

In [152]:
#2) Descomponer archivo zip
ruta_ext = os.path.join("res")
with zipfile.ZipFile(ruta,'r') as z:
    print("Extrañendo todos los archivos...")
    z.extractall(ruta_ext)#este es el destino
    print("Ahora tenemos datos")

Extrañendo todos los archivos...
Ahora tenemos datos


In [155]:
#3) Tomamos el README y revisamos los formatos
#Tendrá varios problemas:
#1. No tiene cabecera, el primer valor se pierde
#2. Las columnas no tienen nombres

ruta_users = os.path.join("res", "ml-1m", "users.dat")
users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0, engine='python')
display(users_dataset)

Unnamed: 0_level_0,F,1.1,10,48067
1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,02460
5,M,25,20,55455
6,F,50,9,55117
...,...,...,...,...
6036,F,25,15,32603
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,01060


In [156]:
pd.read_csv?

[31mSignature:[39m
pd.read_csv(
    filepath_or_buffer: [33m'FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]'[39m,
    *,
    sep: [33m'str | None | lib.NoDefault'[39m = <no_default>,
    delimiter: [33m'str | None | lib.NoDefault'[39m = [38;5;28;01mNone[39;00m,
    header: [33m"int | Sequence[int] | None | Literal['infer']"[39m = [33m'infer'[39m,
    names: [33m'Sequence[Hashable] | None | lib.NoDefault'[39m = <no_default>,
    index_col: [33m'IndexLabel | Literal[False] | None'[39m = [38;5;28;01mNone[39;00m,
    usecols: [33m'UsecolsArgType'[39m = [38;5;28;01mNone[39;00m,
    dtype: [33m'DtypeArg | None'[39m = [38;5;28;01mNone[39;00m,
    engine: [33m'CSVEngine | None'[39m = [38;5;28;01mNone[39;00m,
    converters: [33m'Mapping[Hashable, Callable] | None'[39m = [38;5;28;01mNone[39;00m,
    true_values: [33m'list | None'[39m = [38;5;28;01mNone[39;00m,
    false_values: [33m'list | None'[39m = [38;5;28;01mNone[39;00m,
    skipinitialspac

In [157]:
#Especificar nombres, cargar sin cabecera

users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0, header=None, names=['UserID','Gender','Age','Occupation','Zip-code'], engine='python')
display(users_dataset)

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,02460
5,M,25,20,55455
...,...,...,...,...
6036,F,25,15,32603
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,01060


In [159]:
# samplear la tabla

#selecciona 10 filas aleatorias del DataFrame
display(users_dataset.sample(10))

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
5849,M,35,17,97124
5179,M,25,12,94110
2465,M,50,6,44333
4257,M,50,16,38122
2949,M,25,17,98033
3901,M,18,14,85282
3335,M,25,0,10023
2391,M,50,18,13126
3400,M,25,14,8742
2621,M,18,0,46304


In [162]:
# samplear la cabeza

#.head(n) devuelve las primeras n filas del DataFrame
#en este caso, las 4 primeras filas
display(users_dataset.head(4))

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,2460


In [164]:
# samplear la cola

#.tail(n) devuelve las últimas n filas del DataFrame
#en este caso, las 10 últimas filas
display(users_dataset.tail(10))

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
6031,F,18,0,45123
6032,M,45,7,55108
6033,M,50,13,78232
6034,M,25,14,94117
6035,F,25,1,78734
6036,F,25,15,32603
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,1060
6040,M,25,6,11106


In [165]:
# tipos de datos sobre las columnas
users_dataset.dtypes

Gender        object
Age            int64
Occupation     int64
Zip-code      object
dtype: object

In [166]:
#Accede a la columna Zip-code del DataFrame.
#Devuelve una pd.Series
#Devuelve la longitud de cada string parseando a string
#Crea una máscara booleana:
#True si la longitud es mayor que 5
#False si la longitud es menor o igual a 5
#Devuelve solo las filas donde la condición es True
display(users_dataset[users_dataset['Zip-code'].str.len() > 5])

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
161,M,45,16,98107-2117
233,F,45,20,37919-4204
293,M,56,1,55337-4056
458,M,50,16,55405-2546
506,M,25,16,55103-1006
...,...,...,...,...
5682,M,18,0,23455-4959
5904,F,45,12,954025
5925,F,25,0,90035-4444
5967,M,50,16,73069-5429


In [167]:
# información general sobre atributos numéricos
display(users_dataset.describe())

Unnamed: 0,Age,Occupation
count,6040.0,6040.0
mean,30.639238,8.146854
std,12.895962,6.329511
min,1.0,0.0
25%,25.0,3.0
50%,25.0,7.0
75%,35.0,14.0
max,56.0,20.0


In [168]:
users_dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6040 entries, 1 to 6040
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Gender      6040 non-null   object
 1   Age         6040 non-null   int64 
 2   Occupation  6040 non-null   int64 
 3   Zip-code    6040 non-null   object
dtypes: int64(2), object(2)
memory usage: 235.9+ KB


In [169]:
# incluir otros atributos (no todo tiene sentido)
display(users_dataset.describe(include='all'))

Unnamed: 0,Gender,Age,Occupation,Zip-code
count,6040,6040.0,6040.0,6040.0
unique,2,,,3439.0
top,M,,,48104.0
freq,4331,,,19.0
mean,,30.639238,8.146854,
std,,12.895962,6.329511,
min,,1.0,0.0,
25%,,25.0,3.0,
50%,,25.0,7.0,
75%,,35.0,14.0,


In [172]:
# cuántos usuarios son mujeres (Gender='F')
len(users_dataset[users_dataset['Gender'] == 'F'])
#así sería en una query: select count(*) from users_dataset where users_dataset.Gender = 'F'

1709

In [176]:
# mostrar solo los menores de edad
under_age = users_dataset[users_dataset['Age'] == 1]
print(len(under_age))
display(under_age.sample(10))

222


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
926,M,1,10,7869
4541,M,1,10,55427
4087,M,1,4,63376
866,M,1,10,8820
871,M,1,10,76013
3537,M,1,10,97402
1327,M,1,10,12159
1365,F,1,10,61665
4478,M,1,12,2138
5228,M,1,0,75070


In [178]:
# Leer el archivo de usuarios desde un CSV
# ruta_users: ruta del archivo
# sep='::' indica que el separador es '::'
# index_col=0 usa la primera columna como índice
# header=None indica que el archivo no tiene encabezado
# names define los nombres de las columnas
# engine='python' es necesario porque el separador tiene más de un carácter
users_dataset = pd.read_csv(
    ruta_users,
    sep='::',
    index_col=0,
    header=None,
    names=['UserID', 'Gender', 'Age', 'Occupation', 'Zip-code'],
    engine='python'
)

# Filtrar los usuarios cuya edad es igual a 1
# Esto crea un NUEVO DataFrame que puede ser una vista del original
# (no una copia segura)
under_age = users_dataset[users_dataset['Age'] == 1]

# Intentar modificar la columna 'Age' del DataFrame filtrado
# Se asigna NaN a la edad
# Esto provoca SettingWithCopyWarning porque 'under_age'
# puede ser solo una vista del DataFrame original
under_age.loc[:, 'Age'] = np.nan

# Mostrar las primeras filas del DataFrame resultante
display(under_age.head())

# users_dataset[users_dataset['Age'] < 18] = under_age
# display(users_dataset)



  under_age.loc[:, 'Age'] = np.nan


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,,10,48067
19,M,,10,48073
51,F,,10,10562
75,F,,10,1748
86,F,,10,54467


In [180]:
# Leer el archivo CSV de usuarios
# - sep='::' = separador de dos caracteres
# - index_col=0 = la primera columna será el índice
# - header=None = el CSV no tiene encabezados
# - names = nombres manuales de las columnas
# - engine='python' = necesario para separadores largos
users_dataset = pd.read_csv(
    ruta_users,
    sep='::',
    index_col=0,
    header=None,
    names=['UserID', 'Gender', 'Age', 'Occupation', 'Zip-code'],
    engine='python'
)

# Filtrar los usuarios con edad incorrecta (edad == 1)
# Se obtiene un subconjunto del DataFrame original
under_age = users_dataset[users_dataset['Age'] == 1]

# Crear una COPIA explícita del subconjunto
# Esto evita el SettingWithCopyWarning
under_age_copy = under_age.copy()

# Mostrar las primeras filas antes de modificar
display(under_age_copy.head())
print("-----------------------------------------------")

# Reemplazar la edad incorrecta por NaN
# Aquí ya no hay warning porque estamos trabajando sobre una copia real
under_age_copy['Age'] = np.nan

# Mostrar las filas después de la modificación
display(under_age_copy.head())
print("-----------------------------------------------")
# Reemplazar en el DataFrame original las filas cuyo índice coincide
# con las filas modificadas en under_age_copy
# Pandas alinea por índices automáticamente
users_dataset[users_dataset['Age'] == 1] = under_age_copy

# Mostrar las primeras filas del DataFrame final
display(users_dataset.head())
print("-----------------------------------------------")

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
19,M,1,10,48073
51,F,1,10,10562
75,F,1,10,1748
86,F,1,10,54467


-----------------------------------------------


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,,10,48067
19,M,,10,48073
51,F,,10,10562
75,F,,10,1748
86,F,,10,54467


-----------------------------------------------


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,,10,48067
2,M,56.0,16,70072
3,M,25.0,15,55117
4,M,45.0,7,2460
5,M,25.0,20,55455


-----------------------------------------------


In [182]:
# Leer el archivo CSV que contiene el dataset de usuarios
# sep='::' indica que el separador del archivo es '::'
# index_col=0 indica que la primera columna será usada como índice
# header=None indica que el archivo no tiene fila de encabezados
# names asigna los nombres de las columnas manualmente
# engine='python' es obligatorio cuando el separador tiene más de un carácter
users_dataset = pd.read_csv(
    ruta_users,
    sep='::',
    index_col=0,
    header=None,
    names=['UserID', 'Gender', 'Age', 'Occupation', 'Zip-code'],
    engine='python'
)

# Mostrar las primeras 4 filas donde la edad es incorrecta (edad igual a 1)
# Esto permite verificar qué registros serán tratados
display(users_dataset[users_dataset['Age'] == 1].head(4))
print("-----------------------------------------------")
# Reemplazar las edades incorrectas (Age == 1) por NaN
# Se usa loc para modificar el DataFrame original de forma segura
users_dataset.loc[users_dataset['Age'] == 1, 'Age'] = np.nan

# Mostrar el DataFrame completo después de reemplazar las edades incorrectas
display(users_dataset)
print("-----------------------------------------------")
# Filtrar las filas que ahora tienen valores NaN en la columna Age
# pd.isnull detecta los valores faltantes
display(users_dataset.loc[pd.isnull(users_dataset['Age'])].head(4))
print("-----------------------------------------------")
# Eliminar del DataFrame todas las filas cuya edad es NaN
# Primero se obtienen los índices de esas filas
# Luego se eliminan usando drop
# inplace=True modifica directamente el DataFrame original
users_dataset.drop(
    users_dataset[pd.isnull(users_dataset['Age'])].index,
    inplace=True
)

# Mostrar las primeras 4 filas del DataFrame final ya limpio
display(users_dataset.head(4))


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
19,M,1,10,48073
51,F,1,10,10562
75,F,1,10,1748


-----------------------------------------------


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,,10,48067
2,M,56.0,16,70072
3,M,25.0,15,55117
4,M,45.0,7,02460
5,M,25.0,20,55455
...,...,...,...,...
6036,F,25.0,15,32603
6037,F,45.0,1,76006
6038,F,56.0,1,14706
6039,F,45.0,0,01060


-----------------------------------------------


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,,10,48067
19,M,,10,48073
51,F,,10,10562
75,F,,10,1748


-----------------------------------------------


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,M,56.0,16,70072
3,M,25.0,15,55117
4,M,45.0,7,2460
5,M,25.0,20,55455


In [183]:
# Agrupar los datos del DataFrame por el atributo 'Gender'
# Para cada grupo (por ejemplo 'M' y 'F'),
# se calculan estadísticas descriptivas de las columnas numéricas
display(users_dataset.groupby(by='Gender').describe())

Unnamed: 0_level_0,Age,Age,Age,Age,Age,Age,Age,Age,Occupation,Occupation,Occupation,Occupation,Occupation,Occupation,Occupation,Occupation
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
Gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
F,1631.0,32.287554,11.792015,18.0,25.0,25.0,45.0,56.0,1631.0,6.498467,5.960285,0.0,1.0,4.0,11.0,20.0
M,4187.0,31.568665,11.716053,18.0,25.0,25.0,35.0,56.0,4187.0,8.743253,6.441753,0.0,4.0,7.0,15.0,20.0


In [184]:
# Construir la ruta donde se guardará el archivo CSV de salida
# os.path.join crea una ruta compatible con cualquier sistema operativo
ruta_output = os.path.join('res', 'ml-1m', 'o_users_processed.csv')

# Guardar el DataFrame 'users_dataset' en un archivo CSV
# sep=',' indica que el separador será la coma
# na_rep='null' indica que los valores NaN se escribirán como la cadena 'null'
users_dataset.to_csv(
    ruta_output,
    sep=',',
    na_rep='null'
)

## Ejercicios

- Hacer un análisis general de los otros dos archivos CSV en ml-1m (‘movies.dat’ y ‘ratings.dat’)
- Analizando el dataset ratings.dat, ¿hay algún usuario que no tenga ninguna review? ¿Cuántos
tienen menos de 30 reviews?

In [186]:

import os
import pandas as pd

ruta_ratings = os.path.join("res", "ml-1m", "ratings.dat")
# Leer el archivo ratings.dat sin cabecera
# sep='::' indica que el separador es '::'
# header=None indica que el archivo no tiene fila de encabezados
# names asigna los nombres de las columnas manualmente
# engine='python' es necesario porque el separador tiene más de un carácter
ratings_dataset = pd.read_csv(
    ruta_ratings,
    sep='::',
    header=None,
    names=['UserID', 'MovieID', 'Rating', 'Timestamp'],
    engine='python'
)

# Mostrar el DataFrame completo
display(ratings_dataset)


Unnamed: 0,UserID,MovieID,Rating,Timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291
...,...,...,...,...
1000204,6040,1091,1,956716541
1000205,6040,1094,5,956704887
1000206,6040,562,5,956704746
1000207,6040,1096,4,956715648


In [187]:
# Calcular cuántos usuarios tienen al menos una review (valoración)
# groupby('UserID') agrupa todas las reviews por usuario
# len(...) cuenta cuántos grupos distintos existen
n_users_with_reviews = len(ratings_dataset.groupby(by='UserID'))
print(n_users_with_reviews)

# Calcular el número total de usuarios en el dataset de usuarios
# Cada fila representa un usuario distinto
n_users = len(users_dataset)
print(n_users)

# Calcular cuántos usuarios NO tienen ninguna review
# Se obtiene restando los usuarios con reviews del total de usuarios
print(n_users - n_users_with_reviews)


6040
5818
-222


In [188]:
# Agrupar el dataset de ratings por usuario (UserID)
# Luego se filtran solo los usuarios que tienen MENOS de 30 reviews
ratings_under_30 = (
    ratings_dataset
        .groupby(['UserID'])['UserID']
        .filter(lambda x: len(x) < 30)
        .value_counts()
)

# Mostrar cuántas reviews tiene cada usuario que cumple la condición
display(ratings_under_30)

# Mostrar cuántos usuarios distintos tienen menos de 30 reviews
print(len(ratings_under_30))

UserID
71      29
5814    29
5898    29
2775    29
5909    29
        ..
2673    20
160     20
5533    20
5525    20
217     20
Name: count, Length: 751, dtype: int64

751


In [193]:
import os
import pandas as pd

ruta_movies = os.path.join("res", "ml-1m", "movies.dat")

#Le puse el encoding latin-1 para que se pueda visualizar con las tildes, dice que no soportaba el utf-8
movies_dataset = pd.read_csv(ruta_movies, sep='::', header= None,
                            names = ['MovieID', 'Title', 'Genres'],
                            engine= 'python', encoding='latin-1')

display(movies_dataset)

Unnamed: 0,MovieID,Title,Genres
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
3878,3948,Meet the Parents (2000),Comedy
3879,3949,Requiem for a Dream (2000),Drama
3880,3950,Tigerland (2000),Drama
3881,3951,Two Family House (2000),Drama


In [194]:
#1) GÉNEROS MÁS FRECUENTES

# Separar los géneros y contarlos
#El explode Rompe listas dentro de una celda
#y las expande en varias filas.
genres_count = (
    movies_dataset['Genres']
    .str.split('|')
    .explode()
    .value_counts()
)

display(genres_count)


Genres
Drama          1603
Comedy         1200
Action          503
Thriller        492
Romance         471
Horror          343
Adventure       283
Sci-Fi          276
Children's      251
Crime           211
War             143
Documentary     127
Musical         114
Mystery         106
Animation       105
Fantasy          68
Western          68
Film-Noir        44
Name: count, dtype: int64

In [195]:
# Contar películas cuyo título contiene el año 1995
movies_1995 = movies_dataset[movies_dataset['Title'].str.contains('(1995)', regex=False)]

print(len(movies_1995))

342


In [198]:
# Contar películas con más de un género

#regex=False le dice a Pandas que el texto que estás buscando
#debe interpretarse literalmente, no como una expresión regular
#En cristiano, que lo tome literalmente por lo que es
#Si no pongo esto, entonces lo va a interpretar como un OR
movies_multi_genre = movies_dataset[
    movies_dataset['Genres'].str.contains('|', regex=False)
]

print(len(movies_multi_genre))

1858


In [200]:
# Buscar películas sin género (NaN o cadena vacía)
movies_no_genre = movies_dataset[
    movies_dataset['Genres'].isnull() | (movies_dataset['Genres'] == '')
]

display(movies_no_genre)
print(len(movies_no_genre))
#no hay ninguna sin género xd

Unnamed: 0,MovieID,Title,Genres


0


In [201]:
# Buscar títulos duplicados
duplicate_titles = movies_dataset[movies_dataset['Title'].duplicated(keep=False)]

display(duplicate_titles)
print(len(duplicate_titles))

Unnamed: 0,MovieID,Title,Genres


0


In [None]:
#Tampoco hay repetidos xd

# Github
<div style="margin-left: 330px">
    
![](img/github.png)
</div>

### Click aquí para [ver el repositorio](https://github.com/Addrriel/MachineLearningCuadernazo/tree/main/clases)