
<img src="img/Recurso-26.png" width="200">

## PAO 25-25 - Pandas

![logo](img/python_logo.png)

**Nombre:** David L. Mejía<br>
**Fecha:** 09/07/2025<br>
**Git:** https://github.com/mcdavidleonardo/MachineLearning1/blob/main/PAO25_25_02_Python_Datatype.ipynb<br>

# Pandas
- Librería (de facto estándar) para estructurar datos tabulares
- Multivariable (string, int, float, bool...)
- Dos clases:
  - Series (1 dimensión)
  - DataFrames (2+ dimensiones)

In [1]:
# librería externa
import pandas as pd
from pandas import Series, DataFrame

In [2]:
pd.__version__

'2.2.3'

# Series
- Datos unidimensionales (similar a NumPy)
- Elementos + índices modificables

In [3]:
countries = pd.Series(['Spain','Andorra','Gibraltar','Portugal','France'])
print(countries)

0        Spain
1      Andorra
2    Gibraltar
3     Portugal
4       France
dtype: object


In [4]:
# especificando el índice
countries = pd.Series(['Spain','Andorra','Gibraltar','Portugal','France'],
                       index=range(10,60,10))
print(countries)

10        Spain
20      Andorra
30    Gibraltar
40     Portugal
50       France
dtype: object


In [5]:
# los índices pueden ser de más tipos
football_cities = pd.Series(['Barcelona','Madrid','Valencia','Sevilla'], 
                            index=['a','b','c','d'])
print(football_cities)

a    Barcelona
b       Madrid
c     Valencia
d      Sevilla
dtype: object


In [6]:
# Atributos
football_cities.name = 'Ciudades con dos equipos en primera' # nombrar la Serie
football_cities.index.name = 'Id' # Describir los índices
print(football_cities)

Id
a    Barcelona
b       Madrid
c     Valencia
d      Sevilla
Name: Ciudades con dos equipos en primera, dtype: object


In [11]:
# acceso similar a NumPy o listas, según posición (depecrated)
print(football_cities[2])

# acceso a través del índice semántico
print(football_cities['c'])

print(football_cities['c'] == football_cities[2])

Valencia
Valencia
True


  print(football_cities[2])
  print(football_cities['c'] == football_cities[2])


# Tratamiento similar a ndarray

In [12]:
# múltiple recolección de elementos
print(football_cities[ ['a','c'] ])
print(football_cities[ [0, 3] ])

Id
a    Barcelona
c     Valencia
Name: Ciudades con dos equipos en primera, dtype: object
Id
a    Barcelona
d      Sevilla
Name: Ciudades con dos equipos en primera, dtype: object


  print(football_cities[ [0, 3] ])


In [13]:
# slicing
print(football_cities[:'c']) # incluye ambos extremos con el indice semantico
print(football_cities[:2])

Id
a    Barcelona
b       Madrid
c     Valencia
Name: Ciudades con dos equipos en primera, dtype: object
Id
a    Barcelona
b       Madrid
Name: Ciudades con dos equipos en primera, dtype: object


In [14]:
#cast a list
lista = list(football_cities[:'c'])
print(lista)

['Barcelona', 'Madrid', 'Valencia']


In [15]:
type(football_cities[:'c'])

pandas.core.series.Series

In [16]:
#cast a ndarray
import numpy as np

cities = np.array(football_cities[:'c'])
print(cities)
print(type(cities))

['Barcelona' 'Madrid' 'Valencia']
<class 'numpy.ndarray'>


In [17]:
# cas a dictionary
lista = dict(football_cities[:'c'])
print(lista)

{'a': 'Barcelona', 'b': 'Madrid', 'c': 'Valencia'}


In [18]:
# uso de masks para seleccionar
fibonacci = pd.Series([0, 1, 1, 2, 3, 5, 8, 13, 21])
print(fibonacci)

mask = fibonacci > 10
print(mask)
print(fibonacci[mask])

dst = pd.Series([13,21])
print(dst)

dst.equals(fibonacci)

fb = fibonacci[mask]
fb.reset_index(drop=True, inplace=True)
print(fb)

dst.equals(fb)

0     0
1     1
2     1
3     2
4     3
5     5
6     8
7    13
8    21
dtype: int64
0    False
1    False
2    False
3    False
4    False
5    False
6    False
7     True
8     True
dtype: bool
7    13
8    21
dtype: int64
0    13
1    21
dtype: int64
0    13
1    21
dtype: int64


True

In [19]:
# aplicar funciones de numpy a la serie
import numpy as np

print(np.sum(fibonacci))

54


In [20]:
#filtrado con np.where
distances = pd.Series([12.1,np.nan,12.8,76.9,6.1,7.2])

valid_distances = np.where(pd.notnull(distances),distances,0)

print(valid_distances)
print(type(valid_distances))

[12.1  0.  12.8 76.9  6.1  7.2]
<class 'numpy.ndarray'>


### Iteración

In [21]:
# iterar sobre elementos
for value in fibonacci:
    print('Value: ' + str(value))

# iterar sobre indices
for index in fibonacci.index:
    print('Index: ' + str(index))

Value: 0
Value: 1
Value: 1
Value: 2
Value: 3
Value: 5
Value: 8
Value: 13
Value: 21
Index: 0
Index: 1
Index: 2
Index: 3
Index: 4
Index: 5
Index: 6
Index: 7
Index: 8


In [22]:
# iterar sobre elementos e índices al mismo tiempo
for index, value in fibonacci.items():
    print('Index: ' + str(index) + '  Value: ' + str(value))

Index: 0  Value: 0
Index: 1  Value: 1
Index: 2  Value: 1
Index: 3  Value: 2
Index: 4  Value: 3
Index: 5  Value: 5
Index: 6  Value: 8
Index: 7  Value: 13
Index: 8  Value: 21


In [23]:
for index, value in zip(fibonacci.index, fibonacci):
    print('Index: ' + str(index) + '  Value: ' + str(value))  

Index: 0  Value: 0
Index: 1  Value: 1
Index: 2  Value: 1
Index: 3  Value: 2
Index: 4  Value: 3
Index: 5  Value: 5
Index: 6  Value: 8
Index: 7  Value: 13
Index: 8  Value: 21


## Series como diccionarios
- Interpretar el índice como clave
- Acepta operaciones para diccionarios

In [24]:
# crear una serie a partir de un diccionario
serie = pd.Series( { 'Carlos' : 100, 'Marcos': 98} )

print(serie.index)
print(serie.values)

print(serie)
print(type(serie))

Index(['Carlos', 'Marcos'], dtype='object')
[100  98]
Carlos    100
Marcos     98
dtype: int64
<class 'pandas.core.series.Series'>


In [25]:
# añade y elimina elementos a través de índices
serie['Pedro'] = 12
del serie['Marcos']
print(serie)

Carlos    100
Pedro      12
dtype: int64


In [26]:
# query una serie
# print(serie['Marcos'])

if 'Marcos' in serie:
    print(serie['Marcos'])
    
print(serie)

Carlos    100
Pedro      12
dtype: int64


## Operaciones entre series

In [27]:
# suma de dos series
# suma de valores con el mismo índice (NaN si no aparece en ambas)
serie1 = pd.Series([10,20,30,40], index=range(4) )
serie2 = pd.Series([1,2,3], index=range(3) )
suma =  serie1 + serie2
print(suma)

0    11.0
1    22.0
2    33.0
3     NaN
dtype: float64


In [28]:
# resta de series (similar a la suma)
print(serie1 - serie2)

0     9.0
1    18.0
2    27.0
3     NaN
dtype: float64


In [29]:
# operaciones de pre-filtrado
result = serie1 + serie2
result[pd.isnull(result)] = 0 # mask con isnull()
print(result)

0    11.0
1    22.0
2    33.0
3     0.0
dtype: float64


###  Diferencias entre Pandas Series y diccionario
* Diccionario, es una estructura que relaciona las claves y los valores de forma arbitraria.
* Series, estructura de forma estricta listas de valores con listas de índice asignado en la posición.
* Series, es más eficiente para ciertas operaciones que los dicionarios.
* En las Series los valores de entrada pueden ser listas o Numpy arrays.
* En Series los índices semánticos pueden ser integers o caracteres, en los valores igual.
* Series se podría entender entre una lista y un diccionario Python, pero es de una dimensión.

# DataFrame
- Datos tabulares (filas x columnas)
- Columnas: Series con índices compartidos

In [30]:
# crear un DataFrame a partir de un diccionario de elementos de la misma longitud
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"], 
                "Edad" : [34,29,12] }

# las claves identifican columnas
frame = pd.DataFrame(diccionario)
display(frame)

Unnamed: 0,Nombre,Edad
0,Marisa,34
1,Laura,29
2,Manuel,12


In [31]:
# crear un DataFrame a partir de un diccionario de elementos de la misma longitud
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"], 
                "Edad" : [34,29,12] }

# las claves identifican columnas
frame = pd.DataFrame(diccionario, index = ['a', 'b', 'c'])
display(frame)

Unnamed: 0,Nombre,Edad
a,Marisa,34
b,Laura,29
c,Manuel,12


In [32]:
# además de 'index', el parámetro 'columns' especifica el número y orden de las columnas
frame = pd.DataFrame(diccionario, columns = ['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,
2,,Manuel,12,


In [33]:
# acceso a columnas
nombres = frame['Nombre']
display(nombres)
print(type(nombres))

edades = frame['Edad']
display(edades)
print(type(edades))

0    Marisa
1     Laura
2    Manuel
Name: Nombre, dtype: object

<class 'pandas.core.series.Series'>


0    34
1    29
2    12
Name: Edad, dtype: int64

<class 'pandas.core.series.Series'>


In [34]:
#siempre que el nombre de la columna lo permita (espacios, ...)
nombres = frame.Profesion
display(nombres)
type(nombres)

0    NaN
1    NaN
2    NaN
Name: Profesion, dtype: object

pandas.core.series.Series

In [35]:
# acceso al primer nombre del DataFrame frame??
print(frame['Nombre'][0])
print(frame.Nombre[0])
print(nombres[0])

Marisa
Marisa
nan


### Formas de crear un DataFrame
* Con una Serie de pandas
* Lista de diccionarios
* Dicionario de Series de Pandas
* Con un array de Numpy de dos dimensiones
* Con array estructurado de Numpy 

## Modificar DataFrames

In [36]:
# añadir columnas
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"], 
                "Edad" : [34,29,12] }

frame = pd.DataFrame(diccionario, columns=['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])
frame['Direccion'] = 'Desconocida'
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Marisa,34,,Desconocida
1,,Laura,29,,Desconocida
2,,Manuel,12,,Desconocida


In [37]:
lista_direcciones = ['Rue 13 del Percebe, 13', 'Evergreen Terrace, 3', 'Av de los Rombos, 12']

In [38]:
frame['Direccion'] = lista_direcciones

display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Marisa,34,,"Rue 13 del Percebe, 13"
1,,Laura,29,,"Evergreen Terrace, 3"
2,,Manuel,12,,"Av de los Rombos, 12"


In [39]:
# añadir fila (requiere todos los valores)
user_2 = ['Alemania','Klaus',20, 'none', 'Desconocida']
frame.loc[3
] = user_2
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Marisa,34,,"Rue 13 del Percebe, 13"
1,,Laura,29,,"Evergreen Terrace, 3"
2,,Manuel,12,,"Av de los Rombos, 12"
3,Alemania,Klaus,20,none,Desconocida


In [40]:
# eliminar fila (similar a Series)
frame = pd.DataFrame(diccionario,columns=['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])

# frame = frame.drop(2) # por qué necesitamos reasignar el frame?
display(frame)

frame.drop('Nombre', axis = 1, inplace = True)
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,
2,,Manuel,12,


Unnamed: 0,Nacionalidad,Edad,Profesion
0,,34,
1,,29,
2,,12,


In [41]:
#eliminar columna
del frame['Profesion']
display(frame)

Unnamed: 0,Nacionalidad,Edad
0,,34
1,,29
2,,12


In [42]:
# acceder a la traspuesta (como una matriz)
display(frame.T)

Unnamed: 0,0,1,2
Nacionalidad,,,
Edad,34.0,29.0,12.0


## Iteración

In [43]:
# iteración sobre el DataFrame?
frame = pd.DataFrame(diccionario, columns=['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])
display(frame)

for a in frame:
    print(a) # qué es 'a'?
    print(type(a))

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,
2,,Manuel,12,


Nacionalidad
<class 'str'>
Nombre
<class 'str'>
Edad
<class 'str'>
Profesion
<class 'str'>


In [44]:
# iteracion sobre filas
for value in frame.values:
    print(value)
    print(type(value))

[nan 'Marisa' 34 nan]
<class 'numpy.ndarray'>
[nan 'Laura' 29 nan]
<class 'numpy.ndarray'>
[nan 'Manuel' 12 nan]
<class 'numpy.ndarray'>


In [45]:
# iterar sobre filas y luego sobre cada valor?
for values in frame.values:
    for value in values: 
        print(value)

nan
Marisa
34
nan
nan
Laura
29
nan
nan
Manuel
12
nan


## Indexación y slicing con DataFrames

In [46]:
d1 = {'ciudad':'Valencia', 'temperatura':10, 'o2':1}
d2 = {'ciudad':'Barcelona', 'temperatura':8}
d3 = {'ciudad':'Valencia', 'temperatura':9}
d4 = {'ciudad':'Madrid', 'temperatura':10, 'humedad':80}
d5 = {'ciudad':'Sevilla', 'temperatura':15, 'humedad':50, 'co2':6}
d6 = {'ciudad':'Valencia', 'temperatura':10, 'humedad':90, 'co2':10}

ls_data = [d1, d2, d3, d4, d5, d6]  # lista de diccionarios
df_data = pd.DataFrame(ls_data, index = list('abcdef'))
display(df_data)

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [47]:
# Acceso a un valor concreto por indice posicional [row, col]
print(df_data.iloc[1,1])

# Acceso a todos los valores hasta un índice por enteros
display(df_data.iloc[:3,:4])

# Acceso a datos de manera explícita, indice semantico (se incluyen)
display(df_data.loc['a', 'temperatura'])
display(df_data.loc[:'c', :'o2'])
display(df_data.loc[:'c', 'temperatura':'o2'])

display(df_data.loc[:, ['ciudad','o2']])

8


Unnamed: 0,ciudad,temperatura,o2,humedad
a,Valencia,10,1.0,
b,Barcelona,8,,
c,Valencia,9,,


np.int64(10)

Unnamed: 0,ciudad,temperatura,o2
a,Valencia,10,1.0
b,Barcelona,8,
c,Valencia,9,


Unnamed: 0,temperatura,o2
a,10,1.0
b,8,
c,9,


Unnamed: 0,ciudad,o2
a,Valencia,1.0
b,Barcelona,
c,Valencia,
d,Madrid,
e,Sevilla,
f,Valencia,


In [48]:
# indexación con nombre de columna (por columnas)
print(df_data['ciudad']) # --> Series

display(df_data[['ciudad', 'o2']])

a     Valencia
b    Barcelona
c     Valencia
d       Madrid
e      Sevilla
f     Valencia
Name: ciudad, dtype: object


Unnamed: 0,ciudad,o2
a,Valencia,1.0
b,Barcelona,
c,Valencia,
d,Madrid,
e,Sevilla,
f,Valencia,


In [51]:
# indexación con índice posicional (no permitido!). Esto busca columna.
#df_data[0]

In [52]:
# indexar por posición con 'iloc'
print(df_data.iloc[0]) # --> Series de la primera fila (qué marca los índices)

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object


In [53]:
# indexar semántico con 'loc'
df_data.loc['a'] # --> Series de la fila con índice 'a'

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object

In [54]:
# indexar semántico con 'loc'
df_data.loc[:'b'] # --> DataFrame de la fila con índice 'a' y 'b'

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,


In [55]:
df_data.loc[:'b'].loc[:,["o2", "humedad"]]  # slicing anidado

Unnamed: 0,o2,humedad
a,1.0,
b,,


In [56]:
# si se modifica una porcion del dataframe se modifica el dataframe original (referencia)
display(df_data)

serie = df_data.loc['a']
print(serie)
serie.iloc[2] = 3000  # setting with copy warning!!!
display(df_data)

# copiar data frame
df_2 = df_data.loc['a'].copy()
df_2.iloc[2] = 3000

display(df_2)
display(df_data)

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


ciudad         Valencia
temperatura          10
o2                 3000
humedad             NaN
co2                 NaN
Name: a, dtype: object

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [57]:
# ambos aceptan 'axis' como argumento
# df_data.iloc(axis=1)[0] # --> todos los valores asignados a la primera columna 'ciudad'
df_data.loc(axis=1)['ciudad'] # --> equivalente frame['ciudad']

a     Valencia
b    Barcelona
c     Valencia
d       Madrid
e      Sevilla
f     Valencia
Name: ciudad, dtype: object

In [58]:
# qué problema puede tener este fragmento?
frame = pd.DataFrame({"Name" : ['Carlos','Pedro'], "Age" : [34,22]}, index=[1,0])
display(frame)

Unnamed: 0,Name,Age
1,Carlos,34
0,Pedro,22


In [59]:
# por defecto, pandas interpreta índice posicional --> error en frames
# cuando hay posible ambigüedad, utilizar loc y iloc
print('Primera fila\n')
print(frame.iloc[0])
print('\nElemento con index 0\n')
print(frame.loc[0])

Primera fila

Name    Carlos
Age         34
Name: 1, dtype: object

Elemento con index 0

Name    Pedro
Age        22
Name: 0, dtype: object


## Objeto Index de Pandas

In [60]:
# Contrucción de índices
ind = pd.Index([2, 3, 5, 23, 26])
# recuperar datos
print(ind[3])
print(ind[::2])

23
Index([2, 5, 26], dtype='int64')


In [61]:
# usar un objeto index al crear dataframe
frame = pd.DataFrame({"Name" : ['Carlos','Pedro', 'Manolo', 'Luis', 'Alberto'], "Age" : [34,22,15,55,23]}, index=ind)
display(frame)

Unnamed: 0,Name,Age
2,Carlos,34
3,Pedro,22
5,Manolo,15
23,Luis,55
26,Alberto,23


In [62]:
# Son inmutables! No se modifican los datos. 
ind[3] = 8

TypeError: Index does not support mutable operations

In [63]:
# change index column
frame = pd.DataFrame({"Name" : ['Carlos','Pedro', 'Manolo', 'Luis', 'Alberto'], "Age" : [34,22,15,55,23]}, index=ind)
display(frame)

frame.set_index('Age', inplace=True)
display(frame)

Unnamed: 0,Name,Age
2,Carlos,34
3,Pedro,22
5,Manolo,15
23,Luis,55
26,Alberto,23


Unnamed: 0_level_0,Name
Age,Unnamed: 1_level_1
34,Carlos
22,Pedro
15,Manolo
55,Luis
23,Alberto


## Slicing

In [64]:
# slice por filas
d_and_d_characters = {'Name' : ['bundenth','theorin','barlok'], 'Strength' : [10,12,19], 'Wisdom' : [20,13,6]}
character_data = pd.DataFrame(d_and_d_characters, index=['a','b','c'])
display(character_data)
display(character_data[:-1])
display(character_data[1:2])

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13
c,barlok,19,6


Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13


Unnamed: 0,Name,Strength,Wisdom
b,theorin,12,13


In [65]:
# slicing para columnas
display(character_data[['Name','Wisdom']])

Unnamed: 0,Name,Wisdom
a,bundenth,20
b,theorin,13
c,barlok,6


In [66]:
#slicing con 'loc' e 'iloc'
display(character_data.iloc[1:])
display(character_data.loc[:'b','Name':'Strength'])

Unnamed: 0,Name,Strength,Wisdom
b,theorin,12,13
c,barlok,19,6


Unnamed: 0,Name,Strength
a,bundenth,10
b,theorin,12


¿Cómo filtrar filas y columnas? Por ejemplo, para todos los personajes, obtener 'Name' y 'Strength'

In [67]:
# usando 'loc' para hacer slicing
display(character_data.loc[:,'Name':'Strength'])

Unnamed: 0,Name,Strength
a,bundenth,10
b,theorin,12
c,barlok,19


In [68]:
# usando 'loc' para buscar específicamente filas y columnas
display(character_data.loc[ ['a','c'], ['Name','Wisdom'] ])

Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


In [69]:
# lo mismo con 'iloc'?
display(character_data.iloc[[0,2],[0,2]])
display(character_data.iloc[[0,-1],[0,-1]])

Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


In [70]:
# lista de los personajes con el atributo Strength > 11
display(character_data.loc[character_data['Strength'] > 11, ['Name', 'Strength']])

Unnamed: 0,Name,Strength
b,theorin,12
c,barlok,19


In [71]:
# listar los personajes con Strength > 15 o Wisdom > 15
display(character_data.loc[(character_data['Strength'] > 15) | (character_data['Wisdom'] > 15)])

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
c,barlok,19,6


# Cargar y guardar datos en pandas

In [72]:
# Guardar a csv
import os
ruta = os.path.join("res" ,"o_d_d_characters.csv")

character_data.to_csv(ruta, sep=';') # sep por defecto: ','

In [73]:
loaded = pd.read_csv(ruta, sep=';')
display(loaded)

Unnamed: 0.1,Unnamed: 0,Name,Strength,Wisdom
0,a,bundenth,10,20
1,b,theorin,12,13
2,c,barlok,19,6


In [74]:
loaded = pd.read_csv(ruta, sep=';', index_col = 0)
display(loaded)

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13
c,barlok,19,6


#### otros argumentos to_csv()
- na_rep='string' --> representar valores NaN en el archivo csv

#### otros argumentos read_csv()
- na_values='string'


Pandas también ofrece funciones para leer/guardar a otros formatos estándares: JSON, HDF5 o Excel en su [API](https://pandas.pydata.org/pandas-docs/stable/reference/io.html)

# Ejemplo práctico en pandas
- [MovieLens dataset](https://grouplens.org/datasets/movielens/)
 - Reviews de películas
 - 1 millón de entradas
 - Datos demográficos de usuarios

In [75]:
import numpy as np
import pandas as pd
import zipfile # para descomprimir archivos zip
import urllib.request # para descargar de URL
import os

# descargar MovieLens dataset
url = 'http://files.grouplens.org/datasets/movielens/ml-1m.zip'  
ruta = os.path.join("res", "ml-1m.zip")
# urllib.request.urlretrieve(url, ruta)

In [76]:
# descomprimiendo archivo zip
ruta_ext = os.path.join("res")
with zipfile.ZipFile(ruta, 'r') as z: 
    print('Extracting all files...') 
    z.extractall(ruta_ext) # destino
    print('Done!') 
    
# take a look at readme y revisar formatos

Extracting all files...
Done!


In [77]:
ruta_users = os.path.join("res", "ml-1m", "users.dat")

users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0, engine='python')
display(users_dataset)

Unnamed: 0_level_0,F,1.1,10,48067
1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,02460
5,M,25,20,55455
6,F,50,9,55117
...,...,...,...,...
6036,F,25,15,32603
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,01060


In [79]:
# Varios problemas
# sin cabecera! primer valor se ha perdido
# las columnas no tienen nombres
#pd.read_csv?

In [80]:
# especificar nombres, cargar sin cabecera
users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0,
    header=None, names=['UserID','Gender','Age','Occupation','Zip-code'], engine='python')
display(users_dataset)

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,02460
5,M,25,20,55455
...,...,...,...,...
6036,F,25,15,32603
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,01060


In [81]:
# samplear la tabla 
display(users_dataset.sample(10))

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
5971,M,35,7,49504
3441,F,25,14,94109
4988,M,25,17,55105
2986,M,25,4,24060
3583,F,25,9,41075
3744,M,25,0,60645
2674,M,25,4,94110
114,F,25,2,83712
436,M,18,4,43023
3721,M,25,15,94065


In [82]:
# samplear la cabeza
display(users_dataset.head(4))

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,2460


In [83]:
# samplear la cola
display(users_dataset.tail(4))

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,1060
6040,M,25,6,11106


In [84]:
# tipos de datos sobre las columnas
users_dataset.dtypes

Gender        object
Age            int64
Occupation     int64
Zip-code      object
dtype: object

In [85]:
display(users_dataset[users_dataset['Zip-code'].str.len() > 5])

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
161,M,45,16,98107-2117
233,F,45,20,37919-4204
293,M,56,1,55337-4056
458,M,50,16,55405-2546
506,M,25,16,55103-1006
...,...,...,...,...
5682,M,18,0,23455-4959
5904,F,45,12,954025
5925,F,25,0,90035-4444
5967,M,50,16,73069-5429


In [86]:
# información general sobre atributos numéricos
display(users_dataset.describe())

Unnamed: 0,Age,Occupation
count,6040.0,6040.0
mean,30.639238,8.146854
std,12.895962,6.329511
min,1.0,0.0
25%,25.0,3.0
50%,25.0,7.0
75%,35.0,14.0
max,56.0,20.0


In [87]:
users_dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6040 entries, 1 to 6040
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Gender      6040 non-null   object
 1   Age         6040 non-null   int64 
 2   Occupation  6040 non-null   int64 
 3   Zip-code    6040 non-null   object
dtypes: int64(2), object(2)
memory usage: 235.9+ KB


In [88]:
# incluir otros atributos (no todo tiene sentido)
display(users_dataset.describe(include='all'))

Unnamed: 0,Gender,Age,Occupation,Zip-code
count,6040,6040.0,6040.0,6040.0
unique,2,,,3439.0
top,M,,,48104.0
freq,4331,,,19.0
mean,,30.639238,8.146854,
std,,12.895962,6.329511,
min,,1.0,0.0,
25%,,25.0,3.0,
50%,,25.0,7.0,
75%,,35.0,14.0,


In [89]:
# cuántos usuarios son mujeres (Gender='F')
len(users_dataset[users_dataset['Gender'] == 'F'])

# select count(*) from users_dataset where users_dataset.Gender = 'F'

1709

In [90]:
# mostrar solo los menores de edad
under_age = users_dataset[users_dataset['Age'] == 1]
print(len(under_age))
display(under_age.sample(10))

222


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
4135,M,1,10,46321
5228,M,1,0,75070
629,F,1,10,48154
2217,M,1,10,44906
884,M,1,10,49454
5768,F,1,7,20852
4883,F,1,10,2906
1948,M,1,10,93111
5687,F,1,0,55403
753,M,1,10,42754


In [91]:
# filtrar edad incorrecta (míninimo 18) SettingWithCopyWarning!!!
users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0,
    header=None, names=['UserID','Gender','Age','Occupation','Zip-code'], engine='python')
under_age = users_dataset[users_dataset['Age'] == 1]

under_age.loc['Age'] = np.nan
# display(under_age.head())

# users_dataset[users_dataset['Age'] < 18] = under_age
# display(users_dataset.head())

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  under_age.loc['Age'] = np.nan


In [92]:
# filtrar edad incorrecta (míninimo 18) Fixing it by Copying the slice
users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0,
    header=None, names=['UserID','Gender','Age','Occupation','Zip-code'], engine='python')
under_age = users_dataset[users_dataset['Age'] == 1]

under_age_copy = under_age.copy()
display(under_age_copy.head())

under_age_copy['Age'] = np.nan
display(under_age_copy.head())

users_dataset[users_dataset['Age'] == 1] = under_age_copy  # sets the rows according to the indexes
display(users_dataset.head())

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
19,M,1,10,48073
51,F,1,10,10562
75,F,1,10,1748
86,F,1,10,54467


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,,10,48067
19,M,,10,48073
51,F,,10,10562
75,F,,10,1748
86,F,,10,54467


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,,10,48067
2,M,56.0,16,70072
3,M,25.0,15,55117
4,M,45.0,7,2460
5,M,25.0,20,55455


In [93]:
# filtrar edad incorrecta (míninimo 18) Remove them from the dataset
users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0,
    header=None, names=['UserID','Gender','Age','Occupation','Zip-code'], engine='python')

display(users_dataset[users_dataset['Age'] == 1].head(4))

users_dataset.loc[users_dataset['Age'] == 1, 'Age'] = np.nan
display(users_dataset)

display(users_dataset.loc[pd.isnull(users_dataset['Age'])].head(4))

users_dataset.drop(users_dataset[pd.isnull(users_dataset['Age'])].index, inplace = True)
display(users_dataset.head(4))

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
19,M,1,10,48073
51,F,1,10,10562
75,F,1,10,1748


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,,10,48067
2,M,56.0,16,70072
3,M,25.0,15,55117
4,M,45.0,7,02460
5,M,25.0,20,55455
...,...,...,...,...
6036,F,25.0,15,32603
6037,F,45.0,1,76006
6038,F,56.0,1,14706
6039,F,45.0,0,01060


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,,10,48067
19,M,,10,48073
51,F,,10,10562
75,F,,10,1748


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,M,56.0,16,70072
3,M,25.0,15,55117
4,M,45.0,7,2460
5,M,25.0,20,55455


In [94]:
# Agrupar datos por atributos
display(users_dataset.groupby(by='Gender').describe())

Unnamed: 0_level_0,Age,Age,Age,Age,Age,Age,Age,Age,Occupation,Occupation,Occupation,Occupation,Occupation,Occupation,Occupation,Occupation
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
Gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
F,1631.0,32.287554,11.792015,18.0,25.0,25.0,45.0,56.0,1631.0,6.498467,5.960285,0.0,1.0,4.0,11.0,20.0
M,4187.0,31.568665,11.716053,18.0,25.0,25.0,35.0,56.0,4187.0,8.743253,6.441753,0.0,4.0,7.0,15.0,20.0


In [95]:
# Grabar la tabla modificada
# Cambiar el separador a ','
# Guardar NaN como 'null'
ruta_output = os.path.join('res', 'ml-1m', 'o_users_processed.csv')
users_dataset.to_csv(ruta_output, sep=',',na_rep='null')

# Ejercicios
- Hacer un análisis general de los otros dos archivos CSV en ml-1m ('movies.dat' y 'ratings.dat')
- Analizando el dataset ratings.dat, ¿hay algún usuario que no tenga ninguna review? ¿Cuántos tienen menos de 30 reviews?