
<img src="img/viu_logo.png" width="200">

## 04EPPY - Ciencia de Datos e Inteligencia Artificial
### Pandas

![logo](img/python_logo.png)

*Òscar Garibo*

# Sumario
- Series y DataFrame
- Indexacion, slicing
- Grabar y cargar a archivo
- MovieLens dataset 

# Pandas
- Librería (de facto estándar) para estructurar datos tabulares
- Multivariable (string, int, float, bool...)
- Dos clases:
  - Series (1 dimensión)
  - DataFrames (2+ dimensiones)

In [1]:
!pip install pandas



In [3]:
# librería externa
import pandas as pd
from pandas import Series, DataFrame

# Series
- Datos unidimensionales (similar a NumPy)
- Elementos + índices modificables

In [4]:
countries = pd.Series(['Spain','Andorra','Gibraltar','Portugal','France'])
print(countries)

0        Spain
1      Andorra
2    Gibraltar
3     Portugal
4       France
dtype: object


In [5]:
countries[4]

'France'

In [6]:
# especificando el índice
countries = pd.Series (['Spain','Andorra','Gibraltar','Portugal','France'],
                       index=range(10,60,10))
countries.name = 'Countries in Europe'
countries.index.name = 'ID'
print(countries)

ID
10        Spain
20      Andorra
30    Gibraltar
40     Portugal
50       France
Name: Countries in Europe, dtype: object


In [7]:
countries[50]

'France'

In [8]:
# los índices pueden ser de más tipos
football_cities = pd.Series(['Barcelona','Madrid','Valencia','Sevilla'], 
                            index=['a','b','c','d'])
print(football_cities)

a    Barcelona
b       Madrid
c     Valencia
d      Sevilla
dtype: object


In [9]:
football_cities['c']

'Valencia'

In [10]:
# Atributos
football_cities.name = 'Ciudades con dos equipos en primera' # nombrar la Serie
football_cities.index.name = 'Id' # Describir los índices
print(football_cities)

Id
a    Barcelona
b       Madrid
c     Valencia
d      Sevilla
Name: Ciudades con dos equipos en primera, dtype: object


In [11]:
# acceso similar a NumPy o listas, según posición
print(football_cities[2])

# acceso a través del índice semántico
print(football_cities['c'])

print(football_cities['c'] == football_cities[2])

Valencia
Valencia
True


# Tratamiento similar a ndarray

In [12]:
# múltiple recolección de elementos
print(football_cities[ ['a','c'] ])
print(football_cities[ [0, 2] ])

Id
a    Barcelona
c     Valencia
Name: Ciudades con dos equipos en primera, dtype: object
Id
a    Barcelona
c     Valencia
Name: Ciudades con dos equipos en primera, dtype: object


In [13]:
# slicing
print(football_cities[:'c']) # incluye ambos extremos con el indice semantico
print(football_cities[:2])

Id
a    Barcelona
b       Madrid
c     Valencia
Name: Ciudades con dos equipos en primera, dtype: object
Id
a    Barcelona
b       Madrid
Name: Ciudades con dos equipos en primera, dtype: object


In [14]:
list(football_cities)

['Barcelona', 'Madrid', 'Valencia', 'Sevilla']

In [15]:
#cast a list
lista = list(football_cities[:'c'])
print(lista)

['Barcelona', 'Madrid', 'Valencia']


In [16]:
type(football_cities[:'c'])

pandas.core.series.Series

In [17]:
# uso de masks para seleccionar
fibonacci = pd.Series([0, 1, 1, 2, 3, 5, 8, 13, 21])
mask = fibonacci > 5
print(mask)
print(fibonacci[mask])

0    False
1    False
2    False
3    False
4    False
5    False
6     True
7     True
8     True
dtype: bool
6     8
7    13
8    21
dtype: int64


In [18]:
sum(fibonacci)

54

In [21]:
# aplicar funciones de numpy a la serie
import numpy as np

np.sum(fibonacci)

54

In [22]:
pd.notnull(distances)

NameError: name 'distances' is not defined

In [23]:
#filtrado con np.where
distances = pd.Series([12.1,np.nan,12.8,76.9,6.1,7.2])
valid_distances = np.where(pd.notnull(distances),distances,0)
print(valid_distances)

[12.1  0.  12.8 76.9  6.1  7.2]


### Iteración

In [24]:
fibonacci = pd.Series([0, 1, 1, 2, 3, 5, 8, 13, 21])

In [25]:
fibonacci

0     0
1     1
2     1
3     2
4     3
5     5
6     8
7    13
8    21
dtype: int64

In [27]:
for key in fibonacci_dict:
    print('Value: ' + fibonacci_dict[key])

NameError: name 'fibonacci_dict' is not defined

In [28]:
fibonacci.index

RangeIndex(start=0, stop=9, step=1)

In [29]:
# iterar sobre elementos
for value in fibonacci:
    print('Value: ' + str(value))

# iterar sobre indices
for index in fibonacci.index:
    print('Index: ' + str(index))

Value: 0
Value: 1
Value: 1
Value: 2
Value: 3
Value: 5
Value: 8
Value: 13
Value: 21
Index: 0
Index: 1
Index: 2
Index: 3
Index: 4
Index: 5
Index: 6
Index: 7
Index: 8


In [30]:
# iterar sobre elementos e índices al mismo tiempo
for index, value in fibonacci.items():  #.iteritems()
    print('Index: ' + str(index) + '  Value: ' + str(value))

Index: 0  Value: 0
Index: 1  Value: 1
Index: 2  Value: 1
Index: 3  Value: 2
Index: 4  Value: 3
Index: 5  Value: 5
Index: 6  Value: 8
Index: 7  Value: 13
Index: 8  Value: 21


In [31]:
for index, value in zip(fibonacci.index, fibonacci):
    print('Index: ' + str(index) + '  Value: ' + str(value))  

Index: 0  Value: 0
Index: 1  Value: 1
Index: 2  Value: 1
Index: 3  Value: 2
Index: 4  Value: 3
Index: 5  Value: 5
Index: 6  Value: 8
Index: 7  Value: 13
Index: 8  Value: 21


## Series como diccionarios
- Interpretar el índice como clave
- Acepta operaciones para diccionarios

In [32]:
# crear una serie a partir de un diccionario
serie = pd.Series( { 'Carlos' : 100, 'Marcos': 98} )
print(serie.index)
print(serie.values)
print(serie)

Index(['Carlos', 'Marcos'], dtype='object')
[100  98]
Carlos    100
Marcos     98
dtype: int64


In [33]:
# añade y elimina elementos a través de índices
serie['Pedro'] = 12
del serie['Marcos']
print(serie)

Carlos    100
Pedro      12
dtype: int64


In [34]:
_dict = { 'Carlos' : 100, 'Marcos': 98}

In [35]:
'Oscar' in _dict

False

In [36]:
_dict['Oscar'] = 2

In [37]:
# query una serie
if 'Carlos' in serie:
    serie['Carlos'] = 2
    
print(serie)

Carlos     2
Pedro     12
dtype: int64


## Operaciones entre series

In [38]:
# suma de dos series
# suma de valores con el mismo índice (NaN si no aparece en ambas)
serie1 = pd.Series([10,20,30,40,50,60,70],index=range(7) )
serie2 = pd.Series([1,2,3],index=range(3) )
print(serie1 + serie2)

0    11.0
1    22.0
2    33.0
3     NaN
4     NaN
5     NaN
6     NaN
dtype: float64


In [39]:
serie3 = pd.Series( {0: 10, 1:20, 2:30, 3:40})
serie3

0    10
1    20
2    30
3    40
dtype: int64

In [40]:
# resta de series (similar a la suma)
print(serie1 - serie3)

0    0.0
1    0.0
2    0.0
3    0.0
4    NaN
5    NaN
6    NaN
dtype: float64


In [42]:
pd.isnull(result)

NameError: name 'result' is not defined

In [43]:
# operaciones de pre-filtrado
result = serie1 + serie3
result[pd.isnull(result)] = 0 # mask con isnull()
print(result)

0    20.0
1    40.0
2    60.0
3    80.0
4     0.0
5     0.0
6     0.0
dtype: float64


In [44]:
result = serie1 + serie2
mask = pd.isnull(result)
result[mask] = 0
print(result)

0    11.0
1    22.0
2    33.0
3     0.0
4     0.0
5     0.0
6     0.0
dtype: float64


In [45]:
lista = [1,2,3,4,5,6,7]
lista = pd.Series(lista)
serie1 + lista

0    11
1    22
2    33
3    44
4    55
5    66
6    77
dtype: int64

In [46]:
print(type(lista))
print(type(serie1))
print(type(lista+serie1))

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


###  Diferencias entre Pandas Series y diccionario
* Diccionario, es una estructura que relaciona las claves y los valores de forma arbitraria.
* Series, estructura de forma estricta listas de valores con listas de índice asignado en la posición.
* Series, es más eficiente para ciertas operaciones que los dicionarios.
* En las Series los valores de entrada pueden ser listas o Numpy arrays.
* En Series los índices semánticos pueden ser integers o caracteres, en los valores igual.
* Series se podría entender entre una lista y un diccionario Python, pero es de una dimensión.

# DataFrame
- Datos tabulares (filas x columnas)
- Columnas: Series con índices compartidos

In [47]:
# crear un DataFrame a partir de un diccionario de elementos de la misma longitud
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"], 
                "Edad" : [34,29,12] }
# las claves identifican columnas
frame = pd.DataFrame(diccionario)
display(frame)

Unnamed: 0,Nombre,Edad
0,Marisa,34
1,Laura,29
2,Manuel,12


In [48]:
frame.tail(1)

Unnamed: 0,Nombre,Edad
2,Manuel,12


In [49]:
# crear un DataFrame a partir de un diccionario de elementos de la misma longitud
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"], 
                "Edad" : [34,29,12] }
# las claves identifican columnas
frame = pd.DataFrame(diccionario, index = ['a', 'b', 'c'])
display(frame)

Unnamed: 0,Nombre,Edad
a,Marisa,34
b,Laura,29
c,Manuel,12


In [50]:
# además de 'index', el parámetro 'columns' especifica el número y orden de las columnas
frame = pd.DataFrame(diccionario, columns = ['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,
2,,Manuel,12,


In [51]:
# acceso a columnas
nombres = frame['Nombre']
display(nombres)
type(nombres)

0    Marisa
1     Laura
2    Manuel
Name: Nombre, dtype: object

pandas.core.series.Series

In [52]:
nombres = list(frame['Nombre'])
type(nombres)

list

In [53]:
frame.Nacionalidad

0    NaN
1    NaN
2    NaN
Name: Nacionalidad, dtype: object

In [54]:
#siempre que el nombre de la columna lo permita (espacios, ...)
nombres = frame.Nombre
display(nombres)
type(nombres)

0    Marisa
1     Laura
2    Manuel
Name: Nombre, dtype: object

pandas.core.series.Series

In [55]:
# acceso al primer nombre del DataFrame frame??
print(frame['Nombre'][0])
print(frame.Nombre[0])
print(nombres[0])

Marisa
Marisa
Marisa


In [56]:
frame

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,
2,,Manuel,12,


In [57]:
frame["Raza"] = "Qué más da?"

In [58]:
frame["Raza"]

0    Qué más da?
1    Qué más da?
2    Qué más da?
Name: Raza, dtype: object

### Formas de crear un DataFrame
* Con una Serie de pandas
* Lista de diccionarios
* Dicionario de Series de Pandas
* Con un array de Numpy de dos dimensiones
* Con array estructurado de Numpy 

## Modificar DataFrames

In [59]:
# añadir columnas
frame = pd.DataFrame(diccionario,columns=['Nacionalidad', 'Nombre', 'Edad', 'Profesion', 'Dirección'])
frame['Dirección'] = 'Desconocida'
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Dirección
0,,Marisa,34,,Desconocida
1,,Laura,29,,Desconocida
2,,Manuel,12,,Desconocida


In [60]:
lista_direcciones = ['Rue 13 del Percebe, 13, 1, 3', 'Calla Maravilla, 2,3', 'Avenida de los Rombos, 12, 1']

In [61]:
frame['Dirección'] = lista_direcciones

frame

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Dirección
0,,Marisa,34,,"Rue 13 del Percebe, 13, 1, 3"
1,,Laura,29,,"Calla Maravilla, 2,3"
2,,Manuel,12,,"Avenida de los Rombos, 12, 1"


In [62]:
len(frame)

3

In [63]:
# añadir fila (requiere todos los valores)
user_2 = ['Alemana','Klaus',39, np.nan, 'Desconocida']
frame.loc[len(frame)] = user_2
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Dirección
0,,Marisa,34,,"Rue 13 del Percebe, 13, 1, 3"
1,,Laura,29,,"Calla Maravilla, 2,3"
2,,Manuel,12,,"Avenida de los Rombos, 12, 1"
3,Alemana,Klaus,39,,Desconocida


In [64]:
frame.loc?

[0;31mType:[0m        property
[0;31mString form:[0m <property object at 0x1132c48b0>
[0;31mDocstring:[0m  
Access a group of rows and columns by label(s) or a boolean array.

``.loc[]`` is primarily label based, but may also be used with a
boolean array.

Allowed inputs are:

- A single label, e.g. ``5`` or ``'a'``, (note that ``5`` is
  interpreted as a *label* of the index, and **never** as an
  integer position along the index).
- A list or array of labels, e.g. ``['a', 'b', 'c']``.
- A slice object with labels, e.g. ``'a':'f'``.

      start and the stop are included

- A boolean array of the same length as the axis being sliced,
  e.g. ``[True, False, True]``.
- An alignable boolean Series. The index of the key will be aligned before
  masking.
- An alignable Index. The Index of the returned selection will be the input.
- A ``callable`` function with one argument (the calling Series or
  DataFrame) and that returns valid output for indexing (one of the above)

See more at :

In [65]:
frame = frame.drop(2)

In [66]:
frame

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Dirección
0,,Marisa,34,,"Rue 13 del Percebe, 13, 1, 3"
1,,Laura,29,,"Calla Maravilla, 2,3"
3,Alemana,Klaus,39,,Desconocida


In [67]:
# eliminar fila (similar a Series)
frame = pd.DataFrame(diccionario,columns=['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])

#frame = frame.drop(2) # por qué necesitamos reasignar el frame?
display(frame)

frame.drop(1, inplace = True)
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,
2,,Manuel,12,


Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
2,,Manuel,12,


In [68]:
#eliminar columna
del frame['Profesion']
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad
0,,Marisa,34
2,,Manuel,12


In [69]:
# acceder a la traspuesta (como una matriz)
display(frame.T)

Unnamed: 0,0,2
Nacionalidad,,
Nombre,Marisa,Manuel
Edad,34,12


## Iteración

In [70]:
# iteración sobre el DataFrame?
frame = pd.DataFrame(diccionario, columns=['Nacionalidad', 'Nombre', 'Edad', 'Profesion'])

for a in frame:
    print(a) # qué es 'a'?
   # print(type(a))

Nacionalidad
Nombre
Edad
Profesion


In [71]:
frame.columns

Index(['Nacionalidad', 'Nombre', 'Edad', 'Profesion'], dtype='object')

In [72]:
frame

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,
2,,Manuel,12,


In [73]:
# iteracion sobre filas
for value in frame.values:
    print(value)
    #print(type(value))

[nan 'Marisa' 34 nan]
[nan 'Laura' 29 nan]
[nan 'Manuel' 12 nan]


In [74]:
# iterar sobre filas y luego sobre cada valor?
for values in frame.values:
    print('\n')
    for value in values: 
        print(value)



nan
Marisa
34
nan


nan
Laura
29
nan


nan
Manuel
12
nan


In [75]:
d_and_d_characters = {'Name' : ['bundenth','theorin','barlok'], 'Strength' : [10,12,19], 'Wisdom' : [20,13,6]}
character_data = pd.DataFrame(d_and_d_characters)


In [76]:
print('Original data')
print(character_data)


Original data
       Name  Strength  Wisdom
0  bundenth        10      20
1   theorin        12      13
2    barlok        19       6


In [77]:
vitality_data = pd.Series([11,10,14])

In [78]:
character_data['vitality'] = vitality_data

In [79]:
character_data

Unnamed: 0,Name,Strength,Wisdom,vitality
0,bundenth,10,20,11
1,theorin,12,13,10
2,barlok,19,6,14


In [80]:
character_data['alive'] = True

In [81]:
character_data['beauty'] = 0

In [82]:
potencia = character_data['Strength']

In [83]:
type(potencia)

pandas.core.series.Series

In [84]:
import numpy as np

In [85]:
powerfull = np.where(potencia > 15, 'Fuerte', 'Debilucho')

In [86]:
powerfull

array(['Debilucho', 'Debilucho', 'Fuerte'], dtype='<U9')

In [87]:
character_data['Class'] = powerfull

In [88]:
character_data

Unnamed: 0,Name,Strength,Wisdom,vitality,alive,beauty,Class
0,bundenth,10,20,11,True,0,Debilucho
1,theorin,12,13,10,True,0,Debilucho
2,barlok,19,6,14,True,0,Fuerte


In [89]:
character_data[(character_data['Wisdom'] > 8) & (character_data['Strength'] > 10)]

Unnamed: 0,Name,Strength,Wisdom,vitality,alive,beauty,Class
1,theorin,12,13,10,True,0,Debilucho


## Indexación y slicing con DataFrames

In [90]:
d1 = {'ciudad':'Valencia', 'temperatura':10, 'o2':1}
d2 = {'ciudad':'Barcelona', 'temperatura':8}
d3 = {'ciudad':'Valencia', 'temperatura':9}
d4 = {'ciudad':'Madrid', 'temperatura':10, 'humedad':80}
d5 = {'ciudad':'Sevilla', 'temperatura':15, 'humedad':50, 'co2':6}
d6 = {'ciudad':'Valencia', 'temperatura':10, 'humedad':90, 'co2':10}
ls_data = [d1, d2, d3, d4, d5, d6]  # lista de diccionarios
df_data = pd.DataFrame(ls_data, index = list('abcdef')) 
display(df_data)

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [91]:
df_data.loc['a']

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object

In [92]:
df_data.iloc[3]

ciudad         Madrid
temperatura        10
o2                NaN
humedad          80.0
co2               NaN
Name: d, dtype: object

In [93]:
display(df_data)
# Acceso a un valor concreto por indice posicional [row, col]
#print(df_data.iloc[0])
x = df_data.iloc[0]
# # Acceso a todos los valores hasta un índice por enteros
#display(df_data.iloc[:3,:4])

# # Acceso a datos de manera explícita, indice semantico (se incluyen)
display(df_data.loc['d', 'temperatura'])
display(df_data.loc[:'c', :'o2'])
display(df_data.loc[:'c', 'temperatura':'o2'])

display(df_data.loc[:, ['ciudad','temperatura']])

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


10

Unnamed: 0,ciudad,temperatura,o2
a,Valencia,10,1.0
b,Barcelona,8,
c,Valencia,9,


Unnamed: 0,temperatura,o2
a,10,1.0
b,8,
c,9,


Unnamed: 0,ciudad,temperatura
a,Valencia,10
b,Barcelona,8
c,Valencia,9
d,Madrid,10
e,Sevilla,15
f,Valencia,10


In [94]:
for i in range(len(df_data)):
    x = df_data.iloc[i]
    if x['ciudad'] == 'Valencia':
        print(i, 'Bingo!')

0 Bingo!
2 Bingo!
5 Bingo!


In [95]:
x

ciudad         Valencia
temperatura          10
o2                  NaN
humedad            90.0
co2                10.0
Name: f, dtype: object

In [96]:
x['ciudad']

'Valencia'

In [97]:
for i in range(len(df_data)):
    x = df_data.iloc[i]
    print(x['ciudad'])

Valencia
Barcelona
Valencia
Madrid
Sevilla
Valencia


In [98]:
# indexación con nombre de columna (por columnas)
print(df_data['ciudad']) # --> Series

display(df_data[['ciudad', 'o2']])

a     Valencia
b    Barcelona
c     Valencia
d       Madrid
e      Sevilla
f     Valencia
Name: ciudad, dtype: object


Unnamed: 0,ciudad,o2
a,Valencia,1.0
b,Barcelona,
c,Valencia,
d,Madrid,
e,Sevilla,
f,Valencia,


In [100]:
# indexación con índice posicional (no permitido!). Esto busca columna.
df_data[0]

KeyError: 0

In [101]:
df_data['ciudad']['a':'c']

a     Valencia
b    Barcelona
c     Valencia
Name: ciudad, dtype: object

In [102]:
# indexar por posición con 'iloc'
print(df_data.iloc[0]) # --> Series de la primera fila (qué marca los índices)

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object


In [103]:
# indexar semántico con 'loc'
df_data.loc['a'] # --> Series de la fila con índice 'a'

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object

In [104]:
# indexar semántico con 'loc'
df_data.loc['a':'c'] # --> DataFrame de la fila con índice 'a'

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,


In [106]:
# si se modifica una porcion del dataframe se modifica el dataframe original (referencia)
serie = df_data.loc['a']
serie[2] = 3000

display(df_data)

print(serie)

# copiar data frame
df_2 = df_data#.copy()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  serie[2] = 3000


Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


ciudad         Valencia
temperatura          10
o2                 3000
humedad             NaN
co2                 NaN
Name: a, dtype: object


In [107]:
df_data.loc['a']['o2']

1.0

In [108]:
df_data.loc['a']['o2'] = 3000

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_data.loc['a']['o2'] = 3000


In [109]:
df_data.index

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

In [110]:
df_data.at['a','o2'] = 3000

In [111]:
for _fila in df_data.index:
    x = df_data.loc[_fila]
    if x['ciudad'] == 'Valencia':
        df_data.at[_fila, 'humedad'] = 1000000

In [112]:
df_data

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,3000.0,1000000.0,
b,Barcelona,8,,,
c,Valencia,9,,1000000.0,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,1000000.0,10.0


In [113]:
df_2 = df_data.copy()

serie = df_2.loc['a']

serie[2] = 3000

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  serie[2] = 3000


In [114]:
df_data

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,3000.0,1000000.0,
b,Barcelona,8,,,
c,Valencia,9,,1000000.0,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,1000000.0,10.0


In [115]:
# ambos aceptan 'axis' como argumento
#df_data.iloc(axis=1)[0] # --> todos los valores asignados a la primera columna 'ciudad'
df_data.loc(axis=1)['ciudad'] # --> preferible el equivalente frame['ciudad']

a     Valencia
b    Barcelona
c     Valencia
d       Madrid
e      Sevilla
f     Valencia
Name: ciudad, dtype: object

In [116]:
df_data['ciudad']

a     Valencia
b    Barcelona
c     Valencia
d       Madrid
e      Sevilla
f     Valencia
Name: ciudad, dtype: object

In [117]:
# qué problema puede tener este fragmento?
frame = pd.DataFrame({"Name" : ['Carlos','Pedro'], "Age" : [34,22]}, index=[1,0])
display(frame)

Unnamed: 0,Name,Age
1,Carlos,34
0,Pedro,22


In [118]:
# por defecto, pandas interpreta índice posicional --> error en frames
# cuando hay posible ambigüedad, utilizar loc y iloc
print('Primera fila\n')
print(frame.iloc[0])
print('\nElemento con index 0\n')
print(frame.loc[1])

Primera fila

Name    Carlos
Age         34
Name: 1, dtype: object

Elemento con index 0

Name    Carlos
Age         34
Name: 1, dtype: object


## Objeto Index de Pandas

In [119]:
# Contrucción de índices
ind = pd.Index([2, 3, 5, 7, 11])
# recuperar datos
print(ind[3])
#print(ind[::2])

7


In [120]:
# Son inmutables! No se modifican los datos. 
ind[3] = 8

TypeError: Index does not support mutable operations

In [121]:
pd.Index([900 + 3j, 700 + 25j, 620 + 10j, 388 + 44j, 900])

Index([(900+3j), (700+25j), (620+10j), (388+44j), (900+0j)], dtype='complex128')

## Slicing

In [122]:
# slice por filas
d_and_d_characters = {'Name' : ['bundenth','theorin, hijo de alguien','barlok'], 'Strength' : [10,12,19], 'Wisdom' : [20,13,6]}
character_data = pd.DataFrame(d_and_d_characters, index=['a','b','c'])
display(character_data)
display(character_data[:-1])
display(character_data[1:2])

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,"theorin, hijo de alguien",12,13
c,barlok,19,6


Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,"theorin, hijo de alguien",12,13


Unnamed: 0,Name,Strength,Wisdom
b,"theorin, hijo de alguien",12,13


In [123]:
# slicing para columnas
display(character_data[['Name','Strength']])

Unnamed: 0,Name,Strength
a,bundenth,10
b,"theorin, hijo de alguien",12
c,barlok,19


In [124]:
#slicing con 'loc' e 'iloc'
display(character_data.iloc[1:])
display(character_data.loc[:'b'])

Unnamed: 0,Name,Strength,Wisdom
b,"theorin, hijo de alguien",12,13
c,barlok,19,6


Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,"theorin, hijo de alguien",12,13


¿Cómo filtrar filas y columnas? Por ejemplo, para todos los personajes, obtener 'Name' y 'Strength'

In [125]:
# usando 'loc' para hacer slicing
display(character_data.loc[:,'Name':'Strength'])

Unnamed: 0,Name,Strength
a,bundenth,10
b,"theorin, hijo de alguien",12
c,barlok,19


In [126]:
# usando 'loc' para buscar específicamente filas y columnas
display(character_data.loc[ ['a','c'], ['Name','Wisdom'] ])

Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


In [127]:
# lo mismo con 'iloc'?
display(character_data.iloc[[0,2],[0,2]])
display(character_data.iloc[[0,-1],[0,-1]])

Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


In [128]:
# lista de los personajes con el atributo Strength > 11
display(character_data.loc[character_data['Strength'] > 11, ['Name', 'Strength']])

Unnamed: 0,Name,Strength
b,"theorin, hijo de alguien",12
c,barlok,19


In [129]:
# listar los personajes con Strength > 15 o Wisdom > 15
display(character_data.loc[(character_data['Strength'] > 15) | (character_data['Wisdom'] > 15)])

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
c,barlok,19,6


# Cargar y guardar datos en pandas

In [130]:
character_data

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,"theorin, hijo de alguien",12,13
c,barlok,19,6


In [132]:
# Guardar a csv
import os
ruta = os.path.join("res" ,"o_d_d_characters.csv")
character_data.to_csv(ruta, sep=';') # sep por defecto: ','

OSError: Cannot save file into a non-existent directory: 'res'

In [133]:
'res' + '/' + 'o_d_d_charcaters.csv'

'res/o_d_d_charcaters.csv'

In [134]:
ruta

'res/o_d_d_characters.csv'

In [135]:
loaded = pd.read_csv(ruta, sep=';')
display(loaded)

FileNotFoundError: [Errno 2] No such file or directory: 'res/o_d_d_characters.csv'

In [136]:
loaded = pd.read_csv(ruta, sep=';', index_col = 0)
display(loaded)

FileNotFoundError: [Errno 2] No such file or directory: 'res/o_d_d_characters.csv'

In [137]:
pd.read_csv?

[0;31mSignature:[0m
[0mpd[0m[0;34m.[0m[0mread_csv[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mfilepath_or_buffer[0m[0;34m:[0m [0;34m'FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0;34m*[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msep[0m[0;34m:[0m [0;34m'str | None | lib.NoDefault'[0m [0;34m=[0m [0;34m<[0m[0mno_default[0m[0;34m>[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mdelimiter[0m[0;34m:[0m [0;34m'str | None | lib.NoDefault'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mheader[0m[0;34m:[0m [0;34m"int | Sequence[int] | None | Literal['infer']"[0m [0;34m=[0m [0;34m'infer'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mnames[0m[0;34m:[0m [0;34m'Sequence[Hashable] | None | lib.NoDefault'[0m [0;34m=[0m [0;34m<[0m[0mno_default[0m[0;34m>[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mindex_col[0m[0;34m:[0m [0;34m'IndexLabel | Literal[False] | None'[0m [0

#### otros argumentos to_csv()
- na_rep='string' --> representar valores NaN en el archivo csv

#### otros argumentos read_csv()
- na_values='string'


Pandas también ofrece funciones para leer/guardar a otros formatos estándares: JSON, HDF5 o Excel en su [API](https://pandas.pydata.org/pandas-docs/stable/reference/io.html)

# Ejemplo práctico en pandas
- [MovieLens dataset](https://grouplens.org/datasets/movielens/)
 - Reviews de películas
 - 1 millón de entradas
 - Datos demográficos de usuarios

In [147]:
import numpy as np
import pandas as pd
import zipfile # para descomprimir archivos zip
import urllib.request # para descargar de URL
import os

# descargar MovieLens dataset
url = 'https://grouplens.org/datasets/movielens/tag-genome-2021'  
ruta = os.path.join("res", "ml-1m.zip")
urllib.request.urlretrieve(url, ruta)

URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1002)>

In [149]:
import certifi
import ssl
import urllib.request

# Create a custom SSL context with certificate verification
ssl_context = ssl.create_default_context(cafile=certifi.where())

# Specify the URL and local file path
url = 'https://grouplens.org/datasets/movielens/tag-genome-2021'
ruta = os.path.join("res", "ml-1m.zip")

# Use the custom SSL context when making the request
with urllib.request.urlopen(url, context=ssl_context) as response:
    with open(ruta, 'wb') as file:
        file.write(response.read())


FileNotFoundError: [Errno 2] No such file or directory: 'res/ml-1m.zip'

In [147]:
import numpy as np
import pandas as pd
import zipfile # para descomprimir archivos zip
import urllib.request # para descargar de URL
import os

# descargar MovieLens dataset
url = 'https://grouplens.org/datasets/movielens/tag-genome-2021'  
ruta = os.path.join("res", "ml-1m.zip")
urllib.request.urlretrieve(url, ruta)

URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1002)>

In [146]:
# descomprimiendo archivo zip
ruta_ext = os.path.join("res")
with zipfile.ZipFile(ruta, 'r') as zip: 
    print('Extracting all files...') 
    zip.extractall(ruta_ext) # destinación
    print('Done!') 
    
# take a look at readme y revisar formatos

FileNotFoundError: [Errno 2] No such file or directory: 'res/ml-1m.zip'

In [140]:
ruta_users = os.path.join("res", "ml-1m", "users.dat")

users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0, engine='python')
display(users_dataset)

FileNotFoundError: [Errno 2] No such file or directory: 'res/ml-1m/users.dat'

In [141]:
# Varios problemas
# sin cabecera! primer valor se ha perdido
# las columnas no tienen nombres
pd.read_csv?

[0;31mSignature:[0m
[0mpd[0m[0;34m.[0m[0mread_csv[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mfilepath_or_buffer[0m[0;34m:[0m [0;34m'FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0;34m*[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msep[0m[0;34m:[0m [0;34m'str | None | lib.NoDefault'[0m [0;34m=[0m [0;34m<[0m[0mno_default[0m[0;34m>[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mdelimiter[0m[0;34m:[0m [0;34m'str | None | lib.NoDefault'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mheader[0m[0;34m:[0m [0;34m"int | Sequence[int] | None | Literal['infer']"[0m [0;34m=[0m [0;34m'infer'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mnames[0m[0;34m:[0m [0;34m'Sequence[Hashable] | None | lib.NoDefault'[0m [0;34m=[0m [0;34m<[0m[0mno_default[0m[0;34m>[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mindex_col[0m[0;34m:[0m [0;34m'IndexLabel | Literal[False] | None'[0m [0

In [142]:
# especificar nombres, cargar sin cabecera
users_dataset = pd.read_csv(ruta_users, index_col=0, sep='::',
    header=None, names=['UserID','Gender','Age','Occupation','Zip-code'], engine='python')
display(users_dataset)

FileNotFoundError: [Errno 2] No such file or directory: 'res/ml-1m/users.dat'

In [143]:
# samplear la tabla 
display(users_dataset.sample(15))

NameError: name 'users_dataset' is not defined

In [None]:
# samplear la cabeza
display(users_dataset.head())

In [None]:
# samplear la cola
display(users_dataset.tail(4))

In [None]:
# tipos de datos sobre las columnas
users_dataset.dtypes

In [None]:
display(users_dataset[users_dataset['Zip-code'].str.len() > 5])

In [None]:
# información general sobre atributos numéricos
display(users_dataset.describe())

In [None]:
users_dataset.info()

In [None]:
# incluir otros atributos (no todo tiene sentido)
display(users_dataset.describe(include='all'))

In [None]:
users_dataset[users_dataset['Gender'] == 'F']

In [None]:
# cuántos usuarios son mujeres (Gender='F')
len(users_dataset[users_dataset['Gender'] == 'F'])

# select count(*) from users_dataset where users_dataset.Gender = 'F'

In [None]:
set(users_dataset['Gender'])

In [None]:
for _genero in list(set(users_dataset['Gender'])):
    print(f"Hay {len(users_dataset[users_dataset['Gender'] == _genero])} usuarios con género {_genero}")

In [None]:
# mostrar solo los menores de edad
under_age = users_dataset[users_dataset['Age'] < 18].copy()
print(len(under_age))
display(under_age.sample(10))

# filtrar edad incorrecta (míninimo 18)
under_age.loc['Age'] = np.nan
display(under_age.head())

users_dataset[users_dataset['Age'] < 18] = under_age
display(users_dataset.head())

In [None]:
# Agrupar datos por atributos
display(users_dataset.groupby(by='Gender').describe())

In [None]:
# Grabar la tabla modificada
# Cambiar el separador a ','
# Guardar NaN como 'null'
ruta_output = os.path.join('res', 'ml-1m', 'o_users_processed.dat')
users_dataset.to_csv(ruta_output, sep=',',na_rep='null')

In [None]:
%pycat res/ml-1m/o_users_processed.dat

# Ejercicios
- Hacer un análisis general de los otros dos archivos CSV en ml-1m ('movies.dat' y 'ratings.dat')
- Analizando el dataset ratings.dat, ¿hay algún usuario que no tenga ninguna review? ¿Cuántos tienen menos de 30 reviews?

In [None]:
ruta_ratings = os.path.join("res", "ml-1m", "ratings.dat")

ratings_dataset = pd.read_csv(ruta_ratings, sep='::', index_col=0, header=None, engine='python', names=['UserID', 'MovieID', 'Rating', 'Time'])
display(ratings_dataset)

In [None]:
ratings_dataset.index

In [None]:
len(set(list(ratings_dataset.index)))

In [None]:
display(ratings_dataset[ratings_dataset.groupby(by='UserID')['Rating'] < 30])

In [None]:
ratings_dataset[ratings_dataset.groupby('UserID').Rating.count() < 30]

In [None]:
ratings_dataset.head(183)

In [None]:
mask = ratings_dataset.groupby(by='UserID').Rating.count() < 30

In [None]:
len(ratings_dataset[mask].groupby(by='UserID').count())

In [None]:
url = 'https://raw.githubusercontent.com/grammakov/USA-cities-and-states/master/us_cities_states_counties.csv'

In [None]:
ruta = os.path.join("res", "us_cities_states_counties.csv")

In [None]:
urllib.request.urlretrieve(url, ruta)