<img src="img/Recurso-26.png" width="200">

## TERCER MODULO - Pandas

![logo](img/python_logo.png)

*Steven Chuiza*

### Pandas
* Librería (de facto estándar) para estructurar datos tabulares
* Multivariable (string, int, float, bool…)
* Dos clases:
  * Series (1 dimensión)
  * DataFrames (2+ dimensiones)

In [11]:
# librería externa
import pandas as pd
from pandas import Series, DataFrame

In [12]:
pd.__version__

'2.3.3'

### Series
* Datos unidimensionales (similar a NumPy)
* Elementos + índices modificables

In [13]:
countries = pd.Series(['Spain','Andorra','Gibraltar','Portugal','France'])
print(countries)

0        Spain
1      Andorra
2    Gibraltar
3     Portugal
4       France
dtype: object


In [14]:
# especificando el índice
countries = pd.Series(['Spain','Andorra','Gibraltar','Portugal','France'],
                      index=range(10,60,10))
print(countries)

10        Spain
20      Andorra
30    Gibraltar
40     Portugal
50       France
dtype: object


In [15]:
# los índices pueden ser de más tipos
football_cities = pd.Series(['Barcelona','Madrid','Valencia','Sevilla'],
                            index=['a','b','c','d'])
print(football_cities)

a    Barcelona
b       Madrid
c     Valencia
d      Sevilla
dtype: object


In [16]:
# Atributos
football_cities.name = 'Ciudades con dos equipos en primera' # nombrar la Serie
football_cities.index.name = 'Id' # Describir los índices
print(football_cities)

Id
a    Barcelona
b       Madrid
c     Valencia
d      Sevilla
Name: Ciudades con dos equipos en primera, dtype: object


In [19]:
# 1. Acceso por POSICION (Solucion al error)
# Usamos .iloc para indicar que queremos el tercer ele elemento (indice2)
print(f'Por pocision (indice2):{football_cities.iloc[2]}')

# acceso por ETIQUETA SEMATICA
# Usamos .loc para indicar que buscamos la estiqueta 'c'
print(f"Por etiqueta('c'): {football_cities.loc['c']}")

# 3. Comparacion logica correcta
print(f"¿Son iguales?:{football_cities.loc['c'] == football_cities.iloc[2]}")

Por pocision (indice2):Valencia
Por etiqueta('c'): Valencia
¿Son iguales?:True


### 3 Tratamiento similar a ndarray

In [22]:
# múltiple recolección de elementos
print(football_cities[ ['a','c'] ])
print(football_cities.iloc[ [2, 3] ])

Id
a    Barcelona
c     Valencia
Name: Ciudades con dos equipos en primera, dtype: object
Id
c    Valencia
d     Sevilla
Name: Ciudades con dos equipos en primera, dtype: object


In [23]:
# slicing
print(football_cities[:'c']) # incluye ambos extremos con el indice semantico
print(football_cities[:2])

Id
a    Barcelona
b       Madrid
c     Valencia
Name: Ciudades con dos equipos en primera, dtype: object
Id
a    Barcelona
b       Madrid
Name: Ciudades con dos equipos en primera, dtype: object


In [24]:
#cast a list
lista = list(football_cities[:'c'])
print(lista)
print(type(lista))

['Barcelona', 'Madrid', 'Valencia']
<class 'list'>


In [25]:
type(football_cities[:'c'])

pandas.core.series.Series

In [26]:
#cast a ndarray
import numpy as np
cities = np.array(football_cities[:'c'])
print(cities)
print(type(cities))

['Barcelona' 'Madrid' 'Valencia']
<class 'numpy.ndarray'>


In [27]:
 # cas a dictionary
lista = dict(football_cities[:'c'])
print(lista)

{'a': 'Barcelona', 'b': 'Madrid', 'c': 'Valencia'}


In [28]:
# uso de masks para seleccionar
fibonacci = pd.Series([0, 1, 1, 2, 3, 5, 8, 13, 21])
print(fibonacci)

mask = fibonacci > 10
print(mask)
print(fibonacci[mask])

dst = pd.Series([13,21])
print(dst)

dst.equals(fibonacci)

fb = fibonacci[mask]
fb.reset_index(drop=True, inplace=True)
print(fb)

dst.equals(fb)

0     0
1     1
2     1
3     2
4     3
5     5
6     8
7    13
8    21
dtype: int64
0    False
1    False
2    False
3    False
4    False
5    False
6    False
7     True
8     True
dtype: bool
7    13
8    21
dtype: int64
0    13
1    21
dtype: int64
0    13
1    21
dtype: int64


True

In [29]:
# aplicar funciones de numpy a la serie
import numpy as np
print(np.sum(fibonacci))

54


In [30]:
#filtrado con np.where
distances = pd.Series([12.1,np.nan,12.8,76.9,6.1,7.2])
valid_distances = np.where(pd.notnull(distances),distances,2)
print(valid_distances)
print(type(valid_distances))

[12.1  2.  12.8 76.9  6.1  7.2]
<class 'numpy.ndarray'>


#### 3.0.1 Iteracion

In [31]:
# iterar sobre elementos
for value in fibonacci:
    print('Value: ' + str(value))
# # iterar sobre indices
for index in fibonacci.index:
    print('Index: ' + str(index))

Value: 0
Value: 1
Value: 1
Value: 2
Value: 3
Value: 5
Value: 8
Value: 13
Value: 21
Index: 0
Index: 1
Index: 2
Index: 3
Index: 4
Index: 5
Index: 6
Index: 7
Index: 8


In [33]:
# iterar sobre elementos e índices al mismo tiempo
for index, value in fibonacci.items():
    print('Index: ' + str(index) + ' Value: ' + str(value))

Index: 0 Value: 0
Index: 1 Value: 1
Index: 2 Value: 1
Index: 3 Value: 2
Index: 4 Value: 3
Index: 5 Value: 5
Index: 6 Value: 8
Index: 7 Value: 13
Index: 8 Value: 21


In [34]:
for index, value in zip(fibonacci.index, fibonacci):
    print('Index: ' + str(index) + ' Value: ' + str(value))

Index: 0 Value: 0
Index: 1 Value: 1
Index: 2 Value: 1
Index: 3 Value: 2
Index: 4 Value: 3
Index: 5 Value: 5
Index: 6 Value: 8
Index: 7 Value: 13
Index: 8 Value: 21


#### 3.1 Series como diccionarios
* Interpretar el índice como clave
* Acepta operaciones para diccionarios

In [35]:
# crear una serie a partir de un diccionario
serie = pd.Series( { 'Carlos' : 100, 'Marcos': 98} )
print(serie.index)
print(serie.values)
print(serie)
print(type(serie))

Index(['Carlos', 'Marcos'], dtype='object')
[100  98]
Carlos    100
Marcos     98
dtype: int64
<class 'pandas.core.series.Series'>


In [36]:
# añade y elimina elementos a través de índices
serie['Pedro'] = 12
serie['Pedro']=15
del serie['Marcos']
print(serie)

Carlos    100
Pedro      15
dtype: int64


In [38]:
# query una serie
# print(serie['Marcos'])
if 'Marcos' in serie:
    print(serie['Marcos'])
print(serie)

Carlos    100
Pedro      15
dtype: int64


#### 3.2 Operacion entre series

In [39]:
# suma de dos series
# suma de valores con el mismo índice (NaN si no aparece en ambas)
serie1 = pd.Series([10,20,30,40], index=range(4) )
serie2 = pd.Series([1,2,3], index=range(3) )
suma = serie1 + serie2
print(suma)

0    11.0
1    22.0
2    33.0
3     NaN
dtype: float64


In [40]:
# resta de series (similar a la suma)
print(serie1- serie2)

0     9.0
1    18.0
2    27.0
3     NaN
dtype: float64


In [41]:
# operaciones de pre-filtrado
result = serie1 + serie2
result[pd.isnull(result)] = 0 # mask con isnull()
print(result)

0    11.0
1    22.0
2    33.0
3     0.0
dtype: float64


#### 3.2.1 Diferencias entre Pandas Series y diccionario
* Diccionario, es una estructura que relaciona las claves y los valores de forma arbitraria.
* Series, estructura de forma estricta listas de valores con listas de índice asignado en la posición.
* Series, es más eficiente para ciertas operaciones que los dicionarios.
* Enlas Series los valores de entrada pueden ser listas o Numpy arrays.
* EnSeries los índices semánticos pueden ser integers o caracteres, en los valores igual.
* Series se podría entender entre una lista y un diccionario Python, pero es de una dimensión.

### 4 DataFrame 
* Datos tabulares (filas x columnas)
* Columnas: Series con índices compartidos

In [42]:
 # crear un DataFrame a partir de un diccionario de elementos de la misma longitud
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"],
                "Edad" : [34,29,12] }
print(diccionario)
# las claves identifican columnas
frame = pd.DataFrame(diccionario)
display(frame)

{'Nombre': ['Marisa', 'Laura', 'Manuel'], 'Edad': [34, 29, 12]}


Unnamed: 0,Nombre,Edad
0,Marisa,34
1,Laura,29
2,Manuel,12


In [43]:
 # crear un DataFrame a partir de un diccionario de elementos de la misma longitud
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"],
                "Edad" : [34,29,12] }
# las claves identifican columnas
frame = pd.DataFrame(diccionario, index = ['a', 'b', 'c'])
display(frame)

Unnamed: 0,Nombre,Edad
a,Marisa,34
b,Laura,29
c,Manuel,12


In [44]:
# además de 'index', el parámetro 'columns' especifica el número y orden de lascolumnas
frame = pd.DataFrame(diccionario, columns = ['Nacionalidad', 'Nombre', 'Edad','Profesion','Genero'])
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Genero
0,,Marisa,34,,
1,,Laura,29,,
2,,Manuel,12,,


In [45]:
 # acceso a columnas
nombres = frame['Nombre']
display(nombres)
print(type(nombres))
edades = frame['Edad']
display(edades)
print(type(edades))

0    Marisa
1     Laura
2    Manuel
Name: Nombre, dtype: object

<class 'pandas.core.series.Series'>


0    34
1    29
2    12
Name: Edad, dtype: int64

<class 'pandas.core.series.Series'>


In [46]:
#siempre que el nombre de la columna lo permita (espacios, ...)
nombres = frame.Profesion
display(nombres)
type(nombres)

0    NaN
1    NaN
2    NaN
Name: Profesion, dtype: object

pandas.core.series.Series

In [47]:
# acceso al primer nombre del DataFrame frame??
print(frame['Nombre'][0])
print(frame.Nombre[0])
print(nombres[0])

Marisa
Marisa
nan


### 4.0.1 Formas de crear un DataFrame
* Con una Serie de pandas
* Lista de diccionarios
* Dicionario de Series de Pandas
* Con un array de Numpy de dos dimensiones
* Con array estructurado de Numpy

### 4.1 Modificar DataFrames

In [48]:
# añadir columnas
diccionario = { "Nombre" : ["Marisa","Laura","Manuel"],
                "Edad" : [34,29,12] }
frame = pd.DataFrame(diccionario, columns=['Nacionalidad', 'Nombre','Edad','Profesion', 'Direccion'])
frame['Direccion'] = 'Desconocida'
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Marisa,34,,Desconocida
1,,Laura,29,,Desconocida
2,,Manuel,12,,Desconocida


In [49]:
lista_direcciones = ['Rue 13 del Percebe, 13', 'Evergreen Terrace, 3', 'Av de los Rombos, 12']

In [50]:
frame['Direccion'] = lista_direcciones
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Marisa,34,,"Rue 13 del Percebe, 13"
1,,Laura,29,,"Evergreen Terrace, 3"
2,,Manuel,12,,"Av de los Rombos, 12"


In [51]:
# añadir fila (requiere todos los valores)
user_2 = ['Alemania','Klaus',20, 'none','Desconocida']
frame.loc[3] = user_2
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Marisa,34,,"Rue 13 del Percebe, 13"
1,,Laura,29,,"Evergreen Terrace, 3"
2,,Manuel,12,,"Av de los Rombos, 12"
3,Alemania,Klaus,20,none,Desconocida


In [52]:
# eliminar fila (similar a Series)
frame = pd.DataFrame(diccionario,columns=['Nacionalidad', 'Nombre', 'Edad','Profesion'])
frame = frame.drop(2) # por qué necesitamos reasignar el frame?
display(frame)
frame.drop('Nombre', axis = 1, inplace = True)
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,


Unnamed: 0,Nacionalidad,Edad,Profesion
0,,34,
1,,29,


In [53]:
#eliminar columna
del frame['Profesion']
display(frame)

Unnamed: 0,Nacionalidad,Edad
0,,34
1,,29


In [54]:
# acceder a la traspuesta (como una matriz)
display(frame.T)

Unnamed: 0,0,1
Nacionalidad,,
Edad,34.0,29.0


### Iteraccion

In [57]:
# iteración sobre el DataFrame?
frame = pd.DataFrame(diccionario, columns=['Nacionalidad', 'Nombre', 'Edad','Profesion'])
display(frame)
for a in frame:
    print(a) # qué es 'a'?
    print(type(a))

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,
2,,Manuel,12,


Nacionalidad
<class 'str'>
Nombre
<class 'str'>
Edad
<class 'str'>
Profesion
<class 'str'>


In [58]:
# iteracion sobre filas
for value in frame.values:
    print(value)
    print(type(value))

[nan 'Marisa' 34 nan]
<class 'numpy.ndarray'>
[nan 'Laura' 29 nan]
<class 'numpy.ndarray'>
[nan 'Manuel' 12 nan]
<class 'numpy.ndarray'>


In [59]:
# iterar sobre filas y luego sobre cada valor?
for values in frame.values:
    for value in values:
        print(value)

nan
Marisa
34
nan
nan
Laura
29
nan
nan
Manuel
12
nan


### 4.3 Indexación y slicing con DataFrames

In [60]:
d1 = {'ciudad':'Valencia', 'temperatura':10, 'o2':1}
d2 = {'ciudad':'Barcelona', 'temperatura':8}
d3 = {'ciudad':'Valencia', 'temperatura':9}
d4 = {'ciudad':'Madrid', 'temperatura':10, 'humedad':80}
d5 = {'ciudad':'Sevilla', 'temperatura':15, 'humedad':50, 'co2':6}
d6 = {'ciudad':'Valencia', 'temperatura':10, 'humedad':90, 'co2':10}

ls_data = [d1, d2, d3, d4, d5, d6] # lista de diccionarios
df_data = pd.DataFrame(ls_data, index = list('abcdef'))
display(df_data)

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [61]:
# Acceso a un valor concreto por indice posicional [row, col]
print(df_data.iloc[1,1])
# Acceso a todos los valores hasta un índice por enteros
display(df_data.iloc[:3,:4])
# Acceso a datos de manera explícita, indice semantico (se incluyen)
display(df_data.loc['a', 'temperatura'])
display(df_data.loc[:'c', :'o2'])
display(df_data.loc[:'c', 'temperatura':'o2'])
display(df_data.loc[:, ['ciudad','o2']])

8


Unnamed: 0,ciudad,temperatura,o2,humedad
a,Valencia,10,1.0,
b,Barcelona,8,,
c,Valencia,9,,


np.int64(10)

Unnamed: 0,ciudad,temperatura,o2
a,Valencia,10,1.0
b,Barcelona,8,
c,Valencia,9,


Unnamed: 0,temperatura,o2
a,10,1.0
b,8,
c,9,


Unnamed: 0,ciudad,o2
a,Valencia,1.0
b,Barcelona,
c,Valencia,
d,Madrid,
e,Sevilla,
f,Valencia,


In [62]:
# indexación con nombre de columna (por columnas)
print(df_data['ciudad']) #--> Series
display(df_data[['ciudad', 'o2']])

a     Valencia
b    Barcelona
c     Valencia
d       Madrid
e      Sevilla
f     Valencia
Name: ciudad, dtype: object


Unnamed: 0,ciudad,o2
a,Valencia,1.0
b,Barcelona,
c,Valencia,
d,Madrid,
e,Sevilla,
f,Valencia,


In [64]:
# indexación con índice posicional (no permitido!). Esto busca columna.
df_data.iloc[0]

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object

In [65]:
# indexar por posición con 'iloc'
print(df_data.iloc[0]) #--> Series de la primera fila (qué marca los índices)

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object


In [66]:
# indexar semántico con 'loc'
df_data.loc['a'] #--> Series de la fila con índice 'a'

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object

In [67]:
# indexar semántico con 'loc'
df_data.loc[:'b'] #--> DataFrame de la fila con índice 'a' y 'b'

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,


In [68]:
df_data.loc[:'b'].loc[:,["o2", "humedad"]] # slicing anidado

Unnamed: 0,o2,humedad
a,1.0,
b,,


In [None]:
# si se modifica una porcion del dataframe se modifica el dataframe original␣(referencia)
display(df_data)

serie = df_data.loc['a']
print(serie)
serie.iloc[2] = 3000 # setting with copy warning!!!
display(df_data)

# copiar data frame
df_2 = df_data.loc['a'].copy()
df_2.iloc[2] = 3000
display(df_2)
display(df_data)

In [69]:
# ambos aceptan 'axis' como argumento
# df_data.iloc(axis=1)[0] #--> todos los valores asignados a la primera columna 'ciudad'
df_data.loc(axis=1)['ciudad'] #--> equivalente frame['ciudad']

a     Valencia
b    Barcelona
c     Valencia
d       Madrid
e      Sevilla
f     Valencia
Name: ciudad, dtype: object

In [70]:
# qué problema puede tener este fragmento?
frame = pd.DataFrame({"Name" : ['Carlos','Pedro'], "Age" : [34,22]},index=[1,0])
display(frame)

Unnamed: 0,Name,Age
1,Carlos,34
0,Pedro,22


In [71]:
# por defecto, pandas interpreta índice posicional--> error en frames
# cuando hay posible ambigüedad, utilizar loc y iloc
print('Primera fila\n')
print(frame.iloc[0])
print('\nElemento con index 0\n')
print(frame.loc[0])

Primera fila

Name    Carlos
Age         34
Name: 1, dtype: object

Elemento con index 0

Name    Pedro
Age        22
Name: 0, dtype: object


Repositorio de git hub: https://github.com/tiven29/Python-2026/blob/main/Untitled.ipynb