<a href="https://colab.research.google.com/github/RafaelCaballero/BME/blob/main/mfia/04dataframes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a la ciencia de datos con Python
###  Rafa Caballero

## Pandas - DataFrames

Los DataFrames son la estructura principal de Pandas. Se trata de una tabla bidimensional con dos métodos de acceso fundamentales: por posición y por nombre de fila y columna.


### Índice
[Creación](#Creación)<br>
[Acceso a columnas y filas](#Acceso-a-columnas-y-filas)<br>
[Información básica](#basica)<br>
[Modificación, inserción y borrado de columnas y filas](#Modificación)<br>
[Muestras](#Samples)<br>
[Iterar](#Iterar)<br>
[Índices](#Índices)<br>

<a name="Creación"></a>
## Creación

Ya hemos visto como cargar Dataframes desde un fichero CSV o Excel.
Otra alternativa es a través de listas de listas. Esto es habitual cuando por ejemplo estamos recopilando la información mediante web scraping y la vamos acumulando en listas. En este caso habrá que indicar, además, los nombres de las columnas

In [1]:
modules = ["numpy","matplotlib","numpy","tqdm","yfinance"]

import sys
import os.path
from subprocess import check_call
import importlib
import os

def instala(modules):
    print("Instalando módulos")
    for m in modules:
        # para el import quitamos [...] y ==...
        p = m.find("[")
        mi = m if p==-1 else m[:p]
        p = mi.find("==")
        mi = mi if p==-1 else mi[:p]
        torch_loader = importlib.util.find_spec(mi)
        if torch_loader is not None:
            print(m," encontrado")
        else:
            print(m," No encontrado, instalando...",end="")
            try:
                r = check_call([sys.executable, "-m", "pip", "install", "--user", m])
                print("¡hecho!")
            except:
                print("¡Problema al instalar ",m,"! ¿seguro que el módulo existe?",sep="")

    print("¡Terminado!")

instala(modules)

Instalando módulos
numpy  encontrado
matplotlib  encontrado
numpy  encontrado
tqdm  encontrado
yfinance  encontrado
¡Terminado!


In [2]:
import pandas as pd

datos = [['Amadeus', 72.320], ['Santander', 	6.9700],
         ['Sabadell', 2.7590], ['BBVA',	13.265],
         ['Enagas', 14.05], ['Endesa',27.47], ['Inditex', 47.07], ['Naturgy',26.34],
         ['Repsol',11.49],['Telefónica',4.60] ]
df = pd.DataFrame(datos ,columns=['name','close'])
df

Unnamed: 0,name,close
0,Amadeus,72.32
1,Santander,6.97
2,Sabadell,2.759
3,BBVA,13.265
4,Enagas,14.05
5,Endesa,27.47
6,Inditex,47.07
7,Naturgy,26.34
8,Repsol,11.49
9,Telefónica,4.6


El siguiente resultado, quizás inesperado, debe ser fácil de entender

In [3]:

ciudades = ['Madrid', 'Barcelona', 'Valencia', 'Sevilla',
         'Alicante', 'Málaga']
habitantes = [6507184, 5609350,  2547986,  1939887,
          1838819, 1641121 ]

df2 = pd.DataFrame([ciudades,habitantes],['provincia','habitantes'])
df2

Unnamed: 0,0,1,2,3,4,5
provincia,Madrid,Barcelona,Valencia,Sevilla,Alicante,Málaga
habitantes,6507184,5609350,2547986,1939887,1838819,1641121


También se puede crear a partir de un diccionario

In [4]:
import pandas as pd
from IPython.display import display

datos = {
    'name': ['Amadeus', 'Santander', 'Sabadell', 'BBVA', 'Enagas', 'Endesa',
             'Inditex', 'Naturgy', 'Repsol', 'Telefónica'],
    'close': [72.320, 6.9700, 2.7590, 13.265, 14.05, 27.47, 47.07, 26.34, 11.49, 4.60],
    'anterior': [71.80, 7.00, 2.80, 13.10, 14.20, 27.90, 46.50, 26.10, 11.70, 4.55]
}

df = pd.DataFrame(datos)
display(df)

Unnamed: 0,name,close,anterior
0,Amadeus,72.32,71.8
1,Santander,6.97,7.0
2,Sabadell,2.759,2.8
3,BBVA,13.265,13.1
4,Enagas,14.05,14.2
5,Endesa,27.47,27.9
6,Inditex,47.07,46.5
7,Naturgy,26.34,26.1
8,Repsol,11.49,11.7
9,Telefónica,4.6,4.55


Consideramos algunas bolsas europeas y su año de creación

LSE	Reino Unido	1801
Frankfurt	Alemania	1585
Milán	Italia	1808
Madrid	España	1831

Crear un dataframe df_bolsa con estos valores: nombre, país, año

## Acceso a columnas y filas

Al acceder a una columna obtenemos una "serie", es decir una secuencia de datos todos ellos con su etiqueta (en principio un número)

In [5]:
df['name']

Unnamed: 0,name
0,Amadeus
1,Santander
2,Sabadell
3,BBVA
4,Enagas
5,Endesa
6,Inditex
7,Naturgy
8,Repsol
9,Telefónica


Otra forma de acceder es con la notación . que solo puede usarse si el nombre de columna no contiene espacios ni símbolos especiales

In [6]:
df.name

Unnamed: 0,name
0,Amadeus
1,Santander
2,Sabadell
3,BBVA
4,Enagas
5,Endesa
6,Inditex
7,Naturgy
8,Repsol
9,Telefónica


Si queremos acceder a varias columnas a la vez usaremos una lista con una lista dentro

In [7]:
df[ ["name","anterior"] ]

Unnamed: 0,name,anterior
0,Amadeus,71.8
1,Santander,7.0
2,Sabadell,2.8
3,BBVA,13.1
4,Enagas,14.2
5,Endesa,27.9
6,Inditex,46.5
7,Naturgy,26.1
8,Repsol,11.7
9,Telefónica,4.55


**Ejercicio** En `df_bolsa` seleccionar solo el año y el país.

Veamos cuál es el tipo de una columna

In [8]:
print(type(df['name']))

<class 'pandas.core.series.Series'>


Una "Serie" representa una columna tiene 2 componentes, el índice y los valores

In [9]:
type(df.name.values), type(df.name.index)

(numpy.ndarray, pandas.core.indexes.range.RangeIndex)

In [10]:
df.name.index

RangeIndex(start=0, stop=10, step=1)

In [11]:
list(df.name.index)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

En un *dataframe* tenemos 3 compones: columnas (X), índice (y), valores

Se puede acceder a las columnas, a los índices y a los valores por separado

In [12]:
df.columns

Index(['name', 'close', 'anterior'], dtype='object')

In [13]:
df.index

RangeIndex(start=0, stop=10, step=1)

In [14]:
df.values

array([['Amadeus', 72.32, 71.8],
       ['Santander', 6.97, 7.0],
       ['Sabadell', 2.759, 2.8],
       ['BBVA', 13.265, 13.1],
       ['Enagas', 14.05, 14.2],
       ['Endesa', 27.47, 27.9],
       ['Inditex', 47.07, 46.5],
       ['Naturgy', 26.34, 26.1],
       ['Repsol', 11.49, 11.7],
       ['Telefónica', 4.6, 4.55]], dtype=object)

#### Acceso por posición

Sin embargo, no podemos acceder a la fila por posición directamente:

In [15]:
# esto daría error
# df[0]

Sí podríamos usar df.values, que nos da todas las filas, aunque no es muy habitual

In [16]:
df.values[0]

array(['Amadeus', 72.32, 71.8], dtype=object)

En lugar de eso, utilizaremos `iloc` que recibe un entero como parámetro para acceder a la fila

In [17]:
df.iloc[0]

Unnamed: 0,0
name,Amadeus
close,72.32
anterior,71.8


**Ejercicio 1**

Acceder a las 3 primeras filas. Pista: utilizar iloc y la misma notación que si fuera una lista

Igualmente dentro de la fila  podemos acceder a la columna por posición

In [18]:
df.iloc[0][0], df.iloc[0][1]

  df.iloc[0][0], df.iloc[0][1]


('Amadeus', np.float64(72.32))

Otra forma de lograr lo mismo [fila,columna]

In [19]:
df.iloc[0,0], df.iloc[0,1]

('Amadeus', np.float64(72.32))

**Ejercicio 2** Seleccionar las filas de la 2 a la 4, ambas incluidas (comenzando en 0) y solo la primera columna (la número 0)

In [20]:
# solución


**Acceso por índice.**

A menudo el índice es la posición sin más, con lo que la función iloc nos sirve. Sin embargo esto no es siempre así

In [21]:
import pandas as pd
datos = [['Madrid', 7058041], ['Barcelona', 5924293],
         ['Valencia', 2730314], ['Alicante', 2008809],
         ['Sevilla', 1969075], ['Málaga',1778275], ['Murcia', 1575171], ['Cádiz',1258881],
         ['Illes Balears',1238812],['Las Palmas',1164130] ]
df = pd.DataFrame(datos ,columns=['provincia','habitantes'],
               index=['Capital','Capital Com. Autonoma','Capital Com. Autonoma','provincia',
                      'Capital Com. Autonoma','Provincia','Capital Com. Autonoma',
                      'Provincia','Provincia','Provincia'])
df

Unnamed: 0,provincia,habitantes
Capital,Madrid,7058041
Capital Com. Autonoma,Barcelona,5924293
Capital Com. Autonoma,Valencia,2730314
provincia,Alicante,2008809
Capital Com. Autonoma,Sevilla,1969075
Provincia,Málaga,1778275
Capital Com. Autonoma,Murcia,1575171
Provincia,Cádiz,1258881
Provincia,Illes Balears,1238812
Provincia,Las Palmas,1164130


Vemos que iloc en este caso no vale

In [22]:
# error
#df.iloc['Capital']

Si se quiere acceder por el índice se puede usar `loc`

In [23]:
df.loc['Capital']

Unnamed: 0,Capital
provincia,Madrid
habitantes,7058041


In [24]:
df.loc['Provincia']

Unnamed: 0,provincia,habitantes
Provincia,Málaga,1778275
Provincia,Cádiz,1258881
Provincia,Illes Balears,1238812
Provincia,Las Palmas,1164130


Si se quiere acceder por nombre de fila y columna podemos hacerlo seleccionando primero la fila:

In [25]:
df.loc['Provincia']["habitantes"]

Unnamed: 0,habitantes
Provincia,1778275
Provincia,1258881
Provincia,1238812
Provincia,1164130


O utilizar `loc`con la notación habitual fila, columna

In [26]:
df.loc['Provincia','habitantes']

Unnamed: 0,habitantes
Provincia,1778275
Provincia,1258881
Provincia,1238812
Provincia,1164130


<a name="basica"></a>
## Información básica

Con poco esfuerzo podemos tener mucha información interesante sobre los datos. Veamos el siguiente ejemplo con datos de los "Pokemon"

In [27]:
import pandas as pd
url = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/pokemon.csv"
df = pd.read_csv(url)
df

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False
...,...,...,...,...,...,...,...,...,...,...,...,...
795,719,Diancie,Rock,Fairy,50,100,150,100,150,50,6,True
796,719,DiancieMega Diancie,Rock,Fairy,50,160,110,160,110,110,6,True
797,720,HoopaHoopa Confined,Psychic,Ghost,80,110,60,150,130,70,6,True
798,720,HoopaHoopa Unbound,Psychic,Dark,80,160,60,170,130,80,6,True


Nombres de las columnas:

In [28]:
df.columns

Index(['#', 'Name', 'Type 1', 'Type 2', 'HP', 'Attack', 'Defense', 'Sp. Atk',
       'Sp. Def', 'Speed', 'Generation', 'Legendary'],
      dtype='object')

Si queremos saber el número de filas y columnas podemos usar `shape`

In [29]:
df.shape

(800, 12)

Es una tupla: podemos separar las dos componentes fácilmente

In [30]:
(f,c) = df.shape

print(f"Datataframe con {f} filas y {c} columnas")

Datataframe con 800 filas y 12 columnas


In [31]:
# otra forma, aprovechando que las tuplas son secuencias
s = df.shape

print(f"Datataframe con {s[0]} filas y {s[1]} columnas")

Datataframe con 800 filas y 12 columnas


Más formas aun...

In [32]:
f = len(df)
c = len(df.columns)
print(f"Datataframe con {f} filas y {c} columnas")

Datataframe con 800 filas y 12 columnas


Datos básicos sobre el dataframe completo con `info` y estadísticas básicas sobre las columnas  numéricas con `describe`

In [33]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   #           800 non-null    int64 
 1   Name        800 non-null    object
 2   Type 1      800 non-null    object
 3   Type 2      414 non-null    object
 4   HP          800 non-null    int64 
 5   Attack      800 non-null    int64 
 6   Defense     800 non-null    int64 
 7   Sp. Atk     800 non-null    int64 
 8   Sp. Def     800 non-null    int64 
 9   Speed       800 non-null    int64 
 10  Generation  800 non-null    int64 
 11  Legendary   800 non-null    bool  
dtypes: bool(1), int64(8), object(3)
memory usage: 69.7+ KB


In [34]:
df.describe()

Unnamed: 0,#,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation
count,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0
mean,362.81375,69.25875,79.00125,73.8425,72.82,71.9025,68.2775,3.32375
std,208.343798,25.534669,32.457366,31.183501,32.722294,27.828916,29.060474,1.66129
min,1.0,1.0,5.0,5.0,10.0,20.0,5.0,1.0
25%,184.75,50.0,55.0,50.0,49.75,50.0,45.0,2.0
50%,364.5,65.0,75.0,70.0,65.0,70.0,65.0,3.0
75%,539.25,80.0,100.0,90.0,95.0,90.0,90.0,5.0
max,721.0,255.0,190.0,230.0,194.0,230.0,180.0,6.0


A menudo nos puede interesar saber qué valores diferentes toma una columna

In [35]:
df["Type 1"].unique()

array(['Grass', 'Fire', 'Water', 'Bug', 'Normal', 'Poison', 'Electric',
       'Ground', 'Fairy', 'Fighting', 'Psychic', 'Rock', 'Ghost', 'Ice',
       'Dragon', 'Dark', 'Steel', 'Flying'], dtype=object)

In [36]:
len(df["Type 1"].unique())

18

También nos puede interesar saber ccuántos pokemon de cada tipo hay:

In [37]:
df["Type 1"].value_counts()

Unnamed: 0_level_0,count
Type 1,Unnamed: 1_level_1
Water,112
Normal,98
Grass,70
Bug,69
Psychic,57
Fire,52
Rock,44
Electric,44
Ground,32
Ghost,32


In [38]:
s = df["Type 1"].value_counts()
s.index

Index(['Water', 'Normal', 'Grass', 'Bug', 'Psychic', 'Fire', 'Rock',
       'Electric', 'Ground', 'Ghost', 'Dragon', 'Dark', 'Poison', 'Fighting',
       'Steel', 'Ice', 'Fairy', 'Flying'],
      dtype='object', name='Type 1')

In [39]:
s.values

array([112,  98,  70,  69,  57,  52,  44,  44,  32,  32,  32,  31,  28,
        27,  27,  24,  17,   4])

**Ejercicio** Tipo de Pokemon más común en Type 1 y número de veces que aparece

In [40]:
frecuencias = df["Type 1"].value_counts()
frecuencias.index[0], frecuencias.values[0]

('Water', np.int64(112))

<a name="Modificación"></a>
## Modificación, inserción y borrado de columnas y filas

**Ejercicio 3** ¿Qué hace el siguiente código?

In [41]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350],
         ['Valencia', 2547986], ['Sevilla', 1939887],
         ['Alicante', 1838819], ['Málaga',1641121]  ]
df = pd.DataFrame(datos ,columns=['provincias','habitantes'],
               index=['a','b','c','d','e','f'])

df.iloc[1] = 0
df

Unnamed: 0,provincias,habitantes
a,Madrid,6507184
b,0,0
c,Valencia,2547986
d,Sevilla,1939887
e,Alicante,1838819
f,Málaga,1641121


**Ejercicio 4** ¿Qué hace el siguiente código?

In [42]:
df['superficie'] = 0
df

Unnamed: 0,provincias,habitantes,superficie
a,Madrid,6507184,0
b,0,0,0
c,Valencia,2547986,0
d,Sevilla,1939887,0
e,Alicante,1838819,0
f,Málaga,1641121,0


Por tanto para crear una columna nos basta con "rellenarla" del valor que se desee. Luego veremos casos más complejos.

### Eliminar filas y columnas
Una forma de eliminar columnas es seleccionar solo las que se quieren mantener. Primero preparamos los datos.

In [43]:
datos = {'provincia' : ['Madrid', 'Barcelona', 'Valencia', 'Sevilla',
         'Alicante', 'Málaga'],
         'habitantes' : [6507184, 5609350,  2547986,  1939887,
          1838819, 1641121 ]}
df = pd.DataFrame(datos)
df["superficie"] = 0
df

Unnamed: 0,provincia,habitantes,superficie
0,Madrid,6507184,0
1,Barcelona,5609350,0
2,Valencia,2547986,0
3,Sevilla,1939887,0
4,Alicante,1838819,0
5,Málaga,1641121,0


In [44]:
df2 = df.loc[ : , ['superficie'] ]  # todas las filas, columna solo superficie
df2

Unnamed: 0,superficie
0,0
1,0
2,0
3,0
4,0
5,0


Equivalente a

In [45]:
df2 = df[["superficie"]]
df2

Unnamed: 0,superficie
0,0
1,0
2,0
3,0
4,0
5,0


**Pregunta** ¿También es equivalente a `df["superficie"]`?

Varias columnas

In [46]:
df2 = df[['provincia', 'superficie'] ]
df2

Unnamed: 0,provincia,superficie
0,Madrid,0
1,Barcelona,0
2,Valencia,0
3,Sevilla,0
4,Alicante,0
5,Málaga,0


En general para borrar filas o columnas por nombre usaremos [drop](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html). El parámetro `axis`indica si queremos borrar filas (0) o columnas (1)

In [47]:
datos = {'provincia' : ['Madrid', 'Barcelona', 'Valencia', 'Sevilla',
         'Alicante', 'Málaga'],
         'habitantes' : [6507184, 5609350,  2547986,  1939887,
          1838819, 1641121 ]}
df = pd.DataFrame(datos)
df["superficie"] = 0
df

Unnamed: 0,provincia,habitantes,superficie
0,Madrid,6507184,0
1,Barcelona,5609350,0
2,Valencia,2547986,0
3,Sevilla,1939887,0
4,Alicante,1838819,0
5,Málaga,1641121,0


In [48]:
dfSinFila = df.drop([3,5],axis=0)
dfSinFila

Unnamed: 0,provincia,habitantes,superficie
0,Madrid,6507184,0
1,Barcelona,5609350,0
2,Valencia,2547986,0
4,Alicante,1838819,0


In [49]:
dfSinCol = df.drop(['superficie'],axis=1)
dfSinCol

Unnamed: 0,provincia,habitantes
0,Madrid,6507184
1,Barcelona,5609350
2,Valencia,2547986
3,Sevilla,1939887
4,Alicante,1838819
5,Málaga,1641121


Si queremos podemos eviar el uso de axis utilizando los parámetros `index` y `columns`

In [50]:
datos = {'provincia' : ['Madrid', 'Barcelona', 'Valencia', 'Sevilla',
         'Alicante', 'Málaga'],
         'habitantes' : [6507184, 5609350,  2547986,  1939887,
          1838819, 1641121 ]}
df = pd.DataFrame(datos)
df["superficie"] = 0
df

Unnamed: 0,provincia,habitantes,superficie
0,Madrid,6507184,0
1,Barcelona,5609350,0
2,Valencia,2547986,0
3,Sevilla,1939887,0
4,Alicante,1838819,0
5,Málaga,1641121,0


In [51]:
df.drop(index=[1,3])

Unnamed: 0,provincia,habitantes,superficie
0,Madrid,6507184,0
2,Valencia,2547986,0
4,Alicante,1838819,0
5,Málaga,1641121,0


In [52]:
df.drop(columns=['provincia'])

Unnamed: 0,habitantes,superficie
0,6507184,0
1,5609350,0
2,2547986,0
3,1939887,0
4,1838819,0
5,1641121,0


Las columnas también se puede eliminar con `del` como en los diccionarios

In [53]:
if 'superficie' in df2:
    del df2['superficie']
df2

Unnamed: 0,provincia
0,Madrid
1,Barcelona
2,Valencia
3,Sevilla
4,Alicante
5,Málaga


Una variante interesante es `pop`, que borra una fila y la devuelve

In [54]:
df2 = df.copy()
habi = df2.pop("habitantes")
df2

Unnamed: 0,provincia,superficie
0,Madrid,0
1,Barcelona,0
2,Valencia,0
3,Sevilla,0
4,Alicante,0
5,Málaga,0


In [55]:
habi

Unnamed: 0,habitantes
0,6507184
1,5609350
2,2547986
3,1939887
4,1838819
5,1641121


In [56]:
df

Unnamed: 0,provincia,habitantes,superficie
0,Madrid,6507184,0
1,Barcelona,5609350,0
2,Valencia,2547986,0
3,Sevilla,1939887,0
4,Alicante,1838819,0
5,Málaga,1641121,0


Veamos un ejemplo con valores del IBEX

In [57]:
import yfinance as yf
import pandas as pd

# Diccionario: nombre -> ticker de Yahoo Finance
tickers = {
    'Amadeus': 'AMS.MC',
    'Santander': 'SAN.MC',
    'Sabadell': 'SAB.MC',
    'BBVA': 'BBVA.MC',
    'Enagas': 'ENG.MC',
    'Endesa': 'ELE.MC',
    'Inditex': 'ITX.MC',
    'Naturgy': 'NTGY.MC',
    'Repsol': 'REP.MC',
    'Telefónica': 'TEF.MC'
}

# Descarga los datos (últimos 30 días por defecto)
df_ibex = yf.download(list(tickers.values()), progress=False)



# Muestra las 5 primeras filas
df_ibex.head()


YF.download() has changed argument auto_adjust default to True


Price,Close,Close,Close,Close,Close,Close,Close,Close,Close,Close,...,Volume,Volume,Volume,Volume,Volume,Volume,Volume,Volume,Volume,Volume
Ticker,AMS.MC,BBVA.MC,ELE.MC,ENG.MC,ITX.MC,NTGY.MC,REP.MC,SAB.MC,SAN.MC,TEF.MC,...,AMS.MC,BBVA.MC,ELE.MC,ENG.MC,ITX.MC,NTGY.MC,REP.MC,SAB.MC,SAN.MC,TEF.MC
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
2000-01-03,,4.11511,-4.093286,,,5.637676,6.16644,1.148128,2.69628,7.23393,...,,8244257,3615680,,,1665096,3215655,7949,8797337,13579848
2000-01-04,,4.007734,-3.983469,,,5.501523,5.959398,1.148128,2.632308,6.935892,...,,8522096,4048543,,,1995656,3244446,3178,8811013,15091975
2000-01-05,,3.917773,-4.013614,,,5.24687,5.878261,1.148128,2.568337,6.611814,...,,12159826,4688995,,,1441158,3235272,3974,9333517,16630986
2000-01-06,,3.917773,-4.013614,,,5.24687,5.878261,1.148128,2.568337,6.611814,...,,0,0,,,0,0,0,0,0
2000-01-07,,3.967107,-4.157881,,,5.62507,6.062918,1.148128,2.682063,6.623389,...,,62261944,4027102,,,2313006,5914766,2652,9603132,17595592


In [58]:
df_ibex.columns

MultiIndex([( 'Close',  'AMS.MC'),
            ( 'Close', 'BBVA.MC'),
            ( 'Close',  'ELE.MC'),
            ( 'Close',  'ENG.MC'),
            ( 'Close',  'ITX.MC'),
            ( 'Close', 'NTGY.MC'),
            ( 'Close',  'REP.MC'),
            ( 'Close',  'SAB.MC'),
            ( 'Close',  'SAN.MC'),
            ( 'Close',  'TEF.MC'),
            (  'High',  'AMS.MC'),
            (  'High', 'BBVA.MC'),
            (  'High',  'ELE.MC'),
            (  'High',  'ENG.MC'),
            (  'High',  'ITX.MC'),
            (  'High', 'NTGY.MC'),
            (  'High',  'REP.MC'),
            (  'High',  'SAB.MC'),
            (  'High',  'SAN.MC'),
            (  'High',  'TEF.MC'),
            (   'Low',  'AMS.MC'),
            (   'Low', 'BBVA.MC'),
            (   'Low',  'ELE.MC'),
            (   'Low',  'ENG.MC'),
            (   'Low',  'ITX.MC'),
            (   'Low', 'NTGY.MC'),
            (   'Low',  'REP.MC'),
            (   'Low',  'SAB.MC'),
            (   'Low

Esto es un índice jerárquico...cada columna tiene columnas dentro. Lo mejor es proceder paso a paso

In [59]:
df_close = df_ibex["Close"]
df_close

Ticker,AMS.MC,BBVA.MC,ELE.MC,ENG.MC,ITX.MC,NTGY.MC,REP.MC,SAB.MC,SAN.MC,TEF.MC
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2000-01-03,,4.115110,-4.093286,,,5.637676,6.166440,1.148128,2.696280,7.233930
2000-01-04,,4.007734,-3.983469,,,5.501523,5.959398,1.148128,2.632308,6.935892
2000-01-05,,3.917773,-4.013614,,,5.246870,5.878261,1.148128,2.568337,6.611814
2000-01-06,,3.917773,-4.013614,,,5.246870,5.878261,1.148128,2.568337,6.611814
2000-01-07,,3.967107,-4.157881,,,5.625070,6.062918,1.148128,2.682063,6.623389
...,...,...,...,...,...,...,...,...,...,...
2025-05-19,72.620003,13.465000,26.510000,13.490,48.500000,26.219999,11.715000,2.770000,6.943000,4.496000
2025-05-20,73.480003,13.770000,27.150000,13.660,48.450001,26.500000,11.810000,2.825000,7.044000,4.550000
2025-05-21,73.680000,13.695000,27.260000,13.810,48.570000,26.500000,11.755000,2.786000,7.036000,4.571000
2025-05-22,73.099998,13.680000,27.370001,13.835,48.230000,26.459999,11.600000,2.822000,7.074000,4.607000


In [60]:
df_close["BBVA.MC"]

Unnamed: 0_level_0,BBVA.MC
Date,Unnamed: 1_level_1
2000-01-03,4.115110
2000-01-04,4.007734
2000-01-05,3.917773
2000-01-06,3.917773
2000-01-07,3.967107
...,...
2025-05-19,13.465000
2025-05-20,13.770000
2025-05-21,13.695000
2025-05-22,13.680000


### Filtros

Para *filtrar* filas lo normal es escribir una expresión booleana que solo cumplan las filas que queremos y acceder mediante este filtro

In [61]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350],
         ['Valencia', 2547986], ['Sevilla', 1939887],
         ['Alicante', 1838819], ['Málaga',1694089]  ]
df = pd.DataFrame(datos ,columns=['ciudades','habitantes'],
               index=['Capital','Capital Com. Autonoma','Capital Com. Autonoma','Ciudad','Ciudad','Ciudad'])

df

Unnamed: 0,ciudades,habitantes
Capital,Madrid,6507184
Capital Com. Autonoma,Barcelona,5609350
Capital Com. Autonoma,Valencia,2547986
Ciudad,Sevilla,1939887
Ciudad,Alicante,1838819
Ciudad,Málaga,1694089


Ciudades con más de 200000 habitantes

In [62]:
filtro = df.habitantes > 2000000
df2 = df[filtro]
df2

Unnamed: 0,ciudades,habitantes
Capital,Madrid,6507184
Capital Com. Autonoma,Barcelona,5609350
Capital Com. Autonoma,Valencia,2547986


Esto es importante pero bastante complejo. Para entenderlo veamos primero el filtro

In [63]:
filtro

Unnamed: 0,habitantes
Capital,True
Capital Com. Autonoma,True
Capital Com. Autonoma,True
Ciudad,False
Ciudad,False
Ciudad,False


Aquí el índice no es importante, lo importante es que hay un True en cada fila que cumple la condición y un false en la que no.

Y Python permite usar una secuencia de Trues y False para acceder a elementos, devolviendo solo en los que hay Trues; por eso df[filtro] es equivalente a

In [64]:
df[[True,True,True,False,False,False]]

Unnamed: 0,ciudades,habitantes
Capital,Madrid,6507184
Capital Com. Autonoma,Barcelona,5609350
Capital Com. Autonoma,Valencia,2547986


**Ejemplo** La función de strings `startswith` indica si un string empieza por una letra

In [65]:
s = "Barcerlona"
print(s.startswith("B"))
print(s.startswith("V"))

True
False


vamos a usarla para quedarnos solo con las ciudades que empiezan por M

In [66]:
filtro = df.ciudades.str.startswith("M")  # ciudades cuyo nombre empieza por M

df2 = df[filtro]
df2

Unnamed: 0,ciudades,habitantes
Capital,Madrid,6507184
Ciudad,Málaga,1694089


In [67]:
filtro

Unnamed: 0,ciudades
Capital,True
Capital Com. Autonoma,False
Capital Com. Autonoma,False
Ciudad,False
Ciudad,False
Ciudad,True


**Detalle**: Fijarse en el df.ciudades**.str**.startswith("M"). Es necesario porque al ser `startswith` una función que solo vale para strings tenemos que "avisar" a Python de que la función es de tipo string, cuando por defecto las considera numéricas. Además de *str* existe otro para indicar que la columna es una fecha, *dt*.

Si lo que queremos es saber cuántos elementos cumplen el filtro, nos basta con recordar que los Trues se corresponden con 1s, y los Falses con 0s.

In [68]:
sum(filtro)

2

**Ejercicio 4**

a) Cargar el fichero "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/parocomunidades.csv" que está con codificación (`encoding`) "latin1" y dejarlo en un dataframe `df_paro`




In [69]:
import pandas as pd
url = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/parocomunidades.csv"


b) Mostrar solo las filas de `df_paro` que corresponden al Periodo 2019

c) Mostrar solo las filas de `df_paro` que corresponden a un total mayor de 15

d) (más difícil) Mostrar solo las filas que corresponden al Periodo 2019 y tienen Total mayor de 15

**Nota** Para combinar varias condiciones en un filtro se utilizan los operadores de bit: `&` en lugar de `and`, `|` en lugar de `or` y `~` en lugar de not.

**Ejemplo**

Queremos todos los datos de `df_paro` salvo los de Andalucía

In [70]:
# método 1
import pandas as pd
url = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/parocomunidades.csv"
df_paro = pd.read_csv(url, encoding="latin1")
filtro = df_paro["Comunidad"]!="Andalucía"
df_paro[filtro]

Unnamed: 0,Comunidad,Periodo,Total
0,Andalucía,2023,18.67
1,Andalucía,2022,19.00
2,Andalucía,2021,20.18
3,Andalucía,2020,22.74
4,Andalucía,2019,20.80
...,...,...,...
413,Melilla,2006,9.86
414,Melilla,2005,12.33
415,Melilla,2004,12.49
416,Melilla,2003,19.88


In [71]:
# método 2, más raro
filtro = df_paro["Comunidad"]=="Andalucía"
df_paro[~filtro]

Unnamed: 0,Comunidad,Periodo,Total
0,Andalucía,2023,18.67
1,Andalucía,2022,19.00
2,Andalucía,2021,20.18
3,Andalucía,2020,22.74
4,Andalucía,2019,20.80
...,...,...,...
413,Melilla,2006,9.86
414,Melilla,2005,12.33
415,Melilla,2004,12.49
416,Melilla,2003,19.88


**Ejercicio 5** Consideramos este DataFrame

In [72]:
data = [[1,2,3,4,5,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,3,4,5,6,7],
       ]
df = pd.DataFrame(data)
df

Unnamed: 0,0,1,2,3,4,5,6
0,1,2,3,4,5,6,7
1,1,2,0,0,0,6,7
2,1,2,0,0,0,6,7
3,1,2,0,0,0,6,7
4,1,2,3,4,5,6,7


Encontrar una expresión de cambiar todos los 0s por 9s (hay varias formas, alguna utilizando posiciones y alguna otra sin posiciones)

### Añadir filas

Veamos como [añadir filas](https://www.stackvidhya.com/add-row-to-dataframe/#:~:text=You%20can%20add%20rows%20to,append()) a un dataframe ya existente con loc

In [75]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350],
         ['Valencia', 2547986], ['Sevilla', 1939887],
         ['Alicante', 1838819], ['Málaga',1694089]  ]
df = pd.DataFrame(datos ,columns=['ciudades','habitantes'])
df

Unnamed: 0,ciudades,habitantes
0,Madrid,6507184
1,Barcelona,5609350
2,Valencia,2547986
3,Sevilla,1939887
4,Alicante,1838819
5,Málaga,1694089


In [76]:
df.loc[len(df)] = ['Cáceres', 394151]

df

Unnamed: 0,ciudades,habitantes
0,Madrid,6507184
1,Barcelona,5609350
2,Valencia,2547986
3,Sevilla,1939887
4,Alicante,1838819
5,Málaga,1694089
6,Cáceres,394151


Ahora añadimos una columna con la superficie

In [77]:
df["superficie"] = [8027, 7773, 10807,14036,5817,7306, 19868]
df

Unnamed: 0,ciudades,habitantes,superficie
0,Madrid,6507184,8027
1,Barcelona,5609350,7773
2,Valencia,2547986,10807
3,Sevilla,1939887,14036
4,Alicante,1838819,5817
5,Málaga,1694089,7306
6,Cáceres,394151,19868


Y obtenemos la densidad:

In [78]:
df["densidad"] = df["habitantes"]/df["superficie"]
df

Unnamed: 0,ciudades,habitantes,superficie,densidad
0,Madrid,6507184,8027,810.662016
1,Barcelona,5609350,7773,721.645439
2,Valencia,2547986,10807,235.771815
3,Sevilla,1939887,14036,138.207965
4,Alicante,1838819,5817,316.111226
5,Málaga,1694089,7306,231.876403
6,Cáceres,394151,19868,19.838484


### Ordenar

Para ordenar utilizaremos `sort_values`

In [79]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350],
         ['Valencia', 2547986], ['Sevilla', 1939887],
         ['Alicante', 1838819], ['Málaga',1694089]  ]
df = pd.DataFrame(datos ,columns=['provincia','habitantes'])
df_ordenado = df.sort_values(by='provincia', ascending=True)
df_ordenado

Unnamed: 0,provincia,habitantes
4,Alicante,1838819
1,Barcelona,5609350
0,Madrid,6507184
5,Málaga,1694089
3,Sevilla,1939887
2,Valencia,2547986


Ordenar por dos columnas

In [80]:
datos = [['Bertoldo', 'Cacaseno'], ['Aniceto', 'Cacaseno'],
         ['Herminia', 'Ducasse'], ['Calixta', 'Albrich'] ]
df = pd.DataFrame(datos ,columns=['nombre','apellido'])
df.sort_values(by='apellido',ascending=True)

Unnamed: 0,nombre,apellido
3,Calixta,Albrich
0,Bertoldo,Cacaseno
1,Aniceto,Cacaseno
2,Herminia,Ducasse


In [81]:
df.sort_values(by=['apellido','nombre'],ascending=True)

Unnamed: 0,nombre,apellido
3,Calixta,Albrich
1,Aniceto,Cacaseno
0,Bertoldo,Cacaseno
2,Herminia,Ducasse


<a name="Samples"></a>
## Muestras

En ocasiones nos interesará tomar muestras de un dataset muy grande para tener unos pocos datos manejables y representativos

Las muestras también se utilizarán en nuestros experimentos con datos, dividiendo el conjunto en dos:

- Entrenamiento

- Test

El conjunto de entrenamiento lo usaremos para nuestras hipótesis, nuestros modelos. Una vez realizado el modelo lo probaremos con datos "nuevos" los datos de test

En ambos casos utilizaremos [sample](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sample.html) al que se puede pasar la proporción de datos a obtener o el número de valores a obtener



In [82]:
# lectura de un fichero en panda
import pandas as pd

url = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/madpollution_output.csv"
df = pd.read_csv(url)
df

Unnamed: 0,year,month,day,hour,minute,second,laborday,saturday,sunday,holiday,...,PM25,NOx,O3,windspeed,winddirection,temperature,humidity,pressure,rain,traffic
0,2019,8,1,0,0,0,0,1,0,0,...,10.0,29.0,58.87,1.84,97.0,26.1,52.0,943.0,0.0,570.0
1,2019,8,1,1,0,0,0,1,0,0,...,10.0,18.0,63.73,1.97,117.0,24.9,55.0,943.0,0.0,404.0
2,2019,8,1,2,0,0,0,1,0,0,...,9.0,19.0,66.50,1.72,96.0,24.0,55.0,943.0,0.0,287.0
3,2019,8,1,3,0,0,0,1,0,0,...,10.0,15.0,66.62,1.55,106.0,23.3,55.0,943.0,0.0,209.0
4,2019,8,1,4,0,0,0,1,0,0,...,10.0,18.0,62.57,1.13,67.0,22.9,57.0,943.0,0.0,194.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14744,2021,5,25,19,0,0,0,1,0,0,...,10.0,55.0,0.00,0.98,6.0,26.1,29.0,948.0,0.0,1399.0
14745,2021,5,25,20,0,0,0,1,0,0,...,7.0,58.0,0.00,0.91,42.0,25.0,30.0,948.0,0.0,1342.0
14746,2021,5,25,21,0,0,0,1,0,0,...,11.0,94.0,0.00,0.61,76.0,24.5,32.0,948.0,0.0,1096.0
14747,2021,5,25,22,0,0,0,1,0,0,...,6.0,84.0,0.00,1.26,92.0,22.7,42.0,949.0,0.0,835.0


In [83]:
# solo queremos 100 filas al azar
df.sample(n=100)

Unnamed: 0,year,month,day,hour,minute,second,laborday,saturday,sunday,holiday,...,PM25,NOx,O3,windspeed,winddirection,temperature,humidity,pressure,rain,traffic
13340,2021,3,28,7,0,0,0,0,0,1,...,13.0,46.0,19.97,0.56,21.0,7.4,80.0,956.0,0.0,317.0
5581,2020,4,19,12,0,0,0,0,0,1,...,5.0,19.0,92.35,1.05,72.0,16.4,62.0,941.0,0.0,234.0
12862,2021,3,8,8,0,0,0,1,0,0,...,15.0,130.0,8.93,0.76,307.0,6.3,87.0,943.0,0.0,1430.0
10508,2020,11,29,19,0,0,0,0,0,1,...,20.0,242.0,6.11,0.52,40.0,9.5,79.0,947.0,0.0,1245.0
1652,2019,10,9,8,0,0,0,1,0,0,...,15.0,223.0,3.86,0.70,237.0,15.2,64.0,947.0,0.0,1400.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12696,2021,3,1,10,0,0,0,1,0,0,...,15.0,110.0,24.98,2.09,69.0,8.7,68.0,951.0,0.0,1261.0
2147,2019,10,30,0,0,0,0,1,0,0,...,31.0,281.0,5.17,0.58,337.0,13.0,87.0,951.0,0.0,431.0
13025,2021,3,15,3,0,0,0,1,0,0,...,7.0,15.0,64.29,0.87,58.0,7.7,59.0,954.0,0.0,79.0
1939,2019,10,21,7,0,0,0,1,0,0,...,8.0,141.0,3.27,0.63,33.0,6.0,86.0,947.0,0.0,1322.0


Ejemplo de división de un dataframe en dos de forma aleatoria

In [84]:
train_dataset = df.sample(frac=0.8,random_state=0)
test_dataset = df.drop(train_dataset.index)
print(len(train_dataset), len(test_dataset))

11799 2950


También se pueden tomar muestras con reemplazamiento, lo que significa que se puede repetir

In [85]:
datos = [['Bertoldo', 'Cacaseno'], ['Aniceto', 'Cacaseno'],
         ['Herminia', 'Ducasse'], ['Calixta', 'Albrich'] ]
df = pd.DataFrame(datos ,columns=['nombre','apellido'])
df

Unnamed: 0,nombre,apellido
0,Bertoldo,Cacaseno
1,Aniceto,Cacaseno
2,Herminia,Ducasse
3,Calixta,Albrich


In [86]:
df.sample(n=10,replace=True)

Unnamed: 0,nombre,apellido
2,Herminia,Ducasse
2,Herminia,Ducasse
2,Herminia,Ducasse
1,Aniceto,Cacaseno
2,Herminia,Ducasse
3,Calixta,Albrich
2,Herminia,Ducasse
1,Aniceto,Cacaseno
2,Herminia,Ducasse
2,Herminia,Ducasse


<a name="Iterar"></a>
## Iterar

Intentaremos evitar iterar por el dataframe con un `for`, pero a veces no hay más remedio. En ese caso usaremos `iterrows`
 que nos devuelve cada fila como un array con dos posiciones, la 0 para el índice y la 1 para la fila en sí

In [87]:
import pandas as pd
file = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/top10s.csv"
df = pd.read_csv(file,encoding="latin-1", index_col=0)
df

Unnamed: 0,title,artist,top genre,year,bpm,nrgy,dnce,dB,live,val,dur,acous,spch,pop
1,"Hey, Soul Sister",Train,neo mellow,2010,97,89,67,-4,8,80,217,19,4,83
2,Love The Way You Lie,Eminem,detroit hip hop,2010,87,93,75,-5,52,64,263,24,23,82
3,TiK ToK,Kesha,dance pop,2010,120,84,76,-3,29,71,200,10,14,80
4,Bad Romance,Lady Gaga,dance pop,2010,119,92,70,-4,8,71,295,0,4,79
5,Just the Way You Are,Bruno Mars,pop,2010,109,84,64,-5,9,43,221,2,4,78
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
599,Find U Again (feat. Camila Cabello),Mark Ronson,dance pop,2019,104,66,61,-7,20,16,176,1,3,75
600,Cross Me (feat. Chance the Rapper & PnB Rock),Ed Sheeran,pop,2019,95,79,75,-6,7,61,206,21,12,75
601,"No Brainer (feat. Justin Bieber, Chance the Ra...",DJ Khaled,dance pop,2019,136,76,53,-5,9,65,260,7,34,70
602,Nothing Breaks Like a Heart (feat. Miley Cyrus),Mark Ronson,dance pop,2019,114,79,60,-6,42,24,217,1,7,69


In [88]:
for row in df.iterrows():
    print(row[1]["title"])

Hey, Soul Sister
Love The Way You Lie
TiK ToK
Bad Romance
Just the Way You Are
Baby
Dynamite
Secrets
Empire State of Mind (Part II) Broken Down
Only Girl (In The World)
Club Can't Handle Me (feat. David Guetta)
Marry You
Cooler Than Me - Single Mix
Telephone
Like A G6
OMG (feat. will.i.am)
Eenie Meenie
The Time (Dirty Bit)
Alejandro
Your Love Is My Drug
Meet Me Halfway
Whataya Want from Me
Take It Off
Misery
All The Right Moves
Animal
Naturally
I Like It
Teenage Dream
California Gurls
3
My First Kiss - feat. Ke$ha
Blah Blah Blah (feat. 3OH!3)
Imma Be
Try Sleeping with a Broken Heart
Sexy Bitch (feat. Akon)
Bound To You - Burlesque Original Motion Picture Soundtrack
If I Had You
Rock That Body
Dog Days Are Over
Something's Got A Hold On Me - Burlesque Original Motion Picture Soundtrack
Doesn't Mean Anything
Hard
Loca
You Lost Me
Not Myself Tonight
Written in the Stars (feat. Eric Turner)
DJ Got Us Fallin' In Love (feat. Pitbull)
Castle Walls (feat. Christina Aguilera)
Break Your Heart
H

**Ejemplo 11** Utilizar iterrows para encontrar el título de la canción  con más bpm.

Idea: usar una variable bpm que lleve el máximo hasta el momento y otra título con el título del máximo hasta el momento, e ir actualizando ambas variables

In [89]:
## Y ahora sin iterrows...