# Introducción a Python 

## Pandas - DataFrames

Los DataFrames son la estructura principal de Pandas. Se trata de una tabla bidimensional, aunque se pueden lograr representar más dimensiones usando *índices jerárquicos*.


### Índice
[Creación](#Creación)<br>
[Acceso a columnas y filas](#Acceso-a-columnas-y-filas)<br>
[Modificación, inserción y borrado de columnas y filas](#Modificación)<br>
[Muestras](#Samples)<br>
[Iterar](#Iterar)<br>
[Índices](#Índices)<br>

<a name="Creación"></a>
## Creación

Veremos como cargar Dataframes desde un fichero CSV o Excel. 
Otra alternativa es a través de listas de listas. Esto es habitual cuando por ejemplo estamos recopilando la información mediante web scraping y la vamos acumulando en listas. En este caso habrá que indicar, además, los nombres de las columnas

In [1]:
import pandas as pd
from pandas import Series, DataFrame # para no tener que poner pd.

datos = [['Madrid', 6507184], ['Barcelona', 5609350], 
         ['Valencia', 2547986], ['Sevilla', 1939887], 
         ['Alicante', 1838819], ['Málaga',1641121]  ]
df = DataFrame(datos ,columns=['provincia','habitantes'])
df

Unnamed: 0,provincia,habitantes
0,Madrid,6507184
1,Barcelona,5609350
2,Valencia,2547986
3,Sevilla,1939887
4,Alicante,1838819
5,Málaga,1641121


Mismo DataFrame, desde Pandas Series

In [2]:
# Definir las series
ciudades = pd.Series(['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 
                      'Alicante', 'Málaga'], name='Ciudad')

habitantes = pd.Series([6507184, 5609350,  2547986,  1939887, 
                        1838819, 1641121], name='Habitantes')

# Crear el DataFrame
df = pd.DataFrame({'Ciudad': ciudades, 'Habitantes': habitantes})
df

Unnamed: 0,Ciudad,Habitantes
0,Madrid,6507184
1,Barcelona,5609350
2,Valencia,2547986
3,Sevilla,1939887
4,Alicante,1838819
5,Málaga,1641121


Y de manera más eficiente ... 
PD: Probad sin axis, o con axis=0

In [3]:
df = pd.concat([ciudades, habitantes], axis=1)

print(df)

      Ciudad  Habitantes
0     Madrid     6507184
1  Barcelona     5609350
2   Valencia     2547986
3    Sevilla     1939887
4   Alicante     1838819
5     Málaga     1641121


El siguiente resultado, inesperado, nos muestra el camino de como NO crear DataFrames

In [4]:

ciudades = ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 
         'Alicante', 'Málaga']
habitantes = [6507184, 5609350,  2547986,  1939887, 
          1838819, 1641121 ]

df2 = DataFrame([ciudades,habitantes], ['provincia','habitantes'])
df2

Unnamed: 0,0,1,2,3,4,5
provincia,Madrid,Barcelona,Valencia,Sevilla,Alicante,Málaga
habitantes,6507184,5609350,2547986,1939887,1838819,1641121


Si nos pasara esto, podríamos trasponer el DataFrame utilizando .T

In [5]:
df2.T

Unnamed: 0,provincia,habitantes
0,Madrid,6507184
1,Barcelona,5609350
2,Valencia,2547986
3,Sevilla,1939887
4,Alicante,1838819
5,Málaga,1641121


La manera correcta de crearlo sería esta:

In [6]:
df2 = pd.DataFrame({'Provincia': ciudades, 'Habitantes': habitantes})
df2

Unnamed: 0,Provincia,Habitantes
0,Madrid,6507184
1,Barcelona,5609350
2,Valencia,2547986
3,Sevilla,1939887
4,Alicante,1838819
5,Málaga,1641121


También se puede crear a partir de un diccionario

In [7]:
datos = {'provincia' : ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 
         'Alicante', 'Málaga'],
         'habitantes' : [6507184, 5609350,  2547986,  1939887, 
          1838819, 1641121 ]}
df = DataFrame(datos)
df

Unnamed: 0,provincia,habitantes
0,Madrid,6507184
1,Barcelona,5609350
2,Valencia,2547986
3,Sevilla,1939887
4,Alicante,1838819
5,Málaga,1641121


## Acceso a columnas y filas

Al acceder a una columna obtenemos una "serie", es decir una secuencia de datos todos ellos con su etiqueta (en principio un número)

In [8]:
df['provincia']

0       Madrid
1    Barcelona
2     Valencia
3      Sevilla
4     Alicante
5       Málaga
Name: provincia, dtype: str

Otra forma de acceder es con la notación . que solo puede usarse si el nombre de columna no contiene espacios ni símbolos especiales

In [9]:
df.provincia

0       Madrid
1    Barcelona
2     Valencia
3      Sevilla
4     Alicante
5       Málaga
Name: provincia, dtype: str

Veamos cuál es el tipo de una columna

In [10]:
print(type(df['provincia']))

<class 'pandas.Series'>


Una "Serie" representa una columna tiene 2 componentes, el índice y los valores

In [11]:
df.provincia.values

<StringArray>
['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Alicante', 'Málaga']
Length: 6, dtype: str

In [12]:
df.provincia.index

RangeIndex(start=0, stop=6, step=1)

Para acceder por varias columnas a la vez usar dobles corchetes, y el resultado es un nuevo Dataframe

In [13]:
df[['provincia','habitantes']]

Unnamed: 0,provincia,habitantes
0,Madrid,6507184
1,Barcelona,5609350
2,Valencia,2547986
3,Sevilla,1939887
4,Alicante,1838819
5,Málaga,1641121


Se puede acceder a las columnas, a los índices y a los valores

In [14]:
df.columns

Index(['provincia', 'habitantes'], dtype='str')

In [15]:
df.index

RangeIndex(start=0, stop=6, step=1)

In [16]:
df.values

array([['Madrid', 6507184],
       ['Barcelona', 5609350],
       ['Valencia', 2547986],
       ['Sevilla', 1939887],
       ['Alicante', 1838819],
       ['Málaga', 1641121]], dtype=object)

Sin embargo, no podemos acceder a la fila por posición directamente:

In [17]:
df[0]

KeyError: 0

Sí podríamos usar df.values, que nos da todas las filas, aunque no es muy habitual

In [18]:
df.values[0]

array(['Madrid', 6507184], dtype=object)

En lugar de eso, utilizaremos `iloc` que recibe un entero como parámetro para acceder a la fila

In [19]:
df.iloc[0]

provincia      Madrid
habitantes    6507184
Name: 0, dtype: object

### **Ejercicio 1**

Acceder a las 3 primeras filas. Pista: utilizar la misma notación que si fuera una lista

In [20]:
#solución
df.iloc[0:3]

Unnamed: 0,provincia,habitantes
0,Madrid,6507184
1,Barcelona,5609350
2,Valencia,2547986


Igualmente dentro de la fila  podemos acceder a la columna por posición

In [21]:
df.iloc[0][0]
df.iloc[0][1] 

KeyError: 0

Otra forma de lograr lo mismo [fila,columna]

In [22]:
df.iloc[0,0], df.iloc[0,1]  

('Madrid', np.int64(6507184))

### **Ejercicio 2** Seleccionar las filas de la 2 a la 4, ambas incluidas y solo la primera columna (la número 0)

In [23]:
# solución
df.iloc[2:5, 0]

2    Valencia
3     Sevilla
4    Alicante
Name: provincia, dtype: str

**Acceso por índice.**

A menudo el índice es la posición sin más, con lo que la función iloc nos sirve. 

In [26]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350], 
         ['Valencia', 2547986], ['Sevilla', 1939887], 
         ['Alicante', 1838819], ['Málaga',1641121]  ]
df = DataFrame(datos ,columns=['provincia','habitantes'],
               index=['Capital','Capital Com. Autonoma','Capital Com. Autonoma','Capital Com. Autonoma','Provincia','Provincia'])
df

Unnamed: 0,provincia,habitantes
Capital,Madrid,6507184
Capital Com. Autonoma,Barcelona,5609350
Capital Com. Autonoma,Valencia,2547986
Capital Com. Autonoma,Sevilla,1939887
Provincia,Alicante,1838819
Provincia,Málaga,1641121


Vemos que iloc en este caso no vale

In [25]:
df.iloc['Capital']

TypeError: Cannot index by location index with a non-integer key

Si se quiere acceder por el índice se puede usar `loc`

In [27]:
df.loc['Capital']

provincia      Madrid
habitantes    6507184
Name: Capital, dtype: object

In [28]:
df.loc['Provincia']

Unnamed: 0,provincia,habitantes
Provincia,Alicante,1838819
Provincia,Málaga,1641121


Si se quiere acceder por nombre de fila y columna podemos hacerlo seleccionando primero la fila:

In [29]:
df.loc['Provincia']["provincia"]

Provincia    Alicante
Provincia      Málaga
Name: provincia, dtype: str

O utilizar `loc`con la notación habitual fila, columna

In [30]:
df.loc['Provincia','provincia']

Provincia    Alicante
Provincia      Málaga
Name: provincia, dtype: str

Sin embargo, podemos seguir utilizando iloc, ya que hace referencia a la posición, no al indice.

In [31]:
df.iloc[2:5,0]

Capital Com. Autonoma    Valencia
Capital Com. Autonoma     Sevilla
Provincia                Alicante
Name: provincia, dtype: str

<a name="Modificación"></a>
## Modificación, inserción y borrado de columnas y filas

### **Ejercicio 3** ¿Qué hace el siguiente código?

In [32]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350], 
         ['Valencia', 2547986], ['Sevilla', 1939887], 
         ['Alicante', 1838819], ['Málaga',1641121]  ]
df = DataFrame(datos ,columns=['provincias','habitantes'],
               index=['a','b','c','d','e','f'])

df.iloc[1] = 0
df

TypeError: Invalid value '0' for dtype 'str'. Value should be a string or missing value, got 'int' instead.

**Ejercicio 4** ¿Qué hace el siguiente código?

In [34]:
df['superficie'] = 0
df

Unnamed: 0,provincias,habitantes,superficie
a,Madrid,6507184,0
b,Barcelona,5609350,0
c,Valencia,2547986,0
d,Sevilla,1939887,0
e,Alicante,1838819,0
f,Málaga,1641121,0


Por tanto para crear una columna nos basta con "rellenarla" del valor que se desee. Luego veremos casos más complejos.

### Eliminar filas y columnas
Una forma de eliminar columnas es seleccionar solo las que se quieren mantener. Primero preparamos los datos.

In [35]:
datos = {'provincia' : ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 
         'Alicante', 'Málaga'],
         'habitantes' : [6507184, 5609350,  2547986,  1939887, 
          1838819, 1641121 ]}
df = DataFrame(datos)
df["superficie"] = 0
df             

Unnamed: 0,provincia,habitantes,superficie
0,Madrid,6507184,0
1,Barcelona,5609350,0
2,Valencia,2547986,0
3,Sevilla,1939887,0
4,Alicante,1838819,0
5,Málaga,1641121,0


In [36]:
df2 = df.loc[ : , ['superficie'] ]  # todas las filas, columna solo superficie
df2

Unnamed: 0,superficie
0,0
1,0
2,0
3,0
4,0
5,0


Equivalente a 

In [37]:
df2 = df[["superficie"]]
df2

Unnamed: 0,superficie
0,0
1,0
2,0
3,0
4,0
5,0


**Pregunta** ¿También es equivalente a `df["superficie"]`?

In [38]:
print(type(df[["superficie"]]))
print(type(df["superficie"]))

<class 'pandas.DataFrame'>
<class 'pandas.Series'>


Varias columnas

In [39]:
df2 = df[['provincia', 'superficie'] ]
df2

Unnamed: 0,provincia,superficie
0,Madrid,0
1,Barcelona,0
2,Valencia,0
3,Sevilla,0
4,Alicante,0
5,Málaga,0


En general para borrar filas o columnas por nombre usaremos [drop](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html). El parámetro `axis`indica si queremos borrar filas (0) o columnas (1)

In [40]:
datos = {'provincia' : ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 
         'Alicante', 'Málaga'],
         'habitantes' : [6507184, 5609350,  2547986,  1939887, 
          1838819, 1641121 ]}
df = DataFrame(datos)
df["superficie"] = 0
df

Unnamed: 0,provincia,habitantes,superficie
0,Madrid,6507184,0
1,Barcelona,5609350,0
2,Valencia,2547986,0
3,Sevilla,1939887,0
4,Alicante,1838819,0
5,Málaga,1641121,0


In [42]:
dfSinFila = df.drop([3,5],axis=0)
dfSinFila

Unnamed: 0,provincia,habitantes,superficie
0,Madrid,6507184,0
1,Barcelona,5609350,0
2,Valencia,2547986,0
4,Alicante,1838819,0


In [43]:
dfSinCol = df.drop(['superficie'],axis=1)
dfSinCol

Unnamed: 0,provincia,habitantes
0,Madrid,6507184
1,Barcelona,5609350
2,Valencia,2547986
3,Sevilla,1939887
4,Alicante,1838819
5,Málaga,1641121


Si queremos podemos evitar el uso de axis utilizando los parámetros `index` y `columns`

In [45]:
datos = {'provincia' : ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 
         'Alicante', 'Málaga'],
         'habitantes' : [6507184, 5609350,  2547986,  1939887, 
          1838819, 1641121 ]}
df = DataFrame(datos)
df["superficie"] = 0
df

Unnamed: 0,provincia,habitantes,superficie
0,Madrid,6507184,0
1,Barcelona,5609350,0
2,Valencia,2547986,0
3,Sevilla,1939887,0
4,Alicante,1838819,0
5,Málaga,1641121,0


In [46]:
df.drop(index=[1,3])

Unnamed: 0,provincia,habitantes,superficie
0,Madrid,6507184,0
2,Valencia,2547986,0
4,Alicante,1838819,0
5,Málaga,1641121,0


In [47]:
df.drop(columns=['provincia'])

Unnamed: 0,habitantes,superficie
0,6507184,0
1,5609350,0
2,2547986,0
3,1939887,0
4,1838819,0
5,1641121,0


Las columnas también se puede eliminar con `del` como en los diccionarios

In [48]:
if 'superficie' in df2:
    del df2['superficie'] 
df2

Unnamed: 0,provincia
0,Madrid
1,Barcelona
2,Valencia
3,Sevilla
4,Alicante
5,Málaga


Una variante interesante es `pop`, que borra una fila y la devuelve

In [49]:
df2 = df.copy()
habi = df2.pop("habitantes")
df2

Unnamed: 0,provincia,superficie
0,Madrid,0
1,Barcelona,0
2,Valencia,0
3,Sevilla,0
4,Alicante,0
5,Málaga,0


In [50]:
habi

0    6507184
1    5609350
2    2547986
3    1939887
4    1838819
5    1641121
Name: habitantes, dtype: int64

In [51]:
df

Unnamed: 0,provincia,habitantes,superficie
0,Madrid,6507184,0
1,Barcelona,5609350,0
2,Valencia,2547986,0
3,Sevilla,1939887,0
4,Alicante,1838819,0
5,Málaga,1641121,0


### Filtros

Para *filtrar* filas lo normal es escribir una expresión booleana que solo cumplan las filas que queremos y acceder mediante este filtro

In [52]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350], 
         ['Valencia', 2547986], ['Sevilla', 1939887], 
         ['Alicante', 1838819], ['Málaga',1694089]  ]
df = DataFrame(datos ,columns=['ciudades','habitantes'],
               index=['Capital','Capital Com. Autonoma','Capital Com. Autonoma','Ciudad','Ciudad','Ciudad'])

df

Unnamed: 0,ciudades,habitantes
Capital,Madrid,6507184
Capital Com. Autonoma,Barcelona,5609350
Capital Com. Autonoma,Valencia,2547986
Ciudad,Sevilla,1939887
Ciudad,Alicante,1838819
Ciudad,Málaga,1694089


Ciudades con más de 200000 habitantes

In [53]:
filtro = df.habitantes > 2000000
df2 = df[filtro]
df2

Unnamed: 0,ciudades,habitantes
Capital,Madrid,6507184
Capital Com. Autonoma,Barcelona,5609350
Capital Com. Autonoma,Valencia,2547986


Esto es importante pero bastante complejo. Para entenderlo veamos primero el filtro

In [54]:
filtro

Capital                   True
Capital Com. Autonoma     True
Capital Com. Autonoma     True
Ciudad                   False
Ciudad                   False
Ciudad                   False
Name: habitantes, dtype: bool

Aquí el índice no es importante, lo importante es que hay un True en cada fila que cumple la condición y un false en la que no.

Y Python permite usar una secuencia de Trues y False para acceder a elementos, devolviendo solo en los que hay Trues; por eso df[filtro] es equivalente a 

In [55]:
df[[True,True,True,False,False,False]]

Unnamed: 0,ciudades,habitantes
Capital,Madrid,6507184
Capital Com. Autonoma,Barcelona,5609350
Capital Com. Autonoma,Valencia,2547986


**Ejemplo** La función de strings `startswith` indica si un string empieza por una letra

In [56]:
s = "Barcelona"
print(s.startswith("B"))
print(s.startswith("V"))

True
False


vamos a usarla para quedarnos solo con las ciudades que empiezan por M

In [61]:
filtro = df.ciudades.str.startswith("M")  # ciudades cuyo nombre empieza por M

df2 = df[filtro]
df2

#filtro.sum() np.int64(2)

Unnamed: 0,ciudades,habitantes
Capital,Madrid,6507184
Ciudad,Málaga,1694089


In [58]:
filtro

Capital                   True
Capital Com. Autonoma    False
Capital Com. Autonoma    False
Ciudad                   False
Ciudad                   False
Ciudad                    True
Name: ciudades, dtype: bool

**Detalle**: Fijarse en el df.ciudades**.str**.startswith("M"). Es necesario porque al ser startswith una función que solo vale para strings tenemos que "avisar" a Python de que la función es de tipo string, cuando por defecto las considera numéricas.

Si lo que queremos es saber cuántos elementos cumplen el filtro, nos basta con recordar que los Trues se corresponden con 1s, y los Falses con 0s.

In [62]:
sum(filtro)

#o filtro.sum

2

### **Ejercicio 4**

a) Cargar el fichero "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/parocomunidades.csv" que está con codificación (`encoding`) "latin1" y dejarlo en un dataframe `df_paro`


 

In [63]:
import pandas as pd
url = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/parocomunidades.csv"

#solución
df_paro = pd.read_csv(url, encoding="latin-1")
df_paro

Unnamed: 0,Comunidad,Periodo,Total
0,Andalucía,2023,18.67
1,Andalucía,2022,19.00
2,Andalucía,2021,20.18
3,Andalucía,2020,22.74
4,Andalucía,2019,20.80
...,...,...,...
413,Melilla,2006,9.86
414,Melilla,2005,12.33
415,Melilla,2004,12.49
416,Melilla,2003,19.88


b) Mostrar solo las filas de `df_paro` que corresponden al Periodo 2019

In [66]:
#solución
df_paro[df_paro.Periodo==2019]
df_paro[df_paro["Periodo"]==2019]

Unnamed: 0,Comunidad,Periodo,Total
4,Andalucía,2019,20.8
26,Aragón,2019,9.93
48,"Asturias, Principado de",2019,13.14
70,"Balears, Illes",2019,9.91
92,Canarias,2019,18.78
114,Cantabria,2019,11.18
136,Castilla y León,2019,11.2
158,Castilla - La Mancha,2019,16.56
180,Cataluña,2019,10.45
202,Comunitat Valenciana,2019,14.13


c) Mostrar solo las filas de `df_paro` que corresponden a un total mayor de 15

In [67]:
#solución
df_paro[df_paro["Total"] > 15]

Unnamed: 0,Comunidad,Periodo,Total
0,Andalucía,2023,18.67
1,Andalucía,2022,19.00
2,Andalucía,2021,20.18
3,Andalucía,2020,22.74
4,Andalucía,2019,20.80
...,...,...,...
409,Melilla,2010,24.46
410,Melilla,2009,19.87
411,Melilla,2008,16.17
412,Melilla,2007,17.43


d) (más difícil) Mostrar solo las filas que corresponden al Periodo 2019 y tienen Total mayor de 15

In [68]:

df_paro[ (df_paro.Periodo==2019) & (df_paro.Total>15)]

Unnamed: 0,Comunidad,Periodo,Total
4,Andalucía,2019,20.8
92,Canarias,2019,18.78
158,Castilla - La Mancha,2019,16.56
224,Extremadura,2019,23.48
290,"Murcia, Región de",2019,16.08
378,Ceuta,2019,27.58
400,Melilla,2019,26.81


**Nota** Para combinar varias condiciones en un filtro se utilizan los operadores de bit: `&` en lugar de `and`, `|` en lugar de `or` y `~` en lugar de not.

**Ejemplo** 

Queremos todos los datos de `df_paro` salvo los de Andalucía

In [72]:
# método 1
filtro = df_paro["Comunidad"]!=" Andalucía"
df_paro[filtro]

Unnamed: 0,Comunidad,Periodo,Total
0,Andalucía,2023,18.67
1,Andalucía,2022,19.00
2,Andalucía,2021,20.18
3,Andalucía,2020,22.74
4,Andalucía,2019,20.80
...,...,...,...
413,Melilla,2006,9.86
414,Melilla,2005,12.33
415,Melilla,2004,12.49
416,Melilla,2003,19.88


In [None]:
# método 2, más raro 
filtro = df_paro["Comunidad"]==" Andalucía"
df_paro[~filtro]

Unnamed: 0,Comunidad,Periodo,Total
0,Andalucía,2023,18.67
1,Andalucía,2022,19.00
2,Andalucía,2021,20.18
3,Andalucía,2020,22.74
4,Andalucía,2019,20.80
...,...,...,...
413,Melilla,2006,9.86
414,Melilla,2005,12.33
415,Melilla,2004,12.49
416,Melilla,2003,19.88


### **Ejercicio 5** Consideramos este DataFrame

In [None]:

data = [[1,2,3,4,5,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,3,4,5,6,7],
       ]
df = DataFrame(data)
df

Unnamed: 0,0,1,2,3,4,5,6
0,1,2,3,4,5,6,7
1,1,2,0,0,0,6,7
2,1,2,0,0,0,6,7
3,1,2,0,0,0,6,7
4,1,2,3,4,5,6,7


Encontrar una expresión de cambiar todos los 0s por 9s (hay varias formas, alguna utilizando posiciones y alguna otra sin posiciones)

In [None]:
#solución
df[df == 0] = 9
df

In [None]:
#solución

In [82]:
df = df.replace(0, 9)
df

Unnamed: 0,0,1,2,3,4,5,6
0,1,2,3,4,5,6,7
1,1,2,9,9,9,6,7
2,1,2,9,9,9,6,7
3,1,2,9,9,9,6,7
4,1,2,3,4,5,6,7


### Añadir filas

Veamos como añadir filas a un dataframe ya existente

In [None]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350], 
         ['Valencia', 2547986], ['Sevilla', 1939887], 
         ['Alicante', 1838819], ['Málaga',1694089]  ]
df = DataFrame(datos ,columns=['ciudades','habitantes'])
df

Unnamed: 0,ciudades,habitantes
0,Madrid,6507184
1,Barcelona,5609350
2,Valencia,2547986
3,Sevilla,1939887
4,Alicante,1838819
5,Málaga,1694089


In [83]:
# Nueva fila como Serie (los índices deben coincidir con las columnas del DataFrame)
nueva_fila = Series({'ciudades': 'Cáceres', 'habitantes': 394151})

# Agregar la nueva fila
df.loc[len(df)] = nueva_fila

df

Unnamed: 0,0,1,2,3,4,5,6
0,1.0,2.0,3.0,4.0,5.0,6.0,7.0
1,1.0,2.0,9.0,9.0,9.0,6.0,7.0
2,1.0,2.0,9.0,9.0,9.0,6.0,7.0
3,1.0,2.0,9.0,9.0,9.0,6.0,7.0
4,1.0,2.0,3.0,4.0,5.0,6.0,7.0
5,,,,,,,


Ahora añadimos una columna con la superficie

In [84]:
df["superficie"] = [8027, 7773, 10807,14036,5817,7306, 19868]
df

ValueError: Length of values (7) does not match length of index (6)

Y obtenemos la densidad:

In [85]:
df["densidad"] = df["habitantes"]/df["superficie"]
df

KeyError: 'habitantes'

### Ordenar

Para ordenar utilizaremos `sort_values`. Nótese el uso de `inplace=True` para que modifique el dataframe y no devuelva una copia.

In [86]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350], 
         ['Valencia', 2547986], ['Sevilla', 1939887], 
         ['Alicante', 1838819], ['Málaga',1694089]  ]
df = DataFrame(datos ,columns=['provincia','habitantes'])
df
df.sort_values(by='provincia', ascending=True, inplace=True)
df

Unnamed: 0,provincia,habitantes
4,Alicante,1838819
1,Barcelona,5609350
0,Madrid,6507184
5,Málaga,1694089
3,Sevilla,1939887
2,Valencia,2547986


Ordenar por dos columnas

In [None]:
datos = [['Bertoldo', 'Cacaseno'], ['Aniceto', 'Cacaseno'], 
         ['Herminia', 'Ducasse'], ['Calixta', 'Albrich'] ]
df = DataFrame(datos ,columns=['nombre','apellido'])
df.sort_values(by='apellido',ascending=True)

Unnamed: 0,nombre,apellido
3,Calixta,Albrich
0,Bertoldo,Cacaseno
1,Aniceto,Cacaseno
2,Herminia,Ducasse


In [None]:
df.sort_values(by=['apellido','nombre'],ascending=True)

Unnamed: 0,nombre,apellido
3,Calixta,Albrich
1,Aniceto,Cacaseno
0,Bertoldo,Cacaseno
2,Herminia,Ducasse


<a name="Samples"></a>
## Muestras

En ocasiones nos interesará tomar muestras de un dataset muy grande para tener unos pocos datos manejables y representativos

Las muestras también se utilizarán en nuestros experimentos con datos, dividiendo el conjunto en dos:

- Entrenamiento

- Test

El conjunto de entrenamiento lo usaremos para nuestras hipótesis, nuestros modelos. Una vez realizado el modelo lo probaremos con datos "nuevos" los datos de test

En ambos casos utilizaremos [sample](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sample.html) al que se puede pasar la proporción de datos a obtener o el número de valores a obtener



In [87]:
# lectura de un fichero en panda
import pandas as pd

url = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/madpollution_output.csv"
df = pd.read_csv(url)
df

Unnamed: 0,year,month,day,hour,minute,second,laborday,saturday,sunday,holiday,...,PM25,NOx,O3,windspeed,winddirection,temperature,humidity,pressure,rain,traffic
0,2019,8,1,0,0,0,0,1,0,0,...,10.0,29.0,58.87,1.84,97.0,26.1,52.0,943.0,0.0,570.0
1,2019,8,1,1,0,0,0,1,0,0,...,10.0,18.0,63.73,1.97,117.0,24.9,55.0,943.0,0.0,404.0
2,2019,8,1,2,0,0,0,1,0,0,...,9.0,19.0,66.50,1.72,96.0,24.0,55.0,943.0,0.0,287.0
3,2019,8,1,3,0,0,0,1,0,0,...,10.0,15.0,66.62,1.55,106.0,23.3,55.0,943.0,0.0,209.0
4,2019,8,1,4,0,0,0,1,0,0,...,10.0,18.0,62.57,1.13,67.0,22.9,57.0,943.0,0.0,194.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14744,2021,5,25,19,0,0,0,1,0,0,...,10.0,55.0,0.00,0.98,6.0,26.1,29.0,948.0,0.0,1399.0
14745,2021,5,25,20,0,0,0,1,0,0,...,7.0,58.0,0.00,0.91,42.0,25.0,30.0,948.0,0.0,1342.0
14746,2021,5,25,21,0,0,0,1,0,0,...,11.0,94.0,0.00,0.61,76.0,24.5,32.0,948.0,0.0,1096.0
14747,2021,5,25,22,0,0,0,1,0,0,...,6.0,84.0,0.00,1.26,92.0,22.7,42.0,949.0,0.0,835.0


In [88]:
# solo queremos 100 filas al azar
df.sample(n=100)

Unnamed: 0,year,month,day,hour,minute,second,laborday,saturday,sunday,holiday,...,PM25,NOx,O3,windspeed,winddirection,temperature,humidity,pressure,rain,traffic
3977,2020,2,12,10,0,0,0,1,0,0,...,31.0,218.0,7.69,1.13,83.0,10.4,89.0,953.0,0.0,1136.0
2835,2019,11,27,16,0,0,0,1,0,0,...,21.0,44.0,57.26,2.18,235.0,13.4,64.0,942.0,0.0,1461.0
2710,2019,11,22,11,0,0,0,1,0,0,...,6.0,104.0,25.62,1.66,132.0,10.1,91.0,929.0,0.0,1389.0
2426,2019,11,10,15,0,0,0,0,0,1,...,4.0,30.0,55.82,1.44,263.0,9.2,61.0,945.0,0.0,1308.0
10771,2020,12,10,18,0,0,0,1,0,0,...,11.0,129.0,26.67,1.75,244.0,12.4,81.0,941.0,0.0,1527.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10750,2020,12,9,21,0,0,0,1,0,0,...,3.0,68.0,27.58,0.86,190.0,6.0,67.0,947.0,0.0,1023.0
7797,2020,7,21,19,0,0,0,1,0,0,...,12.0,53.0,69.14,1.32,230.0,33.1,25.0,945.0,0.0,1400.0
13468,2021,4,2,15,0,0,1,0,0,0,...,5.0,15.0,78.02,1.56,210.0,16.1,69.0,944.0,0.0,880.0
2605,2019,11,18,2,0,0,0,1,0,0,...,0.0,26.0,52.83,0.62,31.0,6.2,77.0,940.0,0.0,247.0


Ejemplo de división de un dataframe en dos de forma aleatoria

In [89]:
train_dataset = df.sample(frac=0.8,random_state=0)
test_dataset = df.drop(train_dataset.index)
print(len(train_dataset), len(test_dataset))

11799 2950


También se pueden tomar muestras con reemplazamiento, lo que significa que se puede repetir

In [90]:
datos = [['Bertoldo', 'Cacaseno'], ['Aniceto', 'Cacaseno'], 
         ['Herminia', 'Ducasse'], ['Calixta', 'Albrich'] ]
df = DataFrame(datos ,columns=['nombre','apellido'])
df

Unnamed: 0,nombre,apellido
0,Bertoldo,Cacaseno
1,Aniceto,Cacaseno
2,Herminia,Ducasse
3,Calixta,Albrich


In [None]:
df.sample(n=10,replace=True)

Unnamed: 0,nombre,apellido
3,Calixta,Albrich
0,Bertoldo,Cacaseno
0,Bertoldo,Cacaseno
3,Calixta,Albrich
3,Calixta,Albrich
2,Herminia,Ducasse
2,Herminia,Ducasse
1,Aniceto,Cacaseno
0,Bertoldo,Cacaseno
3,Calixta,Albrich


<a name="Iterar"></a>
## Iterar

Intentaremos evitar iterar por el dataframe con un `for`, pero a veces no hay más remedio. En ese caso usaremos `iterrows`
 que nos devuelve cada fila como un array con dos posiciones, la 0 para el índice y la 1 para la fila en sí

In [91]:
import pandas as pd
file = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/top10s.csv"
df = pd.read_csv(file,encoding="latin-1", index_col=0)
df

Unnamed: 0,title,artist,top genre,year,bpm,nrgy,dnce,dB,live,val,dur,acous,spch,pop
1,"Hey, Soul Sister",Train,neo mellow,2010,97,89,67,-4,8,80,217,19,4,83
2,Love The Way You Lie,Eminem,detroit hip hop,2010,87,93,75,-5,52,64,263,24,23,82
3,TiK ToK,Kesha,dance pop,2010,120,84,76,-3,29,71,200,10,14,80
4,Bad Romance,Lady Gaga,dance pop,2010,119,92,70,-4,8,71,295,0,4,79
5,Just the Way You Are,Bruno Mars,pop,2010,109,84,64,-5,9,43,221,2,4,78
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
599,Find U Again (feat. Camila Cabello),Mark Ronson,dance pop,2019,104,66,61,-7,20,16,176,1,3,75
600,Cross Me (feat. Chance the Rapper & PnB Rock),Ed Sheeran,pop,2019,95,79,75,-6,7,61,206,21,12,75
601,"No Brainer (feat. Justin Bieber, Chance the Ra...",DJ Khaled,dance pop,2019,136,76,53,-5,9,65,260,7,34,70
602,Nothing Breaks Like a Heart (feat. Miley Cyrus),Mark Ronson,dance pop,2019,114,79,60,-6,42,24,217,1,7,69


In [92]:
for row in df.iterrows():
    print(row[1]["title"])

Hey, Soul Sister
Love The Way You Lie
TiK ToK
Bad Romance
Just the Way You Are
Baby
Dynamite
Secrets
Empire State of Mind (Part II) Broken Down
Only Girl (In The World)
Club Can't Handle Me (feat. David Guetta)
Marry You
Cooler Than Me - Single Mix
Telephone
Like A G6
OMG (feat. will.i.am)
Eenie Meenie
The Time (Dirty Bit)
Alejandro
Your Love Is My Drug
Meet Me Halfway
Whataya Want from Me
Take It Off
Misery
All The Right Moves
Animal
Naturally
I Like It
Teenage Dream
California Gurls
3
My First Kiss - feat. Ke$ha
Blah Blah Blah (feat. 3OH!3)
Imma Be
Try Sleeping with a Broken Heart
Sexy Bitch (feat. Akon)
Bound To You - Burlesque Original Motion Picture Soundtrack
If I Had You
Rock That Body
Dog Days Are Over
Something's Got A Hold On Me - Burlesque Original Motion Picture Soundtrack
Doesn't Mean Anything
Hard
Loca
You Lost Me
Not Myself Tonight
Written in the Stars (feat. Eric Turner)
DJ Got Us Fallin' In Love (feat. Pitbull)
Castle Walls (feat. Christina Aguilera)
Break Your Heart
H

**Ejemplo 11** Utilizar iterrows para encontrar el título de la canción  con más bpm.

Idea: usar una variable bpm que lleve el máximo hasta el momento y otra título con el título del máximo hasta el momento, e ir actualizando ambas variables

In [None]:
# Inicializamos variables para encontrar la canción con más BPM
max_bpm = 0
titulo_max_bpm = ""

for row in df.iterrows():
    if row[1]["bpm"] > max_bpm:
        max_bpm = row[1]["bpm"]
        titulo_max_bpm = row[1]["title"] 
    
print(f"La canción con más BPM es: {titulo_max_bpm} con {max_bpm} BPM")

La canción con más BPM es: FourFiveSeconds con 206 BPM


In [None]:
## Y ahora sin iterrows...
#solución
max_bpm = df["bpm"].max()
titulo_max_bpm = df.loc[df['bpm'].idxmax(), 'title'] 
# titulo_max_bpm = df.loc[max_bpm, 'title'] SALE DIFERENTE?

    
print(f"La canción con más BPM es: {titulo_max_bpm} con {max_bpm} BPM")

La canción con más BPM es: FourFiveSeconds con 206 BPM


## Índices

Ya hemos visto unas cuantas cosas sobre los índices

- Se usan para referenciar fila
- Se puede acceder con loc
- Hay índices de tipos diversos

Algunas cosas nuevas:



In [102]:
import pandas as pd
import numpy as np
data = [[1,2,3,4,5,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,3,4,5,6,7],
       ]
df1 = pd.DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = ['i'+chr(ord('a')+i) for i in range(len(data))])
df2 = pd.DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = [i-1 for i in range(len(data),0,-1)])
df3 = pd.DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = [np.random.randint(3) for i in range(len(data),0,-1)])


In [103]:
print(df1,df2,df3,sep="\n")

    a  b  c  d  e  f  g
ia  1  2  3  4  5  6  7
ib  1  2  0  0  0  6  7
ic  1  2  0  0  0  6  7
id  1  2  0  0  0  6  7
ie  1  2  3  4  5  6  7
   a  b  c  d  e  f  g
4  1  2  3  4  5  6  7
3  1  2  0  0  0  6  7
2  1  2  0  0  0  6  7
1  1  2  0  0  0  6  7
0  1  2  3  4  5  6  7
   a  b  c  d  e  f  g
1  1  2  3  4  5  6  7
2  1  2  0  0  0  6  7
0  1  2  0  0  0  6  7
1  1  2  0  0  0  6  7
1  1  2  3  4  5  6  7


A menudo interesa asegurarse de si es monótono creciente.

In [105]:
df1.index.is_monotonic_increasing, df2.index.is_monotonic_increasing, df3.index.is_monotonic_increasing #al parecer, is_monotonic a secas es antiguo ya

(True, False, False)

También de si hay valores repetidos

In [106]:
df1.index.is_unique, df2.index.is_unique, df3.index.is_unique

(True, True, False)

En caso de que no sea único podemos querer obtener los valores distintos

In [107]:
df3.index.unique()

Index([1, 2, 0], dtype='int64')

Una de las operaciones más básicas, que haremos a menudo es reindexar:

In [108]:

df4 = df2.reindex([1,2,3,4,5])
df4


Unnamed: 0,a,b,c,d,e,f,g
1,1.0,2.0,0.0,0.0,0.0,6.0,7.0
2,1.0,2.0,0.0,0.0,0.0,6.0,7.0
3,1.0,2.0,0.0,0.0,0.0,6.0,7.0
4,1.0,2.0,3.0,4.0,5.0,6.0,7.0
5,,,,,,,


- ¿Por qué necesitamos hacer df4 y no queda modificado df2? Porque los índices son inmutables. Para que se cambie en el propio DataFrame usar el argumento `inplace=True`

- ¿Por qué aparecen los NaN? (pensar...)


In [109]:
df4 = df2.reindex([1,2,3,4,5],fill_value=0)
df4

Unnamed: 0,a,b,c,d,e,f,g
1,1,2,0,0,0,6,7
2,1,2,0,0,0,6,7
3,1,2,0,0,0,6,7
4,1,2,3,4,5,6,7
5,0,0,0,0,0,0,0


También vale para columnas

In [110]:
df4 = df2.reindex(columns=[1,2,3,4,5],fill_value=-1)
df4

Unnamed: 0,1,2,3,4,5
4,-1,-1,-1,-1,-1
3,-1,-1,-1,-1,-1
2,-1,-1,-1,-1,-1
1,-1,-1,-1,-1,-1
0,-1,-1,-1,-1,-1


Esto es un poco desastre. ¿No podemos solo cambiar los índices sin cargarnos todo? La solución es `reset_index()`

In [111]:
df2 = DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = [i-1 for i in range(len(data),0,-1)])
df2

Unnamed: 0,a,b,c,d,e,f,g
4,1,2,3,4,5,6,7
3,1,2,0,0,0,6,7
2,1,2,0,0,0,6,7
1,1,2,0,0,0,6,7
0,1,2,3,4,5,6,7


In [112]:
df2.reset_index(inplace=True)
df2

Unnamed: 0,index,a,b,c,d,e,f,g
0,4,1,2,3,4,5,6,7
1,3,1,2,0,0,0,6,7
2,2,1,2,0,0,0,6,7
3,1,1,2,0,0,0,6,7
4,0,1,2,3,4,5,6,7


El índice se 'guarda' en una columna `index`. Se puede evitar utilizando `drop=True`

In [114]:
from pandas import DataFrame
data = [[1,2,3,4,5,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,3,4,5,6,7],
       ]
df2 = DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = [i-1 for i in range(len(data),0,-1)])
df2.reset_index(drop=True, inplace=True)
df2

Unnamed: 0,a,b,c,d,e,f,g
0,1,2,3,4,5,6,7
1,1,2,0,0,0,6,7
2,1,2,0,0,0,6,7
3,1,2,0,0,0,6,7
4,1,2,3,4,5,6,7


Si no se quiere que el índice empiece en 0, ni tampoco que se pierda información, se puede acceder directamente a .index o a .columns

In [115]:
df2.index = ['a','b','c','d','e']
df2

Unnamed: 0,a,b,c,d,e,f,g
a,1,2,3,4,5,6,7
b,1,2,0,0,0,6,7
c,1,2,0,0,0,6,7
d,1,2,0,0,0,6,7
e,1,2,3,4,5,6,7


In [116]:
df2[df2.index=='a']

Unnamed: 0,a,b,c,d,e,f,g
a,1,2,3,4,5,6,7


In [117]:
df2.loc['a']

a    1
b    2
c    3
d    4
e    5
f    6
g    7
Name: a, dtype: int64

Si se accede directamente a `index` se deben poner tantos elementos como filas hay, si no se obtendrá un error

In [118]:
df2.index = ['a','b','c','d']

ValueError: Length mismatch: Expected axis has 5 elements, new values have 4 elements

**Ej.** Queremos sumar dos series:

In [119]:
a = Series([1,2,3,4],['a','b','c','d'])
b = Series([1,2,3,4],[10,20,30,40])

Sin embargo:

In [120]:
a+b

a    NaN
b    NaN
c    NaN
d    NaN
10   NaN
20   NaN
30   NaN
40   NaN
dtype: float64

¿qué podemos hacer?

In [121]:
a.reset_index(drop=True)+b.reset_index(drop=True)

0    2
1    4
2    6
3    8
dtype: int64

Se pueden eliminar filas a partir del índice con drop()

In [122]:
c = a.reset_index(drop=True)+b.reset_index(drop=True)
print(c,type(c))
d = c.drop([1,2])
print(d)

0    2
1    4
2    6
3    8
dtype: int64 <class 'pandas.Series'>
0    2
3    8
dtype: int64


In [123]:
df = DataFrame(np.arange(16).reshape((4, 4)), 
               columns=['c'+str(i) for i in range(4)],
               index = ['f'+str(i) for i in range(4)])
df

Unnamed: 0,c0,c1,c2,c3
f0,0,1,2,3
f1,4,5,6,7
f2,8,9,10,11
f3,12,13,14,15


In [124]:
df.drop(['c1','c2'],axis=1,inplace=True)
df

Unnamed: 0,c0,c3
f0,0,3
f1,4,7
f2,8,11
f3,12,15


In [125]:
df = DataFrame(np.arange(16).reshape((4, 4)), 
               columns=['c'+str(i) for i in range(4)],
               index = ['f'+str(i) for i in range(4)])
df.drop(['f1','f2'],axis=0,inplace=True)
df

Unnamed: 0,c0,c1,c2,c3
f0,0,1,2,3
f3,12,13,14,15


Como ya hemos visto las operaciones aritméticas utilizan los índices comunes. Esto vale tanto para filas como para columnas

In [126]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))
df2 = DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))

print(df1)
print(df2)

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0
      a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   6.0   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0


In [127]:
df1+df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


Para evitarlo se puede añadir 0 para evitar el valor `NaN`

In [128]:
df1.add(df2,fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


Análogamente existen funciones `add`, `sub`, `div`, `mul`

La siguiente operación ya no debe sorprendernos:

In [129]:
f = df1.loc[1,:]
print(df1,"\n",f,"\n",df1-f,sep="")



     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0
a    4.0
b    5.0
c    6.0
d    7.0
Name: 1, dtype: float64
     a    b    c    d
0 -4.0 -4.0 -4.0 -4.0
1  0.0  0.0  0.0  0.0
2  4.0  4.0  4.0  4.0


Si lo que queremos es restar sobre las columnas

In [130]:
f.index = range(len(f))
df1.sub(f,axis=0)

Unnamed: 0,a,b,c,d
0,-4.0,-3.0,-2.0,-1.0
1,-1.0,0.0,1.0,2.0
2,2.0,3.0,4.0,5.0
3,,,,


Si lo que se quiere es ordenar los índices, no cambiarlo, se puede utilizar `sort_index()`

In [131]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)), 
                columns=list('dfab'),index=list('431'))
df1

Unnamed: 0,d,f,a,b
4,0.0,1.0,2.0,3.0
3,4.0,5.0,6.0,7.0
1,8.0,9.0,10.0,11.0


In [132]:
df1.sort_index(inplace=True)
df1

Unnamed: 0,d,f,a,b
1,8.0,9.0,10.0,11.0
3,4.0,5.0,6.0,7.0
4,0.0,1.0,2.0,3.0
