<a href="https://colab.research.google.com/github/RafaelCaballero/APD/blob/main/code/06dataframes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a la ciencia de datos con Python
###  Rafa Caballero

## Pandas - DataFrames

Los DataFrames son la estructura principal de Pandas. Se trata de una tabla bidimensional, aunque se pueden lograr representar más dimensiones usando *índices jerárquicos*.


### Índice
[Creación](#Creación)<br>
[Acceso a columnas y filas](#Acceso-a-columnas-y-filas)<br>
[Información básica](#basica)<br>
[Modificación, inserción y borrado de columnas y filas](#Modificación)<br>
[Muestras](#Samples)<br>
[Iterar](#Iterar)<br>
[Índices](#Índices)<br>

<a name="Creación"></a>
## Creación

Ya hemos visto como cargar Dataframes desde un fichero CSV o Excel.
Otra alternativa es a través de listas de listas. Esto es habitual cuando por ejemplo estamos recopilando la información mediante web scraping y la vamos acumulando en listas. En este caso habrá que indicar, además, los nombres de las columnas

In [None]:
import pandas as pd

datos = [['Madrid', 6507184], ['Barcelona', 5609350],
         ['Valencia', 2547986], ['Sevilla', 1939887],
         ['Alicante', 1838819], ['Málaga',1641121]  ]
df = pd.DataFrame(datos ,columns=['provincia','habitantes'])
df

El siguiente resultado, quizás inesperado, debe ser fácil de entender

In [None]:

ciudades = ['Madrid', 'Barcelona', 'Valencia', 'Sevilla',
         'Alicante', 'Málaga']
habitantes = [6507184, 5609350,  2547986,  1939887,
          1838819, 1641121 ]

df2 = pd.DataFrame([ciudades,habitantes],['provincia','habitantes'])
df2

También se puede crear a partir de un diccionario

In [None]:
datos = {'provincia' : ['Madrid', 'Barcelona', 'Valencia', 'Sevilla',
         'Alicante', 'Málaga'],
         'habitantes' : [6507184, 5609350,  2547986,  1939887,
          1838819, 1641121 ]}
df = pd.DataFrame(datos)
df

## Acceso a columnas y filas

Al acceder a una columna obtenemos una "serie", es decir una secuencia de datos todos ellos con su etiqueta (en principio un número)

In [None]:
df['provincia']

Otra forma de acceder es con la notación . que solo puede usarse si el nombre de columna no contiene espacios ni símbolos especiales

In [None]:
df.provincia

Veamos cuál es el tipo de una columna

In [None]:
print(type(df['provincia']))

Una "Serie" representa una columna tiene 2 componentes, el índice y los valores

In [None]:
df.provincia.values

In [None]:
df.provincia.index

Para acceder por varias columnas a la vez usar dobles corchetes, y el resultado es un nuevo Dataframe

In [None]:
df[['provincia','habitantes']]

Se puede acceder a las columnas, a los índices y a los valores

In [None]:
df.columns

In [None]:
df.index

In [None]:
df.values

Sin embargo, no podemos acceder a la fila por posición directamente:

In [None]:
# esto daría error
# df[0]

Sí podríamos usar df.values, que nos da todas las filas, aunque no es muy habitual

In [None]:
df.values[0]

En lugar de eso, utilizaremos `iloc` que recibe un entero como parámetro para acceder a la fila

In [None]:
df.iloc[0]

**Ejercicio 1**

Acceder a las 3 primeras filas. Pista: utilizar iloc y la misma notación que si fuera una lista

Igualmente dentro de la fila  podemos acceder a la columna por posición

In [None]:
df.iloc[0][0], df.iloc[0][1]

Otra forma de lograr lo mismo [fila,columna]

In [None]:
df.iloc[0,0], df.iloc[0,1]

**Ejercicio 2** Seleccionar las filas de la 2 a la 4, ambas incluidas (comenzando en 0) y solo la primera columna (la número 0)

In [None]:
# solución


**Acceso por índice.**

A menudo el índice es la posición sin más, con lo que la función iloc nos sirve. Sin embargo esto no es siempre así

In [None]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350],
         ['Valencia', 2547986], ['Sevilla', 1939887],
         ['Alicante', 1838819], ['Málaga',1641121]  ]
df = pd.DataFrame(datos ,columns=['provincia','habitantes'],
               index=['Capital','Capital Com. Autonoma','Capital Com. Autonoma','Capital Com. Autonoma','Provincia','Provincia'])
df

Vemos que iloc en este caso no vale

In [None]:
# error
#df.iloc['Capital']

Si se quiere acceder por el índice se puede usar `loc`

In [None]:
df.loc['Capital']

In [None]:
df.loc['Provincia']

Si se quiere acceder por nombre de fila y columna podemos hacerlo seleccionando primero la fila:

In [None]:
df.loc['Provincia']["provincia"]

O utilizar `loc`con la notación habitual fila, columna

In [None]:
df.loc['Provincia','provincia']

<a name="basica"></a>
## Información básica

Con poco esfuerzo podemos tener mucha información interesante sobre los datos. Veamos el siguiente ejemplo con datos de los "Pokemon"

In [None]:
import pandas as pd
url = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/pokemon.csv"
df = pd.read_csv(url)
df

Nombres de las columnas:

In [None]:
df.columns

Si queremos saber el número de filas y columnas podemos usar `shape`

In [None]:
df.shape

Es una tupla: podemos separar las dos componentes fácilmente

In [None]:
f,c = df.shape

print(f"Datataframe con {f} filas y {c} columnas")

In [None]:
# otra forma, aprovechando que las tuplas son secuencias
s = df.shape

print(f"Datataframe con {s[0]} filas y {s[1]} columnas")

Más formas aun...

In [None]:
f = len(df)
c = len(df.columns)
print(f"Datataframe con {f} filas y {c} columnas")

Datos básicos sobre el dataframe completo con `info` y estadísticas básicas sobre las columnas  numéricas con `describe`

In [None]:
df.info()

In [None]:
df.describe()

A menudo nos puede interesar saber qué valores diferentes toma una columna

In [None]:
df["Type 1"].unique()

In [None]:
len(df["Type 1"].unique())

También nos puede interesar saber ccuántos pokemon de cada tipo hay:

In [None]:
df["Type 1"].value_counts()

In [None]:
s = df["Type 1"].value_counts()
s.index

In [None]:
s.values

**Ejercicio** Tipo de Pokemon más común en Type 1 y número de veces que aparece

<a name="Modificación"></a>
## Modificación, inserción y borrado de columnas y filas

**Ejercicio 3** ¿Qué hace el siguiente código?

In [None]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350],
         ['Valencia', 2547986], ['Sevilla', 1939887],
         ['Alicante', 1838819], ['Málaga',1641121]  ]
df = pd.DataFrame(datos ,columns=['provincias','habitantes'],
               index=['a','b','c','d','e','f'])

df.iloc[1] = 0
df

**Ejercicio 4** ¿Qué hace el siguiente código?

In [None]:
df['superficie'] = 0
df

Por tanto para crear una columna nos basta con "rellenarla" del valor que se desee. Luego veremos casos más complejos.

### Eliminar filas y columnas
Una forma de eliminar columnas es seleccionar solo las que se quieren mantener. Primero preparamos los datos.

In [None]:
datos = {'provincia' : ['Madrid', 'Barcelona', 'Valencia', 'Sevilla',
         'Alicante', 'Málaga'],
         'habitantes' : [6507184, 5609350,  2547986,  1939887,
          1838819, 1641121 ]}
df = pd.DataFrame(datos)
df["superficie"] = 0
df

In [None]:
df2 = df.loc[ : , ['superficie'] ]  # todas las filas, columna solo superficie
df2

Equivalente a

In [None]:
df2 = df[["superficie"]]
df2

**Pregunta** ¿También es equivalente a `df["superficie"]`?

Varias columnas

In [None]:
df2 = df[['provincia', 'superficie'] ]
df2

En general para borrar filas o columnas por nombre usaremos [drop](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html). El parámetro `axis`indica si queremos borrar filas (0) o columnas (1)

In [None]:
datos = {'provincia' : ['Madrid', 'Barcelona', 'Valencia', 'Sevilla',
         'Alicante', 'Málaga'],
         'habitantes' : [6507184, 5609350,  2547986,  1939887,
          1838819, 1641121 ]}
df = pd.DataFrame(datos)
df["superficie"] = 0
df

In [None]:
dfSinFila = df.drop([3,5],axis=0)
dfSinFila

In [None]:
dfSinCol = df.drop(['superficie'],axis=1)
dfSinCol

Si queremos podemos eviar el uso de axis utilizando los parámetros `index` y `columns`

In [None]:
datos = {'provincia' : ['Madrid', 'Barcelona', 'Valencia', 'Sevilla',
         'Alicante', 'Málaga'],
         'habitantes' : [6507184, 5609350,  2547986,  1939887,
          1838819, 1641121 ]}
df = pd.DataFrame(datos)
df["superficie"] = 0
df

In [None]:
df.drop(index=[1,3])

In [None]:
df.drop(columns=['provincia'])

Las columnas también se puede eliminar con `del` como en los diccionarios

In [None]:
if 'superficie' in df2:
    del df2['superficie']
df2

Una variante interesante es `pop`, que borra una fila y la devuelve

In [None]:
df2 = df.copy()
habi = df2.pop("habitantes")
df2

In [None]:
habi

In [None]:
df

### Filtros

Para *filtrar* filas lo normal es escribir una expresión booleana que solo cumplan las filas que queremos y acceder mediante este filtro

In [None]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350],
         ['Valencia', 2547986], ['Sevilla', 1939887],
         ['Alicante', 1838819], ['Málaga',1694089]  ]
df = pd.DataFrame(datos ,columns=['ciudades','habitantes'],
               index=['Capital','Capital Com. Autonoma','Capital Com. Autonoma','Ciudad','Ciudad','Ciudad'])

df

Ciudades con más de 200000 habitantes

In [None]:
filtro = df.habitantes > 2000000
df2 = df[filtro]
df2

Esto es importante pero bastante complejo. Para entenderlo veamos primero el filtro

In [None]:
filtro

Aquí el índice no es importante, lo importante es que hay un True en cada fila que cumple la condición y un false en la que no.

Y Python permite usar una secuencia de Trues y False para acceder a elementos, devolviendo solo en los que hay Trues; por eso df[filtro] es equivalente a

In [None]:
df[[True,True,True,False,False,False]]

**Ejemplo** La función de strings `startswith` indica si un string empieza por una letra

In [None]:
s = "Barcerlona"
print(s.startswith("B"))
print(s.startswith("V"))

vamos a usarla para quedarnos solo con las ciudades que empiezan por M

In [None]:
filtro = df.ciudades.str.startswith("M")  # ciudades cuyo nombre empieza por M

df2 = df[filtro]
df2

In [None]:
filtro

**Detalle**: Fijarse en el df.ciudades**.str**.startswith("M"). Es necesario porque al ser `startswith` una función que solo vale para strings tenemos que "avisar" a Python de que la función es de tipo string, cuando por defecto las considera numéricas. Además de *str* existe otro para indicar que la columna es una fecha, *dt*.

Si lo que queremos es saber cuántos elementos cumplen el filtro, nos basta con recordar que los Trues se corresponden con 1s, y los Falses con 0s.

In [None]:
sum(filtro)

**Ejercicio 4**

a) Cargar el fichero "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/parocomunidades.csv" que está con codificación (`encoding`) "latin1" y dejarlo en un dataframe `df_paro`




In [None]:
import pandas as pd
url = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/parocomunidades.csv"


b) Mostrar solo las filas de `df_paro` que corresponden al Periodo 2019

c) Mostrar solo las filas de `df_paro` que corresponden a un total mayor de 15

d) (más difícil) Mostrar solo las filas que corresponden al Periodo 2019 y tienen Total mayor de 15

**Nota** Para combinar varias condiciones en un filtro se utilizan los operadores de bit: `&` en lugar de `and`, `|` en lugar de `or` y `~` en lugar de not.

**Ejemplo**

Queremos todos los datos de `df_paro` salvo los de Andalucía

In [None]:
# método 1
import pandas as pd
url = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/parocomunidades.csv"
df_paro = pd.read_csv(url, encoding="latin1")
filtro = df_paro["Comunidad"]!="Andalucía"
df_paro[filtro]

In [None]:
# método 2, más raro
filtro = df_paro["Comunidad"]=="Andalucía"
df_paro[~filtro]

**Ejercicio 5** Consideramos este DataFrame

In [None]:
data = [[1,2,3,4,5,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,3,4,5,6,7],
       ]
df = pd.DataFrame(data)
df

Encontrar una expresión de cambiar todos los 0s por 9s (hay varias formas, alguna utilizando posiciones y alguna otra sin posiciones)

### Añadir filas

Veamos como [añadir filas](https://www.stackvidhya.com/add-row-to-dataframe/#:~:text=You%20can%20add%20rows%20to,append()) a un dataframe ya existente con append

In [None]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350],
         ['Valencia', 2547986], ['Sevilla', 1939887],
         ['Alicante', 1838819], ['Málaga',1694089]  ]
df = pd.DataFrame(datos ,columns=['ciudades','habitantes'])
df

In [None]:
df = df.append( {'ciudades':'Cáceres', 'habitantes': 394151 }, ignore_index = True)
df

Ahora añadimos una columna con la superficie

In [None]:
df["superficie"] = [8027, 7773, 10807,14036,5817,7306, 19868]
df

Y obtenemos la densidad:

In [None]:
df["densidad"] = df["habitantes"]/df["superficie"]
df

Finalmente, ordenamos por nombre de ciudad con `sort_values`. Nótese el uso de `inplace=True` para que modifique el dataframe y no devuelva una copia

### Ordenar

Para ordenar utilizaremos `sort_values`

In [None]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350],
         ['Valencia', 2547986], ['Sevilla', 1939887],
         ['Alicante', 1838819], ['Málaga',1694089]  ]
df = pd.DataFrame(datos ,columns=['provincia','habitantes'])
df
df.sort_values(by='provincia', ascending=True, inplace=True)
df

Ordenar por dos columnas

In [None]:
datos = [['Bertoldo', 'Cacaseno'], ['Aniceto', 'Cacaseno'],
         ['Herminia', 'Ducasse'], ['Calixta', 'Albrich'] ]
df = pd.DataFrame(datos ,columns=['nombre','apellido'])
df.sort_values(by='apellido',ascending=True)

In [None]:
df.sort_values(by=['apellido','nombre'],ascending=True)

<a name="Samples"></a>
## Muestras

En ocasiones nos interesará tomar muestras de un dataset muy grande para tener unos pocos datos manejables y representativos

Las muestras también se utilizarán en nuestros experimentos con datos, dividiendo el conjunto en dos:

- Entrenamiento

- Test

El conjunto de entrenamiento lo usaremos para nuestras hipótesis, nuestros modelos. Una vez realizado el modelo lo probaremos con datos "nuevos" los datos de test

En ambos casos utilizaremos [sample](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sample.html) al que se puede pasar la proporción de datos a obtener o el número de valores a obtener



In [None]:
# lectura de un fichero en panda
import pandas as pd

url = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/madpollution_output.csv"
df = pd.read_csv(url)
df

In [None]:
# solo queremos 100 filas al azar
df.sample(n=100)

Ejemplo de división de un dataframe en dos de forma aleatoria

In [None]:
train_dataset = df.sample(frac=0.8,random_state=0)
test_dataset = df.drop(train_dataset.index)
print(len(train_dataset), len(test_dataset))

También se pueden tomar muestras con reemplazamiento, lo que significa que se puede repetir

In [None]:
datos = [['Bertoldo', 'Cacaseno'], ['Aniceto', 'Cacaseno'],
         ['Herminia', 'Ducasse'], ['Calixta', 'Albrich'] ]
df = pd.DataFrame(datos ,columns=['nombre','apellido'])
df

In [None]:
df.sample(n=10,replace=True)

<a name="Iterar"></a>
## Iterar

Intentaremos evitar iterar por el dataframe con un `for`, pero a veces no hay más remedio. En ese caso usaremos `iterrows`
 que nos devuelve cada fila como un array con dos posiciones, la 0 para el índice y la 1 para la fila en sí

In [None]:
import pandas as pd
file = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/top10s.csv"
df = pd.read_csv(file,encoding="latin-1", index_col=0)
df

In [None]:
for row in df.iterrows():
    print(row[1]["title"])

**Ejemplo 11** Utilizar iterrows para encontrar el título de la canción  con más bpm.

Idea: usar una variable bpm que lleve el máximo hasta el momento y otra título con el título del máximo hasta el momento, e ir actualizando ambas variables

In [None]:
## Y ahora sin iterrows...

## Índices

Ya hemos visto unas cuantas cosas sobre los índices

- Se usan para referenciar fila
- Se puede acceder con loc
- Hay índices de tipos diversos

Algunas cosas nuevas:



In [None]:
import pandas as pd
import numpy as np
data = [[1,2,3,4,5,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,3,4,5,6,7],
       ]
df1 = pd.DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = ['i'+chr(ord('a')+i) for i in range(len(data))])
df2 = pd.DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = [i-1 for i in range(len(data),0,-1)])
df3 = pd.DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = [np.random.randint(3) for i in range(len(data),0,-1)])


In [None]:
print(df1,df2,df3,sep="\n")

Se puede comprobar si es monótono creciente.

> Indented block



In [None]:
df1.index.is_monotonic, df2.index.is_monotonic, df3.index.is_monotonic

También de si hay valores repetidos

In [None]:
df1.index.is_unique, df2.index.is_unique, df3.index.is_unique

En caso de que no sea único podemos querer obtener los valores distintos

In [None]:
df3.index.unique()

Una de las operaciones más básicas, que haremos a menudo es reindexar:

In [None]:

df4 = df2.reindex([1,2,3,4,5])
df4


- ¿Por qué necesitamos hacer df4 y no queda modificado df2? Porque los índices son inmutables. Para que se cambie en el propio DataFram usar el argumento `inplace=True`

- ¿Por qué aparecen los NaN? (pensar...)


In [None]:
df4 = df2.reindex([1,2,3,4,5],fill_value=0)
df4

También vale para columnas

In [None]:
df4 = df2.reindex(columns=[1,2,3,4,5],fill_value=-1)
df4

Esto es un poco desastre. ¿No podemos solo cambiar los índices sin cargarnos todo? La solución es `reset_index()`

In [None]:
df2 = pd.DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = [i-1 for i in range(len(data),0,-1)])
df2

In [None]:
df2.reset_index(inplace=True)
df2

El índice se 'guarda' en una columna `index`. Se puede evitar utilizando `drop=True`

In [None]:
from pandas import DataFrame
data = [[1,2,3,4,5,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,3,4,5,6,7],
       ]
df2 = DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = [i-1 for i in range(len(data),0,-1)])
df2.reset_index(drop=True, inplace=True)
df2

Si no se quiere que el índice empiece en 0, ni tampoco que se pierda información, se puede acceder directamente a .index o a .columns

In [None]:
df2.index = ['a','b','c','d','e']
df2

In [None]:
df2[df2.index=='a']

In [None]:
df2.loc['a']

Si se accede directamente a `index` se deben poner tantos elementos como filas hay, si no se obtendrá un error

In [None]:
# esto daría error
#df2.index = ['a','b','c','d']

**Ej.** Queremos sumar dos series:

In [None]:
a = pd.Series([1,2,3,4],['a','b','c','d'])
b = pd.Series([1,2,3,4],[10,20,30,40])

Sin embargo:

In [None]:
a+b

¿qué podemos hacer?

In [None]:
a.reset_index(drop=True)+b.reset_index(drop=True)

Se pueden eliminar filas a partir del índice con drop()

In [None]:
c = a.reset_index(drop=True)+b.reset_index(drop=True)
print(c,type(c))
d = c.drop([1,2])
print(d)

In [None]:
df = DataFrame(np.arange(16).reshape((4, 4)),
               columns=['c'+str(i) for i in range(4)],
               index = ['f'+str(i) for i in range(4)])
df

In [None]:
df.drop(['c1','c2'],axis=1,inplace=True)
df

In [None]:
df = DataFrame(np.arange(16).reshape((4, 4)),
               columns=['c'+str(i) for i in range(4)],
               index = ['f'+str(i) for i in range(4)])
df.drop(['f1','f2'],axis=0,inplace=True)
df

Como ya hemos visto las operaciones aritméticas utilizan los índices comunes. Esto vale tanto para filas como para columnas

In [None]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))
df2 = DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))

print(df1)
print(df2)

In [None]:
df1+df2

Para evitarlo se puede añadir 0 para evitar el valor `NaN`

In [None]:
df1.add(df2,fill_value=0)

Análogamente existen funciones `add`, `sub`, `div`, `mul`

La siguiente operación ya no debe sorprendernos:

In [None]:
f = df1.loc[1,:]
print(df1,"\n",f,"\n",df1-f,sep="")



Si lo que queremos es restar sobre las columnas

In [None]:
f.index = range(len(f))
df1.sub(f,axis=0)

Si lo que se quiere es ordenar los índices, no cambiarlo, se puede utilizar `sort_index()`

In [None]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)),
                columns=list('dfab'),index=list('431'))
df1

In [None]:
df1.sort_index(inplace=True)
df1