# Sección 2 - Estructuras de datos

En esta sección vamos a conocer las estructuras principales de datos existentes en pandas, como son las Series y los DataFrames. Además, trabajaremos con tipos de datos peculiares como pueden ser los timeseries o los timedelta. También aprenderemos a leer y escribir datos con pandas.  

## Lección 1 - Series

In [1]:
import pandas as pd
import numpy as np

La Serie es realmente una matriz unidimensional que puede contener cualquier tipo de datos (enteros, cadenas, floats, objetos de Python, etc.). La serie también posee un índice. Dispone de varios tipos de constructores.

#### Usando un numpy array

In [2]:
valores = np.array([1,2,3,4,5])
serie = pd.Series(valores)
serie

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [3]:
serie.index

RangeIndex(start=0, stop=5, step=1)

In [4]:
serie = pd.Series(valores, index = ['a','b','c','d','e'])
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [5]:
serie.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

#### Usando un diccionario python

In [6]:
d = {'a':1, 'b':2, 'c':3, 'd':4, 'e':5}
serie = pd.Series(d)
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

Si usamos el diccionario, y además especificamos un indice, los valores se ordenan según el indice ordenado

In [9]:
serie = pd.Series(d, index = ['b','c','a','e','d'])
serie

b    2
c    3
a    1
e    5
d    4
dtype: int64

La serie actúa de manera muy similar a un numpy array y es un argumento válido para la mayoría de las funciones NumPy. 

In [10]:
np.sum(serie)

15

In [11]:
np.max(serie)

5

Podemos consultar los valores especificando un valor del indice. También podemos consultar el tipo de la serie con *dtype* y convertirlo a un numpy array con la función *to_numpy()*

In [12]:
serie

b    2
c    3
a    1
e    5
d    4
dtype: int64

In [13]:
serie['b']

2

In [16]:
serie[0]

2

In [17]:
serie.dtype

dtype('int64')

In [18]:
array = serie.to_numpy()
print(type(array))
array

<class 'numpy.ndarray'>


array([2, 3, 1, 5, 4])

También podemos interpretar el tipo Serie de pandas como un diccionario python, de manera que podemos tanto consultar, como añadir nuevos pares clave-valor a la misma.

In [19]:
serie

b    2
c    3
a    1
e    5
d    4
dtype: int64

In [22]:
serie['e']

5

In [24]:
serie['f'] = 6
serie

b    2
c    3
a    1
e    5
d    4
f    6
dtype: int64

In [25]:
'e' in serie

True

In [26]:
'h' in serie

False

Y como diccionario que se puede considerar, podemos pedir sus claves y sus valores

In [29]:
serie.keys()

Index(['b', 'c', 'a', 'e', 'd', 'f'], dtype='object')

In [33]:
serie.values

array([2, 3, 1, 5, 4, 6])

Cuando hemos trabajado con matrices NumPy, normalmente no era necesario recorrer valor a valor la misma para aplicar una operación. Lo mismo ocurre cuando se trabaja con Series en pandas.

In [34]:
serie

b    2
c    3
a    1
e    5
d    4
f    6
dtype: int64

In [35]:
serie * 2

b     4
c     6
a     2
e    10
d     8
f    12
dtype: int64

In [36]:
serie.keys()

Index(['b', 'c', 'a', 'e', 'd', 'f'], dtype='object')

In [40]:
serie2 = pd.Series(np.random.randint(0,10,6), index = ['b', 'c', 'a', 'e', 'd', 'f'])
serie2

b    2
c    4
a    0
e    7
d    4
f    8
dtype: int64

In [41]:
serie + serie2

b     4
c     7
a     1
e    12
d     8
f    14
dtype: int64

Si algun indice no coincide, se almacena un NaN

In [42]:
serie2['g'] = 10

In [43]:
serie

b    2
c    3
a    1
e    5
d    4
f    6
dtype: int64

In [44]:
serie2

b     2
c     4
a     0
e     7
d     4
f     8
g    10
dtype: int64

In [45]:
serie + serie2

a     1.0
b     4.0
c     7.0
d     8.0
e    12.0
f    14.0
g     NaN
dtype: float64

## Lección 2 - DataFrame

In [46]:
import numpy as np
import pandas as pd

Los DataFrame son una estructura de datos bidimensional que admite columnas de diferentes tipos. Podemos entenderlos como una tabla SQL, en el sentido de estar formado por filas y columnas. Generalmente es el objeto de pandas más utilizado. Al igual que Series, DataFrame acepta muchos tipos diferentes de entrada:

#### Usando un diccionario de series

In [56]:
d = {'col1': pd.Series([1., 2., 3., 4.]),
     'col2': pd.Series([4., 3., 2., 1.])}

df = pd.DataFrame(d)
df

Unnamed: 0,col1,col2
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


#### Usando directamente un diccionario de valores

In [62]:
d = {'col1': [1., 2., 3., 4.],
     'col2': [4., 3., 2., 1.]}

df = pd.DataFrame(d, index = ['a','b','c','e'])
df

Unnamed: 0,col1,col2
a,1.0,4.0
b,2.0,3.0
c,3.0,2.0
e,4.0,1.0


#### Usando una lista lista de diccionarios

In [66]:
l = [{'col1': 1, 'col2' : 4}, {'col1': 2, 'col2' : 3},  
     {'col1': 3, 'col2' : 2}, {'col1': 4, 'col2' : 1, 'col3' : 3}]

df = pd.DataFrame(l, index = ['a','b','c','e'])
df

Unnamed: 0,col1,col2,col3
a,1,4,
b,2,3,
c,3,2,
e,4,1,3.0


Como podéis observar, los dataframes están formados por un conjunto de series. Por ello, poseen una características muy similares a ellas, y podemos consultarlos o modificarlos de la misma manera. 

In [67]:
df

Unnamed: 0,col1,col2,col3
a,1,4,
b,2,3,
c,3,2,
e,4,1,3.0


In [68]:
# Recupero la columna con []
df['col2']

a    4
b    3
c    2
e    1
Name: col2, dtype: int64

In [70]:
type(df['col2'])

pandas.core.series.Series

In [69]:
df['col4'] = df['col1'] + df['col2']
df

Unnamed: 0,col1,col2,col3,col4
a,1,4,,5
b,2,3,,5
c,3,2,,5
e,4,1,3.0,5


In [71]:
# Elimino columnas con del
del df['col3']
df

Unnamed: 0,col1,col2,col4
a,1,4,5
b,2,3,5
c,3,2,5
e,4,1,5


In [73]:
df.insert(0, 'col0', df['col4'] + df['col2'])
df

Unnamed: 0,col0,col1,col2,col4
a,9,1,4,5
b,8,2,3,5
c,7,3,2,5
e,6,4,1,5


Para acabar con esta lección, también debéis conocer el método *assign*, el cual nos permite crear una nueva columna en el dataframe

In [74]:
df = df.assign(col3 = 3)
df

Unnamed: 0,col0,col1,col2,col4,col3
a,9,1,4,5,3
b,8,2,3,5,3
c,7,3,2,5,3
e,6,4,1,5,3


## Leccion 3 - Lectura y escritura

In [75]:
import numpy as np
import pandas as pd

Cuando trabajamos con pandas, es habitual que tengamos que leer un fichero de datos, bien sea en formato CSV, JSON, o similar. Luego, una vez tenemos los resultados deseados, solemos volcar esos resultados a un fichero. Pandas nos proporciona una serie de métodos de entrada / salida para estos fines.

In [79]:
from pathlib import Path
data_path = Path('./data')

### Lectura

#### read_csv

In [81]:
dataset = pd.read_csv(data_path / 'dataset.csv', sep = ',')
dataset.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


In [82]:
pd.read_csv(data_path / 'dataset.csv', sep = ',', usecols=['Gender','Age']).head()


Unnamed: 0,Gender,Age
0,Male,41
1,Male,54
2,Male,42
3,Male,40
4,Male,46


In [96]:
dataset.head(100).to_json(data_path / 'dataset_records.json', orient='records')

In [97]:
ds = pd.read_json(data_path / 'dataset_index.json', orient='index')
ds.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367,No
1,2,Dallas,Male,54,45084,No
2,3,Dallas,Male,42,52483,No
3,4,Dallas,Male,40,40941,No
4,5,Dallas,Male,46,50289,No


In [98]:
ds = pd.read_json(data_path / 'dataset_records.json', orient='index')
ds.head()

AttributeError: 'list' object has no attribute 'values'

In [99]:
ds = pd.read_json(data_path / 'dataset_records.json', orient='records')
ds.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367,No
1,2,Dallas,Male,54,45084,No
2,3,Dallas,Male,42,52483,No
3,4,Dallas,Male,40,40941,No
4,5,Dallas,Male,46,50289,No


#### read_fwf

In [108]:
widths = [1, 6, 4, 2, 7, 2]
ds_fijo = pd.read_fwf(data_path / 'dataset_fijo', widths=widths, header = None)
ds_fijo.columns = ['Number', 'City', 'Gender', 'Age', 'Income', 'Illness']
ds_fijo

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


#### read_parquet

In [114]:
ds_parquet = pd.read_parquet(data_path / 'dataset.parquet', engine='pyarrow')
ds_parquet.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


Fijaros como el fichero en formato parquet ocupa 1.7 MB mientras que en CSV ocupa 5.7 MB

### Escritura

In [115]:
df_to_write = dataset.head(100)
df_to_write.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


#### to_csv

In [116]:
df_to_write.to_csv(data_path / 'df_to_write.csv', index = False, sep = '#', header = False)

#### to_json

In [117]:
df_to_write.to_json(data_path / 'df_to_write.json', orient = 'split')

#### to_parquet

In [120]:
df_to_write.to_parquet(data_path / 'df_to_write.parquet', engine = 'pyarrow')

Apache Parquet proporciona una serialización binaria particionada en columnas para los dataframes. Está diseñado para hacer que la lectura y escritura de los DF sea eficiente.

Para poder escribir en formato parquet, necesitamos instalar la dependencia *pyarrow*. Lo podemos instalar facilmente con conda

## Lección 4 - Indexado y selección de datos - Parte I

In [4]:
import numpy as np
import pandas as pd

from pathlib import Path
data_path = Path('./data')

En esta lección vamos a aprender como consultar datos en pandas, tanto en Series como en DataFrames. Los datos en pandas están indexados, esto es, poseen un indice el cual podemos usar para eficientar nuestras consultas.

In [41]:
dataset = pd.read_csv(data_path / 'dataset.csv', sep = ',')
dataset.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


#### loc y iloc

*.loc* se basa principalmente en etiquetas, pero también se puede usar con una matriz booleana. Genera KeyError cuando no se encuentran los elementos. 

In [42]:
dataset['City'].value_counts()

New York City      50307
Los Angeles        32173
Dallas             19707
Mountain View      14219
Austin             12292
Boston              8301
Washington D.C.     8120
San Diego           4881
Name: City, dtype: int64

Si realizamos la siguiente comparación, obtenemos una serie pandas de True y False.

In [43]:
dataset['City'] == 'Dallas'

0          True
1          True
2          True
3          True
4          True
          ...  
149995    False
149996    False
149997    False
149998    False
149999    False
Name: City, Length: 150000, dtype: bool

Esa serie de booleanos, se puede pasar al DF, para realizar el filtro.

In [44]:
dallas_city = dataset[dataset['City'] == 'Dallas']
dallas_city['City'].value_counts()

Dallas    19707
Name: City, dtype: int64

También podemos combinar varias comparaciones

In [45]:
dallas_female = dataset[(dataset['City'] == 'Dallas') & (dataset['Gender'] == 'Female')]
dallas_female['Gender'].value_counts()

Female    8705
Name: Gender, dtype: int64

Con .loc, podemos consultar también según el valor del indice. Inicialmente, el indice va desde 0 a len(dataset)-1. Pero si modificamos el valor del indice, podemos consultarlo por dicho valor. Veamos un ejemplo.

In [46]:
dataset.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


In [47]:
dataset.loc[1]

Number          2
City       Dallas
Gender       Male
Age            54
Income      45084
Illness        No
Name: 1, dtype: object

In [48]:
dataset1 = dataset.set_index(np.arange(10, len(dataset)+10))
dataset1.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
10,1,Dallas,Male,41,40367.0,No
11,2,Dallas,Male,54,45084.0,No
12,3,Dallas,Male,42,52483.0,No
13,4,Dallas,Male,40,40941.0,No
14,5,Dallas,Male,46,50289.0,No


In [49]:
dataset1.loc[1]

KeyError: 1

In [51]:
dataset1.loc[10]

Number          1
City       Dallas
Gender       Male
Age            41
Income      40367
Illness        No
Name: 10, dtype: object

También podemos consultar solo algunas columnas.

In [52]:
dataset1.loc[10, 'City']

'Dallas'

In [53]:
dataset1.loc[10, ['City', 'Age']]

City    Dallas
Age         41
Name: 10, dtype: object

O también es posible fijar las columnas, pero no las filas

In [54]:
dataset1.loc[:, ['City','Age']]

Unnamed: 0,City,Age
10,Dallas,41
11,Dallas,54
12,Dallas,42
13,Dallas,40
14,Dallas,46
...,...,...
150005,Austin,48
150006,Austin,25
150007,Austin,26
150008,Austin,25


En cambio, .iloc se basa principalmente en posiciones enteras del índice (desde 0 hasta la longitud-1 del eje), pero también se puede usar con una matriz booleana. Es decir, si quiero consultar la fila que está en la posición 0 (cuyo indice tiene valor 10), haría:

In [55]:
dataset1.iloc[0]

Number          1
City       Dallas
Gender       Male
Age            41
Income      40367
Illness        No
Name: 10, dtype: object

In [56]:
dataset1.loc[10]

Number          1
City       Dallas
Gender       Male
Age            41
Income      40367
Illness        No
Name: 10, dtype: object

Con iloc, también podemos consultar las columnas por posición

In [66]:
dataset1.iloc[0, 1]

'Dallas'

In [68]:
dataset.iloc[0, 1:3]

City      Dallas
Gender      Male
Name: 0, dtype: object

Tenemos otra opción muy similar a iloc, como es .iat

In [74]:
dataset.iat[0,1]

'Dallas'

Lo mismo ocurre con .loc[a,b] y .at[a,b]

In [80]:
dataset.loc[0, 'City']

'Dallas'

In [81]:
dataset.at[0, 'City']

'Dallas'

#### Slicing

In [57]:
dataset.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


In [61]:
dataset.loc[1:3]

Unnamed: 0,Number,City,Gender,Age,Income,Illness
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No


In [59]:
dataset.loc[4:]

Unnamed: 0,Number,City,Gender,Age,Income,Illness
4,5,Dallas,Male,46,50289.0,No
5,6,Dallas,Female,36,50786.0,No
6,7,Dallas,Female,32,33155.0,No
7,8,Dallas,Male,39,30914.0,No
8,9,Dallas,Male,51,68667.0,No
...,...,...,...,...,...,...
149995,149996,Austin,Male,48,93669.0,No
149996,149997,Austin,Male,25,96748.0,No
149997,149998,Austin,Male,26,111885.0,No
149998,149999,Austin,Male,25,111878.0,No


In [60]:
dataset.loc[:3]

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No


## Lección 4 - Indexado y selección de datos - Parte II

El método sample() recuperar una selección aleatoria de filas o columnas de una serie o DataFrame. El método tomará muestras de filas de forma predeterminada y acepta un número específico de filas / columnas para devolver, o una fracción de filas.

In [76]:
r = dataset.sample(frac=0.1)
r.shape

(15000, 6)

También podemos consultar datos con la sentencia *isin*

In [83]:
dataset.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


In [84]:
dataset[dataset['Age'].isin([41,42])]

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
2,3,Dallas,Male,42,52483.0,No
13,14,Dallas,Female,42,50894.0,No
35,36,Dallas,Male,41,50312.0,No
37,38,Dallas,Female,41,29538.0,No
...,...,...,...,...,...,...
149805,149806,Austin,Female,41,71121.0,No
149839,149840,Austin,Male,41,92839.0,No
149890,149891,Austin,Male,41,87493.0,No
149923,149924,Austin,Female,42,80570.0,No


La selección de valores de una serie con un vector booleano generalmente devuelve un subconjunto de los datos. Para garantizar que la salida de la selección tenga la misma forma que los datos originales, puede utilizar el método where en Series y DataFrame.

In [85]:
dataset['Age'].where(dataset['Age'] == 41)

0         41.0
1          NaN
2          NaN
3          NaN
4          NaN
          ... 
149995     NaN
149996     NaN
149997     NaN
149998     NaN
149999     NaN
Name: Age, Length: 150000, dtype: float64

In [86]:
dataset['Age'].where(dataset['Age'] == 41, -1)

0         41
1         -1
2         -1
3         -1
4         -1
          ..
149995    -1
149996    -1
149997    -1
149998    -1
149999    -1
Name: Age, Length: 150000, dtype: int64

Los objetos DataFrame tienen un método query () que permite la selección mediante una expresión. 

In [87]:
dataset.query('Age == 41')

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
35,36,Dallas,Male,41,50312.0,No
37,38,Dallas,Female,41,29538.0,No
41,42,Dallas,Male,41,68522.0,No
74,75,Dallas,Female,41,27897.0,No
...,...,...,...,...,...,...
149715,149716,Austin,Male,41,94296.0,No
149805,149806,Austin,Female,41,71121.0,No
149839,149840,Austin,Male,41,92839.0,No
149890,149891,Austin,Male,41,87493.0,No


In [88]:
dataset.query('City == "Dallas" and Age == 41')

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
35,36,Dallas,Male,41,50312.0,No
37,38,Dallas,Female,41,29538.0,No
41,42,Dallas,Male,41,68522.0,No
74,75,Dallas,Female,41,27897.0,No
...,...,...,...,...,...,...
19524,19525,Dallas,Female,41,32583.0,No
19543,19544,Dallas,Female,41,38234.0,No
19573,19574,Dallas,Male,41,56297.0,No
19594,19595,Dallas,Male,41,49911.0,No


In [89]:
dataset.query('index < 4')

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No


In [90]:
dataset.query('Age in (41,42)')

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
2,3,Dallas,Male,42,52483.0,No
13,14,Dallas,Female,42,50894.0,No
35,36,Dallas,Male,41,50312.0,No
37,38,Dallas,Female,41,29538.0,No
...,...,...,...,...,...,...
149805,149806,Austin,Female,41,71121.0,No
149839,149840,Austin,Male,41,92839.0,No
149890,149891,Austin,Male,41,87493.0,No
149923,149924,Austin,Female,42,80570.0,No


Dentro de query, podemos usar valores de variables, añadiendo al comienzo el carácter 'f'

In [92]:
ciudad_buscada = "Dallas"

dataset.query(f'City == "{ciudad_buscada}"')

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No
...,...,...,...,...,...,...
19702,19703,Dallas,Female,59,30021.0,No
19703,19704,Dallas,Male,33,34643.0,No
19704,19705,Dallas,Male,33,53190.0,No
19705,19706,Dallas,Male,37,54265.0,No


In [93]:
f'City == "{ciudad_buscada}"'

'City == "Dallas"'

Para acabar con esta lección, vamos a aprender a eliminar registros duplicados.

In [95]:
dataset.drop_duplicates('City', inplace = False, keep = 'first')

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
19707,19708,New York City,Male,49,112226.0,No
70014,70015,Los Angeles,Male,34,102868.0,No
102187,102188,Mountain View,Male,31,150367.0,No
116406,116407,Boston,Female,57,87004.0,No
124707,124708,Washington D.C.,Male,38,62295.0,No
132827,132828,San Diego,Female,39,105138.0,No
137708,137709,Austin,Male,53,103971.0,No


## Lección 5 - Multiindex

In [2]:
import numpy as np
import pandas as pd

Hasta ahora siempre hemos trabajado con un índice simple, pero pandas nos permite mantener indices compuestos, o muli-índices. Veamos como podemos generarlos.

In [3]:
s = pd.Series(np.arange(12))
s

0      0
1      1
2      2
3      3
4      4
5      5
6      6
7      7
8      8
9      9
10    10
11    11
dtype: int64

In [5]:
s.index.values

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

Vamos a modificar dicho índice, para hacerlo compuesto. 

In [10]:
array = [['a','a','a','a','b','b','b','b','c','c','c','c'],
         ['a','b','c','d','a','b','c','d','a','b','c','d']]

t = list(zip(array[0],array[1]))
t

[('a', 'a'),
 ('a', 'b'),
 ('a', 'c'),
 ('a', 'd'),
 ('b', 'a'),
 ('b', 'b'),
 ('b', 'c'),
 ('b', 'd'),
 ('c', 'a'),
 ('c', 'b'),
 ('c', 'c'),
 ('c', 'd')]

In [11]:
mi = pd.MultiIndex.from_tuples(t, names=['primero','segundo'])
mi

MultiIndex([('a', 'a'),
            ('a', 'b'),
            ('a', 'c'),
            ('a', 'd'),
            ('b', 'a'),
            ('b', 'b'),
            ('b', 'c'),
            ('b', 'd'),
            ('c', 'a'),
            ('c', 'b'),
            ('c', 'c'),
            ('c', 'd')],
           names=['primero', 'segundo'])

In [12]:
s = pd.Series(np.arange(12), index = mi)
s

primero  segundo
a        a           0
         b           1
         c           2
         d           3
b        a           4
         b           5
         c           6
         d           7
c        a           8
         b           9
         c          10
         d          11
dtype: int64

In [48]:
s.loc[('a','b')]

1

In [50]:
s.loc['a']

segundo
a    0
b    1
c    2
d    3
dtype: int64

In [52]:
s.loc[:,'a']

primero
a    0
b    4
c    8
dtype: int64

También podemos aplicar los multiindices a las columnas de un DF

In [13]:
from pathlib import Path
data_path = Path('./data')

En esta lección vamos a aprender como consultar datos en pandas, tanto en Series como en DataFrames. Los datos en pandas están indexados, esto es, poseen un indice el cual podemos usar para eficientar nuestras consultas.

In [14]:
dataset = pd.read_csv(data_path / 'dataset.csv', sep = ',')
dataset.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


In [15]:
tuples = [('Columnas_no_importantes', 'Number'),
          ('Columnas_importantes', 'City'),
          ('Columnas_no_importantes', 'Gender'),
          ('Columnas_importantes', 'Age'),
          ('Columnas_importantes', 'Income'),
          ('Columnas_no_importantes', 'Illness')
         ]

multiindex = pd.MultiIndex.from_tuples(tuples)
multiindex

MultiIndex([('Columnas_no_importantes',  'Number'),
            (   'Columnas_importantes',    'City'),
            ('Columnas_no_importantes',  'Gender'),
            (   'Columnas_importantes',     'Age'),
            (   'Columnas_importantes',  'Income'),
            ('Columnas_no_importantes', 'Illness')],
           )

In [16]:
dataset.columns = multiindex
dataset.head()

Unnamed: 0_level_0,Columnas_no_importantes,Columnas_importantes,Columnas_no_importantes,Columnas_importantes,Columnas_importantes,Columnas_no_importantes
Unnamed: 0_level_1,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


In [18]:
dataset['Columnas_importantes'].head()

Unnamed: 0,City,Age,Income
0,Dallas,41,40367.0
1,Dallas,54,45084.0
2,Dallas,42,52483.0
3,Dallas,40,40941.0
4,Dallas,46,50289.0


Podemos consultar los niveles de nuestro multiindex con *levels*. También, podemos consultar los distintos niveles del índice con el método *get_level_values(n)*

In [23]:
dataset.columns.levels

FrozenList([['Columnas_importantes', 'Columnas_no_importantes'], ['Age', 'City', 'Gender', 'Illness', 'Income', 'Number']])

In [24]:
dataset.columns.get_level_values(0)

Index(['Columnas_no_importantes', 'Columnas_importantes',
       'Columnas_no_importantes', 'Columnas_importantes',
       'Columnas_importantes', 'Columnas_no_importantes'],
      dtype='object')

In [20]:
multiindex.get_level_values(1)

Index(['Number', 'City', 'Gender', 'Age', 'Income', 'Illness'], dtype='object')

¿Cómo consulto una columna concreta? Puedo hacerlo de nuevo con .loc y una tupla

In [28]:
dataset.loc[:,('Columnas_importantes','City')]

0         Dallas
1         Dallas
2         Dallas
3         Dallas
4         Dallas
           ...  
149995    Austin
149996    Austin
149997    Austin
149998    Austin
149999    Austin
Name: (Columnas_importantes, City), Length: 150000, dtype: object

Es similar a:

In [26]:
dataset[('Columnas_importantes','City')]

0         Dallas
1         Dallas
2         Dallas
3         Dallas
4         Dallas
           ...  
149995    Austin
149996    Austin
149997    Austin
149998    Austin
149999    Austin
Name: (Columnas_importantes, City), Length: 150000, dtype: object

In [29]:
dataset.loc[:,[('Columnas_importantes','City'),('Columnas_importantes','Age')]]

Unnamed: 0_level_0,Columnas_importantes,Columnas_importantes
Unnamed: 0_level_1,City,Age
0,Dallas,41
1,Dallas,54
2,Dallas,42
3,Dallas,40
4,Dallas,46
...,...,...
149995,Austin,48
149996,Austin,25
149997,Austin,26
149998,Austin,25


Si transponemos los datos del DF, podremos observar como las columnas pasar a ser indices, y mantiene su formato de multiindice.

In [33]:
_ = dataset.head(5).T
_

Unnamed: 0,Unnamed: 1,0,1,2,3,4
Columnas_no_importantes,Number,1,2,3,4,5
Columnas_importantes,City,Dallas,Dallas,Dallas,Dallas,Dallas
Columnas_no_importantes,Gender,Male,Male,Male,Male,Male
Columnas_importantes,Age,41,54,42,40,46
Columnas_importantes,Income,40367,45084,52483,40941,50289
Columnas_no_importantes,Illness,No,No,No,No,No


In [34]:
_.index

MultiIndex([('Columnas_no_importantes',  'Number'),
            (   'Columnas_importantes',    'City'),
            ('Columnas_no_importantes',  'Gender'),
            (   'Columnas_importantes',     'Age'),
            (   'Columnas_importantes',  'Income'),
            ('Columnas_no_importantes', 'Illness')],
           )

In [37]:
dataset.head()

Unnamed: 0_level_0,Columnas_no_importantes,Columnas_importantes,Columnas_no_importantes,Columnas_importantes,Columnas_importantes,Columnas_no_importantes
Unnamed: 0_level_1,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


Si queremos ver el indice ordenado, podemos usar la función *sort_index*.

In [45]:
dataset.sort_index(level=0, axis = 1).head()

Unnamed: 0_level_0,Columnas_importantes,Columnas_importantes,Columnas_importantes,Columnas_no_importantes,Columnas_no_importantes,Columnas_no_importantes
Unnamed: 0_level_1,Age,City,Income,Gender,Illness,Number
0,41,Dallas,40367.0,Male,No,1
1,54,Dallas,45084.0,Male,No,2
2,42,Dallas,52483.0,Male,No,3
3,40,Dallas,40941.0,Male,No,4
4,46,Dallas,50289.0,Male,No,5


In [46]:
dataset.sort_index(level=1, axis = 1).head()

Unnamed: 0_level_0,Columnas_importantes,Columnas_importantes,Columnas_no_importantes,Columnas_no_importantes,Columnas_importantes,Columnas_no_importantes
Unnamed: 0_level_1,Age,City,Gender,Illness,Income,Number
0,41,Dallas,Male,No,40367.0,1
1,54,Dallas,Male,No,45084.0,2
2,42,Dallas,Male,No,52483.0,3
3,40,Dallas,Male,No,40941.0,4
4,46,Dallas,Male,No,50289.0,5
