# Preparación y exploración de datos

Una vez conocidas las estructuras de datos de pandas, las operaciones básicas que se pueden realizar sobre las mismas y el modo en el que realizar la carga y almacenamiento de dichas estructuras en discos, vamos a centrarnos en aquellas funcionalidades ofrecidas por pandas que están más orientadas al tratamiento y análisis de datos.

In [2]:
import numpy as np
import pandas as pd

## Gestión de datos en blanco (<i>missing values</i>)

En la mayoría de los ficheros utilizados como fuente de datos, es muy común la existencia de valores nulos (en blanco, <i>missing</i>...). Estos "huecos" en la información suelen ser muy problemáticos ya que tiene un impacto importante a la hora de realizar cualquier tipo de cálculo numérico y son difícilmente interpretables.<br/>
Uno de los objetivos de pandas en su construcción fue facilitar el tratamiento de este tipo de datos no existentes ofreciendo múltiples funciones que permiten llevar a cabo tanto su detección, como su eliminación o imputación...

#### Detección de <i>missing values</i>

Pandas ofrece principalmente dos funciones para manejar la detección de valores nulos.<br/>
<ul>
<li><b>isnull/isna:</b> Que devuelve una Serie o DataFrame booleano indicando qué elemetos son NaN o None.</li>
<li><b>notnull/notna:</b> Que devuelve el inverso del anterior.</li>

In [2]:
catastro = pd.read_csv('datos/catastro.tsv', sep='\t', nrows=10)
catastro

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [5]:
# Detección de valores nulos
catastro.isna().sum()

año                0
id_distrito        0
distrito           0
id_barrio          0
barrio             0
id_uso             0
uso                0
num_inmuebles      0
año_cons_medio     1
sup_cons           1
sup_suelo          9
valor_catastral    0
dtype: int64

In [8]:
catastro.isna().sum() / catastro.shape[0] #porcentaje nulos
catastro.isna().mean()

año                0.0
id_distrito        0.0
distrito           0.0
id_barrio          0.0
barrio             0.0
id_uso             0.0
uso                0.0
num_inmuebles      0.0
año_cons_medio     0.1
sup_cons           0.1
sup_suelo          0.9
valor_catastral    0.0
dtype: float64

In [9]:
# Detección de valores no nulos
catastro.notnull()

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,True,True,True,True,True,True,True,True,True,True,False,True
1,True,True,True,True,True,True,True,True,True,True,False,True
2,True,True,True,True,True,True,True,True,True,True,False,True
3,True,True,True,True,True,True,True,True,True,True,False,True
4,True,True,True,True,True,True,True,True,True,True,False,True
5,True,True,True,True,True,True,True,True,True,True,False,True
6,True,True,True,True,True,True,True,True,False,False,True,True
7,True,True,True,True,True,True,True,True,True,True,False,True
8,True,True,True,True,True,True,True,True,True,True,False,True
9,True,True,True,True,True,True,True,True,True,True,False,True


#### Eliminación de registros con <i>missing values</i>

Aunque SIEMPRE conviene hacer un estudio cuidadoso del por qué y la casuística de los valores nulos, uno de los posibles tratamientos a aplicar es su eliminación directa del set de datos. Pandas, nos ofrece el método <b>dropna</b> para llevar a cabo esta tarea. Los parámetros de este método son:<br/>
<ul>
<li><b>axis:</b> Selección de eje sobre el que realizar la eliminación.</li>
<li><b>how:</b> Tomará posibles valores 'any' y 'all' e indica si se debe eliminar la fila o columna cuando haya uno o más valores NaN o cuando todos los valores sean NaN.</li>
<li><b>thresh:</b> Permite indicar, el número de observaciones no nulas que se deben tener para no realizar el borrado.</li>
</ul>

In [10]:
catastro = pd.read_csv('datos/catastro.tsv', sep='\t', nrows=10)
catastro

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [11]:
# Eliminación de filas con al menos 1 NA
catastro.dropna(axis=0, how='any')

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral


In [12]:
# Eliminación de columnas con al menos 1 NA
catastro.dropna(axis=1, how='any')

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,114254200.0


In [13]:
# Eliminación de filas con 2 o más NA
catastro.dropna(thresh=len(catastro.columns)-1)

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


#### Imputación de registros con <i>missing values</i>

Existirán casos en los que no se desee (o no se pueda) eliminar los registros con valores nulos (p.e. podrían suponer un porcentaje demasiado elevado de nuestro set de datos). En estos casos, habrá que realizar una imputación de los mismos a un valor preestablecidor.<br/>
Pandas pone a nuestra disposición el método <b>fillna</b>, que cuenta con los siguientes parámetros:<br/>
<ul>
<li><b>axis:</b> Que decide si aplicará el criterio de relleno por filas o columnas.</li>
<li><b>value:</b> Que rellena los valores nulos a un valor fijo.</li>
<li><b>method:</b> Que permitirá establecer un criterio de relleno de entre los siguientes:
<ul>
<li>ffill: Relleno en base a la observación de los últimos elementos no nulos.</li>
<li>bfill: Relleno en base a la observación de los próximos elementos no nulos.</li>
</ul>
<li><b>limit:</b> Contador máximo de elmentos imputados.</li>
</ul>

In [14]:
catastro = pd.read_csv('datos/catastro.tsv', sep='\t', nrows=10)
catastro

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [15]:
# Imputación de valores a 0
catastro.fillna(0)

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,0.0,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,0.0,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,0.0,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,0.0,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,0.0,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,0.0,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,0.0,0.0,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,0.0,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,0.0,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,0.0,114254200.0


In [16]:
# Imputación de valores por valor anterior (por columnas)
catastro.fillna(method='ffill')

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,1946.0,7238.0,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,130010.0,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,130010.0,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,130010.0,114254200.0


In [17]:
# Imputación de valores por valor siguiente (por columnas)
catastro.fillna(method='bfill')

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,130010.0,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,130010.0,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,130010.0,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,130010.0,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,130010.0,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,130010.0,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,1947.0,196893.0,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


## Resumen de datos y estadísticos básicos

Al igual que NumPy, pandas ofrece un conjunto amplio de funciones para llevar a cabo un análisis estadístico de datos.  Las más relevantes serían:<br/>
<ul>
<li><b>describe:</b> Presenta un conjunto con las estadísticas básicas más comunes calculadas sobre todas las columnas de la estructura. Equivalente a la función <i>summary</i> de R.</li>
<li><b>count:</b> Número de elementos no nulos.</li>
<li><b>min, max:</b> Valor mínimo y máximo.</li>
<li><b>argmin, argmax, idxmax, idxmin:</b> Posiciones con valor mínimo y máximo.</li>
<li><b>quantile:</b> Cuantil calculado.</li>
<li><b>sum:</b> Suma de elementos.</li>
<li><b>mean:</b> Media aritmética de los elementos.</li>
<li><b>median:</b> Mediana de los elementos.</li>
<li><b>std:</b> Desviación estándar de los elementos.</li>
<li><b>var:</b> Varianza de los elementos.</li>
<li><b>cumsum:</b> Suma acumulada de los elementos.</li>
<li><b>cumprod:</b> Producto acumulado de los elementos.</li>
</ul>

La mayor parte de estos métodos, podrán recibir 3 parámetros:
<ul>
<li><b>axis:</b> Que indica si realizar el cálculo por filas o columnas.</li>
<li><b>skipna:</b> Que indica si se deben ignorar o no los valores NaN a la hora de realizar los cálculos.</li>
</ul>

In [18]:
catastro = pd.read_csv('datos/catastro.tsv', sep='\t', nrows=10)
catastro

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [19]:
# Estadísticos básicos sobre el data set
catastro.describe() #catastro[['num_inmuebles', '[sup_etc]']].describe()

Unnamed: 0,año,id_distrito,id_barrio,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
count,10.0,10.0,10.0,10.0,9.0,9.0,1.0,10.0
mean,2014.0,1.0,11.0,539.9,1928.444444,125865.888889,130010.0,158741700.0
std,0.0,0.0,0.0,980.444848,27.559532,85847.096668,,142999300.0
min,2014.0,1.0,11.0,8.0,1884.0,7238.0,130010.0,10614660.0
25%,2014.0,1.0,11.0,18.25,1919.0,62963.0,130010.0,33893580.0
50%,2014.0,1.0,11.0,41.5,1937.0,114226.0,130010.0,121890000.0
75%,2014.0,1.0,11.0,482.75,1946.0,197518.0,130010.0,260103500.0
max,2014.0,1.0,11.0,3034.0,1969.0,223552.0,130010.0,407605500.0


In [20]:
# Suma por columnas
catastro.sum()

año                                                            20140
id_distrito                                                       10
distrito           CentroCentroCentroCentroCentroCentroCentroCent...
id_barrio                                                        110
barrio             PALACIOPALACIOPALACIOPALACIOPALACIOPALACIOPALA...
id_uso                                                    ACEGIKMOPR
uso                Almacén-EstacionamientoComercialCulturalOcio y...
num_inmuebles                                                   5399
año_cons_medio                                               17356.0
sup_cons                                                   1132793.0
sup_suelo                                                   130010.0
valor_catastral                                        1587416814.45
dtype: object

In [22]:
# Suma por filas ignorando NA   #catastro.sum(axis=1) esto no debería funcionar -> catastro.sum(axis=1, skip=False)
catastro.sum(axis=1, skipna=True)

0    1.297474e+08
1    4.078344e+08
2    7.589568e+07
3    1.955323e+08
4    1.182517e+07
5    1.062588e+07
6    2.004728e+07
7    3.409856e+08
8    2.818682e+08
9    1.143608e+08
dtype: float64

## Matrices de correlación y covarianzas

Dada su utilidad y su importancia de cara a la comprensión del contenido de un data set, sobre todo en un entorno orientado a la modelización (p.e. aprendizaje automático), pandas facilita el cálculo de matrices de correlación y covarianza ofreciendo las funciones <b>corr</b> y <b>cov</b>.

In [23]:
catastro = pd.read_csv('datos/catastro.tsv', sep='\t')
catastro.head()

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0


In [24]:
# Matriz de correlación
catastro.corr()

Unnamed: 0,año,id_distrito,id_barrio,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
año,1.0,0.000305,0.00035,0.000803,0.00643,0.001279,-0.002458,0.00045
id_distrito,0.000305,1.0,0.999401,-0.012786,0.16351,-0.034005,0.220602,-0.105906
id_barrio,0.00035,0.999401,1.0,-0.01358,0.163636,-0.03441,0.214936,-0.106108
num_inmuebles,0.000803,-0.012786,-0.01358,1.0,0.029541,0.855491,0.850128,0.789303
año_cons_medio,0.00643,0.16351,0.163636,0.029541,1.0,0.019148,,-0.016171
sup_cons,0.001279,-0.034005,-0.03441,0.855491,0.019148,1.0,,0.898212
sup_suelo,-0.002458,0.220602,0.214936,0.850128,,,1.0,0.731968
valor_catastral,0.00045,-0.105906,-0.106108,0.789303,-0.016171,0.898212,0.731968,1.0


In [25]:
# Matriz de covarianzas
catastro.cov()

Unnamed: 0,año,id_distrito,id_barrio,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
año,0.250082,0.0008850637,0.01016238,1.545283,0.1639717,263.0409,-3822.607,104488.1
id_distrito,0.000885,33.6351,336.3813,-285.1801,48.40108,-81203.45,3934674.0,-285049300.0
id_barrio,0.010162,336.3813,3368.146,-3031.047,484.7186,-822277.7,38361480.0,-2857900000.0
num_inmuebles,1.545283,-285.1801,-3031.047,14790610.0,6016.932,1405670000.0,621073800.0,1408765000000.0
año_cons_medio,0.163972,48.40108,484.7186,6016.932,2599.898,401599.1,,-395504400.0
sup_cons,263.040881,-81203.45,-822277.7,1405670000.0,401599.1,169201700000.0,,177218700000000.0
sup_suelo,-3822.607219,3934674.0,38361480.0,621073800.0,,,9634879000000.0,456918700000000.0
valor_catastral,104488.083481,-285049300.0,-2857900000.0,1408765000000.0,-395504400.0,177218700000000.0,456918700000000.0,2.15379e+17


## Elementos únicos y frecuencias

En Python no contamos con una estructura de datos como los <i>factores</i> de R, orientados completamente al almacenamiento y gestión de valores discretos. Por ello, pandas pone a nuestra disposición un conjunto de funciones que nos permiten hacer el análisis de este tipo de información como son:<br/>
<ul>
<li><b>unique</b>: Que nos devuelve un array con el conjunto de elementos únicos de una Serie.</li>
<li><b>value_counts</b>: Que realiza un cálculo de frecuencias sobre los elementos únicos de una Serie.</li>
<li><b>isin:</b> Que nos permite chequear si un conjunto de valores se encuentra en una Serie.</li>
</ul>

In [31]:
catastro = pd.read_csv('datos/catastro.tsv', sep='\t')
catastro

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,1.295259e+08
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,4.076055e+08
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,7.582872e+07
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,1.954138e+08
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,1.180795e+07
...,...,...,...,...,...,...,...,...,...,...,...,...
3025,2013,21,Barajas,215,CORRALEJOS,O,Oficinas,172,1994.0,538345.0,,6.893051e+08
3026,2013,21,Barajas,215,CORRALEJOS,R,Religioso,2,2006.0,3264.0,,3.059075e+06
3027,2013,21,Barajas,215,CORRALEJOS,T,Espectáculos,1,1995.0,14720.0,,1.639676e+07
3028,2013,21,Barajas,215,CORRALEJOS,V,Residencial,2939,1999.0,433231.0,,5.177294e+08


In [27]:
# Conjunto de de barrios
catastro.barrio.unique()

array(['PALACIO', 'EMBAJADORES', 'CORTES', 'JUSTICIA', 'UNIVERSIDAD',
       'SOL', 'IMPERIAL', 'ACACIAS', 'CHOPERA', 'LEGAZPI', 'DELICIAS',
       'PALOS DE MOGUER', 'ATOCHA', 'PACÍFICO', 'ADELFAS', 'ESTRELLA',
       'IBIZA', 'LOS JERÓNIMOS', 'NIÑO JESÚS', 'RECOLETOS', 'GOYA',
       'FUENTE DEL BERRO', 'GUINDALERA', 'LISTA', 'CASTELLANA', 'EL VISO',
       'PROSPERIDAD', 'CIUDAD JARDÍN', 'HISPANOAMÉRICA', 'NUEVA ESPAÑA',
       'CASTILLA', 'BELLAS VISTAS', 'CUATRO CAMINOS', 'CASTILLEJOS',
       'ALMENARA', 'VALDEACEDERAS', 'BERRUGUETE', 'GAZTAMBIDE',
       'ARAPILES', 'TRAFALGAR', 'ALMAGRO', 'RIOS ROSAS', 'VALLEHERMOSO',
       'EL PARDO', 'FUENTELARREINA', 'PEÑA GRANDE', 'EL PILAR', 'LA PAZ',
       'VALVERDE', 'MIRASIERRA', 'EL GOLOSO', 'CASA DE CAMPO',
       'ARGÜELLES', 'CIUDAD UNIVERSITARIA', 'VALDEZARZA', 'VALDEMARÍN',
       'EL PLANTÍO', 'ARAVACA', 'LOS CARMENES', 'PUERTA DEL ANGEL',
       'LUCERO', 'ALUCHE', 'CAMPAMENTO', 'CUATRO VIENTOS', 'LAS AGUILAS',
       'COMILLA

In [29]:
# Tabla de frecuencias de distritos
catastro.distrito.value_counts()
#catastro.distrito.value_counts()/catastro.shape[0]

Ciudad Lineal            214
Fuencarral - El Pardo    189
San Blas                 186
Moncloa - Aravaca        172
Carabanchel              166
Latina                   165
Usera                    160
Centro                   156
Salamanca                155
Arganzuela               153
Puente de Vallecas       150
Chamartín                148
Chamberí                 147
Tetuán                   144
Hortaleza                142
Retiro                   137
Moratalaz                125
Barajas                  114
Villaverde               112
Vicálvaro                 49
Villa de Vallecas         46
Name: distrito, dtype: int64

In [32]:
# Chequeo de existencia de distritos
catastro['distrito'].isin(['Centro', 'Retiro'])

0        True
1        True
2        True
3        True
4        True
        ...  
3025    False
3026    False
3027    False
3028    False
3029    False
Name: distrito, Length: 3030, dtype: bool

## Aplicación de funciones sobre estructuras

Al igual que en R tenemos la familia de funciones <i>apply</i>, pandas pone a nuestra disposición un conjunto de funciones que nos permiten aplicar operaciones elemento a elemento (o fila a fila, o columna a columna) en sus estructuras de datos. En concreto disponemos de tres funciones.

#### Aplicación de funciones elemento a elemento sobre Series - Función map

In [3]:
serie = pd.Series([1, 2, 3, 4, 5, 6])
serie


0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

In [5]:
def es_par(elemento):
    if elemento % 2 == 0:
        return 'Par: ' + str(elemento)
    else:
        return 'Impar: ' + str(elemento)

In [6]:
# Aplicación de función elemento a elemento sobre Serie
serie.map(es_par)

0    Impar: 1
1      Par: 2
2    Impar: 3
3      Par: 4
4    Impar: 5
5      Par: 6
dtype: object

#### Aplicación de funciones elemento a elemento sobre DataFrames - Función applymap

In [11]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4))
dataframe

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [12]:
def es_par(elemento):
    if elemento % 2 == 0:
        return 'Par: ' + str(elemento)
    else:
        return 'Impar: ' + str(elemento)

In [13]:
# Aplicación de función elemento a elemento sobre DataFrame
dataframe.applymap(es_par)

Unnamed: 0,0,1,2,3
0,Par: 0,Impar: 1,Par: 2,Impar: 3
1,Par: 4,Impar: 5,Par: 6,Impar: 7
2,Par: 8,Impar: 9,Par: 10,Impar: 11
3,Par: 12,Impar: 13,Par: 14,Impar: 15


#### Aplicación de funciones fila a fila o columna a columna sobre DataFrames - Función apply

In [14]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4))
dataframe

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [15]:
def es_suma_par(elemento):
    if np.sum(elemento) % 2 == 0:
        return 'Suma par: ' + str(np.sum(elemento))
    else:
        return 'Suma impar: ' + str(np.sum(elemento))

In [16]:
# Aplicación de función por columnas sobre DataFrame
dataframe.apply(es_suma_par, axis=0)

0    Suma par: 24
1    Suma par: 28
2    Suma par: 32
3    Suma par: 36
dtype: object

In [17]:
# Aplicación de función por filas sobre DataFrames
dataframe.apply(es_suma_par, axis=1)

0     Suma par: 6
1    Suma par: 22
2    Suma par: 38
3    Suma par: 54
dtype: object

## Fusión de estructuras

La librería pandas nos ofrece, principalmente, dos formas de fusionar estructuras de datos: realizando cruces entre ellos (mediante las claves coincidentes de sus índices) o concatenando sus contenidos (bien por filas o columnas).

#### Función merge - JOIN de estructuras

In [18]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013], 
             'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Gareth Edwards', 'Peter Jackson', 'Martin Scorsese', 'Alfonso Cuarón'],
             'Título':['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']}
)
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Gareth Edwards,Godzilla
1,2014,,250.0,Peter Jackson,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity


In [19]:
directores = pd.DataFrame(
            {'Director':['Gareth Edwards', 'Martin Scorsese', 'Pedro Almodovar'],
             'AñoNacimiento':[1975, 1942, 1949],
             'Nacionalidad': ['England', 'USA', 'Spain']
             }
)
directores

Unnamed: 0,Director,AñoNacimiento,Nacionalidad
0,Gareth Edwards,1975,England
1,Martin Scorsese,1942,USA
2,Pedro Almodovar,1949,Spain


In [20]:
pd.merge(peliculas, directores)

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,AñoNacimiento,Nacionalidad
0,2014,6.0,160.0,Gareth Edwards,Godzilla,1975,England
1,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,1942,USA


La función busca, por defecto, aquellas claves de columnas que coinciden y realiza el cruce, eliminando del resultado aquellas filas para las que el cruce no es posible.<br/>

También podemos especificar, explícitamente, el conjunto de columnas a utilizar en el cruce.

In [21]:
directores.columns = ['Nombre', 'Nacimiento', 'Nacionalidad']

In [22]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimiento,Nacionalidad
0,2014,6.0,160.0,Gareth Edwards,Godzilla,Gareth Edwards,1975,England
1,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942,USA


Por último, al igual que ocurre en os JOIN de SQL, podemos especificar el modo de cruce a aplicar, haciendo que las filas de la estructura de la izquierda, derecha o ambas que no coincidan se mantengan en el resultado, estableciendo valores NaN en aquellos elementos para los que no exista información.

In [23]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='left')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimiento,Nacionalidad
0,2014,6.0,160.0,Gareth Edwards,Godzilla,Gareth Edwards,1975.0,England
1,2014,,250.0,Peter Jackson,El Hobbit III,,,
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942.0,USA
3,2013,,,Alfonso Cuarón,Gravity,,,


In [24]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='right')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimiento,Nacionalidad
0,2014.0,6.0,160.0,Gareth Edwards,Godzilla,Gareth Edwards,1975,England
1,2013.0,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942,USA
2,,,,,,Pedro Almodovar,1949,Spain


In [25]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='outer')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimiento,Nacionalidad
0,2014.0,6.0,160.0,Gareth Edwards,Godzilla,Gareth Edwards,1975.0,England
1,2014.0,,250.0,Peter Jackson,El Hobbit III,,,
2,2013.0,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942.0,USA
3,2013.0,,,Alfonso Cuarón,Gravity,,,
4,,,,,,Pedro Almodovar,1949.0,Spain


Finalmente, en el caso de que tengamos columnas duplicadas en los dos DataFrames que se van a unir, pandas se encargará automáticamente de incluir un sufijo que permita desambiguar (_x, _y, por defecto). 

In [26]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013], 
             'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Gareth Edwards', 'Peter Jackson', 'Martin Scorsese', 'Alfonso Cuarón'],
             'Título':['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']}
)
directores = pd.DataFrame(
            {'Director':['Gareth Edwards', 'Martin Scorsese', 'Pedro Almodovar'],
             'AñoNacimiento':[1975, 1942, 1949],
             'Nacionalidad': ['England', 'USA', 'Spain'],
             'Valoración':[6, 7, 8]
             }
)
pd.merge(peliculas, directores, left_on='Director', right_on='Director')

Unnamed: 0,Año,Valoración_x,Presupuesto,Director,Título,AñoNacimiento,Nacionalidad,Valoración_y
0,2014,6.0,160.0,Gareth Edwards,Godzilla,1975,England,6
1,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,1942,USA,7


Si queremos modificar estos sufijos, podemos hacer uso del parámetro suffixes que recibe una tupla con los sufijos a utilizar.

In [27]:
pd.merge(peliculas, directores, left_on='Director', right_on='Director', suffixes=('_peli', '_dire'))

Unnamed: 0,Año,Valoración_peli,Presupuesto,Director,Título,AñoNacimiento,Nacionalidad,Valoración_dire
0,2014,6.0,160.0,Gareth Edwards,Godzilla,1975,England,6
1,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,1942,USA,7


#### Función concat

Esta función nos permite fusionar estructuras sin realizar ningún tipo de cruce entre ellas, sino "colocándolas" juntas para la creación de una estructura mayor. Podemos hacerlo tanto en filas como en columnas, al estilo de las funciones <i>rbind</i> y <i>cbind</i> de R. 

In [28]:
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Gareth Edwards,Godzilla
1,2014,,250.0,Peter Jackson,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity


In [29]:
peliculas = pd.DataFrame({
    'Año':[2014, 2014, 2013, 2013], 
    'Valoración':[6, None, 8.75, None],
    'Presupuesto':[160, 250, 100, None],
    'Director':['Gareth Edwards', 'Peter Jackson', 'Martin Scorsese', 'Alfonso Cuarón'],
    'Titulo': ['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']
})
peliculas2 = pd.DataFrame({
    'Año':[2014, 2014], 
    'Valoración':[7.3, 6.3],
    'Presupuesto': [100, 75],
    'Director':['Evan Goldberg', ' Rupert Wyatt'],
    'Titulo': ['La entrevista', 'El jugador']
})
pd.concat([peliculas, peliculas2])

Unnamed: 0,Año,Valoración,Presupuesto,Director,Titulo
0,2014,6.0,160.0,Gareth Edwards,Godzilla
1,2014,,250.0,Peter Jackson,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity
0,2014,7.3,100.0,Evan Goldberg,La entrevista
1,2014,6.3,75.0,Rupert Wyatt,El jugador


También podemos concatenar por columnas.

In [30]:
peliculas3 = pd.DataFrame({
    'Recaudación':[525, 722, 392]
})
pd.concat([peliculas, peliculas3],axis=1)

Unnamed: 0,Año,Valoración,Presupuesto,Director,Titulo,Recaudación
0,2014,6.0,160.0,Gareth Edwards,Godzilla,525.0
1,2014,,250.0,Peter Jackson,El Hobbit III,722.0
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,392.0
3,2013,,,Alfonso Cuarón,Gravity,


Por último, puede ser útil identificar en la estructura resultante el origen de cada una de las filas para posterior análisis. La función concat incluye un parámetro <b>keys</b> que podemos utilizar para añadir una clave a cada uno de las estructuras origen, que se convertirá en el nivel más agregado de un índice jerárquico.

In [31]:
pd.concat([peliculas, peliculas2], keys=['dataset1','dataset2'])

Unnamed: 0,Unnamed: 1,Año,Valoración,Presupuesto,Director,Titulo
dataset1,0,2014,6.0,160.0,Gareth Edwards,Godzilla
dataset1,1,2014,,250.0,Peter Jackson,El Hobbit III
dataset1,2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
dataset1,3,2013,,,Alfonso Cuarón,Gravity
dataset2,0,2014,7.3,100.0,Evan Goldberg,La entrevista
dataset2,1,2014,6.3,75.0,Rupert Wyatt,El jugador


In [44]:
pd.concat([peliculas, peliculas2], keys=['dataset1','dataset2']).reset_index()  #probando

Unnamed: 0,level_0,level_1,Año,Valoración,Presupuesto,Director,Titulo
0,dataset1,0,2014,6.0,160.0,Gareth Edwards,Godzilla
1,dataset1,1,2014,,250.0,Peter Jackson,El Hobbit III
2,dataset1,2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,dataset1,3,2013,,,Alfonso Cuarón,Gravity
4,dataset2,0,2014,7.3,100.0,Evan Goldberg,La entrevista
5,dataset2,1,2014,6.3,75.0,Rupert Wyatt,El jugador


## Operaciones de agrupación

Una de las funcionalidades más útiles de los data.table de R es la posibiilidad de hacer agrupación de resultados y operaciones sobre los grupos (al estilo de las sentencias GROUP BY de SQL). La librería pandas también incluye dicha posibilidad.

In [37]:
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Titulo
0,2014,6.0,160.0,Gareth Edwards,Godzilla
1,2014,,250.0,Peter Jackson,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity


In [38]:
agrupado = peliculas.groupby('Año')
type(agrupado)

pandas.core.groupby.generic.DataFrameGroupBy

Una agrupación no es un objeto "imprimible", es una representación interna del conjunto de registros que pertenecen a cada grupo y sólo tiene sentido si, posteriormente, se va a aplicar alguna operación sobre dichos grupos. Hay que tener en cuenta que no todas las operaciones son aplicacables sobre todos los tipos de columna.

In [42]:
# Media por grupo
agrupado.mean().reset_index()

Unnamed: 0,Año,Valoración,Presupuesto
0,2013,8.75,100.0
1,2014,6.0,205.0


In [40]:
# Conteo de valores no nulos por grupo
agrupado.count()

Unnamed: 0_level_0,Valoración,Presupuesto,Director,Titulo
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2013,1,1,2,2
2014,1,2,2,2


In [49]:
datos = agrupado.size().reset_index()  #pruebas
datos.columns = ["anos", "num_rows"]
datos

Unnamed: 0,anos,num_rows
0,2013,2
1,2014,2


Aunque con estos datos quizá no tenga tanto sentido, podemos realizar la agrupación por múltiples claves.

In [50]:
peliculas.groupby(['Año', 'Director']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Valoración,Presupuesto
Año,Director,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,Alfonso Cuarón,0.0,0.0
2013,Martin Scorsese,8.75,100.0
2014,Gareth Edwards,6.0,160.0
2014,Peter Jackson,0.0,250.0


Por último, podemos ampliar el conjunto de funciones de agregación de pandas (sum, mean, count...) con nuestras propias funciones mediante el método <b>agg</b> o establecer, con el mismo método, un conjunto de funciones de agregación para aplicar sobre la misma agrupación.

In [51]:
def maxima_diferencia(arr):
    return arr.max() - arr.min()

In [55]:
# Agregando con una única función
peliculas.groupby('Año')['Presupuesto'].agg(maxima_diferencia)

Año
2013     0.0
2014    90.0
Name: Presupuesto, dtype: float64

In [60]:
peliculas.groupby('Año')[['Presupuesto', 'Valoración']].agg(maxima_diferencia)

Unnamed: 0_level_0,Presupuesto,Valoración
Año,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,0.0,0.0
2014,90.0,0.0


In [61]:
peliculas.groupby('Año')['Presupuesto'].agg([maxima_diferencia])

Unnamed: 0_level_0,maxima_diferencia
Año,Unnamed: 1_level_1
2013,0.0
2014,90.0


In [63]:
# Agregando con múltiples funciones
peliculas.groupby('Año')['Presupuesto'].agg([maxima_diferencia, sum, max, np.mean])

Unnamed: 0_level_0,maxima_diferencia,sum,max,mean
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2013,0.0,100.0,100.0,100.0
2014,90.0,410.0,250.0,205.0


In [64]:
peliculas.groupby('Año')[['Presupuesto', 'Valoración']].agg([maxima_diferencia, sum, max, np.mean])

Unnamed: 0_level_0,Presupuesto,Presupuesto,Presupuesto,Presupuesto,Valoración,Valoración,Valoración,Valoración
Unnamed: 0_level_1,maxima_diferencia,sum,max,mean,maxima_diferencia,sum,max,mean
Año,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
2013,0.0,100.0,100.0,100.0,0.0,8.75,8.75,8.75
2014,90.0,410.0,250.0,205.0,0.0,6.0,6.0,6.0
