-¿que es pandas?
    pandas es un modulo de python de alto rendimiento orientado al analisis de datos
-caracteristicas principales
    -capacidad de almacenamiento y procesamiento de diferentes estructuras de datos: series temporales, informacoin tabular, informacion matricial...
    -facilidad para la carga de informacion desde muy diferentes fuentes: ficheros CSV, bases de datos relacionales...
    -implementacion de operaciones sobre estructuras de datos completas como seleccion de subconjuntos, agrupaciones, filtrado, ordenacion...
    -capacidad para el tratamiento de missing values segun las necesidades del usuari/cliente
    -utilidad tanto para la carga y tratamiento de datos como para el analisis estadistico, exploratorio y modelado
    - integracoin con otras librerias como statsmodel, SciPy, NumPy(en la que se basa),y scikit-learn...
    -alto rendimiento, que puede ser incluso mayor haciendo uso de Cython (que permite integrar extensioines escritas en C en programas escritos en python)
    -en esencia, trata de incorporar a Python, estructuras de datos y operaciones como las existentes en R:
            -estructuras: vectores(con nombre),data.frame,data.table...
            -operaciones: familia apply, agregacion y agrupacion con data.table...

Estructuras de Datos

El pilar basico de la libreria pandas, al igual que como ocurria con NumPy, son las estructuras de datos que ponen a nustra disposicion.
En este caso, dispondremos de dos estructuras de datos relacionadas, pero con su funcionamiento especifico:
    -Series: para informacion unidimensional 
    -DataFrame: para informacion tabular
son estructuras muy similares a las ofrecidas por R: vectores (con nombre) y data.frame

Utilizacion basica de elementos de pandas

Al igual que con numpy, pandas no pertenece al core de python, por lo que habra que importarlo siempre a la hora de usarlo

In [1]:
import numpy as np
import pandas as pd

Series

Una serie es una estructura de datos unidimensional que contiene:

    -un array de datos: que pueden tener cualquier tipo de dato de los ofrecidos por NumPy
    -un array de etiquetas/labels: asociando una etiqueta a cada dato del array anterior y que se denomina indice, aunque no es obligatorio que el desarrollador especifique el mismo 

creacion de series

para la creacion de series contamos con una funcion "constructor" (Series) que puede recibir, principalmente, los siguientes parametros:
    -data: es obligatorio, contiene los datros que queremos cargar en la Serie y podra ser un valor escalar, una secuencia de Python o un ndarray unidimensional de NumPy 
    -index: es opcional contiene las etiquetas que queremos asignar a los valores de la Serie y podra ser una secuencia de python un ndarray unidimensional de NumPy. En caso de no suministrarse el valor por defecto es np.arange(0, tam_datos).
    -dtype: que podra ser cualquier tipo de dato de NumPy 

In [2]:
#Serie desde escalar
serie = pd.Series(5)
serie

0    5
dtype: int64

In [5]:
#serie desde secuencia
serie = pd.Series([1,2,3,4,5], dtype= np.string_)
serie

0    b'1'
1    b'2'
2    b'3'
3    b'4'
4    b'5'
dtype: bytes8

In [7]:
#serie desde ndarray
array = np.array([2,4,6,8,10])
serie = pd.Series(array)
serie

0     2
1     4
2     6
3     8
4    10
dtype: int32

In [9]:
#serie con indice preestablecido
serie = pd.Series([1,2,3,4,5], index=['a','b','c','d','e'])
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [10]:
#serie desde diccionario (establece el indice desde las claves)
serie = pd.Series({'a':1,'b':2,'c':3,'d':4,'e':5}, dtype=np.float64)
serie

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
dtype: float64

Elementos de una Serie

Disponemos de dso atributos para recuperar los datos y el indice de una Serie de forma independiente.

In [6]:
serie = pd.Series([1,2,3,4,5], index=['a','b','c','d','e'], dtype=np.float64)
serie

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
dtype: float64

In [4]:
#valores de una serie
serie.values

array([1., 2., 3., 4., 5.])

In [5]:
#indice de una serie
serie.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

Los indices son inmutables, lo que impide que cambiemos un valor de indice de forma independiente. Sin embargo, podemos modificar un indice completo por otro

In [None]:
serie = pd.Series([1,2,3,4,5], index=['a','b','c','d','e'], dtype=np.float64)
serie

In [7]:
#modificar un elemento del indice de una serie   #NO SE PUEDE
serie.index[0] = 4

TypeError: Index does not support mutable operations

In [8]:
#modificar el indice de una serie
serie.index = ['f','g','h','i','j']
serie

f    1.0
g    2.0
h    3.0
i    4.0
j    5.0
dtype: float64

DataFrame

Un DataFrame es una estructura tabular (bidimensional) de informacion con las siguientes propiedades:

    -Esta compuesta por una serie ordenada de filas y una serie ordenada de columnas
    -Tiene un indice para las filas y otro indice para las columnas
    -Cada columna puede tener un tipo NumPy diferente
    -Puede ser visto como un diccionario de Series, todas ellas compartiendo el mismo indicie

Creacion de DataFrames

Para la creacion de DataFrames contamos con una funcion constructor (DataFrame) que puede recibir principalmente los siguientes parametros:
    -data: es obligatorio contiene datos que queremos cargar en el DataFrame y podra ser un diccionario de series, un diccionario de secuencias, un ndarray bidimensional, una Serie o otro DataFrame
    -index: es opcional, contiene las etiquetas que queremos asignar a las filas del DataFrame y podra ser una secuencia de Python o un ndarray unidimensional de NumPy. En caso de no suministrarse el valor por defecto es np.arange(0,num_filas)
    -columns: es opcional, contiene las etiquetas que queremos asignar a las columnas del DataFrame y podra ser una secuencia de python o un ndarray unidimensional de NumPy. En caso de no suministrarse el valor por defecto es np.arange(0,num_columnas)
    -dtype: es opcional, fijara el tipo de dato de todas las columnas y puede ser cualquier tipo de dato NumPy 

IMPORTANTE: si el tamaño de columnas no coincide se creara un DataFrame lo suficientemente grande como para contener al mayor y se asignara NaN a los huecos

In [13]:
#DataFrame desde diccionario de secuencias
dataframe = pd.DataFrame({'var1':[1,2,3,4], 'var2':['uno','dos','tres','cuatro'], 'var3':[1.0, 2.0, 3.0, 4.0]})
dataframe

Unnamed: 0,var1,var2,var3
0,1,uno,1.0
1,2,dos,2.0
2,3,tres,3.0
3,4,cuatro,4.0


In [14]:
#DataFrame desde diccionario de series
dataframe = pd.DataFrame({'var1':pd.Series([1,2,3],dtype=np.float64), 'var2':pd.Series(['a','b'])})
dataframe

Unnamed: 0,var1,var2
0,1.0,a
1,2.0,b
2,3.0,


In [15]:
#DataFrame desde ndarray con indices para filas y columnas
dataframe = pd.DataFrame(np.arange(16).reshape(4,4), index=['f1','f2','f3','f4'], columns=['c1','c2','c3','c4'])
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [20]:
#DataFrame desde ndarray con indices para filas y columnas con tipo fijo para todas
dataframe = pd.DataFrame(np.arange(16).reshape(4,4), dtype=np.float64)
dataframe

Unnamed: 0,0,1,2,3
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0
3,12.0,13.0,14.0,15.0


Elementos de un DataFrame

Disponemos de tres atributos para recuperar los datos, el indice y las columnas de un DataFrame de forma independiente

In [21]:
dataframe = pd.DataFrame({'var1':[1,2,3,4], 'var2':['uno','dos','tres','cuatro'], 'var3':[1.0, 2.0, 3.0, 4.0]})
dataframe

Unnamed: 0,var1,var2,var3
0,1,uno,1.0
1,2,dos,2.0
2,3,tres,3.0
3,4,cuatro,4.0


In [22]:
#valores de un DataFrame
dataframe.values

array([[1, 'uno', 1.0],
       [2, 'dos', 2.0],
       [3, 'tres', 3.0],
       [4, 'cuatro', 4.0]], dtype=object)

In [23]:
#indece de un DataFrame
dataframe.index

RangeIndex(start=0, stop=4, step=1)

In [25]:
#columnas de un DataFrame
dataframe.columns

Index(['var1', 'var2', 'var3'], dtype='object')

Denuevo los indices (tanto de las filas como de las columnas) sonj inmutables, pero denuevo, se pueden modificar de forma completa

In [26]:
#modificar un elemento del indice de filas de un DataFrame           #NO SE PUEDE
dataframe.index[0] = 4

TypeError: Index does not support mutable operations

In [27]:
#modificar un elemento del indice de columnas de un DataFrame               #NO SE PUEDE
dataframe.columns[0] = 4

TypeError: Index does not support mutable operations

In [30]:
#modificar el indice de las filas de un DataFrame 
dataframe.index = ['f1','f2','f3','f4']
dataframe

Unnamed: 0,var1,var2,var3
f1,1,uno,1.0
f2,2,dos,2.0
f3,3,tres,3.0
f4,4,cuatro,4.0


In [32]:
#modificar el indice de las filas de un DataFrame
dataframe.columns = ['c1','c2','c3']
dataframe

Unnamed: 0,c1,c2,c3
f1,1,uno,1.0
f2,2,dos,2.0
f3,3,tres,3.0
f4,4,cuatro,4.0


In [43]:
#forma de cambiar un solo elemento de mi columna
dataframe.rename(columns = {"c1":"col1"})

Unnamed: 0,col1,c2,c3
f1,1,uno,1.0
f2,2,dos,2.0
f3,3,tres,3.0
f4,4,cuatro,4.0


Operaciones Basicas

Trataremos aqui las operaciones mas basicas que se pueden realizar sobre las estructuras de datos pandas. Estas operaciones tienen un funcionamiento practicamente identico en Series y DataFrames. En caso de que no sea asi en algun caso concreto se indicara explicitamente

Tratamiento de Series y DataFrames como diccionarios

Dado que internamente tanto las Series como los DataFrames pueden verse como diccionarios, podemos aplicar sobre los mismos cualquier funcionalidad que aplicariamos sobre diccionarios basicos del core de Python.
IMPORTANTE: hay que tener en cuenta que en DataFrame el diccionario es un diccionario de "columnas"

In [44]:
serie = pd.Series([1,2,3,4], index=['a','b','c','d'])
serie

a    1
b    2
c    3
d    4
dtype: int64

In [45]:
dataframe = pd.DataFrame({'var1':serie,'var2':serie})
dataframe

Unnamed: 0,var1,var2
a,1,1
b,2,2
c,3,3
d,4,4


Indexacion por clave

In [46]:
#indexacion mediante clave del indice en series
serie['a']

1

In [49]:
#indexacion por nombre de columna en dataframes
dataframe['var2']

a    1
b    2
c    3
d    4
Name: var2, dtype: int64

comprobacion de la existencia de una clave

In [50]:
#comprobacion de la existencia de una clave en el indice de series
'b' in serie

True

In [51]:
#comprobacion de la existencia de un nombre de columna en dataframes
'b' in dataframe

False

In [52]:
#comprobacion de la existencia de un nombre de columna en dataframes
'var1' in dataframe

True

Adicion de elementos

IMPORTANTE: Al añadir columnas a un DataFrame, el tamaño del vector añadido debera coincidir con el del DataFrame original. En caso contrario se recibira un error

In [53]:
#adicion de elementos a series
serie['e'] = 5
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [57]:
#adicion de elementos a dataframes
dataframe['var3'] = [5,6,7,4]
dataframe

Unnamed: 0,var1,var2,var3
a,1,1,5
b,2,2,6
c,3,3,7
d,4,4,4


Eliminacion de elementos

In [58]:
#eliminacion de elementos en series
del serie['e']
serie

a    1
b    2
c    3
d    4
dtype: int64

In [59]:
#eliminacion de columnas en dataframe
del dataframe['var3']
dataframe

Unnamed: 0,var1,var2
a,1,1
b,2,2
c,3,3
d,4,4


Tratamiento de sereis y DataFrames como ndarrays

Dado que, internamente, cualquier estructura de pandas esta implementada sobre ndarrays de NumPy, es posible realizar sobre Series y DataFrames todas las operaciones que se pueden realizar sobre los ndarrays
IMPORTANTE: dado que un ndarray no puede mezclar elementos de diferentes tipos y un dataframe si, algunas de las operaciones sobre los dataframes estaran supeditadas a que todas sus columnas tengan el mismo tipo

In [3]:
serie = pd.Series([1,2,3,4], index=['a','b','c','d'])
serie

a    1
b    2
c    3
d    4
dtype: int64

In [4]:
dataframe = pd.DataFrame({'var1': pd.Series(serie, dtype= np.int32), 'var2': pd.Series(serie, dtype=np.string_)})
dataframe

Unnamed: 0,var1,var2
a,1,b'1'
b,2,b'2'
c,3,b'3'
d,4,b'4'


Consulta de composicion

Disponemos de los mismos atributos de consulta que en ndarrays, si bien hay que tener en cuenta que:
    -El atributo dtype será dtypes en DataFrames dada la posibilidad de multiples tipos
    -el atributo ndim en Series simepre valdrá 1 dado que siempre son estructuras unidimensionales y 2 en DataFrames dado que siempre son estructuras bidimensionales

In [64]:
#coonsulta del tipo almacenado en una serie
serie.dtype

dtype('int64')

In [65]:
#consulta de los tipos almacenados en un dataframe
dataframe.dtypes

var1     int32
var2    object
dtype: object

In [66]:
#condsulta del numero de dimensiones de una serie
serie.ndim

1

In [67]:
#consulta del numero de dimensiones de un dataframe
dataframe.ndim

2

In [68]:
#consulta de la forma de una serie
serie.shape

(4,)

In [69]:
#consulta de la forma de un dataframe
dataframe.shape

(4, 2)

In [70]:
#consulta del numero de elementos de una serie
serie.size

4

In [71]:
#consulta del numero de elementos de un dataframe
dataframe.size

8

Operaciones Escalares 

Al aplicar una operacion sobre una estrucutrua de pandas y un escalar se obtendra otra estructura de pandas de indenticas caracteristicas a la inicial pero con la operacion aplicada elemento a elemento, manteniendo el indice inalterado

IMPORTANTE: dadto que un datafram puede mezclar tipos muy diferentes en sus columnas, la aplicacion de una operacion con un escalar elemento a elemento puede no ser valida 

In [5]:
#suma de series y escalar
serie + 2

a    3
b    4
c    5
d    6
dtype: int64

In [6]:
#division de series y escalar
1/serie

a    1.000000
b    0.500000
c    0.333333
d    0.250000
dtype: float64

In [7]:
#multiplicaiopn de dataframe y escalar
dataframe * 2

Unnamed: 0,var1,var2
a,2,b'11'
b,4,b'22'
c,6,b'33'
d,8,b'44'


In [8]:
#division de datafram y escalar                             #NO SE PUEDE
1/dataframe

TypeError: unsupported operand type(s) for /: 'int' and 'bytes'

operaciones entre estructuras de pandas

Al aplicar una operacion entre estructuras de pandas se aplicara la misma elemento a elmento. En el caso de pandas no es necesario, como lo era en NumPy, que los operandos tengan el mismo tamaño y forma ya que se aplicara un proceso de "alineacion". Este proceso devolvera:
    -como indices: la union de las claves de ambos operandos
    -como valores: el resultado de aplicar la operacion entre cada pareja de elementos(si coinciden las claves entre ambos operandos) o NaN (en caso contrario)

IMPORTANTE: De nuevo, el hecho de que un DataFrame pueda mezclar tipos en sus contenidos hace que no todas las operaciones matematicas se puedan aplicar a los mismos

In [9]:
serie

a    1
b    2
c    3
d    4
dtype: int64

In [10]:
dataframe

Unnamed: 0,var1,var2
a,1,b'1'
b,2,b'2'
c,3,b'3'
d,4,b'4'


In [11]:
serie1 = serie[:]
serie1

a    1
b    2
c    3
d    4
dtype: int64

In [12]:
serie1['e'] = 7
serie1

a    1
b    2
c    3
d    4
e    7
dtype: int64

In [13]:
dataframe1 = dataframe
dataframe1['var3'] = [1,2,3,4] 
dataframe1

Unnamed: 0,var1,var2,var3
a,1,b'1',1
b,2,b'2',2
c,3,b'3',3
d,4,b'4',4


In [14]:
#suma de series
serie + serie1

a    2.0
b    4.0
c    6.0
d    8.0
e    NaN
dtype: float64

In [15]:
#suma de dataframe
dataframe + dataframe1              #var3 tambien se crea en dataframe por eso se suma en la 3er columna la 3er columna del otro 

Unnamed: 0,var1,var2,var3
a,2,b'11',2
b,4,b'22',4
c,6,b'33',6
d,8,b'44',8


si copio algo asi "serie1 = serie[:]" se va a hacer una copia y puedo modificar lo que quiera en serie1 que serie ni se va a enterar pero si yo hago una copia asi "dataframe1 = dataframe" lo que estoy haciendo es que valgan lo mismo y si modifico uno se modifica el otro

In [16]:
#producto de dataframe                                                          #NO SE PUEDE MULTIPLICAR DATAFRAMES
dataframe * dataframe1

TypeError: can't multiply sequence by non-int of type 'bytes'

Traspocicion -  solo DataFrames

podemos transponer filas por columnas, pero unicamente en DataFrame (ya que las Series pueden ser unidimensionales). Basicamente lo que se realizara es intercambiar el indice de columnas por el de filas
con "nombreDelDataFrame.T"

In [17]:
dataframe

Unnamed: 0,var1,var2,var3
a,1,b'1',1
b,2,b'2',2
c,3,b'3',3
d,4,b'4',4


In [18]:
dataframe.T

Unnamed: 0,a,b,c,d
var1,1,2,3,4
var2,b'1',b'2',b'3',b'4'
var3,1,2,3,4


Funciones de NumPy (universal functions, operaciones matematicas...)

Podemos aplicar cualquier funcion de NumPy a cualquier estructura de pandas
IMPORTANTE: de nuevo, al poder tener multiples tipos en DataFrames no siempre se podran aplicar las operaciones (o el resultado obtenido no sera el esperado). Ademas, en el caso de DataFrames en caso de no indicar un valor para axis se aplicara la operacion por columnas y nunca sobre el DataFrame completo.

In [19]:
#operaciones sobre series
np.sqrt(serie)

a    1.000000
b    1.414214
c    1.732051
d    2.000000
dtype: float64

In [20]:
dataframe

Unnamed: 0,var1,var2,var3
a,1,b'1',1
b,2,b'2',2
c,3,b'3',3
d,4,b'4',4


In [21]:
#operaciones sobre dataframes (columna a columna, por defecto)
np.sum(dataframe)

var1         10
var2    b'1234'
var3         10
dtype: object

In [22]:
#operacoines sobre dataframes (especificando eje)
np.sum(dataframe, axis=1)

  return reduction(axis=axis, out=out, **passkwargs)


a    2
b    4
c    6
d    8
dtype: int64

Operaciones basicas (II)

indexacion y slicing en pandas
Ademas de poder reutilizar los metodos de indexacion y slicing de NumPy sobre Series y DataFrames (con las limitaciones ya comentadas), pandas pone a nuestra disposicion nuevos metodos de indexacion que permiten tener un mayor control sobre la misma y superar las limitaciones que nos pone NumPy frente a estas estructuras. Veamos todas las posibles combinaciones.

Indexacion por atributo de clave

Podemos indexar un elemento concreto de una Serie o una columna concreta de un DataFrame mediante el uso de su etiqueta/clave como atributo, con sintaxis obj.etiqueta

In [8]:
serie = pd.Series([1,2,3,4], index=['a','b','c','d'])
serie

a    1
b    2
c    3
d    4
dtype: int64

In [9]:
serie.a

1

In [5]:
dataframe = pd.DataFrame(np.arange(16).reshape(4,4), index=['f1','f2','f3','f4'], columns=['c1','c2','c3','c4'])
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [6]:
dataframe.c1

f1     0
f2     4
f3     8
f4    12
Name: c1, dtype: int32

indexacion con sintaxis [] directa


<img src= imgs/indexacionconsintaxis[]directa.png>

In [7]:
serie[0]

1

In [18]:
serie['d']

4

In [19]:
serie[0:2]

a    1
b    2
dtype: int64

In [20]:
serie['a':'c']

a    1
b    2
c    3
dtype: int64

In [21]:
serie[['a','c']]

a    1
c    3
dtype: int64

In [22]:
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [10]:
dataframe[0] #error por que esta intentadno encontrar una columna que se llame 0, y no hay ninguna columna que se llame 0

KeyError: 0

indexacion con metodo .loc - por claves

<img src= "imgs/indexacion.locPorClaves.png">

In [23]:
serie.loc['b']

2

In [25]:
serie.loc['b':'d']

b    2
c    3
d    4
dtype: int64

In [27]:
serie.loc[['b','d']]

b    2
d    4
dtype: int64

In [28]:
serie.loc[[True, True, False, True]]

a    1
b    2
d    4
dtype: int64

In [24]:
dataframe.loc['f1']

c1    0
c2    1
c3    2
c4    3
Name: f1, dtype: int32

In [29]:
dataframe.loc['f1', 'c1']

0

In [31]:
dataframe.loc[:,'c1']

f1     0
f2     4
f3     8
f4    12
Name: c1, dtype: int32

indexacion con metodo .iloc - por indices

<img src='imgs/indexacion.ilocPorIndices.png'>

In [68]:
#hice la tabla de arriba

iloc = pd.DataFrame(
            {'Tipo':['obj.iloc[num_val]', 'obj.iloc[num_val1:nom_val2]', 'obj.iloc[[num_val1,...,num_valn]]', 'obj.iloc[sel1,sel2]'],
             'En Series':['Seleccion por posicion','Seleccion por posicion','Seleccion por posicion','ERROR: seleccion por clave de fila (sel1) y columna (sel2). Selectrores:posicion, slice o secuencia'],
             'En DataFrames':['Seleccion por posicion de filas', 'Seleccion por posicion de filas', 'Seleccion por posicion de filas', None]},
)
iloc

Unnamed: 0,Tipo,En Series,En DataFrames
0,obj.iloc[num_val],Seleccion por posicion,Seleccion por posicion de filas
1,obj.iloc[num_val1:nom_val2],Seleccion por posicion,Seleccion por posicion de filas
2,"obj.iloc[[num_val1,...,num_valn]]",Seleccion por posicion,Seleccion por posicion de filas
3,"obj.iloc[sel1,sel2]",ERROR: seleccion por clave de fila (sel1) y co...,


In [32]:
serie.iloc[0]

1

In [36]:
serie.iloc[[0,2]]

a    1
c    3
dtype: int64

In [41]:
dataframe.iloc[0]

c1    0
c2    1
c3    2
c4    3
Name: f1, dtype: int32

In [39]:
dataframe.iloc[3,2]

14

In [40]:
dataframe.iloc[:,2]

f1     2
f2     6
f3    10
f4    14
Name: c3, dtype: int32

Índices jerárquicos en pandas

Los índices jerárquicos de 'pandas' permiten tener más de un nivel en cualquiera de los índices de una estructura. Esto puede servir para agrupar más claramente los datos, o para conseguir identificar las filas por una clave única. En cierto modo, también es una forma de poder trabajar con tablas de más de dos dimensiones.

In [43]:
peliculas = pd.DataFrame(
            {'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón']},
            index = [[2014, 2014, 2013, 2013], ['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']]
)
peliculas

Unnamed: 0,Unnamed: 1,Valoración,Presupuesto,Director
2014,Godzilla,6.0,160.0,Peter Jackson
2014,El Hobbit III,,250.0,Gareth Edwards
2013,El lobo de Wall Street,8.75,100.0,Martin Scorsese
2013,Gravity,,,Alfonso Cuarón


A partir de la construcción del índice jerárquico, podemos hacer indexaciones totales (mediante tuplas) o parciales (mediante selección de uno de los elementos del índice).

In [44]:
# Indexación total
peliculas.loc[(2014, 'Godzilla')]

Valoración               6.0
Presupuesto            160.0
Director       Peter Jackson
Name: (2014, Godzilla), dtype: object

In [45]:
# Indexación parcial
peliculas.loc[2014]

Unnamed: 0,Valoración,Presupuesto,Director
Godzilla,6.0,160.0,Peter Jackson
El Hobbit III,,250.0,Gareth Edwards


Podemos pasar niveles del índice jerárquico de las filas a las columnas mediante la función <b>unstack</b>, como si de una Pivot Table de Excel se tratase. Con <b>stack</b> realizarmeos la operación contraria.

In [46]:
# Pasamos el último nivel del índice de filas al de columnas
peliculas_2 = peliculas.unstack()
peliculas_2

Unnamed: 0_level_0,Valoración,Valoración,Valoración,Valoración,Presupuesto,Presupuesto,Presupuesto,Presupuesto,Director,Director,Director,Director
Unnamed: 0_level_1,El Hobbit III,El lobo de Wall Street,Godzilla,Gravity,El Hobbit III,El lobo de Wall Street,Godzilla,Gravity,El Hobbit III,El lobo de Wall Street,Godzilla,Gravity
2013,,8.75,,,,100.0,,,,Martin Scorsese,,Alfonso Cuarón
2014,,,6.0,,250.0,,160.0,,Gareth Edwards,,Peter Jackson,


In [47]:
peliculas

Unnamed: 0,Unnamed: 1,Valoración,Presupuesto,Director
2014,Godzilla,6.0,160.0,Peter Jackson
2014,El Hobbit III,,250.0,Gareth Edwards
2013,El lobo de Wall Street,8.75,100.0,Martin Scorsese
2013,Gravity,,,Alfonso Cuarón


In [48]:
# Pasamos el último nivel del índice de columnas al de filas
peliculas.stack()

2014  Godzilla                Valoración                 6.0
                              Presupuesto              160.0
                              Director         Peter Jackson
      El Hobbit III           Presupuesto              250.0
                              Director        Gareth Edwards
2013  El lobo de Wall Street  Valoración                8.75
                              Presupuesto              100.0
                              Director       Martin Scorsese
      Gravity                 Director        Alfonso Cuarón
dtype: object

In [49]:
peliculas_2.stack()

Unnamed: 0,Unnamed: 1,Valoración,Presupuesto,Director
2013,El lobo de Wall Street,8.75,100.0,Martin Scorsese
2013,Gravity,,,Alfonso Cuarón
2014,El Hobbit III,,250.0,Gareth Edwards
2014,Godzilla,6.0,160.0,Peter Jackson


Reindexacion, establecimiento y descarte de indices

Pueden existir ocasiones en las que se desee modificar el indice de una estructura tras haberla creado. En este caso no se trata d ecmabiar las etiquetas asignadas sino de reordenaciones, eliminacion o adicion de etiquetas.Para ello, pandas nos ofrece el metodo reindex. Lo que obtendremos sera una nueva estructura (copia) con el indice seleccionado

En el caso de un nuevo indice, los elementos nuevos se rellenaran a NaN. Para evitarlo, dsiponemos de los sigueintes parametros:
    -fill_value: rellen0o a un valor fijo establecido
    -method: relleno segun un metodo definido:
            -ffill: relleno mediante la observacion de los ultimos valores rellenos
            -bfill: relleno mediante la observacon de los proximos valores rellenos

In [50]:
serie = pd.Series([1,2,3,4], index=['a','b','c','d'])
serie

a    1
b    2
c    3
d    4
dtype: int64

In [51]:
dataframe = pd.DataFrame(np.arange(16).reshape(4,4), index=['f1','f2','f3','f4'], columns=['c1','c2','c3','c4'])
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [52]:
#reordenacion del indice de una serie
serie.reindex(['d','c','b','a'])  #todo en orden inverso

d    4
c    3
b    2
a    1
dtype: int64

In [53]:
#adicion de etiquetas a un indice de una serie
serie.reindex(['a','b','e','d','c'])

a    1.0
b    2.0
e    NaN
d    4.0
c    3.0
dtype: float64

In [54]:
#adicion de etiquetas con valor de relleno a un indice de una serie
serie.reindex(['a','b','e','d','c'], fill_value=0)

a    1
b    2
e    0
d    4
c    3
dtype: int64

In [69]:
#seleccion de indice de filas de un DataFrame
dataframe.reindex(['f1','f3'])

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f3,8,9,10,11


In [70]:
#adicion de etiquetas al indice de filas de un DataFrame
dataframe.reindex(['f1','f3','f6'])

Unnamed: 0,c1,c2,c3,c4
f1,0.0,1.0,2.0,3.0
f3,8.0,9.0,10.0,11.0
f6,,,,


In [81]:
#adicion de etiquetas al indice de filas de un DtaFrame cin metodo de relleno
dataframe.reindex(['f1','f3','f10'], method='ffill')

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f3,8,9,10,11
f10,0,1,2,3


In [84]:
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [85]:
#adicion de etiquetas al indice de filas de un DtaFrame cin metodo de relleno
dataframe.reindex(['f1','f3','f10'], method='bfill')

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f3,8,9,10,11
f10,4,5,6,7


In [86]:
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [82]:
#modificacion del indice de columnas de un DataFrame
dataframe.reindex(columns=['c1','c3','c2'])


Unnamed: 0,c1,c3,c2
f1,0,2,1
f2,4,6,5
f3,8,10,9
f4,12,14,13


En cualquier momento, podemos descartar el índice de un DataFrame incorporando el mismo como una columna más de nuestros datos. Esto lo haremos mediante la función <b>reset_index</b>. Esto hará que el índice pase a ser una secuencia numérica.

In [87]:
dataframe.reset_index()

Unnamed: 0,index,c1,c2,c3,c4
0,f1,0,1,2,3
1,f2,4,5,6,7
2,f3,8,9,10,11
3,f4,12,13,14,15


Del mismo modo, podemos reestablecer un conjunto de columnas como índice de un DataFrame con la función <b>set_index</b>.

In [88]:
dataframe.set_index(['c1'])

Unnamed: 0_level_0,c2,c3,c4
c1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1,2,3
4,5,6,7
8,9,10,11
12,13,14,15


Operaciones básicas (III)

Tablas pivote

Siguiendo con las funciones de gestión de índices, pandas incluye la posibilidad de gestionar los mismos como si de una Pivot Table de Excel se tratase, haciendo mucho más sencillo el análisis de información resultante.

In [89]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013, 2001], 
             'Valoración':[6, None, 8.75, None, 8.9],
             'Presupuesto':[160, 250, 100, None, 93],
             'Director':['Gareth Edwards', 'Peter Jackson', 'Martin Scorsese', 'Alfonso Cuarón', 'Peter Jackson'],
             'Título':['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity', 'Lord of the Rings']}
)
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Gareth Edwards,Godzilla
1,2014,,250.0,Peter Jackson,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity
4,2001,8.9,93.0,Peter Jackson,Lord of the Rings


In [90]:
# Filas: Año, Columnas: Director, Valores: Título
peliculas.pivot(columns = 'Director', index = 'Año', values = 'Título')

Director,Alfonso Cuarón,Gareth Edwards,Martin Scorsese,Peter Jackson
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2001,,,,Lord of the Rings
2013,Gravity,,El lobo de Wall Street,
2014,,Godzilla,,El Hobbit III


Si bien esto mismo ya lo podíamos realizar con las operaciones vistas hasta ahora.

In [91]:
# Establecemos el índice a las dos variables sobre las que queremos "pivotar"
p = peliculas.set_index(['Año', 'Director'])
p

Unnamed: 0_level_0,Unnamed: 1_level_0,Valoración,Presupuesto,Título
Año,Director,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2014,Gareth Edwards,6.0,160.0,Godzilla
2014,Peter Jackson,,250.0,El Hobbit III
2013,Martin Scorsese,8.75,100.0,El lobo de Wall Street
2013,Alfonso Cuarón,,,Gravity
2001,Peter Jackson,8.9,93.0,Lord of the Rings


In [92]:
# Pasamos el último nivel de índice de filas a columnas
p = p.unstack()
p

Unnamed: 0_level_0,Valoración,Valoración,Valoración,Valoración,Presupuesto,Presupuesto,Presupuesto,Presupuesto,Título,Título,Título,Título
Director,Alfonso Cuarón,Gareth Edwards,Martin Scorsese,Peter Jackson,Alfonso Cuarón,Gareth Edwards,Martin Scorsese,Peter Jackson,Alfonso Cuarón,Gareth Edwards,Martin Scorsese,Peter Jackson
Año,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
2001,,,,8.9,,,,93.0,,,,Lord of the Rings
2013,,,8.75,,,,100.0,,Gravity,,El lobo de Wall Street,
2014,,6.0,,,,160.0,,250.0,,Godzilla,,El Hobbit III


In [93]:
# Elegimos únicamente el valor de la columna Título
p['Título']

Director,Alfonso Cuarón,Gareth Edwards,Martin Scorsese,Peter Jackson
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2001,,,,Lord of the Rings
2013,Gravity,,El lobo de Wall Street,
2014,,Godzilla,,El Hobbit III


También podemos crear tablas pivote utilizando una función de agregación para los valores, de forma que se haga una agrupación de resultados.

In [94]:
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Gareth Edwards,Godzilla
1,2014,,250.0,Peter Jackson,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity
4,2001,8.9,93.0,Peter Jackson,Lord of the Rings


In [95]:
peliculas.loc[peliculas['Año'] == 2001, 'Año']

4    2001
Name: Año, dtype: int64

In [96]:
# Hacemos que haya dos películas para el mismo año y director
peliculas.loc[peliculas['Año'] == 2001, 'Año'] = 2014
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Gareth Edwards,Godzilla
1,2014,,250.0,Peter Jackson,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity
4,2014,8.9,93.0,Peter Jackson,Lord of the Rings


In [97]:
# Utilizamos la función pivot_table para establecer: valor, índice, columnas y función de agregación en caso de colisión
pd.pivot_table(peliculas, values='Presupuesto', index=['Director'], columns=['Año'], aggfunc=np.sum)

Año,2013,2014
Director,Unnamed: 1_level_1,Unnamed: 2_level_1
Alfonso Cuarón,0.0,
Gareth Edwards,,160.0
Martin Scorsese,100.0,
Peter Jackson,,343.0


Eliminación de filas y/o columnas en pandas

Aunque el proceso de eliminación de columnas se puede hacer mediante la aplicación de los mismos métodos que en el caso de diccionarios, pandas pone a nuestra disposición el método <b>drop</b>.

In [98]:
serie = pd.Series([1,2,3,4], index=['a','b','c','d'])
serie

a    1
b    2
c    3
d    4
dtype: int64

In [99]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4), index=['f1', 'f2', 'f3', 'f4'], columns=['c1','c2','c3','c4'])
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [100]:
# Eliminación de valores de una Serie
serie.drop('a')

b    2
c    3
d    4
dtype: int64

In [101]:
del serie['b']

In [102]:
serie

a    1
c    3
d    4
dtype: int64

In [103]:
# Eliminación de filas de un DataFrame
dataframe.drop(['f1',  'f2'])

Unnamed: 0,c1,c2,c3,c4
f3,8,9,10,11
f4,12,13,14,15


In [104]:
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [105]:
# Eliminación de columnas de un DataFrame
dataframe.drop('c2', axis=1)

Unnamed: 0,c1,c3,c4
f1,0,2,3
f2,4,6,7
f3,8,10,11
f4,12,14,15


In [106]:
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


Aritmética con estructuras de pandas

Aunque, como ya se ha visto, podemos aprovechar la compatibilidad con NumPy para llevar a cabo operaciones aritméticas básicas, estas operaciones aplican el proceso de "alineación" de índices introduciendo valores NaN en los resultados cuando no hay coincidencia de claves. Para solucionar este problema, pandas nos ofrece algunas funciones de utilidad para las más básicas (suma, resta, multiplicación y división) que permiten establecer un valor de "relleno" en el caso de claves no coincidentes

In [107]:
serie1 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
serie1

a    1
b    2
c    3
d    4
dtype: int64

In [108]:
serie2 = pd.Series([5, 6, 7, 8], index=['c', 'd', 'e', 'f'])
serie2

c    5
d    6
e    7
f    8
dtype: int64

In [109]:
# Resultado de operación básica"
serie1 + serie2

a     NaN
b     NaN
c     8.0
d    10.0
e     NaN
f     NaN
dtype: float64

In [110]:
# Resultado con operación pandas
serie1.add(serie2)

a     NaN
b     NaN
c     8.0
d    10.0
e     NaN
f     NaN
dtype: float64

In [111]:
# Resultado con operación pandas y relleno
serie1.add(serie2, fill_value=0)

a     1.0
b     2.0
c     8.0
d    10.0
e     7.0
f     8.0
dtype: float64

In [112]:
serie1.sub(serie2, fill_value=0)

a    1.0
b    2.0
c   -2.0
d   -2.0
e   -7.0
f   -8.0
dtype: float64

In [113]:
serie1.mul(serie2, fill_value=0)

a     0.0
b     0.0
c    15.0
d    24.0
e     0.0
f     0.0
dtype: float64

In [114]:
serie1.div(serie2, fill_value=0)

a         inf
b         inf
c    0.600000
d    0.666667
e    0.000000
f    0.000000
dtype: float64

Ordenación en estructuras de pandas

pandas pone a nuestra disposición varias formas de realizar ordenaciones de los contenidos de una Serie o un DataFrame. Vamos a ver los más utilizados.

Ordenación en Series

In [115]:
serie = pd.Series([3, 2, 1, 4], index=['d', 'a', 'c', 'b'])
serie

d    3
a    2
c    1
b    4
dtype: int64

In [116]:
# Ordenación por índice
serie.sort_index()

a    2
b    4
c    1
d    3
dtype: int64

In [117]:
# Ordenación descendente por índice
serie.sort_index(ascending=False)

d    3
c    1
b    4
a    2
dtype: int64

In [118]:
# Ordenación por valores
serie.sort_values()

c    1
a    2
d    3
b    4
dtype: int64

In [119]:
# Ordenación por valores descendente
serie.sort_values(ascending=False)

b    4
d    3
a    2
c    1
dtype: int64

Ordenación en DataFrames

In [120]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4), index=['f3', 'f1', 'f4', 'f2'], columns=['c3', 'c1', 'c4', 'c2'])
dataframe

Unnamed: 0,c3,c1,c4,c2
f3,0,1,2,3
f1,4,5,6,7
f4,8,9,10,11
f2,12,13,14,15


In [121]:
# Ordenación por índice de filas
dataframe.sort_index()

Unnamed: 0,c3,c1,c4,c2
f1,4,5,6,7
f2,12,13,14,15
f3,0,1,2,3
f4,8,9,10,11


In [122]:
# Ordenación por índice de columnas
dataframe.sort_index(axis=1)

Unnamed: 0,c1,c2,c3,c4
f3,1,3,0,2
f1,5,7,4,6
f4,9,11,8,10
f2,13,15,12,14


In [123]:
# Ordenación descendente por índice de filas
dataframe.sort_index(ascending=False)

Unnamed: 0,c3,c1,c4,c2
f4,8,9,10,11
f3,0,1,2,3
f2,12,13,14,15
f1,4,5,6,7


In [124]:
# Ordenación por valores de filas
dataframe.sort_values(['f1'], axis=1)

Unnamed: 0,c3,c1,c4,c2
f3,0,1,2,3
f1,4,5,6,7
f4,8,9,10,11
f2,12,13,14,15


In [125]:
# Ordenación por valores de columnas
dataframe.sort_values(['c1'])

Unnamed: 0,c3,c1,c4,c2
f3,0,1,2,3
f1,4,5,6,7
f4,8,9,10,11
f2,12,13,14,15


Recuperación de muestras parciales del contenido

En estructuras de datos potencialmente grandes, suele ser muy necesaria la recuperación de una muestra de ejemplo de un conjunto reducido de elementos que permitan hacerse una idea del contenido de la estructura sin necesidad de listar TODO el contenido de la misma. Pandas, como R, pone a nuestra disposición dos métodos <b>head</b> (para obtener un muestra del inicio de la estructura) y <b>tail</b> para obtener la muestras del final. Ambos métodos recibirán como parámetro el número de registros a recuperar.

In [126]:
serie = pd.Series(np.arange(100))
serie

0      0
1      1
2      2
3      3
4      4
      ..
95    95
96    96
97    97
98    98
99    99
Length: 100, dtype: int32

In [127]:
dataframe = pd.DataFrame(np.arange(100).reshape(10, 10))
dataframe

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0,1,2,3,4,5,6,7,8,9
1,10,11,12,13,14,15,16,17,18,19
2,20,21,22,23,24,25,26,27,28,29
3,30,31,32,33,34,35,36,37,38,39
4,40,41,42,43,44,45,46,47,48,49
5,50,51,52,53,54,55,56,57,58,59
6,60,61,62,63,64,65,66,67,68,69
7,70,71,72,73,74,75,76,77,78,79
8,80,81,82,83,84,85,86,87,88,89
9,90,91,92,93,94,95,96,97,98,99


In [130]:
# Recuperación de los 5 primeros elementos de una Serie
serie.head()

0    0
1    1
2    2
3    3
4    4
dtype: int32

In [131]:
# Recueperación de los 5 últimos elementos de una Serie
serie.tail()

95    95
96    96
97    97
98    98
99    99
dtype: int32

In [133]:
dataframe.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0,1,2,3,4,5,6,7,8,9
1,10,11,12,13,14,15,16,17,18,19
2,20,21,22,23,24,25,26,27,28,29
3,30,31,32,33,34,35,36,37,38,39
4,40,41,42,43,44,45,46,47,48,49


In [134]:
dataframe.tail()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
5,50,51,52,53,54,55,56,57,58,59
6,60,61,62,63,64,65,66,67,68,69
7,70,71,72,73,74,75,76,77,78,79
8,80,81,82,83,84,85,86,87,88,89
9,90,91,92,93,94,95,96,97,98,99


In [132]:
# Recuperación de los 3 primeros elementos de un DataFrame
dataframe.head(3)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0,1,2,3,4,5,6,7,8,9
1,10,11,12,13,14,15,16,17,18,19
2,20,21,22,23,24,25,26,27,28,29


In [135]:
# Recueperación de los 3 últimos elementos de un DataFrame
dataframe.tail(3)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
7,70,71,72,73,74,75,76,77,78,79
8,80,81,82,83,84,85,86,87,88,89
9,90,91,92,93,94,95,96,97,98,99


# Lectura y escritura de información

Más que creando Series o DataFrames de cero, o incluso a partir de secuencias del core de Python o ndarrays, el uso más típico de pandas se basa en la carga de información desde ficheros/fuentes de información para su posterior exploración, transformación y análisis.

## Lectura de ficheros en formato texto

Probablemente, una de las formas más recurrentes de trabajo para el análisis de datos: fuentes de datos públicas, logs, tablas históricas de información, exportaciones desde base de datos... La librería pandas, nos ofrece funciones para trabajar con ficheros en múltiples formatos, todos ellos creando un DataFrame con la información leída:<br/>
<ul>
<li>Ficheros separados por coma (.csv): mediante la función <b>read_csv</b>.</li>
<li>Ficheros separados por tabulador (.tsv): mediante la función <b>read_table</b></li>
<li>Ficheros de ancho fijo: mediante la función <b>read_fwf</b>.</li>
</ul>

De estos tres métodos de lectura de información, el más común es el segundo, ya que, por un lado, engloba al primero permitiendo el establecimiento del carácter separador por parte del desarrollado y, por otro, porque los ficheros de ancho fijo son cada vez menos frecuentes (aunque se siguen usando).<br/>

Tanto <b>read_csv</b> como <b>read_table</b> tienen un conjunto muy amplio de parámetros que permiten configurar de un modo preciso la lectura de información que se va a hacer. Los parámetros más importantes/comunes son los siguientes:<br/>
<ul>
<li><b>path:</b> Ruta del fichero del que se va a realizar la lectura.</li>
<li><b>sep:</b> Carácter(es) que se utilizan como separador de campos en el fichero.</li>
<li><b>header:</b> Índice de la fila que contiene los nombres de las columnas (None en caso de no haber).</li>
<li><b>index_col:</b> Índice de la columna o secuencia de índices que se deben usar como índice de filas de los datos.</li>
<li><b>skiprows:</b> Número de filas o secuencia de índices de fila que se deben ignorar en la carga.</li>
<li><b>names:</b> Secuencia que contiene los nombres de las columnas (usado junto con header=None).</li>
<li><b>na_values:</b> Secuencia de valores que, de encontrarse en el fichero, deben ser tratados como NaN.</li>
<li><b>dtype:</b> Diccionario en el que las claves serán nombres de columnas y los valores serán tipos de NumPy a los que se debe convertir su contenido.</li>
<li><b>parse_dates:</b> Flag que indica si Python debe intentar parsear datos con formato semejante a las fechas como fechas. Puede contenter un listado de nombres de columnas que deberán unirse para el parseo como fecha.</li>
<li><b>converters:</b> Diccionario en el que las claves serán nombres de columnas y los valores funciones que se deberán aplicar al contenido de dichas columnas durante la carga.</li>
<li><b>dayfirst:</b> Indica si al parsear fechas se debe esperar el día primero o el mes. </li>
<li><b>nrows:</b> Número de filas a leer desde el principio del fichero.</li>
<li><b>chunksize:</b> Tamaño a utilizar para la lectura incremental del fichero.</li>
<li><b>skip_footer:</b> Número de filas a ignorar del final del fichero.</li>
<li><b>enconding:</b> Codificación a esperar del fichero leído.</li>
<li><b>squeeze:</b> Flag que indica que si los datos leídos sólo contienen una columna el resultado sea una Serie en lugar de un DataFrame.</li>
<li><b>thousands:</b> Carácter a utilizar para detectar el separador de miles.</li>
<li><b>decimal:</b> Carácter a utilizar para detectar el separador de decimales.</li>
</ul>

In [136]:
%pwd

'c:\\Users\\Facu\\Desktop\\aprendiendoPython\\creadoPorMi'

In [138]:
catastro = pd.read_csv('datos/catastro.tsv', sep = "\t")
catastro.head()

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0


In [139]:
col = list(catastro.columns)
col

['año',
 'id_distrito',
 'distrito',
 'id_barrio',
 'barrio',
 'id_uso',
 'uso',
 'num_inmuebles',
 'año_cons_medio',
 'sup_cons',
 'sup_suelo',
 'valor_catastral']

In [143]:
catastro = pd.read_csv('datos/catastro.tsv', sep="\t", header=None)
catastro.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
1,2014,01,Centro,011,PALACIO,A,Almacén-Estacionamiento,3034,1969,214457,,129525903.84
2,2014,01,Centro,011,PALACIO,C,Comercial,1407,1921,223552,,407605466.44
3,2014,01,Centro,011,PALACIO,E,Cultural,36,1937,62963,,75828716.00
4,2014,01,Centro,011,PALACIO,G,Ocio y Hostelería,254,1919,114226,,195413848.02


In [144]:
catastro = pd.read_csv('datos/catastro.tsv', sep="\t", header=None, names= col)
catastro.head()

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
1,2014,01,Centro,011,PALACIO,A,Almacén-Estacionamiento,3034,1969,214457,,129525903.84
2,2014,01,Centro,011,PALACIO,C,Comercial,1407,1921,223552,,407605466.44
3,2014,01,Centro,011,PALACIO,E,Cultural,36,1937,62963,,75828716.00
4,2014,01,Centro,011,PALACIO,G,Ocio y Hostelería,254,1919,114226,,195413848.02


## Escritura de ficheros en formato texto

En el caso de la escritura de estructuras de datos de pandas como ficheros de texto, las posibilidades están mucho más unificadas, existiendo una única función <b>to_csv</b>. Es importante indicar que, por defecto, el fichero seleccionado será SIEMPRE sobreescrito.<br/>

Los parámetros más comunes de esta función son:<br/>
<ul>
<li><b>path:</b> Ruta del fichero que se utilizará para la escritura.</li>
<li><b>sep:</b> Carácter utilizado como separador de campos.</li>
<li><b>na_rep:</b> Cadena que se deberá utilizar para darle representación a los valores NaN.</li>
<li><b>float_format:</b> Indicador de formato para los números en coma flotante.</li>
<li><b>columns:</b> Secuencia de selección del conjunto de columnas que se desea volcar al fichero.</li>
<li><b>header:</b> Flag o secuencia de cadenas que indica si se debe volcar la cabecera al fichero.</li>
<li><b>index:</b> Flag que indica si el índice debe ser incluido o no como una columna más en el fichero.</li>
<li><b>index_label:</b> Nombre que se le debe dar a la columna de índice en el fichero.</li>
<li><b>mode:</b> Modo de apertura del fichero. Por defecto, "w".</li>
<li><b>encoding:</b> Codificación a utilizar en la escritura del fichero.</li>
<li><b>date_format:</b> Indicador de formato a utilizar para escribir fechas.</li>
<li><b>decimal:</b> Carácter a utilizar como separador de decimales</li>
</ul>

In [145]:
catastro.to_csv('datos/catastro_copia.csv', sep = "|", index = False)

## Trabajo con otros formatos

Pandas ofrece facilidades para trabajar con otro tipo de formatos como pueden ser:<br/>
<ul>
<li><b>Ficheros binarios "pickle":</b> <i>pickle</i> es un módulo del core de Python que establece un formato binario que permite almacenar y recuperar cualquier objeto Python en disco. Todos los objetos de pandas tienen un método <b>save</b> y otro <b>load</b> que permiten almacenar y recuperar información en este formato.</li>
<li><b>Ficheros binarios "HDF5":</b> HDF5 es un "estándar" de almacenamiento de información binaria que optimiza las lecturas y escrituras (mediante el almacenamiento de una estructura jerárquica de índices) y permite llevar a cabo diferentes niveles de compresión sobre la información (a costa de rendimiento). Pandas ofrece clases y funciones para trabajar con este tipo de ficheros.</li>
<li><b>Ficheros Excel:</b> Pandas contiene clases y funciones que permiten llevar a cabo la carga directa de información desde hojas de ficheros Excel (que deben tener un formato tabular). Por rendimiento y consumo de memoria, siempre que sea viable, es mejor traducir estos ficheros a formatos de texto.</li>
</ul>

# Preparación y exploración de datos

Una vez conocidas las estructuras de datos de pandas, las operaciones básicas que se pueden realizar sobre las mismas y el modo en el que realizar la carga y almacenamiento de dichas estructuras en discos, vamos a centrarnos en aquellas funcionalidades ofrecidas por pandas que están más orientadas al tratamiento y análisis de datos.


## Gestión de datos en blanco (<i>missing values</i>)

Uno de los objetivos de pandas en su construcción fue facilitar el tratamiento de este tipo de datos no existentes ofreciendo múltiples funciones que permiten llevar a cabo tanto su detección, como su eliminación o imputación...


#### Detección de <i>missing values</i>


Pandas ofrece principalmente dos funciones para manejar la detección de valores nulos.<br/>
<ul>
<li><b>isnull:</b> Que devuelve una Serie o DataFrame booleano indicando qué elemetos son NaN o None.</li>
<li><b>notnull:</b> Que devuelve el inverso del anterior.</li>

In [146]:
catastro = pd.read_table('datos/catastro.tsv', nrows=10)
catastro

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [147]:
# Detección de valores nulos
catastro.isnull()

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,True,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,True,False
4,False,False,False,False,False,False,False,False,False,False,True,False
5,False,False,False,False,False,False,False,False,False,False,True,False
6,False,False,False,False,False,False,False,False,True,True,False,False
7,False,False,False,False,False,False,False,False,False,False,True,False
8,False,False,False,False,False,False,False,False,False,False,True,False
9,False,False,False,False,False,False,False,False,False,False,True,False


In [148]:
# Detección de valores no nulos
catastro.notnull()

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,True,True,True,True,True,True,True,True,True,True,False,True
1,True,True,True,True,True,True,True,True,True,True,False,True
2,True,True,True,True,True,True,True,True,True,True,False,True
3,True,True,True,True,True,True,True,True,True,True,False,True
4,True,True,True,True,True,True,True,True,True,True,False,True
5,True,True,True,True,True,True,True,True,True,True,False,True
6,True,True,True,True,True,True,True,True,False,False,True,True
7,True,True,True,True,True,True,True,True,True,True,False,True
8,True,True,True,True,True,True,True,True,True,True,False,True
9,True,True,True,True,True,True,True,True,True,True,False,True


In [159]:
catastro.isnull().sum()  #saber la cantidad de NaN

año                0
id_distrito        0
distrito           0
id_barrio          0
barrio             0
id_uso             0
uso                0
num_inmuebles      0
año_cons_medio     1
sup_cons           1
sup_suelo          9
valor_catastral    0
dtype: int64

#### Eliminación de registros con <i>missing values</i>

Aunque SIEMPRE conviene hacer un estudio cuidadoso del por qué y la casuística de los valores nulos, uno de los posibles tratamientos a aplicar es su eliminación directa del set de datos. Pandas, nos ofrece el método <b>dropna</b> para llevar a cabo esta tarea. Los parámetros de este método son:<br/>
<ul>
<li><b>axis:</b> Selección de eje sobre el que realizar la eliminación.</li>
<li><b>how:</b> Tomará posibles valores 'any' y 'all' e indica si se debe eliminar la fila o columna cuando haya uno o más valores NaN o cuando todos los valores sean NaN.</li>
<li><b>thresh:</b> Permite indicar, el número de observaciones no nulas que se deben tener para no realizar el borrado.</li>
</ul>

In [149]:
catastro = pd.read_table('datos/catastro.tsv', nrows=10)
catastro

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [150]:
# Eliminación de filas con al menos 1 NA
catastro.dropna(axis=0, how='any')

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral


In [151]:
# Eliminación de columnas con al menos 1 NA
catastro.dropna(axis=1, how='any')

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,114254200.0


In [152]:
# Eliminación de filas con 2 o más NA
catastro.dropna(thresh=len(catastro.columns)-1)

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


#### Imputación de registros con <i>missing values</i>

Existirán casos en los que no se desee (o no se pueda) eliminar los registros con valores nulos (p.e. podrían suponer un porcentaje demasiado elevado de nuestro set de datos). En estos casos, habrá que realizar una imputación de los mismos a un valor preestablecidor.<br/>
Pandas pone a nuestra disposición el método <b>fillna</b>, que cuenta, entre otros, con los siguientes parámetros:<br/>
<ul>
<li><b>axis:</b> Que decide si aplicará el criterio de relleno por filas o columnas.</li>
<li><b>value:</b> Que rellena los valores nulos a un valor fijo.</li>
<li><b>method:</b> Que permite establecer un criterio de relleno de entre los siguientes:.</li>
    <ul>
    <li><b>ffill:</b> Relleno en base a la observacion de los ultimos elementos no nulos.</li>
    <li><b>bfill:</b> Relleno en base a la observacion de los proximos elementos no nulos.</li>
    </ul>
<li><b>limit:</b> contenedor maximo de elementos imputados.</li>
</ul>

In [164]:
catastro = pd.read_table('datos/catastro.tsv', nrows=10)
catastro

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [160]:
#imputacion de valores a 0
catastro.fillna(0)

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,0.0,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,0.0,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,0.0,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,0.0,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,0.0,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,0.0,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,0.0,0.0,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,0.0,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,0.0,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,0.0,114254200.0


In [163]:
#imputacion de valores por valor anterior (por columnas)
catastro.fillna(method='ffill')

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,1946.0,7238.0,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,130010.0,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,130010.0,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,130010.0,114254200.0


In [162]:
#imputacion de valores por valor siguiente (por columnas)
catastro.fillna(method='bfill')

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,130010.0,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,130010.0,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,130010.0,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,130010.0,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,130010.0,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,130010.0,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,1947.0,196893.0,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [165]:
#imputacion de valores por valor siguiente (por columnas)
catastro.fillna(method='bfill', limit=3)

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,130010.0,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,130010.0,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,130010.0,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,1947.0,196893.0,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [None]:
# Imputación de valores a 1000
catastro.fillna(1000)

## Resumen de datos y estadísticos básicos

Al igual que NumPy, pandas ofrece un conjunto amplio de funciones para llevar a cabo un análisis estadístico de datos.  Las más relevantes serían:<br/>
<ul>
<li><b>describe:</b> Presenta un conjunto con las estadísticas básicas más comunes calculadas sobre todas las columnas de la estructura. Equivalente a la función <i>summary</i> de R.</li>
<li><b>count:</b> Número de elementos no nulos.</li>
<li><b>min, max:</b> Valor mínimo y máximo.</li>
<li><b>argmin, argmax, idxmax, idxmin:</b> Posiciones con valor mínimo y máximo.</li>
<li><b>quantile:</b> Cuantil calculado.</li>
<li><b>sum:</b> Suma de elementos.</li>
<li><b>mean:</b> Media aritmética de los elementos.</li>
<li><b>median:</b> Mediana de los elementos.</li>
<li><b>std:</b> Desviación estándar de los elementos.</li>
<li><b>var:</b> Varianza de los elementos.</li>
<li><b>cumsum:</b> Suma acumulada de los elementos.</li>
<li><b>cumprod:</b> Producto acumulado de los elementos.</li>
</ul>

La mayor parte de estos métodos, podrán recibir 3 parámetros:
<ul>
<li><b>axis:</b> Que indica si realizar el cálculo por filas o columnas.</li>
<li><b>skipna:</b> Que indica si se deben ignorar o no los valores NaN a la hora de realizar los cálculos.</li>
</ul>

In [166]:
catastro = pd.read_table('datos/catastro.tsv', nrows=10)
catastro

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [167]:
# Estadísticos básicos sobre el data set
catastro.describe()

Unnamed: 0,año,id_distrito,id_barrio,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
count,10.0,10.0,10.0,10.0,9.0,9.0,1.0,10.0
mean,2014.0,1.0,11.0,539.9,1928.444444,125865.888889,130010.0,158741700.0
std,0.0,0.0,0.0,980.444848,27.559532,85847.096668,,142999300.0
min,2014.0,1.0,11.0,8.0,1884.0,7238.0,130010.0,10614660.0
25%,2014.0,1.0,11.0,18.25,1919.0,62963.0,130010.0,33893580.0
50%,2014.0,1.0,11.0,41.5,1937.0,114226.0,130010.0,121890000.0
75%,2014.0,1.0,11.0,482.75,1946.0,197518.0,130010.0,260103500.0
max,2014.0,1.0,11.0,3034.0,1969.0,223552.0,130010.0,407605500.0


In [168]:
# Suma por columnas
catastro.sum()

año                                                            20140
id_distrito                                                       10
distrito           CentroCentroCentroCentroCentroCentroCentroCent...
id_barrio                                                        110
barrio             PALACIOPALACIOPALACIOPALACIOPALACIOPALACIOPALA...
id_uso                                                    ACEGIKMOPR
uso                Almacén-EstacionamientoComercialCulturalOcio y...
num_inmuebles                                                   5399
año_cons_medio                                               17356.0
sup_cons                                                   1132793.0
sup_suelo                                                   130010.0
valor_catastral                                        1587416814.45
dtype: object

In [169]:
# Suma por filas ignorando NA
catastro.sum(axis=1, skipna=True)

  catastro.sum(axis=1, skipna=True)


0    1.297474e+08
1    4.078344e+08
2    7.589568e+07
3    1.955323e+08
4    1.182517e+07
5    1.062588e+07
6    2.004728e+07
7    3.409856e+08
8    2.818682e+08
9    1.143608e+08
dtype: float64

In [170]:
catastro.mean()

  catastro.mean()


año                2.014000e+03
id_distrito        1.000000e+00
id_barrio          1.100000e+01
num_inmuebles      5.399000e+02
año_cons_medio     1.928444e+03
sup_cons           1.258659e+05
sup_suelo          1.300100e+05
valor_catastral    1.587417e+08
dtype: float64

Matrices de correlacion y covarianzas

Dada su utilidad y su importancia de cara a la comprension del contenido de un data set, sobre todo en un entorno orientado a la modelizacion, pandas facilita el calculo de matrices de correlacion y covarianza ofreciendo las funciones corr y cov

In [171]:
catastro = pd.read_table('datos/catastro.tsv', nrows=10)
catastro

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [172]:
#matriz de correlacin
catastro.corr()

Unnamed: 0,año,id_distrito,id_barrio,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
año,,,,,,,,
id_distrito,,,,,,,,
id_barrio,,,,,,,,
num_inmuebles,,,,1.0,0.531631,0.623031,,0.285101
año_cons_medio,,,,0.531631,1.0,-0.079688,,-0.25237
sup_cons,,,,0.623031,-0.079688,1.0,,0.851737
sup_suelo,,,,,,,,
valor_catastral,,,,0.285101,-0.25237,0.851737,,1.0


In [173]:
#matriz de covarianzas
catastro.cov()

Unnamed: 0,año,id_distrito,id_barrio,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
año,0.0,0.0,0.0,0.0,0.0,0.0,,0.0
id_distrito,0.0,0.0,0.0,0.0,0.0,0.0,,0.0
id_barrio,0.0,0.0,0.0,0.0,0.0,0.0,,0.0
num_inmuebles,0.0,0.0,0.0,961272.1,14996.79,54745890.0,,39971940000.0
año_cons_medio,0.0,0.0,0.0,14996.79,759.5278,-188534.1,,-991648700.0
sup_cons,0.0,0.0,0.0,54745890.0,-188534.1,7369724000.0,,10425100000000.0
sup_suelo,,,,,,,,
valor_catastral,0.0,0.0,0.0,39971940000.0,-991648700.0,10425100000000.0,,2.044881e+16


## Elementos únicos y frecuencias

<ul>
<li><b>unique</b>: Que nos devuelve un array con el conjunto de elementos únicos de una Serie.</li>
<li><b>value_counts</b>: Que realiza un cálculo de frecuencias sobre los elementos únicos de una Serie.</li>
<li><b>isin:</b> Que nos permite chequear si un conjunto de valores se encuentra en una Serie.</li>
</ul>

In [174]:
catastro = pd.read_table('datos/catastro.tsv')
catastro

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,1.295259e+08
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,4.076055e+08
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,7.582872e+07
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,1.954138e+08
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,1.180795e+07
...,...,...,...,...,...,...,...,...,...,...,...,...
3025,2013,21,Barajas,215,CORRALEJOS,O,Oficinas,172,1994.0,538345.0,,6.893051e+08
3026,2013,21,Barajas,215,CORRALEJOS,R,Religioso,2,2006.0,3264.0,,3.059075e+06
3027,2013,21,Barajas,215,CORRALEJOS,T,Espectáculos,1,1995.0,14720.0,,1.639676e+07
3028,2013,21,Barajas,215,CORRALEJOS,V,Residencial,2939,1999.0,433231.0,,5.177294e+08


In [175]:
# Conjunto de de barrios
catastro.barrio.unique()

array(['PALACIO', 'EMBAJADORES', 'CORTES', 'JUSTICIA', 'UNIVERSIDAD',
       'SOL', 'IMPERIAL', 'ACACIAS', 'CHOPERA', 'LEGAZPI', 'DELICIAS',
       'PALOS DE MOGUER', 'ATOCHA', 'PACÍFICO', 'ADELFAS', 'ESTRELLA',
       'IBIZA', 'LOS JERÓNIMOS', 'NIÑO JESÚS', 'RECOLETOS', 'GOYA',
       'FUENTE DEL BERRO', 'GUINDALERA', 'LISTA', 'CASTELLANA', 'EL VISO',
       'PROSPERIDAD', 'CIUDAD JARDÍN', 'HISPANOAMÉRICA', 'NUEVA ESPAÑA',
       'CASTILLA', 'BELLAS VISTAS', 'CUATRO CAMINOS', 'CASTILLEJOS',
       'ALMENARA', 'VALDEACEDERAS', 'BERRUGUETE', 'GAZTAMBIDE',
       'ARAPILES', 'TRAFALGAR', 'ALMAGRO', 'RIOS ROSAS', 'VALLEHERMOSO',
       'EL PARDO', 'FUENTELARREINA', 'PEÑA GRANDE', 'EL PILAR', 'LA PAZ',
       'VALVERDE', 'MIRASIERRA', 'EL GOLOSO', 'CASA DE CAMPO',
       'ARGÜELLES', 'CIUDAD UNIVERSITARIA', 'VALDEZARZA', 'VALDEMARÍN',
       'EL PLANTÍO', 'ARAVACA', 'LOS CARMENES', 'PUERTA DEL ANGEL',
       'LUCERO', 'ALUCHE', 'CAMPAMENTO', 'CUATRO VIENTOS', 'LAS AGUILAS',
       'COMILLA

In [176]:
# Tabla de frecuencias de distritos
catastro.distrito.value_counts()

Ciudad Lineal            214
Fuencarral - El Pardo    189
San Blas                 186
Moncloa - Aravaca        172
Carabanchel              166
Latina                   165
Usera                    160
Centro                   156
Salamanca                155
Arganzuela               153
Puente de Vallecas       150
Chamartín                148
Chamberí                 147
Tetuán                   144
Hortaleza                142
Retiro                   137
Moratalaz                125
Barajas                  114
Villaverde               112
Vicálvaro                 49
Villa de Vallecas         46
Name: distrito, dtype: int64

In [180]:
# Chequeo de existencia de distritos
catastro['distrito'].isin(['Centro'])

0        True
1        True
2        True
3        True
4        True
        ...  
3025    False
3026    False
3027    False
3028    False
3029    False
Name: distrito, Length: 3030, dtype: bool

## Aplicación de funciones sobre estructuras

Al igual que en R tenemos la familia de funciones <i>apply</i>, pandas pone a nuestra disposición un conjunto de funciones que nos permiten aplicar operaciones elemento a elemento (o fila a fila, o columna a columna) en sus estructuras de datos. En concreto disponemos de tres funciones.

#### Aplicación de funciones elemento a elemento sobre Series - Función map

In [2]:
serie = pd.Series([1, 2, 3, 4, 5, 6])
serie

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

In [3]:
def es_par(elemento):
    if elemento % 2 == 0:
        return 'Par: ' + str(elemento)
    else:
        return 'Impar: ' + str(elemento)

In [4]:
# Aplicación de función elemento a elemento sobre Serie
serie.map(es_par)

0    Impar: 1
1      Par: 2
2    Impar: 3
3      Par: 4
4    Impar: 5
5      Par: 6
dtype: object

#### Aplicación de funciones elemento a elemento sobre DataFrames - Función applymap

In [5]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4))
dataframe

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [6]:
def es_par(elemento):
    if elemento % 2 == 0:
        return 'Par: ' + str(elemento)
    else:
        return 'Impar: ' + str(elemento)

In [7]:
# Aplicación de función elemento a elemento sobre DataFrame
dataframe.applymap(es_par)

Unnamed: 0,0,1,2,3
0,Par: 0,Impar: 1,Par: 2,Impar: 3
1,Par: 4,Impar: 5,Par: 6,Impar: 7
2,Par: 8,Impar: 9,Par: 10,Impar: 11
3,Par: 12,Impar: 13,Par: 14,Impar: 15


#### Aplicación de funciones fila a fila o columna a columna sobre DataFrames - Función apply

In [8]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4))
dataframe

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [10]:
def es_suma_par(elemento):
    if np.sum(elemento) % 2 == 0:
        return 'Suma par: ' + str(np.sum(elemento))
    else:
        return 'Suma impar: ' + str(np.sum(elemento))

In [11]:
# Aplicación de función por columnas sobre DataFrame
dataframe.apply(es_suma_par)

0    Suma par: 24
1    Suma par: 28
2    Suma par: 32
3    Suma par: 36
dtype: object

In [12]:
# Aplicación de función por filas sobre DataFrames
dataframe.apply(es_suma_par, axis=1)

0     Suma par: 6
1    Suma par: 22
2    Suma par: 38
3    Suma par: 54
dtype: object

## Fusión de estructuras

La librería pandas nos ofrece, principalmente, dos formas de fusionar estructuras de datos: realizando cruces entre ellos (mediante las claves coincidentes de sus índices) o concatenando sus contenidos (bien por filas o columnas).

#### Función merge - JOIN de estructuras

In [13]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013], 
             'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Gareth Edwards','Peter Jackson',  'Martin Scorsese', 'Alfonso Cuarón'],
             'Título':['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']}
)
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Gareth Edwards,Godzilla
1,2014,,250.0,Peter Jackson,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity


In [14]:
directores = pd.DataFrame(
            {'Director':['Gareth Edwards', 'Martin Scorsese', 'Pedro Almodovar'],
             'AñoNacimiento':[1975, 1942, 1949],
             'Nacionalidad': ['England', 'USA', 'Spain']
             }
)
directores

Unnamed: 0,Director,AñoNacimiento,Nacionalidad
0,Gareth Edwards,1975,England
1,Martin Scorsese,1942,USA
2,Pedro Almodovar,1949,Spain


In [15]:
pd.merge(peliculas,directores)

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,AñoNacimiento,Nacionalidad
0,2014,6.0,160.0,Gareth Edwards,Godzilla,1975,England
1,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,1942,USA


In [16]:
pd.merge(peliculas, directores[['Director', 'AñoNacimiento']], on = ['Director'])

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,AñoNacimiento
0,2014,6.0,160.0,Gareth Edwards,Godzilla,1975
1,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,1942


La función busca, por defecto, aquellas claves de columnas que coinciden y realiza el cruce, eliminando del resultado aquellas filas para las que el cruce no es posible.<br/>

También podemos especificar, explícitamente, el conjunto de columnas a utilizar en el cruce.

In [17]:
directores.columns = ['Nombre', 'Nacimiento', 'Nacionalidad']
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimiento,Nacionalidad
0,2014,6.0,160.0,Gareth Edwards,Godzilla,Gareth Edwards,1975,England
1,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942,USA


Por último, al igual que ocurre en os JOIN de SQL, podemos especificar el modo de cruce a aplicar, haciendo que las filas de la estructura de la izquierda, derecha o ambas que no coincidan se mantengan en el resultado, estableciendo valores NaN en aquellos elementos para los que no exista información.

In [18]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='left')#si quiero que no desaparezcan peliculas uso el how. Si quiero matener todas las peliculas por mas que no aparezca su director uso how='left'

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimiento,Nacionalidad
0,2014,6.0,160.0,Gareth Edwards,Godzilla,Gareth Edwards,1975.0,England
1,2014,,250.0,Peter Jackson,El Hobbit III,,,
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942.0,USA
3,2013,,,Alfonso Cuarón,Gravity,,,


In [19]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='right')#si quiero mantener todos los directores aunque no haya pelicula de ese director

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimiento,Nacionalidad
0,2014.0,6.0,160.0,Gareth Edwards,Godzilla,Gareth Edwards,1975,England
1,2013.0,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942,USA
2,,,,,,Pedro Almodovar,1949,Spain


In [20]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='outer')#si queiro mantener todo, pelicula aunque no tenga director o director aunque no tenga pelicula

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimiento,Nacionalidad
0,2014.0,6.0,160.0,Gareth Edwards,Godzilla,Gareth Edwards,1975.0,England
1,2014.0,,250.0,Peter Jackson,El Hobbit III,,,
2,2013.0,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942.0,USA
3,2013.0,,,Alfonso Cuarón,Gravity,,,
4,,,,,,Pedro Almodovar,1949.0,Spain


Finalmente, en el caso de que tengamos columnas duplicadas en los dos DataFrames que se van a unir, pandas se encargará automáticamente de incluir un sufijo que permita desambiguar (_x, _y, por defecto). 

In [21]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013], 
             'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón'],
             'Título':['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']}
)
directores = pd.DataFrame(
            {'Director':['Gareth Edwards', 'Martin Scorsese', 'Pedro Almodovar'],
             'AñoNacimiento':[1975, 1942, 1949],
             'Nacionalidad': ['England', 'USA', 'Spain'],
             'Valoración':[6, 7, 8]
             }
)
pd.merge(peliculas, directores, left_on='Director', right_on='Director')

Unnamed: 0,Año,Valoración_x,Presupuesto,Director,Título,AñoNacimiento,Nacionalidad,Valoración_y
0,2014,,250.0,Gareth Edwards,El Hobbit III,1975,England,6
1,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,1942,USA,7


Si queremos modificar estos sufijos, podemos hacer uso del parámetro suffixes que recibe una tupla con los sufijos a utilizar.

In [22]:
pd.merge(peliculas, directores, left_on='Director', right_on='Director', suffixes=('_peli', '_dire'))

Unnamed: 0,Año,Valoración_peli,Presupuesto,Director,Título,AñoNacimiento,Nacionalidad,Valoración_dire
0,2014,,250.0,Gareth Edwards,El Hobbit III,1975,England,6
1,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,1942,USA,7


#### Función concat

Esta función nos permite fusionar estructuras sin realizar ningún tipo de cruce entre ellas, sino "colocándolas" juntas para la creación de una estructura mayor. Podemos hacerlo tanto en filas como en columnas. Por defecto, se concatenan filas y se mantienen las columnas de ambas estructuras aunque no coincidan en clave, dejando a NaN los elementos que no existan.

In [23]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013], 
             'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Gareth Edwards','Peter Jackson', 'Martin Scorsese', 'Alfonso Cuarón']},
            index = ['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']
)
peliculas2 = pd.DataFrame(
            {'Año':[2014, 2014], 
             'Valoración':[7.3, 6.3],
             'Director':['Evan Goldberg', ' Rupert Wyatt']},
            index = ['La entrevista', 'El jugador']
)
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director
Godzilla,2014,6.0,160.0,Gareth Edwards
El Hobbit III,2014,,250.0,Peter Jackson
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese
Gravity,2013,,,Alfonso Cuarón


In [24]:
peliculas2

Unnamed: 0,Año,Valoración,Director
La entrevista,2014,7.3,Evan Goldberg
El jugador,2014,6.3,Rupert Wyatt


In [26]:
pd.concat([peliculas, peliculas2], sort = False)  #sort ordena las columnas, cada columna con su pareja

Unnamed: 0,Año,Valoración,Presupuesto,Director
Godzilla,2014,6.0,160.0,Gareth Edwards
El Hobbit III,2014,,250.0,Peter Jackson
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese
Gravity,2013,,,Alfonso Cuarón
La entrevista,2014,7.3,,Evan Goldberg
El jugador,2014,6.3,,Rupert Wyatt


También podemos concatenar por columnas.

In [27]:
peliculas3 = pd.DataFrame(
            {'Recaudación':[525, 722, 392]},
            index = ['Godzilla', 'El Hobbit III', 'El lobo de Wall Street']
)
pd.concat([peliculas, peliculas3],axis=1, sort = False)

Unnamed: 0,Año,Valoración,Presupuesto,Director,Recaudación
Godzilla,2014,6.0,160.0,Gareth Edwards,525.0
El Hobbit III,2014,,250.0,Peter Jackson,722.0
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese,392.0
Gravity,2013,,,Alfonso Cuarón,


Aunque es un funcionamiento más propio de la función merge, pandas nos permite eliminar del resultado aquellas combinaciones para las que no existen datos en alguna de las dos estructuras.

In [28]:
pd.concat([peliculas, peliculas3],axis=1, join='inner')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Recaudación
Godzilla,2014,6.0,160.0,Gareth Edwards,525
El Hobbit III,2014,,250.0,Peter Jackson,722
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese,392


Por último, puede ser útil identificar en la estructura resultante el origen de cada una de las filas para posterior análisis. La función concat incluye un parámetro <b>keys</b> que podemos utilizar para añadir una clave a cada uno de las estructuras origen, que se convertirá en el nivel más agregado de un índice jerárquico.

In [29]:
pd.concat([peliculas, peliculas2], keys=['dataset1','dataset2'], sort = False)

Unnamed: 0,Unnamed: 1,Año,Valoración,Presupuesto,Director
dataset1,Godzilla,2014,6.0,160.0,Gareth Edwards
dataset1,El Hobbit III,2014,,250.0,Peter Jackson
dataset1,El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese
dataset1,Gravity,2013,,,Alfonso Cuarón
dataset2,La entrevista,2014,7.3,,Evan Goldberg
dataset2,El jugador,2014,6.3,,Rupert Wyatt


## Operaciones de agrupación

La librería pandas también incluye la posibiilidad de hacer agrupación de resultados y operaciones sobre los grupos (al estilo de las sentencias GROUP BY de SQL)

In [30]:
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director
Godzilla,2014,6.0,160.0,Gareth Edwards
El Hobbit III,2014,,250.0,Peter Jackson
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese
Gravity,2013,,,Alfonso Cuarón


In [31]:
agrupado = peliculas.groupby('Año')
type(agrupado)

pandas.core.groupby.generic.DataFrameGroupBy

Una agrupación no es un objeto "imprimible", es una representación interna del conjunto de registros que pertenecen a cada grupo y sólo tiene sentido si, posteriormente, se va a aplicar alguna operación sobre dichos grupos. Hay que tener en cuenta que no todas las operaciones son aplicacables sobre todos los tipos de columna.

In [32]:
# Media por grupo
agrupado.mean()

Unnamed: 0_level_0,Valoración,Presupuesto
Año,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,8.75,100.0
2014,6.0,205.0


In [33]:
# Conteo de valores no nulos por grupo
agrupado.count()

Unnamed: 0_level_0,Valoración,Presupuesto,Director
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,1,2
2014,1,2,2


Aunque con estos datos quizá no tenga tanto sentido, podemos realizar la agrupación por múltiples claves.

In [34]:
peliculas.groupby(['Año', 'Director']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Valoración,Presupuesto
Año,Director,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,Alfonso Cuarón,0.0,0.0
2013,Martin Scorsese,8.75,100.0
2014,Gareth Edwards,6.0,160.0
2014,Peter Jackson,0.0,250.0
