# PANDAS

[Pandas Library](https://pandas.pydata.org/)

Pandas es una herramienta construida sobre Numpy que nos permite tratar datos, principalmente estructurados, de forma sencilla, cómoda y rápida. Supongo que a estas alturas ya conoces las diferencias entre datos estructurados, semiestructurados y no estructurados; pero prefiero curarme en salud y dar una breve definición de cada tipo:

**Datos estructurados:** son aquellos datos que tienen lo que se llama esquema rígido. Los datos estructurados se suelen ordenar en tablas (formato tabular) con filas y columnas, donde las filas suelen ser las observaciones/hechos y las columnas las distintas variables/campos. Si sabes SQL, ya has tratado anteriormente con este tipo de datos. Son, por lo general, el tipo de dato más frecuente.

**Datos semiestructurados:** son datos con esquema flexible, es decir: cada dato pertenece a un campo/ámbito determinado (o tiene una serie de campos bien definidos), pero no todos los datos tienen que tener los mismos campos (flexibilidad en el esquema/estructura de los datos). Podemos encontrarnos con datos que tienen unas variables, y no otras. Ejemplos de datos semiestructurados son los archivos XML y JSON.

**Datos no estructurados:** son aquellos datos que no tienen ni orden ni concierto; simplemente están. Por ejemplo: texto. Un documento de texto está compuesto por una palabra detrás de la otra, pero sin ningún tipo de esquema o estructura (sí, tienen signos de puntuación y tal, y se podría discutir el tema de POS o Part Of Speech, pero no dejan de ser palabras unas detrás de otras). Otro ejemplo podrían ser las imágenes. No obstante, hay gente que considera las imágenes datos semi/estructurados: como una tabla donde cada campo es un píxel de los que conforma la imagen, por ejemplo. Da igual: el procesamiento de imágenes es un mundo aparte.

Pues bien, pandas se utiliza principalmente para el análisis de datos estructurados, es decir, tablas. La principal ventaja de pandas es que nos permite explotar los conocimientos que ya tenemos de Numpy, para realizar operaciones complejas de forma sencilla.

##  Estructuras de datos: Series y DataFrames

En pandas existen principalmente dos estructuras de dato: las Series y los DataFrames.

Una de las grandes ventajas de pandas es que nos ofrece un conveniente polimorfismo: una Series es básicamente un array de Numpy con algo especial llamado índice, y un DataFrame es un diccionario de Series. Este polimorfismo nos va a permitir utilizar lo que ya sabemos de Numpy sobre estas nuevas estructuras de dato.

### Series

Una Serie es una estructura de dato compuesta básicamente por un array unidimensional (con uno de los tipos de dato de cualquiera de los dtypes de Numpy), y un array asociado con labels, llamado index o índice (o índices; mientras nos entendamos bien, da igual que utilicemos el singular o el plural).

Podemos construir una Serie de forma sencilla, utilizando directamente una lista de Python o un array de Numpy:

In [1]:
import pandas as pd
import numpy as np

In [2]:
mi_primera_serie = pd.Series(np.array([2, 5, 4.3, -6.4, 12]))
mi_primera_serie

0     2.0
1     5.0
2     4.3
3    -6.4
4    12.0
dtype: float64

Podemos ver que la Serie está formada, por un lado, por los valores que le hemos pasado; pero también tiene una especie de columna a la izquierda. Eso son los índices. Podemos ver que empiezan por 0, y van creciendo.

Podemos quedarnos únicamente con el índice de una Serie haciendo mi_serie.index:

In [3]:
mi_primera_serie.index

RangeIndex(start=0, stop=5, step=1)

Vemos que nos devuelve un objeto de tipo Index, que no deja de ser básicamente un array de Numpy. Tiene algunos métodos y atributos especiales, pero no deja de ser una estructura de array. De hecho, si lo metemos dentro de un array de Numpy, podemos hacer cualquier cosa de Numpy con dichos índices:

In [4]:
np.array(mi_primera_serie.index)

array([0, 1, 2, 3, 4])

Por otro lado, nuestra Serie tiene los valores como tal que le hemos introducido. Obtenemos los valores de la Serie con mi_serie.values:

In [5]:
mi_primera_serie.values

array([ 2. ,  5. ,  4.3, -6.4, 12. ])

In [6]:
type(mi_primera_serie.values)

numpy.ndarray

También podemos crear un índice customizado para una Serie (en vez de que empiece por 0 y vaya aumentando, que es el comportamiento por defecto), pasándolo también como una lista de Python o array de Numpy:

In [7]:
una_serie = pd.Series(np.array([12, 21, 43, 11]), index=["Juan", "Marta", "Paco", "Lorenzo"])

una_serie

Juan       12
Marta      21
Paco       43
Lorenzo    11
dtype: int64

Podemos pedirle a la Serie que nos devuelva un valor, basado en su índice asociado:

In [8]:
una_serie["Marta"]

21

Y si le pasamos varios índices en una lista, nos devolverá otra Serie con dichos índices y valores:



In [9]:
una_serie[["Paco", "Juan"]]

Paco    43
Juan    12
dtype: int64

Gracias a que una Serie no deja de ser un array de Numpy, podemos utilizar las operaciones típicas de Numpy con las Series. Por ejemplo: si queremos multiplicar todos los valores de nuestra Serie por 2:



In [10]:
una_serie * 2

Juan       24
Marta      42
Paco       86
Lorenzo    22
dtype: int64

Si nos fijamos, una Serie está formada por un conjunto de índices, que cada uno tiene un valor asociado, en forma de pares clave-valor... Similar a los diccionarios de Python, ¿no?

Pues sí. De hecho, podemos construir una Serie directamente a partir de un diccionario:



In [11]:
un_diccionario = {
    "David": 5.4,
    "Pablo": 128,
    "Nuria": 26,
    "Mario": -12,
    "Javier": 0
}

# Mostramos el diccionario:
un_diccionario

{'David': 5.4, 'Pablo': 128, 'Nuria': 26, 'Mario': -12, 'Javier': 0}

In [12]:
pd.Series(un_diccionario)

David       5.4
Pablo     128.0
Nuria      26.0
Mario     -12.0
Javier      0.0
dtype: float64

Vamos a probar a utilizar de nuevo el diccionario, pero pasándole un índice determinado:



In [13]:
serie_con_nan = pd.Series(un_diccionario, index = ["Nuria", "David", "Javier", "Mario", "Manuel"])

serie_con_nan

Nuria     26.0
David      5.4
Javier     0.0
Mario    -12.0
Manuel     NaN
dtype: float64

Pandas es muy listo: podemos ver que nos mantiene cada índice asociado a su valor (si miramos el diccionario arriba), de forma que mantiene las relaciones entre índices y valores inalteradas.

De hecho: al haberle pasado un índice que no tiene valor en los datos ("Manuel"), nos ha escrito un NaN (Not a Number). NaN es equivalente a NA o MISSING en otros lenguajes y herramientas. Básicamente nos indica que no existe valor para esa observación. Y resulta, curiosamente, que NaN es... ¡Un dtype de Numpy! Otro ejemplo de la estrecha relación de Numpy con pandas. Podemos generar NaNs fácilmente con np.nan:

In [14]:
not_a_number = np.nan

not_a_number

nan

Podemos además nombrar nuestras Series, más allá de con el nombre de la variable a la que las asignemos. Por ejemplo, podemos nombrar la Serie con mi_serie.name:

In [15]:
serie_con_nan.name = "Cuenta corriente"

serie_con_nan

Nuria     26.0
David      5.4
Javier     0.0
Mario    -12.0
Manuel     NaN
Name: Cuenta corriente, dtype: float64

Del mismo modo, podemos ponerle nombre también al índice de una Serie con mi_serie.index.name:

In [16]:
serie_con_nan.index.name = "Nombre"

serie_con_nan

Nombre
Nuria     26.0
David      5.4
Javier     0.0
Mario    -12.0
Manuel     NaN
Name: Cuenta corriente, dtype: float64

Podemos dar un nuevo índice a una Serie cuando queramos:

In [17]:
serie_con_nan.index = ["primero", "segundo", "tercero", "cuarto", "quinto"]

# Ya que estamos, le volvemos a cambiar el nombre:
serie_con_nan.index.name = "posicion"

serie_con_nan

posicion
primero    26.0
segundo     5.4
tercero     0.0
cuarto    -12.0
quinto      NaN
Name: Cuenta corriente, dtype: float64

Por último, podemos utilizar operaciones aritméticas sobre varias Series. Vamos a, por ejemplo, sumar dos Series. Vamos a crearlas:

In [18]:
serie_uno = pd.Series(np.arange(0,6), index =["a", "b", "c", "d", "e", "f"])
serie_uno

a    0
b    1
c    2
d    3
e    4
f    5
dtype: int64

In [19]:
serie_dos = pd.Series(np.arange(10, 16), index = ["b", "c", "a", "d", "f", "e"])
serie_dos


b    10
c    11
a    12
d    13
f    14
e    15
dtype: int64

In [20]:
serie_uno + serie_dos

a    12
b    11
c    13
d    16
e    19
f    19
dtype: int64

Podemos ver que ha sumado las Series por índice; sumando los valores en función de dichos índices (y no por el orden en el que aparecen las filas).



Las series están bien; de hecho, tienen una serie de [métodos](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html) que pueden resultar útiles en algunos casos, y además podemos utilizar todo lo que sabemos de Numpy sobre ellas. Pero el verdadero poder de pandas reside en los DataFrames.

### DataFrames

Un DataFrame es una estructura tabular formada por un índice (igual que las Series), y un conjunto de columnas, cada una de ellas con su propio nombre, que pueden tener distintos dtypes. De hecho, desde nuestro punto de vista, un DataFrame no deja de ser un diccionario de Series (donde todas ellas comparten el mismo índice). Si conoces los data.frames de R, probablemente la estructura de dato te resulte muy familiar.

No obstante, los DataFrames de pandas se guardan unos cuandos ases en la manga, 

Existen varias formas de construir DataFrames. Una de ellas es mediante un diccionario de listas de Python o arrays de Numpy, donde las claves van a ser los nombres de cada columna, y sus valores los datos en listas o arrays:

In [21]:
diccionario = {
    "nombre": np.array(["Julio", "Nuria", "Jose", "Luis", "Daniel", "Javier", "Alberto", "Lourdes"]),
    "edad": np.array(  [     22,      26,     28,     25,       24,       24,        24,        26]),
    "sexo": np.array(  ["Hombre", "Mujer","Hombre","Hombre","Hombre","Hombre", "Hombre",  "Mujer" ]),
}

mi_primer_dataframe = pd.DataFrame(diccionario)

# Lo mostramos:
mi_primer_dataframe

Unnamed: 0,nombre,edad,sexo
0,Julio,22,Hombre
1,Nuria,26,Mujer
2,Jose,28,Hombre
3,Luis,25,Hombre
4,Daniel,24,Hombre
5,Javier,24,Hombre
6,Alberto,24,Hombre
7,Lourdes,26,Mujer


Podemos ver que, al igual que con las Series, se ha generado el índice a la izquierda del todo, y todas las columnas comparten dicho índice.

Si al crear el DataFrame le pasamos el argumento columns con la lista de columnas, el DataFrame nos respetará el orden de estas:

In [22]:
# Volvemos a crear un dataframe
# a partir del mismo diccionario,
# pero esta vez con las columnas
# en el orden que queremos:

otro_dataframe = pd.DataFrame(diccionario, columns = ["nombre", "edad", "sexo"])

otro_dataframe

Unnamed: 0,nombre,edad,sexo
0,Julio,22,Hombre
1,Nuria,26,Mujer
2,Jose,28,Hombre
3,Luis,25,Hombre
4,Daniel,24,Hombre
5,Javier,24,Hombre
6,Alberto,24,Hombre
7,Lourdes,26,Mujer


Para obtener una determinda columna de un DataFrame, podemos utilizar dos notaciones distintas: dataframe["columna"] y dataframe.columna. Ambas son completamente equivalentes:

In [23]:
otro_dataframe["edad"]

0    22
1    26
2    28
3    25
4    24
5    24
6    24
7    26
Name: edad, dtype: int64

Al hacerlo, obtenemos... ¡Una Serie! ¿Hemos hablado ya del polimorfismo de pandas? ;)

Podemos ver que la Serie devuelta comparte el mismo índice que el DataFrame del que procede, y el nombre de la Serie es el de la columna de la que proviene.

Para obtener una determinada fila de un DataFrame, se utiliza la notación mi_dataframe.ix[indice], o bien mi_dataframe.ix[numero_de_fila]. Por ejemplo, si queremos obtener la tercera fila:

In [24]:
# Recordamos que el índice comienza a contar
# por 0, así que para la tercera fila,
# será el índice 2:
otro_dataframe.ix[2]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  after removing the cwd from sys.path.


nombre      Jose
edad          28
sexo      Hombre
Name: 2, dtype: object

Oopss!! .ix está deprecado, utilizar .loc y .iloc (Python 3)

In [25]:
otro_dataframe.iloc[2]

nombre      Jose
edad          28
sexo      Hombre
Name: 2, dtype: object

## Un alto para .loc y .iloc

**.loc**, nos permite acceder a un grupo de filas y columnas por label(s) o por array de booleanos. Más info [aquí](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.loc.html)

In [26]:
df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],
                  index=['cobra', 'viper', 'sidewinder'],
                  columns=['max_speed', 'shield'])
df

Unnamed: 0,max_speed,shield
cobra,1,2
viper,4,5
sidewinder,7,8


In [27]:
df.loc['viper']

max_speed    4
shield       5
Name: viper, dtype: int64

Si utilizamos [[]] nos devuelve un DataFrame

In [28]:
df.loc[['viper', 'sidewinder']]

Unnamed: 0,max_speed,shield
viper,4,5
sidewinder,7,8


Una fila y una columna 

In [29]:
df.loc['cobra', 'shield']

2

Slicing con labels para fila y una única label para columna 

In [30]:
df.loc['cobra':'viper', 'max_speed']

cobra    1
viper    4
Name: max_speed, dtype: int64

Si introducimos un condicional nos devuelve una Series de pandas.

In [31]:
#Conditional that returns a boolean Series with column labels specified
series = df.loc[df['shield'] > 6, ['max_speed']]
print(series)

            max_speed
sidewinder          7


Podemos fijar un valor para todos los registros de una lista de labels(columnas)

In [32]:
df.loc[['viper', 'sidewinder'], ['shield']] = 50
df

Unnamed: 0,max_speed,shield
cobra,1,2
viper,4,50
sidewinder,7,50


Para una fila entera 

In [33]:
df.loc['cobra'] = 10
df

Unnamed: 0,max_speed,shield
cobra,10,10
viper,4,50
sidewinder,7,50


O para una columna entera

In [34]:
df.loc[:, 'max_speed'] = 30
df

Unnamed: 0,max_speed,shield
cobra,30,10
viper,30,50
sidewinder,30,50


**.iloc** igual que **.loc** pero para selección de posición basada en indexación con integers 

### Volvamos a nuestro DataFrame

Una vez creado un DataFrame, podemos añadir columnas a posteriori simplemente haciendo referencia a la columna (que todavía no existe), y pasándole los valores que queramos que tenga:

In [35]:
otro_dataframe["rubio/a"] = np.array([False, True, False, False, False, True, False, False])
otro_dataframe

Unnamed: 0,nombre,edad,sexo,rubio/a
0,Julio,22,Hombre,False
1,Nuria,26,Mujer,True
2,Jose,28,Hombre,False
3,Luis,25,Hombre,False
4,Daniel,24,Hombre,False
5,Javier,24,Hombre,True
6,Alberto,24,Hombre,False
7,Lourdes,26,Mujer,False


Del mismo modo, podemos re-asignar valores a una columna del DataFrame en cualquier momento (aprovechando en gran medida las capacidades de Numpy):

In [36]:
# Pongamos todos los valores de 
# la columna rubio/a a True:
otro_dataframe["rubio/a"] = True

otro_dataframe

Unnamed: 0,nombre,edad,sexo,rubio/a
0,Julio,22,Hombre,True
1,Nuria,26,Mujer,True
2,Jose,28,Hombre,True
3,Luis,25,Hombre,True
4,Daniel,24,Hombre,True
5,Javier,24,Hombre,True
6,Alberto,24,Hombre,True
7,Lourdes,26,Mujer,True


Podemos obtener las dimensiones de un DataFrame exactamente igual que lo hacíamos con las matrices en Numpy:

In [37]:
otro_dataframe.shape

(8, 4)

También podemos trasponer los DataFrames con mi_dataframe.T, al igual que hacíamos con las matrices de Numpy:

In [38]:
otro_dataframe.T

Unnamed: 0,0,1,2,3,4,5,6,7
nombre,Julio,Nuria,Jose,Luis,Daniel,Javier,Alberto,Lourdes
edad,22,26,28,25,24,24,24,26
sexo,Hombre,Mujer,Hombre,Hombre,Hombre,Hombre,Hombre,Mujer
rubio/a,True,True,True,True,True,True,True,True


In [39]:
(otro_dataframe.T).shape

(4, 8)

Otra forma frecuente de construir DataFrames es pasando un diccionario de Series:

In [40]:
# Recordamos la serie_uno que hicimos antes:
serie_uno

a    0
b    1
c    2
d    3
e    4
f    5
dtype: int64

In [41]:
# Y la serie_dos:
serie_dos

b    10
c    11
a    12
d    13
f    14
e    15
dtype: int64

In [42]:
pd.DataFrame({"primera": serie_uno,
              "segunda":serie_dos}
            )

Unnamed: 0,primera,segunda
a,0,12
b,1,10
c,2,11
d,3,13
e,4,15
f,5,14


Existen otras muchas formas (quizás demasiadas) para construir DataFrames. [Aquí](http://pandas.pydata.org/pandas-docs/stable/dsintro.html#dataframe) puedes ver la lista completa.

Al igual que en las Series, podemos dar nombre al índice de nuestro DataFrame, al igual que al conjunto de columnas:

In [43]:
otro_dataframe.index.name = "id"
otro_dataframe.columns.name = "variables"

otro_dataframe

variables,nombre,edad,sexo,rubio/a
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Julio,22,Hombre,True
1,Nuria,26,Mujer,True
2,Jose,28,Hombre,True
3,Luis,25,Hombre,True
4,Daniel,24,Hombre,True
5,Javier,24,Hombre,True
6,Alberto,24,Hombre,True
7,Lourdes,26,Mujer,True


Podemos también obtener los valores "en crudo" del DataFrame, quitando de por medio los índices, nombres de columnas y demás cosas con mi_dataframe.values:

In [44]:
otro_dataframe.values

array([['Julio', 22, 'Hombre', True],
       ['Nuria', 26, 'Mujer', True],
       ['Jose', 28, 'Hombre', True],
       ['Luis', 25, 'Hombre', True],
       ['Daniel', 24, 'Hombre', True],
       ['Javier', 24, 'Hombre', True],
       ['Alberto', 24, 'Hombre', True],
       ['Lourdes', 26, 'Mujer', True]], dtype=object)

Parece que nos ha devuelto un array de Numpy, con forma de matriz que cuadra con la estructura y dimensiones del DataFrame original. Polimorfismo de nuevo...

**Como tenemos variados tipos de dato dentro de la matriz de Numpy generada, el dtype de la matriz es object.**

### Indexado y slicing de DataFrames

Ya hemos visto que podemos obtener una columna de un DataFrame con mi_dataframe["columna"] o mi_dataframe.columna:

In [45]:
# Vamos a cambiar el nombre de nuestra
# variable con el DataFrame, que otro_dataframe
# es feo. Se suele usar mucho la abreviatura df:

df = otro_dataframe

df["sexo"]

id
0    Hombre
1     Mujer
2    Hombre
3    Hombre
4    Hombre
5    Hombre
6    Hombre
7     Mujer
Name: sexo, dtype: object

Podemos también seleccionar varias columnas, pasando una lista con los nombres de las mismas:

In [46]:
df[["nombre", "sexo"]]

variables,nombre,sexo
id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,Julio,Hombre
1,Nuria,Mujer
2,Jose,Hombre
3,Luis,Hombre
4,Daniel,Hombre
5,Javier,Hombre
6,Alberto,Hombre
7,Lourdes,Mujer


Para obtener las primeras 3 filas de nuestro DataFrame hacemos:

In [47]:
df[:3]

variables,nombre,edad,sexo,rubio/a
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Julio,22,Hombre,True
1,Nuria,26,Mujer,True
2,Jose,28,Hombre,True


Quiero quedarme con las filas cuyos índices están entre 2 y 5:


In [48]:
df.iloc[2:5]

variables,nombre,edad,sexo,rubio/a
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,Jose,28,Hombre,True
3,Luis,25,Hombre,True
4,Daniel,24,Hombre,True


Una operación muy habitual es obtener aquellas filas en las que una columna cumple cierta condición. Por ejemplo: si queremos obterner las filas de las personas con edad mayor que 24, en SQL, sería: SELECT * FROM df WHERE edad > 24. Vamos a ver cómo se hace en pandas poco a poco.

¿Recuerdas el indexado booleano de Numpy? Pues por ahí van los tiros. Si una Serie es básicamente un array de Numpy con índice, y al pedir una columna de un DataFrame obtenemos una Serie...

In [49]:
df["edad"] # Esto es una Serie (array de Numpy gracias al polimorfismo)

id
0    22
1    26
2    28
3    25
4    24
5    24
6    24
7    26
Name: edad, dtype: int64

In [50]:
df["edad"] > 24 # Al poner la condición, generamos un array (o Serie) de booleanos:

id
0    False
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: edad, dtype: bool

In [51]:
# ¿Y si utilizamos esta Serie de booleanos
# para hacer el slicing sobre el DataFrame?
df[df["edad"] > 24]

variables,nombre,edad,sexo,rubio/a
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Nuria,26,Mujer,True
2,Jose,28,Hombre,True
3,Luis,25,Hombre,True
7,Lourdes,26,Mujer,True


Y nos devuelve un DataFrame con las filas que cumplen la condición. De nuevo, pandas es muy listo, y al pasarle la Serie de booleanos, podemos filtrar efectivamente el DataFrame. Pandas determina que queremos filtrar utilizando las referencias de los índices, y los correspondientes True y False. Los índices son útiles

## Aplicación de funciones sobre DataFrames

En el análisis de datos, es muy común tener que aplicar funciones sobre nuestros datos.

Por ejemplo: podemos aplicar las ufuncs de Numpy directamente sobre un DataFrame. Comencemos por crear un DataFrame puramente numérico:

In [52]:
df_numerico = pd.DataFrame({
        "a": np.random.normal(0,1, (7,)), # Generamos datos aleatorios
        "b": np.random.normal(1,3, (7,)), # con np.random.normal, generando
        "c": np.random.normal(2,5, (7,)), # arrays unidimensionales
        "d": np.random.normal(-5,4,(7,)), # de longitud 7
        "e": np.random.normal(3,0.5,(7,))
    })

df_numerico

Unnamed: 0,a,b,c,d,e
0,-0.404229,0.012941,5.611928,-3.350898,3.326519
1,1.093429,-3.415691,-0.708546,-0.776097,3.368552
2,0.406194,0.415151,8.622303,-3.893716,3.003105
3,0.238226,4.65445,2.574521,-3.351881,3.300749
4,0.074221,-0.889742,-6.360202,-4.413956,3.244255
5,-0.297907,4.263914,-4.299506,-5.624273,2.735053
6,-2.30071,0.948351,1.066087,-9.842222,2.927119


Y ahora podemos aplicar ufuncs de Numpy, por ejemplo: np.square(mi_dataframe) para elevar cada dato al cuadrado:

In [53]:
np.square(df_numerico)

Unnamed: 0,a,b,c,d,e
0,0.163401,0.000167,31.493739,11.228516,11.06573
1,1.195586,11.666943,0.502037,0.602326,11.34714
2,0.164994,0.17235,74.344117,15.161022,9.018642
3,0.056751,21.663906,6.628161,11.235103,10.894946
4,0.005509,0.791641,40.452166,19.483009,10.525193
5,0.088749,18.180964,18.485755,31.632451,7.480513
6,5.293268,0.89937,1.136541,96.869331,8.568027


También suele ser útil aplicar nuestras propias funciones sobre cada fila/columna. Para hacerlo, utilizamos mi_dataframe.apply(funcion, axis=0/1), donde:

- axis=0 aplica la función a cada columna
- axis=1 aplica la función a cada fila
La función puede ser cualquier función que podemos definir en Python, incluídas las funciones lambda (que de hecho, es una práctica muy común).

Por ejemplo: si queremos obtener el valor máximo de cada columna, podemos hacer:

In [54]:
df_numerico.apply(lambda x: x.max(), axis=0) 
# Donde x es cada columna, tratada como un array de Numpy

a    1.093429
b    4.654450
c    8.622303
d   -0.776097
e    3.368552
dtype: float64

Que nos devuelve una Serie, donde cada índice es el resultado de cada columna.

Por el contrario, si queremos obtener el máximo de cada fila:

In [55]:
df_numerico.apply(lambda x: x.max(), axis=1) 
# Donde x es cada fila, tratada como un array de Numpy

0    5.611928
1    3.368552
2    8.622303
3    4.654450
4    3.244255
5    4.263914
6    2.927119
dtype: float64

Algunas de las funciones matemáticas y estadísticas más comunes (como puede ser max()) se pueden obtener de forma aún más sencilla en los DataFrames (lo veremos en el siguiente apartado), sin la necesidad de utilizar .apply(). No obstante, viene bien saber que podemos aplicar cualquier función que queramos a cada fila/columna con esta sintaxis.

También es frecuente querer aplicar una función a todos los valores del DataFrame. El método para hacerlo es con mi_dataframe.applymap(funcion). En este caso no tenemos que especificar si lo queremos hacer por filas o columnas, porque se hará sobre todos y cada uno de los valores del DataFrame.

Vamos a escribir una función algo más compleja para el ejemplo de applymap():

In [56]:
def menor_que_tres(numero):
    """Devuelve un string en el que pone
    "Numero menor que 3" si el numero
    es menor que 3, y el numero original
    en caso contrario."""
    if numero < 3:
        return "Numero menor que 3"
    else:
        return numero
    
# Una vez definida la función, la pasamos
# a applymap():
df_numerico.applymap(menor_que_tres)

Unnamed: 0,a,b,c,d,e
0,Numero menor que 3,Numero menor que 3,5.61193,Numero menor que 3,3.32652
1,Numero menor que 3,Numero menor que 3,Numero menor que 3,Numero menor que 3,3.36855
2,Numero menor que 3,Numero menor que 3,8.6223,Numero menor que 3,3.00311
3,Numero menor que 3,4.65445,Numero menor que 3,Numero menor que 3,3.30075
4,Numero menor que 3,Numero menor que 3,Numero menor que 3,Numero menor que 3,3.24426
5,Numero menor que 3,4.26391,Numero menor que 3,Numero menor que 3,Numero menor que 3
6,Numero menor que 3,Numero menor que 3,Numero menor que 3,Numero menor que 3,Numero menor que 3


**Aplicar funciones en las filas/columnas de los DataFrames es una técnica esencial, y merece la pena entender bien el funcionamiento de .apply() y .applymap(), puesto que son esenciales para realizar transformaciones sobre nuestros datasets.**

### NaN

En Numpy hemos visto cómo lidiar con los valores missing o NaNs. Resulta que en pandas hay métodos específicos para hacerlo de forma sencilla. Supongamos que tenemos:

In [57]:
# Nos inventamos unos cuantos datos y usamos applymap para crear NaNs:
df_con_nan = (pd.DataFrame(np.array([[n+22]*5 for n in range(5)]).T,
                           columns=["a","b","c","d","e"])
              .applymap(lambda x: x if np.random.randint(0,16) > 3 else np.nan)
              )
df_con_nan

Unnamed: 0,a,b,c,d,e
0,22.0,23,24,25.0,26
1,22.0,23,24,,26
2,,23,24,25.0,26
3,22.0,23,24,,26
4,,23,24,25.0,26


Podemos obtener qué datos están missing con el método .isnull():

In [58]:
df_con_nan.isnull()

Unnamed: 0,a,b,c,d,e
0,False,False,False,False,False
1,False,False,False,True,False
2,True,False,False,False,False
3,False,False,False,True,False
4,True,False,False,False,False


Supongamos que queremos filtrar si hay NaN. El método .dropna() nos permite hacerlo. Tiene varios argumentos listados [aquí](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.dropna.html#pandas-dataframe-dropna), pero probablemente el más útil es how='any' o how='all' junto con axis=0 o 1, que nos permite definir si queremos quitar una fila/columna bien si se encuentra con un solo nulo, o bien si todos los valores de esa fila/columna son nulos:

In [59]:
df_con_nan.dropna(axis=1, how="any") # Ojo: en este método, axis=0 es eliminar por fila,
                                     # y axis=1 es eliminar por columna.

Unnamed: 0,b,c,e
0,23,24,26
1,23,24,26
2,23,24,26
3,23,24,26
4,23,24,26


Por último, a veces nos puede interesar rellenar los missing con datos definidos por nosotros. Para eso está el método .fillna(). También toma varios argumentos mostrados [aquí](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html#pandas-dataframe-fillna), y permite rellenado dinámico. Un ejemplo podría ser rellenar con ceros:

In [60]:
df_con_nan.fillna(value=0)

Unnamed: 0,a,b,c,d,e
0,22.0,23,24,25.0,26
1,22.0,23,24,0.0,26
2,0.0,23,24,25.0,26
3,22.0,23,24,0.0,26
4,0.0,23,24,25.0,26


Y otro puede ser rellenar con la media de cada columna:

In [61]:
df_con_nan.fillna(value=df_con_nan.mean())

Unnamed: 0,a,b,c,d,e
0,22.0,23,24,25.0,26
1,22.0,23,24,25.0,26
2,22.0,23,24,25.0,26
3,22.0,23,24,25.0,26
4,22.0,23,24,25.0,26


### DataFrames jerárquicos y nesteados

In [62]:
dataframe_cualquiera = pd.DataFrame({"nombre":["Julio", "Nuria", "Pedro", u"María", "Lola"],
                                     "edad":[22, 27, 24, 31, 19],
                                     "altura (cm)":[175.0, 169.0, 184.0, 162.0, 166.0],
                                     "ciudad":["Madrid","Madrid","Barcelona","Valencia","Barcelona"],
                                     "sexo":["V","M","V","M","M"],
                                     "casado/a":[False, False, True, False, True]})
dataframe_cualquiera.index.name = "id"

In [63]:
dataframe_cualquiera

Unnamed: 0_level_0,nombre,edad,altura (cm),ciudad,sexo,casado/a
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,Julio,22,175.0,Madrid,V,False
1,Nuria,27,169.0,Madrid,M,False
2,Pedro,24,184.0,Barcelona,V,True
3,María,31,162.0,Valencia,M,False
4,Lola,19,166.0,Barcelona,M,True


Hasta ahora hemos visto siempre los DataFrames como estructuras con filas y columnas. No obstante, podemos crear lo que se llaman "DataFrames jerárquicos", en los que podemos tener un conjunto de columnas o de índices, ordenados jerárquicamente. Para construirlos, debemos utilizar un objeto de pandas que se llama MultiIndex. Podemos crear un MultiIndex de tres formas:

- from_tuples, donde pasamos un array de tuplas ordenadas tal y como vienen los datos en el DataFrame original
- from_arrays, donde pasamos un array de arrays
- from_product, donde el MultiIndex se crea con el producto cartesiano de los elementos de dos o más listas

Por lo general, el from_tuples() es el más utilizado. Veámoslo en acción a partir del DataFrame generado antes:

In [64]:
# Generamos un MultiIndex así:
nuevas_columnas_jerarquicas = pd.MultiIndex.from_tuples([("fisiologicas", "altura (cm)"),
                                                        ("sociodemograficas", "casado/a"),
                                                        ("sociodemograficas","ciudad"),
                                                        ("fisiologicas","edad"),
                                                        ("sociodemograficas","nombre"),
                                                        ("fisiologicas","sexo")])

# Ahora definimos este MultiIndex como las nuevas columnas
# de nuestro DataFrame:
dataframe_cualquiera.columns = nuevas_columnas_jerarquicas

In [65]:
dataframe_cualquiera

Unnamed: 0_level_0,fisiologicas,sociodemograficas,sociodemograficas,fisiologicas,sociodemograficas,fisiologicas
Unnamed: 0_level_1,altura (cm),casado/a,ciudad,edad,nombre,sexo
id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
0,Julio,22,175.0,Madrid,V,False
1,Nuria,27,169.0,Madrid,M,False
2,Pedro,24,184.0,Barcelona,V,True
3,María,31,162.0,Valencia,M,False
4,Lola,19,166.0,Barcelona,M,True


Podemos ver que se ha generado lo que se puede llamar "DataFrame jerárquico", con varias jerarquías de columnas, siendo fisiológicas/sociodemográficas el nivel 0 (lo más alto en la jerarquía), y siendo el nivel 1 altura, casado/a, ciudad, edad, nombre y sexo (lo más bajo en la jerarquía).



Tanto los Index normales, como las columnas (que a ojos de pandas son objetos también de tipo Index), como los MultiIndex, tienen muchos métodos que permiten re-ordenar y alterar los índices y columnas de una Serie o DataFrame. Los puedes encontrar [aquí](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.MultiIndex.html#pandas.MultiIndex).

Por ejemplo, si queremos re-ordenar las columnas para que aparezcan agrupadas/ordenadas por la primera jerarquía, podemos aplicar un .sortlevel(level=0) (0 por ser el lo más alto en la jerarquía de columnas; el nivel 0) sobre el DataFrame jerárquico.

Parece complejo (y lo es), pero con leer un poco la API y tener un poco de ingenio, podemos obtener unas estructuras de dato muy pontentes. Ordenarlo sería entonces así:

In [66]:
dataframe_cualquiera_ordenado = dataframe_cualquiera.sort_index(level=0, axis=1) # axis=1 para que ordene
                                                                                # columnas, en vez de
                                                                                # filas/índices.
dataframe_cualquiera_ordenado

Unnamed: 0_level_0,fisiologicas,fisiologicas,fisiologicas,sociodemograficas,sociodemograficas,sociodemograficas
Unnamed: 0_level_1,altura (cm),edad,sexo,casado/a,ciudad,nombre
id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
0,Julio,Madrid,False,22,175.0,V
1,Nuria,Madrid,False,27,169.0,M
2,Pedro,Barcelona,True,24,184.0,V
3,María,Valencia,False,31,162.0,M
4,Lola,Barcelona,True,19,166.0,M


Obtenemos un resultado muy intuitivo y útil. Ahora, para seleccionar todas las variables sociodemográficas, es tan sencillo como:

In [67]:
dataframe_cualquiera_ordenado["sociodemograficas"]

Unnamed: 0_level_0,casado/a,ciudad,nombre
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,22,175.0,V
1,27,169.0,M
2,24,184.0,V
3,31,162.0,M
4,19,166.0,M


Y para coger solo la variable ciudad, podemos utilizar indexado y slicing al estilo de Numpy:

In [68]:
dataframe_cualquiera_ordenado["sociodemograficas","ciudad"]
# Equivalente a dataframe_cualquiera_ordenado["sociodemograficas"]["ciudad"]

id
0    175.0
1    169.0
2    184.0
3    162.0
4    166.0
Name: (sociodemograficas, ciudad), dtype: float64

Y por ejemplo, también podemos obtener así estadística descriptiva muy bien ordenada:

In [69]:
dataframe_cualquiera_ordenado.describe(include="all") # include="all" en el .describe() nos permite
                                                      # ver datos tanto de variables numéricas como
                                                      # categóricas, en el mismo resultado.

Unnamed: 0_level_0,fisiologicas,fisiologicas,fisiologicas,sociodemograficas,sociodemograficas,sociodemograficas
Unnamed: 0_level_1,altura (cm),edad,sexo,casado/a,ciudad,nombre
count,5,5,5,5.0,5.0,5
unique,5,3,2,,,2
top,María,Barcelona,False,,,M
freq,1,2,3,,,3
mean,,,,24.6,171.2,
std,,,,4.615192,8.58487,
min,,,,19.0,162.0,
25%,,,,22.0,166.0,
50%,,,,24.0,169.0,
75%,,,,27.0,175.0,


### JOINS sobre DataFrames

Una operación esencial en el mundo de datos estructurados y en SQL es el tema de los joins, es decir, unir dos tablas, cruzando por un determinado campo. Supongamos que tenemos dos DataFrames:

In [70]:
df_uno = pd.DataFrame({"nombre":["Julio", "Nuria", "Pedro", u"María", "Lola"],
                       "edad":[22, 27, 24, 31, 19],
                       "altura (cm)":[175.0, 169.0, 184.0, 162.0, 166.0],
                       "ciudad":["Madrid","Madrid","Barcelona","Valencia","Barcelona"],
                       "sexo":["V","M","V","M","M"],
                       "casado/a":[False, False, True, False, True]})

df_dos = pd.DataFrame({"numero de gatos":[0,0,2,1,8,0],
                       "nombre":["Pedro", "Julio", "Lola", "Nuria", "Elisa", "Manuel"],
                       "rubio/a":[False, False, True, True, False, True]})

In [71]:
df_uno

Unnamed: 0,nombre,edad,altura (cm),ciudad,sexo,casado/a
0,Julio,22,175.0,Madrid,V,False
1,Nuria,27,169.0,Madrid,M,False
2,Pedro,24,184.0,Barcelona,V,True
3,María,31,162.0,Valencia,M,False
4,Lola,19,166.0,Barcelona,M,True


In [72]:
df_dos

Unnamed: 0,numero de gatos,nombre,rubio/a
0,0,Pedro,False
1,0,Julio,False
2,2,Lola,True
3,1,Nuria,True
4,8,Elisa,False
5,0,Manuel,True


Y queremos unir ambos DataFrames en uno solo. Pues bien, en el mundo SQL, esto se realiza a través de las operaciones JOIN. Pandas ofrece esta misma funcionalidad a través del método .merge() aplicado a uno de los DataFrames, y que toma como argumento el otro. Cuando hacemos un JOIN en SQL, debemos especificar por qué columna queremos realizarlo. En pandas es opcional (él solo lo deduce), no obstante, podemos pasárselo como argumento opcional al .merge(on="nombre_de_columna"). Recomiendo hacerlo siempre, para evitar sorpresas inesperadas.

Resulta que hay varios tipos de JOINS o merges, dependiendo de cómo se quieran tratar los valores que aparecen en la columna de un DataFrame y no en las de otro. [Esta página](https://blog.codinghorror.com/a-visual-explanation-of-sql-joins/) explica muy bien los diferentes tipos de JOIN



Vamos uno por uno, utilizando .merge(). Comencemos por el INNER JOIN, y dados los dos DataFrames, vemos que lo lógico sería cruzarlos por el campo "nombre", puesto que es el único común a ambos DataFrames:



In [73]:
df_uno.merge(df_dos, how="inner", on="nombre")

Unnamed: 0,nombre,edad,altura (cm),ciudad,sexo,casado/a,numero de gatos,rubio/a
0,Julio,22,175.0,Madrid,V,False,0,False
1,Nuria,27,169.0,Madrid,M,False,1,True
2,Pedro,24,184.0,Barcelona,V,True,0,False
3,Lola,19,166.0,Barcelona,M,True,2,True


Ahora el LEFT OUTER JOIN (o LEFT JOIN que es lo mismo):

In [74]:
df_uno.merge(df_dos, how="left", on="nombre")

Unnamed: 0,nombre,edad,altura (cm),ciudad,sexo,casado/a,numero de gatos,rubio/a
0,Julio,22,175.0,Madrid,V,False,0.0,False
1,Nuria,27,169.0,Madrid,M,False,1.0,True
2,Pedro,24,184.0,Barcelona,V,True,0.0,False
3,María,31,162.0,Valencia,M,False,,
4,Lola,19,166.0,Barcelona,M,True,2.0,True


Ahora el RIGHT OUTER JOIN (o RIGHT JOIN que es lo mismo):

In [75]:
df_uno.merge(df_dos, how="right", on="nombre")

Unnamed: 0,nombre,edad,altura (cm),ciudad,sexo,casado/a,numero de gatos,rubio/a
0,Julio,22.0,175.0,Madrid,V,False,0,False
1,Nuria,27.0,169.0,Madrid,M,False,1,True
2,Pedro,24.0,184.0,Barcelona,V,True,0,False
3,Lola,19.0,166.0,Barcelona,M,True,2,True
4,Elisa,,,,,,8,False
5,Manuel,,,,,,0,True


Y por último, el OUTER JOIN (o FULL OUTER JOIN):



In [76]:
df_uno.merge(df_dos, how="outer", on="nombre")

Unnamed: 0,nombre,edad,altura (cm),ciudad,sexo,casado/a,numero de gatos,rubio/a
0,Julio,22.0,175.0,Madrid,V,False,0.0,False
1,Nuria,27.0,169.0,Madrid,M,False,1.0,True
2,Pedro,24.0,184.0,Barcelona,V,True,0.0,False
3,María,31.0,162.0,Valencia,M,False,,
4,Lola,19.0,166.0,Barcelona,M,True,2.0,True
5,Elisa,,,,,,8.0,False
6,Manuel,,,,,,0.0,True


### Agregaciones sobre DataFrames

En el mundo del análisis de datos tabulares es muy frecuente querer generar agregados más allá de simples medias y varianzas. Agregar agrupando por un campo es una operación muy frecuente en SQL. Es muy probable que hayas visto este tipo de sintaxtis en SQL:

> SELECT COUNT(*) FROM mitabla GROUP BY ciudad;
pandas ofrece una gran variedad de funciones (todas las de SQL y más) para realizar este tipo de agregados.

Comencemos por crear un DataFrame que nos sea útil para este tipo de agrupaciones:

In [77]:
df_para_agrupar = pd.DataFrame({"importe": [32000.2, 12800.4, 80034, 39103.5, 6900, 93802.5, 19900],
                                "ciudad": ["Madrid", "Barcelona", "Valencia", "Madrid", "Barcelona", "Valencia", "Barcelona"],
                                "modelo": [u"coupé", u"coupé", "cabrio", "berlina", "cabrio", u"coupé", u"coupé"],
                                "caballos": [215, 134, 380, 235, 90, 420, 110],
                                "gasolina": [True, False, True, False, False, True, False],
                                "id": [131, 12, 152, 241, 369, 832, 16]
                               })

df_para_agrupar

Unnamed: 0,importe,ciudad,modelo,caballos,gasolina,id
0,32000.2,Madrid,coupé,215,True,131
1,12800.4,Barcelona,coupé,134,False,12
2,80034.0,Valencia,cabrio,380,True,152
3,39103.5,Madrid,berlina,235,False,241
4,6900.0,Barcelona,cabrio,90,False,369
5,93802.5,Valencia,coupé,420,True,832
6,19900.0,Barcelona,coupé,110,False,16


Este DataFrame contiene datos de compras de coches (solo 7 compras), en distintas comunidades autónomas. Antes de nada, vamos a poner la columna id como el index del DataFrame (que es una práctica común):

In [78]:
# Ponemos la columna "id" como index del DataFrame:
df_para_agrupar.index = df_para_agrupar["id"]

# Y la eliminamos de las columnas. Para eliminar
# columnas de un DataFrame, podemos utilizar la
# keyword del de python, que elimina variables,
# o campos dentro de una lista, diccionario... O
# en este caso, columnas de un DataFrame:
del df_para_agrupar["id"]

# Ordenamos las filas de menor a mayor index.
# Para ello, utilizamos el metodo sort_index():
df_para_agrupar.sort_index(inplace=True)

# Y lo mostramos:
df_para_agrupar

Unnamed: 0_level_0,importe,ciudad,modelo,caballos,gasolina
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
12,12800.4,Barcelona,coupé,134,False
16,19900.0,Barcelona,coupé,110,False
131,32000.2,Madrid,coupé,215,True
152,80034.0,Valencia,cabrio,380,True
241,39103.5,Madrid,berlina,235,False
369,6900.0,Barcelona,cabrio,90,False
832,93802.5,Valencia,coupé,420,True


Una forma de agrupar los datos por un campo es creando un index jerárquico, igual que hicimos anteriormente con las columnas, pero en este caso con el index. Para añadir otro index, podemos hacerlo con el método .set_index(y_una_lista_de_los_indices_que_queremos). El índice más arriba en la jerarquía lo ponemos como primer valor de la lista, y el de más abajo, como el último.

Vamos a probar por agrupar las transacciones de los coches por la ciudad en la que ocurrieron:
    

In [79]:
# El índice más arriba de la jerarquía será la ciudad, y el
# de más abajo, el index actual del DataFrame (es decir, el "id"):
df_agrupado_ciudad = df_para_agrupar.set_index([df_para_agrupar["ciudad"], df_para_agrupar.index])
df_agrupado_ciudad

Unnamed: 0_level_0,Unnamed: 1_level_0,importe,ciudad,modelo,caballos,gasolina
ciudad,id,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Barcelona,12,12800.4,Barcelona,coupé,134,False
Barcelona,16,19900.0,Barcelona,coupé,110,False
Madrid,131,32000.2,Madrid,coupé,215,True
Valencia,152,80034.0,Valencia,cabrio,380,True
Madrid,241,39103.5,Madrid,berlina,235,False
Barcelona,369,6900.0,Barcelona,cabrio,90,False
Valencia,832,93802.5,Valencia,coupé,420,True


Para que nos quede más bonito, vamos a ordenar de nuevo el index con sort_index(). Si no le pasamos un nivel de jerarquía al método, por defecto nos ordenará por el nivel más elevado, que es justo lo que queremos aquí:

In [80]:
df_agrupado_ciudad_ordenado = df_agrupado_ciudad.sort_index(inplace=False) # inplace=False 
                                                                           # crea un nuevo DataFrame;
df_agrupado_ciudad_ordenado                                                # True ordena el actual.   

Unnamed: 0_level_0,Unnamed: 1_level_0,importe,ciudad,modelo,caballos,gasolina
ciudad,id,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Barcelona,12,12800.4,Barcelona,coupé,134,False
Barcelona,16,19900.0,Barcelona,coupé,110,False
Barcelona,369,6900.0,Barcelona,cabrio,90,False
Madrid,131,32000.2,Madrid,coupé,215,True
Madrid,241,39103.5,Madrid,berlina,235,False
Valencia,152,80034.0,Valencia,cabrio,380,True
Valencia,832,93802.5,Valencia,coupé,420,True


Ya no tiene sentido que ciudad siga siendo también una columna. La quitamos:

In [81]:
del df_agrupado_ciudad_ordenado["ciudad"]
df_agrupado_ciudad_ordenado

Unnamed: 0_level_0,Unnamed: 1_level_0,importe,modelo,caballos,gasolina
ciudad,id,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Barcelona,12,12800.4,coupé,134,False
Barcelona,16,19900.0,coupé,110,False
Barcelona,369,6900.0,cabrio,90,False
Madrid,131,32000.2,coupé,215,True
Madrid,241,39103.5,berlina,235,False
Valencia,152,80034.0,cabrio,380,True
Valencia,832,93802.5,coupé,420,True


¡Tenemos nuestros valores agrupados por ciudad! ¿Qué pasará si utilizamos las funciones de agregación de pandas (por ejemplo, count()), pasándole el nivel de jerarquía que queremos?

In [82]:
# Una cuenta de registros por ciudad.
# Puesto que ciudad es el nivel de mayor
# jerarquía de nuestro index, es el level 0:
df_agrupado_ciudad_ordenado.count(level=0)

Unnamed: 0_level_0,importe,modelo,caballos,gasolina
ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Barcelona,3,3,3,3
Madrid,2,2,2,2
Valencia,2,2,2,2


In [83]:
# Y una media de los valores:
df_agrupado_ciudad_ordenado.mean(level=0)

Unnamed: 0_level_0,importe,caballos,gasolina
ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Barcelona,13200.133333,111.333333,0.0
Madrid,35551.85,225.0,0.5
Valencia,86918.25,400.0,1.0


Muy útil. No obstante, hemos visto que es un proceso bastante manual. Todo se puede automatizar, pero existe una forma más sencilla de conseguir los mismos resultados con pandas. Para ello, existe el método .groupby().

.groubpy("nombre_de_columna") tiene un funcionamiento curioso. Vamos a intentar utilizarlo para hacer lo mismo: agrupar los datos por ciudad:

In [84]:
# Partimos de nuevo de df_para_agrupar:
df_para_agrupar.groupby("ciudad")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f155fe22198>

pandas nos devuelve un objeto curioso: un DataFrameGroupBy. Parece poco útil, pero... ¿Qué pasa si tras ese .groupby("ciudad") escribimos un .count()?

In [85]:
df_para_agrupar.groupby("ciudad").count()

Unnamed: 0_level_0,importe,modelo,caballos,gasolina
ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Barcelona,3,3,3,3
Madrid,2,2,2,2
Valencia,2,2,2,2


¡Nos ha devuelto el mismo resultado que obtuvimos de forma más manual!

A un objeto DataFrameGroupBy podemos pasarle cualquier función de agregación:

In [86]:
df_para_agrupar.groupby("ciudad").mean()

Unnamed: 0_level_0,importe,caballos,gasolina
ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Barcelona,13200.133333,111.333333,0.0
Madrid,35551.85,225.0,0.5
Valencia,86918.25,400.0,1.0


También el mismo resultado de antes. Podemos hasta hacer un .describe():

In [87]:
df_para_agrupar.groupby("ciudad").describe()

Unnamed: 0_level_0,importe,importe,importe,importe,importe,importe,importe,importe,caballos,caballos,caballos,caballos,caballos,caballos,caballos,caballos
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
ciudad,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
Barcelona,3.0,13200.133333,6509.211938,6900.0,9850.2,12800.4,16350.2,19900.0,3.0,111.333333,22.030282,90.0,100.0,110.0,122.0,134.0
Madrid,2.0,35551.85,5022.791599,32000.2,33776.025,35551.85,37327.675,39103.5,2.0,225.0,14.142136,215.0,220.0,225.0,230.0,235.0
Valencia,2.0,86918.25,9735.799717,80034.0,83476.125,86918.25,90360.375,93802.5,2.0,400.0,28.284271,380.0,390.0,400.0,410.0,420.0


df_para_agrupar.groupby("ciudad").describe()

Un objeto DataFrameGroupBy solo sirve si queremos obtener una agregación justo después. No puede "solo agrupar" y devolvernos el DataFrame resultante. Ver [este issue](https://github.com/pandas-dev/pandas/issues/4883).

Cosa que sí podemos (y hemos hecho) a mano con .set_index([df["columna"], df.index]), .sort_index() y del df["columna"]

Esa es la diferencia. No obstante, en la mayoría de los casos solo vamos a querer agrupar por una columna para luego obtener agregados y estadísticos; para lo cual podemos utilizar sencillamente .groupby("columna").una_agregacion()

Podemos agrupar por más de una columna, si las pasamos como una lista:

In [88]:
df_para_agrupar.groupby(["ciudad", "modelo"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,importe,caballos,gasolina
ciudad,modelo,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Barcelona,cabrio,6900.0,90,False
Barcelona,coupé,16350.2,122,False
Madrid,berlina,39103.5,235,False
Madrid,coupé,32000.2,215,True
Valencia,cabrio,80034.0,380,True
Valencia,coupé,93802.5,420,True


Incluso podemos utilizar el método .agg() para incluir una función customizada (por ejemplo, con una función lambda) para la agrecación. Dicha función funcionará siempre y cuando solo nos devuelva un resultado por cada grupo. Esto ya es menos intutivo, y en la práctica no se utiliza demasiado:

In [89]:
# Queremos aplicar la raíz cuadrada de cada valor y luego
# obtener la media, agrupando por los mismos campos que 
# antes. La raíz cuadrada la hacemos con la ufunc de Numpy
# np.sqrt:
df_para_agrupar.groupby(["ciudad", "modelo"]).agg(lambda grupo: np.sqrt(grupo).mean())

Unnamed: 0_level_0,Unnamed: 1_level_0,importe,caballos,gasolina
ciudad,modelo,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Barcelona,cabrio,83.066239,9.486833,False
Barcelona,coupé,127.103106,11.031963,False
Madrid,berlina,197.746049,15.32971,False
Madrid,coupé,178.885997,14.662878,True
Valencia,cabrio,282.90281,19.493589,True
Valencia,coupé,306.271938,20.493902,True


Efectivamente, los resultados son la raíz cuadrada.

## ¡Hay mucho más!

Tanto pandas como Numpy son bibliotecas muy extensas. Abarcar todo lo que se puede hacer sin copiar y pegar directamente de la documentación es casi imposible.

No obstante, mientras sepamos detectar el problema a resolver, sepamos formularlo y conozcamos las capacidades de las bibliotecas, no deberíamos tener demasiados problemas para conseguir nuestros objetivos.

- **Recuerda:** a veces, una sencilla búsqueda en Internet nos puede simplificar la tarea en gran medida.

- **Recuerda:** ver el tipo de dato que devuelve una función o método nos da mucha información sobre lo que podemos hacer con ella, y cómo hacerlo. Acostumbrarse a utilizar type(objeto_devuelto) nunca viene mal.

- **Recuerda:** si no estás seguro de cómo funciona una función o método, prueba a ejecutarlo en pocos datos, de los cuales puedas sacar la solución y entender el comportamiento de la función aplicada fácilmente. Si funciona para pocos datos, funcionará para tus datasets reales (siempre y cuando los datos quepan en tu ordenador...)

### Ejercicios 

Diccionario Python y lista de labels:

In [90]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

#### 1. Create a DataFrame df from this dictionary data which has the index labels.

#### 2. Display a summary of the basic information about this DataFrame and its data.

#### 3. Return the first 3 rows of the DataFrame df.

#### 4. Select the data in rows [3, 4, 8] and in columns ['animal', 'age'].

#### 5. Select the rows where the animal is a cat and the age is less than 3.

#### 6.  Select the rows the age is between 2 and 4 (inclusive).

#### 7. Calculate the sum of all visits (the total number of visits).

#### 8. Calculate the mean age for each different animal in df.

#### 9.Sort df first by the values in the 'age' in decending order, then by the value in the 'visit' column in ascending order.

#### 10. You have a DataFrame df with a column 'A' of integers. For example:


In [91]:
df = pd.DataFrame({'A': [1, 2, 2, 3, 4, 5, 5, 5, 6, 7, 7]})

How do you filter out rows which contain the same integer as the row immediately above?

#### 11.Suppose you have DataFrame with 10 columns of real numbers, for example:

In [92]:
df = pd.DataFrame(np.random.random(size=(5, 10)), columns=list('abcdefghij'))


Which column of numbers has the smallest sum? (Find that column's label.)

**DataFrame for the following exercises**

In [93]:
df = pd.DataFrame({'From_To': ['LoNDon_paris', 'MAdrid_miLAN', 'londON_StockhOlm', 
                               'Budapest_PaRis', 'Brussels_londOn'],
              'FlightNumber': [10045, np.nan, 10065, np.nan, 10085],
              'RecentDelays': [[23, 47], [], [24, 43, 87], [13], [67, 32]],
                   'Airline': ['KLM(!)', '<Air France> (12)', '(British Airways. )', 
                               '12. Air France', '"Swiss Air"']})


#### 12. Some values in the the FlightNumber column are missing. These numbers are meant to increase by 10 with each row so 10055 and 10075 need to be put in place. Fill in these missing numbers and make the column an integer column (instead of a float column).



#### 13. The From_To column would be better as two separate columns! Split each string on the underscore delimiter _ to give a new temporary DataFrame with the correct values. Assign the correct column names to this temporary DataFrame.

#### 14. Notice how the capitalisation of the city names is all mixed up in this temporary DataFrame. Standardise the strings so that only the first letter is uppercase (e.g. "londON" should become "London".)

#### 15. In the Airline column, you can see some extra puctuation and symbols have appeared around the airline names. Pull out just the airline name. E.g. '(British Airways. )' should become 'British Airways'.