![](https://api.brandy.run/core/core-logo-wide)

# Pandas

En esa lección vamos profundizar nuestros conocimientos en [pandas](https://pandas.pydata.org/docs/reference/index.html), una de las librerías más populares de Python y de las más importantes para Data Analysts y Data Scientists.

El propósito principal de pandas es la manipulación de datos, lo que esa librería permite hacer genialmente, sobretodo por las `estructuras de datos` que nos disponibiliza y su sintáxis practica con muchas posibilidades integradas.

Si no tienes todavía pandas instalado, instalalo usando `conda install pandas`.


![](img/pandas.png)

In [1]:
import pandas as pd

# Building Blocks

Las estructuras de datos elementares en pandas son dos: las Series y los DataFrames. 

## 1. Series

Una serie de Pandas es un array unidimensional. Basicamente un vector o una lista. Su diferencia está en que las series contienen mucho más información y métodos que sus alternativas.

In [11]:
serie = pd.Series(["a","b","c","ab","ac","bc","cc",[1,2,3]])

In [12]:
serie

0            a
1            b
2            c
3           ab
4           ac
5           bc
6           cc
7    [1, 2, 3]
dtype: object

### Indexing and Data Type

Lo primero que podemos observar al ver la representación de la série es que ella contiene una anterior secuencia con los numeros de 0 a 3 y `dtype`.

El dtype es un indicativo de los datos que están contenidos en un a série. Si todos los elementos son `int`, `float` o `bool` podremos ver esa indicación. Pero strings y series mixtas están identificadas como `object`.

Los numeros se refieren a los indexes de los elementos de la série y podemos recuperar esos elementos tal cual fueran los de una lista.

In [13]:
serie[4]

'ac'

Podemos pasarle intervalos de índices (slices).

In [14]:
serie[1:5]

1     b
2     c
3    ab
4    ac
dtype: object

También utilizar un tercer parámetro step.

In [15]:
serie[::-1]

7    [1, 2, 3]
6           cc
5           bc
4           ac
3           ab
2            c
1            b
0            a
dtype: object

Y diferentemente de las listas y otros contenedores, podemos pasarle una lista de índices y nos devolverá los elementos según los índices listados.

In [16]:
indices = [0,1,2,4,5]

In [17]:
serie[indices]

0     a
1     b
2     c
4    ac
5    bc
dtype: object

In [18]:
serie[7]

[1, 2, 3]

In [21]:
serie[[0,1,2,2,3,1,0,4,3,1]]

0     a
1     b
2     c
2     c
3    ab
1     b
0     a
4    ac
3    ab
1     b
dtype: object

La información sobre los índices de una serie se guardan en el atributo `index`, así que podemos acceder a ellos con:

In [22]:
serie.index

RangeIndex(start=0, stop=8, step=1)

In [23]:
serie

0            a
1            b
2            c
3           ab
4           ac
5           bc
6           cc
7    [1, 2, 3]
dtype: object

`Podemos incluso alterar ese atributo.`

In [28]:
serie.index = pd.RangeIndex(start=1, stop=16, step=2)

In [29]:
serie

1             a
3             b
5             c
7            ab
9            ac
11           bc
13           cc
15    [1, 2, 3]
dtype: object

In [30]:
serie.index = range(9,1,-1)

In [31]:
serie

9            a
8            b
7            c
6           ab
5           ac
4           bc
3           cc
2    [1, 2, 3]
dtype: object

In [33]:
serie.index = [1,3,6,3,8,0,10,11]

In [34]:
serie

1             a
3             b
6             c
3            ab
8            ac
0            bc
10           cc
11    [1, 2, 3]
dtype: object

In [35]:
serie[3]

3     b
3    ab
dtype: object

### Labels

No nos limitamos entretanto a números. 🤔

A los "indices" no numéricos, se suelen llamar `labels`.

In [37]:
serie.index = ["x","y","z","w","k","l","p","j"]

In [38]:
serie

x            a
y            b
z            c
w           ab
k           ac
l           bc
p           cc
j    [1, 2, 3]
dtype: object

A partir de ese momento, la serie funciona como ambos una `lista` o un `dicionário`.

In [39]:
serie["x"]

'a'

In [40]:
serie[0]

'a'

Eso podría generar un problema si tuvieramos unos labels numericos que no coinciden con los indices.

In [46]:
serie.index = [1,2,3,4,5,6,7,8]

In [49]:
serie

1            a
2            b
3            c
4           ab
5           ac
6           bc
7           cc
8    [1, 2, 3]
dtype: object

In [51]:
serie[1]

'a'

### .loc and .iloc

Los label siempre tendrán prioridad sobre los indices en ese tipo de operación, pero podemos especificar si estamos utilizando los labels o los index con los métodos `loc` y `iloc`, donde `iloc` se refiere al index numerico, i.e.: la posición del elemento dentro de la serie, y `loc` al index no numerico, o los labels.

In [54]:
serie.loc[2]

'b'

In [55]:
serie.iloc[1]

'b'

### Dict to Series
Podemos también generar una serie a partir de un dicionário.

In [60]:
serie_d = pd.Series({"primero":1238, "segundo":12, "lo que _sea": 12391827617923})

In [61]:
serie_d

primero                  1238
segundo                    12
lo que _sea    12391827617923
dtype: int64

### Methods, Operations and More
Utilizando el proprio codigo python, podemos ver que hay una multitud de métodos y atributos disponíbles para las series. Vamos a ver algunas de las operaciones más comunes con ellas.

In [63]:
print([att for att in dir(serie_d) if not att.startswith("_")])

['T', 'abs', 'add', 'add_prefix', 'add_suffix', 'agg', 'aggregate', 'align', 'all', 'any', 'append', 'apply', 'argmax', 'argmin', 'argsort', 'array', 'asfreq', 'asof', 'astype', 'at', 'at_time', 'attrs', 'autocorr', 'axes', 'backfill', 'between', 'between_time', 'bfill', 'bool', 'clip', 'combine', 'combine_first', 'compare', 'convert_dtypes', 'copy', 'corr', 'count', 'cov', 'cummax', 'cummin', 'cumprod', 'cumsum', 'describe', 'diff', 'div', 'divide', 'divmod', 'dot', 'drop', 'drop_duplicates', 'droplevel', 'dropna', 'dtype', 'dtypes', 'duplicated', 'empty', 'eq', 'equals', 'ewm', 'expanding', 'explode', 'factorize', 'ffill', 'fillna', 'filter', 'first', 'first_valid_index', 'flags', 'floordiv', 'ge', 'get', 'groupby', 'gt', 'hasnans', 'head', 'hist', 'iat', 'idxmax', 'idxmin', 'iloc', 'index', 'infer_objects', 'interpolate', 'is_monotonic', 'is_monotonic_decreasing', 'is_monotonic_increasing', 'is_unique', 'isin', 'isna', 'isnull', 'item', 'items', 'iteritems', 'keys', 'kurt', 'kurtosi

In [64]:
sorted(serie_d)

[12, 1238, 12391827617923]

In [66]:
serie_d.sort_values(ascending=False)

lo que _sea    12391827617923
primero                  1238
segundo                    12
dtype: int64

In [67]:
serie_d

primero                  1238
segundo                    12
lo que _sea    12391827617923
dtype: int64

In [68]:
serie_d.append(pd.Series({"Cuarto":"Hola"}))

primero                  1238
segundo                    12
lo que _sea    12391827617923
Cuarto                   Hola
dtype: object

In [69]:
serie_d

primero                  1238
segundo                    12
lo que _sea    12391827617923
dtype: int64

In [77]:
index=["Giant Panda","Wild Bactrian Camel", "Mountain Gorilla", "Tapanuli Orangutan", "Sumatran Tiger", "Sumatran Rhino", "Javan Rhino", "Spix's Macaw", "Vaquita"]
data=[1864,1400,800,800,400,85,68,58,30]

In [78]:
animales = pd.Series(name="Animales", index=index, data=data)

In [79]:
animales

Giant Panda            1864
Wild Bactrian Camel    1400
Mountain Gorilla        800
Tapanuli Orangutan      800
Sumatran Tiger          400
Sumatran Rhino           85
Javan Rhino              68
Spix's Macaw             58
Vaquita                  30
Name: Animales, dtype: int64

In [81]:
animales.append(pd.Series({"Gato":1002}))

Giant Panda            1864
Wild Bactrian Camel    1400
Mountain Gorilla        800
Tapanuli Orangutan      800
Sumatran Tiger          400
Sumatran Rhino           85
Javan Rhino              68
Spix's Macaw             58
Vaquita                  30
Gato                   1002
dtype: int64

In [82]:
animales

Giant Panda            1864
Wild Bactrian Camel    1400
Mountain Gorilla        800
Tapanuli Orangutan      800
Sumatran Tiger          400
Sumatran Rhino           85
Javan Rhino              68
Spix's Macaw             58
Vaquita                  30
Name: Animales, dtype: int64

In [83]:
animales = animales.append(pd.Series({"Gato":1002}))

In [84]:
animales

Giant Panda            1864
Wild Bactrian Camel    1400
Mountain Gorilla        800
Tapanuli Orangutan      800
Sumatran Tiger          400
Sumatran Rhino           85
Javan Rhino              68
Spix's Macaw             58
Vaquita                  30
Gato                   1002
dtype: int64

In [87]:
animales.sort_values(ascending=False, inplace=True)

In [88]:
animales

Giant Panda            1864
Wild Bactrian Camel    1400
Gato                   1002
Mountain Gorilla        800
Tapanuli Orangutan      800
Sumatran Tiger          400
Sumatran Rhino           85
Javan Rhino              68
Spix's Macaw             58
Vaquita                  30
dtype: int64

In [100]:
out = animales.sort_values(ascending=True, inplace=True)

In [101]:
out

In [102]:
animales

Vaquita                  30
Spix's Macaw             58
Javan Rhino              68
Sumatran Rhino           85
Sumatran Tiger          400
Mountain Gorilla        800
Tapanuli Orangutan      800
Gato                   1002
Wild Bactrian Camel    1400
Giant Panda            1864
dtype: int64

In [99]:
print(out)

Vaquita                  30
Spix's Macaw             58
Javan Rhino              68
Sumatran Rhino           85
Sumatran Tiger          400
Mountain Gorilla        800
Tapanuli Orangutan      800
Gato                   1002
Wild Bactrian Camel    1400
Giant Panda            1864
dtype: int64


### Operations
Si los datos son compatibles, algunas operaciones se pueden ejecutar facilmente sobre cada elemento de la serie, similar a los `numpy.array`.

In [103]:
import numpy as np

In [105]:
np.array([1,2,3,4,5,6])*50

array([ 50, 100, 150, 200, 250, 300])

In [107]:
animales/100

Vaquita                 0.30
Spix's Macaw            0.58
Javan Rhino             0.68
Sumatran Rhino          0.85
Sumatran Tiger          4.00
Mountain Gorilla        8.00
Tapanuli Orangutan      8.00
Gato                   10.02
Wild Bactrian Camel    14.00
Giant Panda            18.64
dtype: float64

In [108]:
animales

Vaquita                  30
Spix's Macaw             58
Javan Rhino              68
Sumatran Rhino           85
Sumatran Tiger          400
Mountain Gorilla        800
Tapanuli Orangutan      800
Gato                   1002
Wild Bactrian Camel    1400
Giant Panda            1864
dtype: int64

In [109]:
prueba = animales

In [114]:
prueba = prueba.append(pd.Series({"Perro":"Spain"}))

In [117]:
prueba*100

Vaquita                                                             3000
Spix's Macaw                                                        5800
Javan Rhino                                                         6800
Sumatran Rhino                                                      8500
Sumatran Tiger                                                     40000
Mountain Gorilla                                                   80000
Tapanuli Orangutan                                                 80000
Gato                                                              100200
Wild Bactrian Camel                                               140000
Giant Panda                                                       186400
Perro                  SpainSpainSpainSpainSpainSpainSpainSpainSpainS...
dtype: object

### .apply

Pero cualquier función o operación es posible de ser ejecutada de esa manera, utilizando el método `apply`, que funciona de manera similar al método `map` y ejecuta esa función para cada uno de los elementos.

In [119]:
animales.apply(lambda x: x/100)

Vaquita                 0.30
Spix's Macaw            0.58
Javan Rhino             0.68
Sumatran Rhino          0.85
Sumatran Tiger          4.00
Mountain Gorilla        8.00
Tapanuli Orangutan      8.00
Gato                   10.02
Wild Bactrian Camel    14.00
Giant Panda            18.64
dtype: float64

In [122]:
def decoracion(data,decoracion_1="🔥", decoracion_2="❄️"):
    return f"{decoracion_1} {data} {decoracion_2}"

In [123]:
decoracion(1, "🔥","❄️")

'🔥 1 ❄️'

In [124]:
animales.apply(decoracion)

Vaquita                  🔥 30 ❄️
Spix's Macaw             🔥 58 ❄️
Javan Rhino              🔥 68 ❄️
Sumatran Rhino           🔥 85 ❄️
Sumatran Tiger          🔥 400 ❄️
Mountain Gorilla        🔥 800 ❄️
Tapanuli Orangutan      🔥 800 ❄️
Gato                   🔥 1002 ❄️
Wild Bactrian Camel    🔥 1400 ❄️
Giant Panda            🔥 1864 ❄️
dtype: object

#### With params (kwargs)

Si la función que usaremos en el `apply` requiere algun otro parámetro, no hay problema. Podemos pasar ese parámetro al apply y él se encarga de pasarlo a nuestra función.

In [125]:
animales.apply(decoracion, decoracion_1="💉")

Vaquita                  💉 30 ❄️
Spix's Macaw             💉 58 ❄️
Javan Rhino              💉 68 ❄️
Sumatran Rhino           💉 85 ❄️
Sumatran Tiger          💉 400 ❄️
Mountain Gorilla        💉 800 ❄️
Tapanuli Orangutan      💉 800 ❄️
Gato                   💉 1002 ❄️
Wild Bactrian Camel    💉 1400 ❄️
Giant Panda            💉 1864 ❄️
dtype: object

In [126]:
animales.apply(decoracion, decoracion_1="💉", decoracion_2="⁉️")

Vaquita                  💉 30 ⁉️
Spix's Macaw             💉 58 ⁉️
Javan Rhino              💉 68 ⁉️
Sumatran Rhino           💉 85 ⁉️
Sumatran Tiger          💉 400 ⁉️
Mountain Gorilla        💉 800 ⁉️
Tapanuli Orangutan      💉 800 ⁉️
Gato                   💉 1002 ⁉️
Wild Bactrian Camel    💉 1400 ⁉️
Giant Panda            💉 1864 ⁉️
dtype: object

### Iterate Series

Podemos directamente iterar por una serie como si fuera un iterable cualquier. En ese caso estaremos iterando apenas por sus valores. Hay una herramienta muy interessante para eso que es el método `.iteritems`, que nos devuelve como una tupla el `index` y el `valor` para cada elemento de la série. 

In [127]:
for el in animales:
    print(el)

30
58
68
85
400
800
800
1002
1400
1864


In [129]:
list(animales.iteritems())

[('Vaquita', 30),
 ("Spix's Macaw", 58),
 ('Javan Rhino', 68),
 ('Sumatran Rhino', 85),
 ('Sumatran Tiger', 400),
 ('Mountain Gorilla', 800),
 ('Tapanuli Orangutan', 800),
 ('Gato', 1002),
 ('Wild Bactrian Camel', 1400),
 ('Giant Panda', 1864)]

In [130]:
for indice, value in animales.iteritems():
    print(f"Queda {value} ejemplares de {indice} en todo el mundo*")

Queda 30 ejemplares de Vaquita en todo el mundo*
Queda 58 ejemplares de Spix's Macaw en todo el mundo*
Queda 68 ejemplares de Javan Rhino en todo el mundo*
Queda 85 ejemplares de Sumatran Rhino en todo el mundo*
Queda 400 ejemplares de Sumatran Tiger en todo el mundo*
Queda 800 ejemplares de Mountain Gorilla en todo el mundo*
Queda 800 ejemplares de Tapanuli Orangutan en todo el mundo*
Queda 1002 ejemplares de Gato en todo el mundo*
Queda 1400 ejemplares de Wild Bactrian Camel en todo el mundo*
Queda 1864 ejemplares de Giant Panda en todo el mundo*


### Comparisons and Boolean Series

Cuando utilizamos un operador de comparación `(>, <, >=, <=, ==, !=, etc.)`, el resultado que obtemos en general es un booleano, o sea `True` o `False`, pero con las series es un poco diferente. En lugar de devolvernos un único valor del tipo bool, recibimos como respuesta una serie compuesta de `True` y `False`, según el resultado de la comparación con cada elemento. Y eso es una de las mejores y más eficaces utilidades de pandas.

In [131]:
animales > 500

Vaquita                False
Spix's Macaw           False
Javan Rhino            False
Sumatran Rhino         False
Sumatran Tiger         False
Mountain Gorilla        True
Tapanuli Orangutan      True
Gato                    True
Wild Bactrian Camel     True
Giant Panda             True
dtype: bool

In [132]:
animales[animales > 500]

Mountain Gorilla        800
Tapanuli Orangutan      800
Gato                   1002
Wild Bactrian Camel    1400
Giant Panda            1864
dtype: int64

In [134]:
animales

Vaquita                  30
Spix's Macaw             58
Javan Rhino              68
Sumatran Rhino           85
Sumatran Tiger          400
Mountain Gorilla        800
Tapanuli Orangutan      800
Gato                   1002
Wild Bactrian Camel    1400
Giant Panda            1864
dtype: int64

In [133]:
animales[[True, False, False, True, True, True, False, False, False, True]]

Vaquita               30
Sumatran Rhino        85
Sumatran Tiger       400
Mountain Gorilla     800
Giant Panda         1864
dtype: int64

### Filtering

Una serie de booleanos como la que vemos arriba puede ser utilizada como un selector para las series (en el `loc`), efectivamente filtrando la seria segun cualquier condición que queramos.

In [135]:
animales[animales >500]

Mountain Gorilla        800
Tapanuli Orangutan      800
Gato                   1002
Wild Bactrian Camel    1400
Giant Panda            1864
dtype: int64

In [136]:
animales[animales==1002]

Gato    1002
dtype: int64

In [137]:
animales[animales.index == "Gato"]

Gato    1002
dtype: int64

### .str

El atributo `.str` nos permite llamar a métodos de los strings para los elementos de las series. En el caso abajo, lo llamamos sobre el `index`, que también es un tipo de serie. 😉

In [141]:
str(11)

'11'

In [150]:
animales.index.str.upper()

Index(['VAQUITA', 'SPIX'S MACAW', 'JAVAN RHINO', 'SUMATRAN RHINO',
       'SUMATRAN TIGER', 'MOUNTAIN GORILLA', 'TAPANULI ORANGUTAN', 'GATO',
       'WILD BACTRIAN CAMEL', 'GIANT PANDA'],
      dtype='object')

In [153]:
animales

Vaquita                  30
Spix's Macaw             58
Javan Rhino              68
Sumatran Rhino           85
Sumatran Tiger          400
Mountain Gorilla        800
Tapanuli Orangutan      800
Gato                   1002
Wild Bactrian Camel    1400
Giant Panda            1864
dtype: int64

In [152]:
animales.str

AttributeError: Can only use .str accessor with string values!

Si queremos encadenar métodos de los strings, debemos llamar a `str` todas las veces, pues cualquier método nos devolverá una serie tal cual

In [157]:
animales.index.str.upper().str.replace("G","g*")

Index(['VAQUITA', 'SPIX'S MACAW', 'JAVAN RHINO', 'SUMATRAN RHINO',
       'SUMATRAN TIg*ER', 'MOUNTAIN g*ORILLA', 'TAPANULI ORANg*UTAN', 'g*ATO',
       'WILD BACTRIAN CAMEL', 'g*IANT PANDA'],
      dtype='object')

### Filtering with a different Series

Una cosa super guay es que podemos utilizar otra serie para filtrar la que queremos, desde que haya una coerencia entre los index:
- Todos los index de la serie "filtrada" deben estar contenidos en la serie "booleana"
- La serie "booleana" puede contener más indexes que la serie "filtrada"

In [158]:
index=["Giant Panda","Wild Bactrian Camel", "Mountain Gorilla", "Tapanuli Orangutan", "Sumatran Tiger", "Sumatran Rhino", "Javan Rhino", "Spix's Macaw", "Vaquita", "Alagoas Curassow"]
data=["Asia", "Asia", "Africa", "Asia", "Asia", "Asia", "Asia", "America", "America", "America"]

In [159]:
habitat = pd.Series(name="Habitat", data = data, index=index)

In [166]:
habitat.sort_index().index

Index(['Alagoas Curassow', 'Giant Panda', 'Javan Rhino', 'Mountain Gorilla',
       'Spix's Macaw', 'Sumatran Rhino', 'Sumatran Tiger',
       'Tapanuli Orangutan', 'Vaquita', 'Wild Bactrian Camel'],
      dtype='object')

In [167]:
animales.sort_index().index

Index(['Gato', 'Giant Panda', 'Javan Rhino', 'Mountain Gorilla',
       'Spix's Macaw', 'Sumatran Rhino', 'Sumatran Tiger',
       'Tapanuli Orangutan', 'Vaquita', 'Wild Bactrian Camel'],
      dtype='object')

In [168]:
animales = animales.append(pd.Series({"Alagoas Curassow":1028}))

In [169]:
animales.sort_index().index

Index(['Alagoas Curassow', 'Gato', 'Giant Panda', 'Javan Rhino',
       'Mountain Gorilla', 'Spix's Macaw', 'Sumatran Rhino', 'Sumatran Tiger',
       'Tapanuli Orangutan', 'Vaquita', 'Wild Bactrian Camel'],
      dtype='object')

In [171]:
animales>500

Vaquita                False
Spix's Macaw           False
Javan Rhino            False
Sumatran Rhino         False
Sumatran Tiger         False
Mountain Gorilla        True
Tapanuli Orangutan      True
Gato                    True
Wild Bactrian Camel     True
Giant Panda             True
Alagoas Curassow        True
dtype: bool

In [170]:
habitat[animales>500]

Giant Panda               Asia
Wild Bactrian Camel       Asia
Mountain Gorilla        Africa
Tapanuli Orangutan        Asia
Alagoas Curassow       America
Name: Habitat, dtype: object

### Multiple conditions

En el caso de querer utilizar multiples condicionales, no podemos operar con ellos utilizando `and`, `or` o `not`, pues esos 3 operadores consideran la serie como un todo y no elemento a elemento.

Hay operadores especiales para esos casos, los llamados `bitwise operators` que consideran los elementos uno a uno.

- and : `&`
- or  : `|`
- not : `~`

In [172]:
animales > 500

Vaquita                False
Spix's Macaw           False
Javan Rhino            False
Sumatran Rhino         False
Sumatran Tiger         False
Mountain Gorilla        True
Tapanuli Orangutan      True
Gato                    True
Wild Bactrian Camel     True
Giant Panda             True
Alagoas Curassow        True
dtype: bool

In [173]:
animales < 1000

Vaquita                 True
Spix's Macaw            True
Javan Rhino             True
Sumatran Rhino          True
Sumatran Tiger          True
Mountain Gorilla        True
Tapanuli Orangutan      True
Gato                   False
Wild Bactrian Camel    False
Giant Panda            False
Alagoas Curassow       False
dtype: bool

In [178]:
(animales > 500) and (animales < 1000)

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [177]:
animales

Vaquita                  30
Spix's Macaw             58
Javan Rhino              68
Sumatran Rhino           85
Sumatran Tiger          400
Mountain Gorilla        800
Tapanuli Orangutan      800
Gato                   1002
Wild Bactrian Camel    1400
Giant Panda            1864
Alagoas Curassow       1028
dtype: int64

In [180]:
animales[(animales > 500) & (animales < 1000)]

Mountain Gorilla      800
Tapanuli Orangutan    800
dtype: int64

In [181]:
animales[(animales > 500) | (animales < 1000)]

Vaquita                  30
Spix's Macaw             58
Javan Rhino              68
Sumatran Rhino           85
Sumatran Tiger          400
Mountain Gorilla        800
Tapanuli Orangutan      800
Gato                   1002
Wild Bactrian Camel    1400
Giant Panda            1864
Alagoas Curassow       1028
dtype: int64

In [184]:
animales[~(animales>=500)]

Vaquita            30
Spix's Macaw       58
Javan Rhino        68
Sumatran Rhino     85
Sumatran Tiger    400
dtype: int64

## 2 DataFrame
Una vez vistas las Series, los DataFrames son exactamente lo mismo, pero con una dimensión más, o sea, una matriz. Cada fila y cada columna de un DataFrame es una Serie, por lo tanto las operaciones que podemos realizar siguen la misma sintáxis.

In [185]:
df = pd.DataFrame({"Poblacion":animales, "Habitat":habitat})

In [186]:
print(df)

                     Poblacion  Habitat
Alagoas Curassow          1028  America
Gato                      1002      NaN
Giant Panda               1864     Asia
Javan Rhino                 68     Asia
Mountain Gorilla           800   Africa
Spix's Macaw                58  America
Sumatran Rhino              85     Asia
Sumatran Tiger             400     Asia
Tapanuli Orangutan         800     Asia
Vaquita                     30  America
Wild Bactrian Camel       1400     Asia


In [187]:
display(df)

Unnamed: 0,Poblacion,Habitat
Alagoas Curassow,1028,America
Gato,1002,
Giant Panda,1864,Asia
Javan Rhino,68,Asia
Mountain Gorilla,800,Africa
Spix's Macaw,58,America
Sumatran Rhino,85,Asia
Sumatran Tiger,400,Asia
Tapanuli Orangutan,800,Asia
Vaquita,30,America


In [188]:
df

Unnamed: 0,Poblacion,Habitat
Alagoas Curassow,1028,America
Gato,1002,
Giant Panda,1864,Asia
Javan Rhino,68,Asia
Mountain Gorilla,800,Africa
Spix's Macaw,58,America
Sumatran Rhino,85,Asia
Sumatran Tiger,400,Asia
Tapanuli Orangutan,800,Asia
Vaquita,30,America


### Two Dimensions .loc and .iloc

In [191]:
df.loc["Gato"]["Habitat"]

nan

In [198]:
df.iloc[0,1]

'America'

In [201]:
df.loc["Gato","Habitat"]

nan

In [203]:
df.loc[:,"Poblacion"]

Alagoas Curassow       1028
Gato                   1002
Giant Panda            1864
Javan Rhino              68
Mountain Gorilla        800
Spix's Macaw             58
Sumatran Rhino           85
Sumatran Tiger          400
Tapanuli Orangutan      800
Vaquita                  30
Wild Bactrian Camel    1400
Name: Poblacion, dtype: int64

In [204]:
df.loc["Gato",:]

Poblacion    1002
Habitat       NaN
Name: Gato, dtype: object

### What is [NaN](https://en.wikipedia.org/wiki/NaN)?

![](img/nan.jpeg)

### Checking for nulls

In [205]:
df.isna()

Unnamed: 0,Poblacion,Habitat
Alagoas Curassow,False,False
Gato,False,True
Giant Panda,False,False
Javan Rhino,False,False
Mountain Gorilla,False,False
Spix's Macaw,False,False
Sumatran Rhino,False,False
Sumatran Tiger,False,False
Tapanuli Orangutan,False,False
Vaquita,False,False


In [206]:
df.isna().sum()

Poblacion    0
Habitat      1
dtype: int64

In [211]:
df[df.isna()["Habitat"]]

Unnamed: 0,Poblacion,Habitat
Gato,1002,


In [217]:
df.loc["Gato","Habitat"] = np.nan
df.loc["Vaquita","Habitat"] = np.nan
df.loc["Mointain Gorilla","Habitat"] = np.nan

In [218]:
df

Unnamed: 0,Poblacion,Habitat
Alagoas Curassow,1028.0,America
Gato,1002.0,
Giant Panda,1864.0,Asia
Javan Rhino,68.0,Asia
Mountain Gorilla,800.0,Africa
Spix's Macaw,58.0,America
Sumatran Rhino,85.0,Asia
Sumatran Tiger,400.0,Asia
Tapanuli Orangutan,800.0,Asia
Vaquita,30.0,


In [226]:
def sust_null(data):
    if str(data) == "nan":
        return "Not exists"
    return data

In [229]:
df["Habitat"] = df["Habitat"].apply(sust_null)

In [230]:
df

Unnamed: 0,Poblacion,Habitat
Alagoas Curassow,1028.0,America
Gato,1002.0,Not exists
Giant Panda,1864.0,Asia
Javan Rhino,68.0,Asia
Mountain Gorilla,800.0,Africa
Spix's Macaw,58.0,America
Sumatran Rhino,85.0,Asia
Sumatran Tiger,400.0,Asia
Tapanuli Orangutan,800.0,Asia
Vaquita,30.0,Not exists


In [231]:
mini = pd.DataFrame([["a","b"],[3,4]])
mini

Unnamed: 0,0,1
0,a,b
1,3,4


In [233]:
df.loc["Gato","Habitat"] = mini

In [234]:
df

Unnamed: 0,Poblacion,Habitat
Alagoas Curassow,1028.0,America
Gato,1002.0,
Giant Panda,1864.0,Asia
Javan Rhino,68.0,Asia
Mountain Gorilla,800.0,Africa
Spix's Macaw,58.0,America
Sumatran Rhino,85.0,Asia
Sumatran Tiger,400.0,Asia
Tapanuli Orangutan,800.0,Asia
Vaquita,30.0,Not exists


In [236]:
df.loc["Gato","Habitat"] = str([1,2,3,4,5])

In [237]:
df

Unnamed: 0,Poblacion,Habitat
Alagoas Curassow,1028.0,America
Gato,1002.0,"[1, 2, 3, 4, 5]"
Giant Panda,1864.0,Asia
Javan Rhino,68.0,Asia
Mountain Gorilla,800.0,Africa
Spix's Macaw,58.0,America
Sumatran Rhino,85.0,Asia
Sumatran Tiger,400.0,Asia
Tapanuli Orangutan,800.0,Asia
Vaquita,30.0,Not exists


In [241]:
df.isna().sum(axis=1)

Alagoas Curassow       0
Gato                   0
Giant Panda            0
Javan Rhino            0
Mountain Gorilla       0
Spix's Macaw           0
Sumatran Rhino         0
Sumatran Tiger         0
Tapanuli Orangutan     0
Vaquita                0
Wild Bactrian Camel    0
Mointain Gorilla       1
dtype: int64

In [254]:
df = df.append(pd.Series({"Poblacion":1294, "Habitat":None}, name="Nuevo Registro 2"))

In [255]:
df

Unnamed: 0,Poblacion,Habitat
Alagoas Curassow,1028.0,America
Gato,1002.0,"[1, 2, 3, 4, 5]"
Giant Panda,1864.0,Asia
Javan Rhino,68.0,Asia
Mountain Gorilla,800.0,Africa
Spix's Macaw,58.0,America
Sumatran Rhino,85.0,Asia
Sumatran Tiger,400.0,Asia
Tapanuli Orangutan,800.0,Asia
Vaquita,30.0,Not exists


### The axis parameter

Como ahora ya no tenemos apenas una serie como un array de una dimensión, sino que un array de 2 dimensiones, un parámetro que empieza a surgir es `axis` el eje por el cual se realiza la operación. El `axis=0` corresponde a los index, o sea, la operación se realiza sobre cada una de las columnas. Su opuesto, el `axis=1` corresponde a las columnas, operando sobre cada una de las filas 

In [284]:
df.apply(lambda col: print(col, type(col), "\n"+"-"*50), axis=0)

Alagoas Curassow       1028.0
Gato                   1002.0
Giant Panda            1864.0
Javan Rhino              68.0
Mountain Gorilla        800.0
Spix's Macaw             58.0
Sumatran Rhino           85.0
Sumatran Tiger          400.0
Tapanuli Orangutan      800.0
Vaquita                  30.0
Wild Bactrian Camel    1400.0
Mointain Gorilla          NaN
Nuevo Registro         1294.0
Nuevo Registro 2       1294.0
Name: Poblacion, dtype: float64 <class 'pandas.core.series.Series'> 
--------------------------------------------------
Alagoas Curassow               America
Gato                   [1, 2, 3, 4, 5]
Giant Panda                       Asia
Javan Rhino                       Asia
Mountain Gorilla                Africa
Spix's Macaw                   America
Sumatran Rhino                    Asia
Sumatran Tiger                    Asia
Tapanuli Orangutan                Asia
Vaquita                     Not exists
Wild Bactrian Camel               Asia
Mointain Gorilla            Not

Poblacion    None
Habitat      None
dtype: object

In [243]:
df.apply(lambda col: print(col, type(col), "\n"+"-"*50), axis=1)

Poblacion     1028.0
Habitat      America
Name: Alagoas Curassow, dtype: object <class 'pandas.core.series.Series'> 
--------------------------------------------------
Poblacion             1002.0
Habitat      [1, 2, 3, 4, 5]
Name: Gato, dtype: object <class 'pandas.core.series.Series'> 
--------------------------------------------------
Poblacion    1864.0
Habitat        Asia
Name: Giant Panda, dtype: object <class 'pandas.core.series.Series'> 
--------------------------------------------------
Poblacion    68.0
Habitat      Asia
Name: Javan Rhino, dtype: object <class 'pandas.core.series.Series'> 
--------------------------------------------------
Poblacion     800.0
Habitat      Africa
Name: Mountain Gorilla, dtype: object <class 'pandas.core.series.Series'> 
--------------------------------------------------
Poblacion       58.0
Habitat      America
Name: Spix's Macaw, dtype: object <class 'pandas.core.series.Series'> 
--------------------------------------------------
Poblacion   

Alagoas Curassow       None
Gato                   None
Giant Panda            None
Javan Rhino            None
Mountain Gorilla       None
Spix's Macaw           None
Sumatran Rhino         None
Sumatran Tiger         None
Tapanuli Orangutan     None
Vaquita                None
Wild Bactrian Camel    None
Mointain Gorilla       None
dtype: object

### Rolling on the River

Podemos dar la vuelta a nuestro DataFrame, o mejor, transponerle llamando al método `T`.

In [245]:
df.T

Unnamed: 0,Alagoas Curassow,Gato,Giant Panda,Javan Rhino,Mountain Gorilla,Spix's Macaw,Sumatran Rhino,Sumatran Tiger,Tapanuli Orangutan,Vaquita,Wild Bactrian Camel,Mointain Gorilla
Poblacion,1028.0,1002.0,1864.0,68.0,800.0,58.0,85.0,400.0,800.0,30.0,1400.0,
Habitat,America,"[1, 2, 3, 4, 5]",Asia,Asia,Africa,America,Asia,Asia,Asia,Not exists,Asia,Not exists


### Getting information on the DataFrame

In [258]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 14 entries, Alagoas Curassow to Nuevo Registro 2
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Poblacion  13 non-null     float64
 1   Habitat    13 non-null     object 
dtypes: float64(1), object(1)
memory usage: 336.0+ bytes


In [260]:
df.describe()

Unnamed: 0,Poblacion
count,13.0
mean,778.692308
std,606.73764
min,30.0
25%,85.0
50%,800.0
75%,1294.0
max,1864.0


In [267]:
df.describe(include="all")

Unnamed: 0,Poblacion,Habitat
count,13.0,13
unique,,6
top,,Asia
freq,,6
mean,778.692308,
std,606.73764,
min,30.0,
25%,85.0,
50%,800.0,
75%,1294.0,


### Concat

La acción de concatenar dos matrices es la unión espacial entre ellas, sea en el eje 0 (vertical) o en el eje 1 (horizontal). 

In [268]:
a = [[1,2,3],
     [4,5,6],
     [7,8,9]]
b = [["🐼","🐍","🦔"],
     ["🐸","🐳","🐶"],
     ["🦉","🐿","🦥"]]
a,b = pd.DataFrame(a),pd.DataFrame(b)

In [269]:
display(a)
display(b)

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


Unnamed: 0,0,1,2
0,🐼,🐍,🦔
1,🐸,🐳,🐶
2,🦉,🐿,🦥


In [271]:
pd.concat([a,b])

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9
0,🐼,🐍,🦔
1,🐸,🐳,🐶
2,🦉,🐿,🦥


In [272]:
pd.concat([a,b], ignore_index=True)

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9
3,🐼,🐍,🦔
4,🐸,🐳,🐶
5,🦉,🐿,🦥


In [274]:
pd.concat([a,b], axis=1, ignore_index=True)

Unnamed: 0,0,1,2,3,4,5
0,1,2,3,🐼,🐍,🦔
1,4,5,6,🐸,🐳,🐶
2,7,8,9,🦉,🐿,🦥


En el caso de que columnas o filas compartan nombre entre los dos DataFrames, esas filas o columnas (segun el eje en que se concatene) coinciran en el resultado final. Pero en el otro eje, no habrá coincidencia y podemos tener indexes o columnas repetidos.

In [275]:
b.columns = b.index = [3,2,1]
display(a)
display(b)

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


Unnamed: 0,3,2,1
3,🐼,🐍,🦔
2,🐸,🐳,🐶
1,🦉,🐿,🦥


In [276]:
pd.concat([a,b])

Unnamed: 0,0,1,2,3
0,1.0,2,3,
1,4.0,5,6,
2,7.0,8,9,
3,,🦔,🐍,🐼
2,,🐶,🐳,🐸
1,,🦥,🐿,🦉


In [277]:
pd.concat([a,b], axis=1)

Unnamed: 0,0,1,2,3,2.1,1.1
0,1.0,2.0,3.0,,,
1,4.0,5.0,6.0,🦉,🐿,🦥
2,7.0,8.0,9.0,🐸,🐳,🐶
3,,,,🐼,🐍,🦔


### Merge

El merge en pandas es como el `JOIN` en SQL, una unión con una lógica. Eligiremos una columna para el df `left` y otra para el df `right`. Los tipos de merge siguen la misma nomenclatura de SQL.

Para ese tipo de operación no hay parámetro `axis`, al final se supone que estamos uniendo atributos de entidades con alguna relación.

In [278]:
a["common"] = [0,1,2]
b["ground"] = [2,3,4]
display(a)
display(b)

Unnamed: 0,0,1,2,common
0,1,2,3,0
1,4,5,6,1
2,7,8,9,2


Unnamed: 0,3,2,1,ground
3,🐼,🐍,🦔,2
2,🐸,🐳,🐶,3
1,🦉,🐿,🦥,4


In [279]:
a.merge(b, left_on="common", right_on="ground")

Unnamed: 0,0,1_x,2_x,common,3,2_y,1_y,ground
0,7,8,9,2,🐼,🐍,🦔,2


In [280]:
for how in ["inner","left","right","outer"]:
    print(how.upper().center(30,"~"))
    display(a.merge(b, left_on="common", right_on="ground", how=how))

~~~~~~~~~~~~INNER~~~~~~~~~~~~~


Unnamed: 0,0,1_x,2_x,common,3,2_y,1_y,ground
0,7,8,9,2,🐼,🐍,🦔,2


~~~~~~~~~~~~~LEFT~~~~~~~~~~~~~


Unnamed: 0,0,1_x,2_x,common,3,2_y,1_y,ground
0,1,2,3,0,,,,
1,4,5,6,1,,,,
2,7,8,9,2,🐼,🐍,🦔,2.0


~~~~~~~~~~~~RIGHT~~~~~~~~~~~~~


Unnamed: 0,0,1_x,2_x,common,3,2_y,1_y,ground
0,7.0,8.0,9.0,2.0,🐼,🐍,🦔,2
1,,,,,🐸,🐳,🐶,3
2,,,,,🦉,🐿,🦥,4


~~~~~~~~~~~~OUTER~~~~~~~~~~~~~


Unnamed: 0,0,1_x,2_x,common,3,2_y,1_y,ground
0,1.0,2.0,3.0,0.0,,,,
1,4.0,5.0,6.0,1.0,,,,
2,7.0,8.0,9.0,2.0,🐼,🐍,🦔,2.0
3,,,,,🐸,🐳,🐶,3.0
4,,,,,🦉,🐿,🦥,4.0


## Join

La funcionalidad del join es muy parecida a la del merge, con dos excepciones:
- Puedes hacer un join con más de 2 DataFrames de una sola vez (si uniendo por los index)
- La columna en comun de los diferentes DataFrames deben tener el mismo nombre (solo 2 DataFrames)

In [281]:
a.columns = ["#1","#2","#3", "common"]
b.columns = ["emoji_1","emoji_2","emoji_3", "ground"]
c = pd.DataFrame({"letters":[*"abcde"], "symbols":[*"@#$%€"]})
c

Unnamed: 0,letters,symbols
0,a,@
1,b,#
2,c,$
3,d,%
4,e,€


In [282]:
a.join((b,c), how="outer")

Unnamed: 0,#1,#2,#3,common,emoji_1,emoji_2,emoji_3,ground,letters,symbols
0,1.0,2.0,3.0,0.0,,,,,a,@
1,4.0,5.0,6.0,1.0,🦉,🐿,🦥,4.0,b,#
2,7.0,8.0,9.0,2.0,🐸,🐳,🐶,3.0,c,$
3,,,,,🐼,🐍,🦔,2.0,d,%
4,,,,,,,,,e,€


In [283]:
a.merge(b, left_index=True, right_index=True, how="outer").merge(c, left_index=True, right_index=True, how="outer")

Unnamed: 0,#1,#2,#3,common,emoji_1,emoji_2,emoji_3,ground,letters,symbols
0,1.0,2.0,3.0,0.0,,,,,a,@
1,4.0,5.0,6.0,1.0,🦉,🐿,🦥,4.0,b,#
2,7.0,8.0,9.0,2.0,🐸,🐳,🐶,3.0,c,$
3,,,,,🐼,🐍,🦔,2.0,d,%
4,,,,,,,,,e,€
