# Pandas Básico

## Introducción a los objetos de Pandas

Los objetos Pandas se pueden considerar como versiones mejoradas de los arrays estructurados de NumPy en los que las filas y columnas se identifican con etiquetas en lugar de índices enteros simples.

Pandas proporciona una gran cantidad de herramientas, métodos y funcionalidades útiles además de las estructuras de datos básicas, pero casi todo lo que sigue requerirá una comprensión de qué son estas estructuras.

Por tanto, antes de ver nada más, vamos a introducirnos en estas estructuras de datos básicas de Pandas: las **Series**, los **DataFrames** y los **Index**.

Comenzaremos importando NumPy y Pandas.

In [4]:
import numpy as np
import pandas as pd

### Series

Una *Series* de Pandas es un array de una dimensión de datos indexados. Puede ser creada a partir de una lista o array como la siguiente:

In [5]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Como podemos observar en el *output* anterior, las *Series* abarcan una secuencia de valores y una secuencia de índices, a los cuales podremos acceder con los atributos `values` e `index`.

Los `values` son simplemente un familiar array de NumPy:

In [6]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

El `index` es similar a un array de tipo `pd.Index`, del cual hablaremos más adelante.

In [7]:
data.index

RangeIndex(start=0, stop=4, step=1)

Igual que con los array de NumPy, podemos acceder a los datos a través de su índice asociado mediante la misma notación de corchetes de Python.

In [8]:
data[1]

0.5

In [9]:
data[1:3]

1    0.50
2    0.75
dtype: float64

Como verás, las *Series* de Pandas son más flexibles que los arrays unidimensionales de NumPy a los que emulan.

#### Series como arrays de NumPy

Por lo que hemos visto hasta ahora, los objetos *Series* son básicamente intercambiables con los arrays unidimensionales de NumPy. La diferencia esencial es la presencia del índice: Mientras que un array de NumPy tiene un índice entero **implícitamente definido** que se usa para acceder a los valores, las *Series* de Pandas tienen un índice **explícitamente definido** asociado a los valores.

Esta definición de índice explícito le da a los objetos *Series* capacidades adicionales. Por ejemplo, el índice no tiene por qué ser necesariamente un número entero, puede constar de valores de cualquier tipo que desees. Por ejemplo, si queremos, podemos usar strings como índice.

In [10]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [11]:
data['b']

0.5

In [12]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

#### Series como un diccionario

En este punto, ya puedes empezar a pensar en *Series* como una especialización de un diccionario de Python. Un diccionario es una estructura que asigna claves a un conjunto de valores arbitrarios, y un *Series* es una estructura que asigna claves escritas a un conjunto de valores escritos.

Esto es importante ya que, al igual que los arrays de NumPy son mucho más eficientes que las listas de Python para cierto tipo de operaciones, los *Series* de Pandas son mucho más eficientes que los diccionarios de Python para cierto tipo de operaciones.

Podemos hacer que la analogía de *Series* como diccionario sea aún más clara construyendo un objeto *Series* directamente desde un diccionario de Python:

In [13]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

De forma predeterminada, se creará un *Series* donde el índice se extrae de las claves ordenadas. Desde aquí, se puede realizar el acceso típico a elementos de estilo diccionario.:

In [14]:
population['California']

38332521

A diferencia de un diccionario, los *Series* permiten también operaciones al estilo array como el *slicing*:

In [15]:
population['California':'Florida']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64

#### Construyendo Series

Ya hemos visto algunas formas de construir un *Series* de Pandas. Todas ellas son alguna versión de:

    pd.Series(data, index=index)

Por ejemplo, la variable `data` que creamos antes puede ser una lista o un array de NumPy, en cada caso el índice predeterminado es una secuencia de enteros:

In [16]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

`data` puede ser un escalar, el cual se repetirá para rellenar los índices especificados:

In [17]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

`data` puede ser un diccionario, cuyo índice predeterminado serán las claves del diccionario.

In [18]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

En cada caso, el índice se puede establecer explícitamente si se prefiere un resultado diferente:

In [19]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

Ten en cuenta que en este caso, el *Series* se completa solo con las claves identificadas explícitamente

### DataFrame

#### DataFrame como arrays de NumPy

Si un *Series* es un análogo de un array unidimensional con índices flexibles, un *DataFrame* es un análogo de un array bidimensional con índices de fila flexibles y nombres de columna flexibles.

Si tú imaginaste un array bidimensional como una secuencia ordenada de columnas unidimensionales alineadas, puedes pensar en un *DataFrame* como una secuencia de objetos *Series* alineados. Aquí, por "alineados" me refiero a que comparten el mismo índice.

Para demostrar esto, vamos a construir primero un nuevo *Series* con las áreas de cada uno de los 5 estados que vimos en la sección anterior:

In [20]:
area_dict = {'California': 423967,
             'Texas': 695662, 
             'New York': 141297, 
             'Florida': 170312, 
             'Illinois': 149995}

area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

Ahora que tenemos las áreas asignadas, vamos a hacer un diccionario para construir un objeto de dos dimensiones que contiene esta información.

In [21]:
states = pd.DataFrame({'Population': population,
                       'Area': area})
states

Unnamed: 0,Population,Area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


Como los objetos *Series*, el *DataFrame* tiene un atributo `index` que da acceso a los índices.

In [22]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

Además, el *DataFrame* tiene el atributo `columns`, el cual es un objeto *Index* que contiene las columnas.

In [23]:
states.columns

Index(['Population', 'Area'], dtype='object')

#### DataFrame como un diccionario

También podemos pensar en un *DataFrame* como una especialización de un diccionario. Donde un diccionario asigna una clave a un valor, un *DataFrame* asigna un nombre de columna a una columna de datos tipo *Series*. Por ejemplo, si preguntas por el atributo `area` retorna el objeto *Series* que contiene todas las áreas:

In [24]:
states['Area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: Area, dtype: int64

Date cuenta de la confusión potencial de este punto: en un array bidimensional de NumPy, `data[0]` retornaría la primera fila. Para un *DataFrame*, `data['col0']` retornaría la primera columna

#### Construyendo DataFrames

Un *DataFrame* de Pandas puede ser construído de diferentes formas:

In [25]:
# 1. A partir de un solo objeto Series:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [26]:
# 2. A partir de una lista de diccionarios (con list comprehension):
data = [{'a': i, 'b': 2 * i} for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [27]:
# Si algunas claves del diccionario no existen, Pandas las 'rellena' con valores NaN:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [28]:
# 3. A partir de un diccionario de objetos Series:
pd.DataFrame({'population': population, 
              'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [29]:
# 4. A partir de un array de NumPy bidimensional:
pd.DataFrame(np.random.randn(3, 2), 
             columns= ['foo', 'bar'], 
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,-1.184719,0.901229
b,0.439593,1.09723
c,0.432783,-1.697138


In [30]:
# 5. A partir de un array de NumPy estructurado:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [31]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


### Index

Hemos visto que tanto los objetos *Series* como los objetos *DataFrames* contienen un índice explícito que te permite referenciar y modificar los datos. Este objeto *Index* es una interesante estructura en sí misma, y se puede considerar como un *array inmutable* o como un *set ordenado* (técnicamente un multiset, ya que *Index* puede contener valores repetidos y un set no).

Todo esto tiene unas consecuencias interesantes. Como ejemplo simple, vamos a construir un *Index* a partir de una lista de enteros:

In [32]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

#### Index como array inmutable

El objeto *Index* funciona de muchas formas al igual que lo hace un array. Por ejemplo, podemos usar la notación estandar de Python para recuperar valores o fragmentos:

In [33]:
ind[1]

3

In [34]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

Los objetos *Index* también tienen muchos atributos familiares de los arrays de NumPy:

In [35]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


Una diferencia entre los objetos *Index* y los arrays de NumPy es que los índices son inmutables, es decir, no pueden ser modificados a través de los medios normales:

In [37]:
ind[1] = 0

TypeError: ignored

Esta inmutabilidad hace seguro compartir índices entre múltiples *DataFrames* y arrays sin los posibles efectos secundarios de la modificación inadvertida del índice.

#### Index como un set ordenado

Los objetos Pandas están diseñados para facilitar operaciones como uniones entre conjuntos de datos, que dependen de muchos aspectos de la aritmética de conjuntos. Los objetos *Index* siguen muchas de las convenciones usadas por las estructuras de datos de los *sets* de Python puro, así las uniones, intersecciones, diferencias y otras combinaciones pueden ser calculadas de forma similar:

In [39]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [40]:
indA & indB # Intersección (and)

Int64Index([3, 5, 7], dtype='int64')

In [41]:
indA | indB # Unión (or)

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [42]:
indA ^ indB # Diferencia simétrica

Int64Index([1, 2, 9, 11], dtype='int64')

## Indexación y selección de datos.

En el bloque de NumPy, vimos en detalle los métodos y herramientas para acceder, configurar y modificar valores en los arrays. Estos incluían el *indexing* (ej: `arr[2, 1]`), slicing (ej: `arr[:, 1:5]`), masking (ej: `arr[arr > o]`), fancy indexing (ej: `arr[0, [1, 5]]`) y combinaciones de todos ellos (ej: `arr[:, [1, 5]]`).

En este apartado veremos una forma similar para acceder y modificar valores de objetos *Series* y *DataFrames*. Si dominas los patrones que usamos en NumPy, los patrones correspondientes en Pandas son muy similares, aunque tienen algunas peculiaridades a tener en cuenta.

Empezaremos con los simples objetos unidimensionales *Series* y luego seguiremos con los objetos *DataFrame*, algo más complicados.

### Selección de datos en Series

Como vimos en la sección anterior, un objeto *Series* se comporta muchas veces como un array de NumPy, y otras veces como un diccionario estandar de Python. Si tenemos en cuenta estas analogías, nos ayudarán a entender los patrones de indexado y selección de datos en estos arrays.

#### Series como diccionarios

Como un diccionario, los objetos *Series* proporciona la asignación de una colección de claves a una colección de valores.

In [43]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], 
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [44]:
data['b']

0.5

También podemos usar las expresiones y métodos de los diccionarios de Python para examinar las claves/índices y valores.

In [45]:
'a' in data

True

In [46]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [47]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

Los objetos *Series* incluso pueden ser modificados coon la misma sintaxis que usabámos para los diccionarios. Al igual que podías ampliar un diccionario asignándole una nueva clave, con los objetos *Series* es lo mismo: asignándole un nuevo valor de índice:

In [48]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

#### Series como arrays 1D

Un objeto *Series* se basa en una interfaz similar a un diccionario y proporciona una selección de elementos de estilo de array a través del mismo mecanismo básico que los arrays de NumPy.

In [49]:
# Slicing con un índice explícito
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [50]:
# Slicing con un índice entero implícito
data[0:2]

a    0.25
b    0.50
dtype: float64

In [51]:
# Masking
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [52]:
# Fancy index
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

**IMPORTANTE:** Date cuenta que cuando hacemos slicing con un índice explícito, el índice final es incluído en el fragmento, mientras que si lo hacemos con el índice implícito, el índice final es excluído.

#### `loc`, `iloc`

Esta convención de slicing e inexado puede ser objeto de confusión. Por ejemplo, si tu objeto *Series* tiene un índice entero explícito, una operación de indexado como `data[1]` usaría los índices explícitos; mientras que la operación de slicing como `data[1:3]` usará el índice ímplícito al estilo de Python.

In [53]:
data = pd.Series(['a', 'b', 'c'], 
                 index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [54]:
# Indexado con índice explícito
data[1]

'a'

In [55]:
# Slicing con índice implícito.
data[1:3]

3    b
5    c
dtype: object

Debido a esta potencial confusión en el caso de índices enteros, Pandas proporciona algunos atributos de indexación que exponen explícitamente ciertos esquemas de indexación.

Estos no son métodos funcionales, sino atributos que exponen una interfaz de slicing particular a los datos del *Series*.

Primero, el atributo `loc` permite el indexado y el slicing referenciando siempre el índice explícito:

In [56]:
data.loc[1]

'a'

In [57]:
data.loc[1:3]

1    a
3    b
dtype: object

Segundo, el atributo `iloc` permite el indexado y el slicing referenciando siempre el índice implícito al estilo de Python:

In [58]:
data.iloc[1]

'b'

In [59]:
data.iloc[1:3]

3    b
5    c
dtype: object

### Selección de datos en DataFrames

Recuerda que un *DataFrame* se comporta muchas veces como un array de dos dimensiones o como un array estructurado, y otras veces como un diccionario de *Series* que comparten el mismo índice.

#### DataFrame como un diccionario

La primera analogía que tendremos que considerar es al *DataFrame* como un diccionario de objetos *Series* relacionados.

Volvamos al ejemplo de las áreas y poblaciones:

In [60]:
area = pd.Series({'California': 423967, 
                  'Texas': 695662, 
                  'New York': 141297, 
                  'Florida': 170312,
                  'Illinois': 149995})

pop = pd.Series({'California': 38332521, 
                 'Texas': 26448193, 
                 'New York': 19651127, 
                 'Florida': 19552860, 
                 'Illinois': 12882135})

data = pd.DataFrame({'area': area, 'pop': pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


Se puede acceder a los *Series* individuales que componen las columnas del *DataFrame* a través de la indexación del nombre de la columna al estilo de diccionario:

In [61]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

De forma equivalente, podemos usar el atributo con los nombres de las columnas que son strings.

In [62]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Estas dos formas acceden al mismo objeto:

In [63]:
data.area is data['area']

True

Aunque esta forma es bastante fácil y muy usada, hay que tener en cuenta que no funciona siempre. Por ejemplo, si los nombres de las columnas no son strings, o si los nombres de las columnas entran en conflicto con los métodos de un *DataFrame*, este estilo de atributo no es posible.

Por ejemplo, un *DataFrame* tiene el método `pop()`, así, `data.pop()` apuntará a esto en vez de a la columna 'pop'.

In [64]:
data.pop is data['pop']

False

En particular, debes evitar la tentación de probar la asignación de columnas a través de un atributo (Por ejemplo, usar `data['pop'] = z` en vez de `data.pop = z`).

Al igual que con los objetos *Series* que vimos anteriormente, esta sintaxis estilo diccionario también se puede usar para modificar el objeto, en este caso para agregar una nueva columna.

In [66]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


Esto muestra una vista previa de la sencilla sintaxis de la aritmética elemento por elemento entre objetos *Series*.

#### DataFrame como array 2-D

Como se mencionó anteriormente, podemos imaginar un *DataFrame* como un array de dos dimensiones mejorado. Podemos examinar el array de datos subyacentes sin procesar utilizando el atributo `values`.

In [67]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

Con esa imagen en la cabeza, podemos hacer muchas observaciones que ya nos resultan familiares en el *DataFrame*. Por ejemplo, podemos transponer todo el *DataFrame* para intercambiar las filas y las columnas:

In [68]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


Sin embargo, cuando se trata de indexar objetos *DataFrame*, está claro que la indexación de columnas estilo diccionario excluye nuestra capacidad para tratarlo simplemente como una matriz NumPy. En particular, al pasar un solo índice a una matriz se accede a una fila:

In [69]:
data.values[0]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

y pasar un solo "índice" a un DataFrame accede a una columna:

In [70]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Por lo tanto, para la indexación de estilo array, necesitamos otra convención. Aquí **Pandas** usa nuevamente los indexadores `loc` e `iloc` mencionados anteriormente. Usando el indexador `iloc`, podemos indexar la matriz subyacente como si fuera una matriz NumPy simple (usando el índice implícito de estilo Python), pero el índice de *DataFrame* y las etiquetas de columna se mantienen en el resultado:

In [71]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [72]:
data.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


Cualquiera de los patrones familiares de acceso a datos de estilo NumPy se puede utilizar dentro de estos indexadores. Por ejemplo, en el indexador `loc` podemos combinar enmascaramiento y *fancy indexing* como se muestra a continuación:

In [73]:
data.loc[data.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


Cualquiera de estas convenciones de indexación también se puede utilizar para establecer o modificar valores. Esto se hace de la forma estándar a la que puede estar acostumbrado al trabajar con NumPy:

In [74]:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


Para desarrollar tu fluidez en la manipulación de datos de **Pandas**, sugiero pasar algo de tiempo con un *DataFrame* simple y explorar los tipos de indexación, segmentación, enmascaramiento y *fancy indexing* que permiten estos diversos enfoques de indexación.

#### Convenciones adicionales de indexación

Hay un par de convenciones de indexación adicionales que pueden parecer contrarias a todo lo anterior, pero que, no obstante, pueden resultar muy útiles en la práctica. Primero, mientras que la indexación se refiere a las columnas, la segmentación se refiere a las filas:

In [75]:
data['Florida': 'Illinois']

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


Dichos fragmentos también pueden referirse a filas por número en lugar de por índice:

In [80]:
data[3:5]

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


De manera similar, las operaciones de enmascaramiento directo también se interpretan por filas en lugar de por columnas:

In [81]:
data[data.density > 100]

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121


Estas dos convenciones son sintácticamente similares a las de un array de NumPy y, aunque es posible que no encajen con precisión en el molde de las convenciones de **Pandas**, son bastante útiles en la práctica.