# Presentando los Objetos Pandas

A un nivel muy básico, los objetos de Pandas pueden considerarse como versiones mejoradas de los arrays estructurados de NumPy, en los que las filas y columnas se identifican con etiquetas en lugar de simples índices enteros.
Como veremos a lo largo de este capítulo, Pandas proporciona una gran cantidad de herramientas, métodos y funcionalidades útiles sobre las estructuras de datos básicas, pero casi todo lo que sigue requerirá una comprensión de lo que son estas estructuras.
Por lo tanto, antes de seguir adelante, vamos a introducir estas tres estructuras de datos fundamentales de Pandas: las ``Series``, ``DataFrame``, y ``Index``.

Comenzaremos nuestras sesiones de código con las importaciones estándar de NumPy y Pandas:

In [1]:
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      import numpy as np
import pandas as pd

## El objeto Pandas Series

Una ``Series`` de Pandas es un array unidimensional de datos indexados.
Se puede crear a partir de una lista o un array de la siguiente manera:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Como vemos en la salida, las ``Series`` envuelven tanto una secuencia de valores como una secuencia de índices, a los que podemos acceder con los atributos ``values`` e ``index``.
Los ``values`` son simplemente una matriz NumPy familiar:

In [None]:
data.values

array([ 0.25,  0.5 ,  0.75,  1.  ])

El ``index`` es un objeto tipo array del tipo ``pd.Index``, del que hablaremos con más detalle momentáneamente.

In [None]:
data.index

RangeIndex(start=0, stop=4, step=1)

Al igual que con un array de NumPy, se puede acceder a los datos por el índice asociado mediante la conocida notación de corchetes de Python:

In [None]:
data[1]

0.5

In [None]:
data[1:3]

1    0.50
2    0.75
dtype: float64

Sin embargo, como veremos, las ``Series`` de Pandas son mucho más general y flexible que el array unidimensional de NumPy que emula.

### ``Series`` como matriz NumPy generalizada

Por lo que hemos visto hasta ahora, puede parecer que el objeto ``Series`` es básicamente intercambiable con un array unidimensional de NumPy.
La diferencia esencial es la presencia del índice: mientras que el array de Numpy tiene un índice entero *implícitamente definido* que se utiliza para acceder a los valores, las ``Series`` de Pandas tienen un índice *explícitamente definido* asociado a los valores.

Esta definición explícita del índice da al objeto ``Series`` capacidades adicionales. Por ejemplo, el índice no tiene por qué ser un entero, sino que puede estar formado por valores de cualquier tipo que se desee.
Por ejemplo, si lo deseamos, podemos utilizar cadenas como índice:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

Y el acceso al artículo funciona como se esperaba:

In [None]:
data['b']

Incluso podemos utilizar índices no contiguos o no secuenciales:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

In [None]:
data[5]

### Series como diccionario especializado

De esta manera, puedes pensar en una ``Series`` de Pandas como una especialización de un diccionario de Python.
Un diccionario es una estructura que asigna claves arbitrarias a un conjunto de valores arbitrarios, y una ``Series`` es una estructura que asigna claves tipadas a un conjunto de valores tipados.
Esta tipificación es importante: al igual que el código compilado de tipo específico detrás de un array de NumPy lo hace más eficiente que una lista de Python para ciertas operaciones, la información de tipo de una ``Series`` de Pandas la hace mucho más eficiente que los diccionarios de Python para ciertas operaciones.

La analogía entre ``Series`` y diccionario se puede hacer aún más clara construyendo un objeto ``Series`` directamente desde un diccionario de Python:

In [None]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Florida       19552860
Illinois      12882135
New York      19651127
Texas         26448193
dtype: int64

Por defecto, se creará una ``Series`` donde el índice se extrae de las claves ordenadas.
A partir de aquí, se puede realizar el típico acceso a los elementos de estilo diccionario:

In [None]:
population['California']

38332521

Sin embargo, a diferencia de un dictionary, ``Series`` también admite operaciones de tipo array, como el corte:

In [None]:
population['California':'Illinois']

California    38332521
Florida       19552860
Illinois      12882135
dtype: int64

Discutiremos algunas de las peculiaridades de la indexación y el corte de Pandas en [Indexación y selección de datos](03.02-Indexación-y-selección-de-datos.ipynb).

### Construcción de objetos Serie

Ya hemos visto algunas formas de construir una ``Series`` de Pandas desde cero; todas ellas son alguna versión de lo siguiente:

```python
>>> pd.Series(data, index=index)
```

donde ``índex`` es un argumento opcional, y ``data`` puede ser una de muchas entidades.

Por ejemplo, ``data`` puede ser una lista o un array de NumPy, en cuyo caso ``index`` es por defecto una secuencia de enteros:

In [None]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

``data`` puede ser un scalar, que se repite para llenar el indice especificado:

In [None]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

``data`` puede ser un diccionario, en el que ``index`` es por defecto las claves ordenadas del diccionario:

In [None]:
pd.Series({2:'a', 1:'b', 3:'c'})

1    b
2    a
3    c
dtype: object

En cada caso, el índice puede establecerse explícitamente si se prefiere un resultado diferente:

In [None]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

Observe que, en este caso, la ``Series`` se rellena sólo con las claves identificadas explícitamente.

## El objeto Pandas DataFrame

La siguiente estructura fundamental en Pandas es el ``DataFrame``.
Al igual que el objeto ``Series`` discutido en la sección anterior, el ``DataFrame`` puede ser considerado como una generalización de un array de NumPy, o como una especialización de un diccionario de Python.
Ahora echaremos un vistazo a cada una de estas perspectivas.

### DataFrame como un array generalizado de NumPy
Si una ``Serie`` es un análogo de un array unidimensional con índices flexibles, un ``DataFrame`` es un análogo de un array bidimensional con índices de fila y nombres de columna flexibles.
Al igual que se puede pensar en una matriz bidimensional como una secuencia ordenada de columnas unidimensionales alineadas, se puede pensar en un ``DataFrame`` como una secuencia de objetos ``Series`` alineados.
Por "alineados" entendemos que comparten el mismo índice.

Para demostrarlo, construyamos primero una nueva ``Serie`` con el área de cada uno de los cinco estados que hemos visto en la sección anterior:

In [None]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
dtype: int64

Ahora que tenemos esto junto con la serie ``population`` de antes, podemos utilizar un diccionario para construir un único objeto bidimensional que contenga esta información:

In [None]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,area,population
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448193


Al igual que el objeto ``Series``, el ``DataFrame`` tiene un atributo ``index`` que da acceso a las etiquetas del índice:

In [None]:
states.index

Index(['California', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object')

Además, el ``DataFrame`` tiene un atributo ``columns``, que es un objeto ``Index`` que contiene las etiquetas de las columnas:

In [None]:
states.columns

Index(['area', 'population'], dtype='object')

Por lo tanto, el ``DataFrame`` puede ser pensado como una generalización de un array bidimensional de NumPy, donde tanto las filas como las columnas tienen un índice generalizado para acceder a los datos.

### DataFrame como diccionario especializado

Del mismo modo, también podemos pensar en un ``DataFrame`` como una especialización de un diccionario.
Mientras que un diccionario asigna una clave a un valor, un ``DataFrame`` asigna un nombre de columna a una ``Serie`` de datos de columna.
Por ejemplo, pedir el atributo ``'área`` devuelve el objeto ``Series`` que contiene las áreas que vimos anteriormente:

In [None]:
states['area']

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

Fíjate en el posible punto de confusión: en un array NumPy de dos dimensiones, ``data[0]`` devolverá la primera *fila*. Para un ``DataFrame``, ``data['col0']`` devolverá la primera *columna*.
Por ello, probablemente sea mejor pensar en los ``DataFrame`` como diccionarios generalizados en lugar de arrays generalizados, aunque ambas formas de ver la situación pueden ser útiles.
Exploraremos medios más flexibles de indexar ``DataFrame`` en [Indexación y selección de datos](03.02-Indexación-y-selección-de-datos.ipynb).

### Construcción de objetos DataFrame

Un ``DataFrame`` de Pandas se puede construir de varias maneras.
Aquí daremos varios ejemplos.

#### A partir de un único objeto Serie

Un ``DataFrame`` es una colección de objetos ``Series``, y se puede construir un ``DataFrame`` de una sola columna a partir de una única ``Series``:

In [None]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Florida,19552860
Illinois,12882135
New York,19651127
Texas,26448193


#### A partir de una lista de dictos

Cualquier lista de dictos puede convertirse en un ``DataFrame``.
Usaremos una simple comprensión de lista para crear algunos datos:

In [None]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Incluso si faltan algunas claves en el diccionario, Pandas las rellenará con valores ``NaN`` (es decir, "no un número"):

In [None]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


#### A partir de un diccionario de objetos Series

Como vimos antes, un ``DataFrame`` puede construirse también a partir de un diccionario de objetos ``Series``:

In [None]:
pd.DataFrame({'population': population,
              'area': area})

Unnamed: 0,area,population
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448193


#### Desde un array bidimensional de NumPy

Dado un array bidimensional de datos, podemos crear un ``DataFrame`` con cualquier nombre de columna e índice especificado.
Si se omite, se utilizará un índice entero para cada una:

In [None]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.865257,0.213169
b,0.442759,0.108267
c,0.04711,0.905718


#### Desde un array estructurado de NumPy

Cubrimos los arrays estructurados en [Datos estructurados: Arrays estructurados de NumPy](02.09-Datos-estructurados-NumPy.ipynb).
Un ``DataFrame`` de Pandas funciona de forma muy parecida a un array estructurado, y se puede crear directamente a partir de uno:

In [None]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.0), (0, 0.0), (0, 0.0)], 
      dtype=[('A', '<i8'), ('B', '<f8')])

In [None]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


## El objeto índice de Pandas

Hemos visto aquí que tanto los objetos ``Series`` como ``DataFrame`` contienen un *índice* explícito que permite referenciar y modificar los datos.
Este objeto ``Index`` es una estructura interesante en sí misma, y puede ser considerada como un *array inmutable* o como un *conjunto ordenado* (técnicamente un multi-conjunto, ya que los objetos ``Index`` pueden contener valores repetidos).
Estos puntos de vista tienen algunas consecuencias interesantes en las operaciones disponibles en los objetos ``Index``.
Como ejemplo sencillo, construyamos un ``Index`` a partir de una lista de enteros:

In [None]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

### Índice como array inmutable

El ``Index`` en muchos aspectos funciona como un array.
Por ejemplo, podemos utilizar la notación de indexación estándar de Python para recuperar valores o trozos:

In [None]:
ind[1]

3

In [None]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

Los objetos ``Index`` también tienen muchos de los atributos conocidos de las matrices de NumPy:

In [None]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


Una diferencia entre los objetos ``Index`` y las matrices de NumPy es que los índices son inmutables, es decir, no pueden ser modificados por los medios normales:

In [None]:
ind[1] = 0

Esta inmutabilidad hace que sea más seguro compartir índices entre múltiples ``DataFrame`` y arrays, sin el potencial de efectos secundarios de la modificación inadvertida del índice.

### Índice como conjunto ordenado

Los objetos Pandas están diseñados para facilitar operaciones como las uniones entre conjuntos de datos, que dependen de muchos aspectos de la aritmética de conjuntos.
El objeto ``Index`` sigue muchas de las convenciones utilizadas por la estructura de datos ``set`` incorporada en Python, de modo que las uniones, intersecciones, diferencias y otras combinaciones pueden ser calculadas de una manera familiar:

In [None]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [None]:
indA & indB  # intersección

Int64Index([3, 5, 7], dtype='int64')

In [None]:
indA | indB  # union

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [None]:
indA ^ indB  # diferencia simétrica

Int64Index([1, 2, 9, 11], dtype='int64')

También se puede acceder a estas operaciones mediante métodos de objetos, por ejemplo ``indA.intersection(indB)``.