<a href="https://colab.research.google.com/github/elMushu/App3D/blob/master/Intro_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a los objetos de Pandas

En un nivel muy básico, los objetos de Pandas se pueden considerar como versiones mejoradas de matrices estructuradas de NumPy en las que las filas y las columnas se identifican con etiquetas en lugar de simples índices enteros. Como veremos en el transcurso de este capítulo, Pandas proporciona una gran cantidad de herramientas, métodos y funcionalidades útiles además de las estructuras de datos básicas, pero casi todo lo que sigue requerirá una comprensión de cuáles son estas estructuras. Por lo tanto, antes de continuar, presentemos estas tres estructuras de datos fundamentales de Pandas: ``Series``, ``DataFrame``, y ``Index``.

Comenzaremos nuestras sesiones de código con las importaciones estándar de NumPy y Pandas:

In [None]:
import numpy as np
import pandas as pd

## El objeto Series de Pandas

Una ``Series`` de Pandas es una matriz unidimensional de datos indexados.
Se puede crear a partir de una lista o matriz de la siguiente manera:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Como vemos en el resultado, la ``Series`` envuelve tanto una secuencia de valores como una secuencia de índices, a los que podemos acceder con los atributos de ``values`` y ``index``.
Los ``values`` son simplemente una matriz NumPy:

In [None]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

El ``index`` es un objeto similar a una matriz de tipo ``pd.Index``, que discutiremos con más detalle en un momento.

In [None]:
data.index

RangeIndex(start=0, stop=4, step=1)

Al igual que con una matriz NumPy, el índice asociado puede acceder a los datos a través de la conocida notación de corchetes de Python:

In [None]:
data[1]

0.5

In [None]:
data[1:3]

1    0.50
2    0.75
dtype: float64

Sin embargo, como veremos, el objeto ``Series`` de Pandas es mucho más general y flexible que la matriz NumPy unidimensional que emula.

### El objeto ``Series`` como matriz NumPy generalizada

Por lo que hemos visto hasta ahora, puede parecer que el objeto ``Series`` es básicamente intercambiable con una matriz NumPy unidimensional.
La diferencia esencial es la presencia del índice: mientras que Numpy Array tiene un índice entero *implícitamente definido* que se usa para acceder a los valores, Pandas ``Series`` tiene un índice *explícitamente definido* asociado con los valores.

Esta definición de índice explícito le da al objeto ``Series`` capacidades adicionales. Por ejemplo, el índice no necesita ser un número entero, pero puede consistir en valores de cualquier tipo deseado.
Por ejemplo, si lo deseamos, podemos usar cadenas como índice:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

Y el acceso al elemento funciona como se esperaba:

In [None]:
data['b']

0.5

Incluso podemos usar índices no contiguos o no secuenciales:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [None]:
data[5]

0.5

### El objeto ``Series`` como diccionario especializado

De esta forma, puedes pensar en el objeto ``Series`` de Pandas un poco como una especialización de un diccionario de Python.
Un diccionario es una estructura que asigna claves arbitrarias a un conjunto de valores arbitrarios, y un objeto ``Series`` es una estructura que asigna claves escritas a un conjunto de valores escritos.
Esta tipificación es importante: así como el código compilado específico del tipo detrás de una matriz NumPy lo hace más eficiente que una lista de Python para ciertas operaciones, la información de tipo de un objeto ``Series`` de Pandas lo hace mucho más eficiente que los diccionarios de Python para ciertas operaciones.

La analogía de ``Series`` como diccionario se puede hacer aún más clara al construir un objeto ``Series`` directamente desde un diccionario de Python:

In [None]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

Por defecto, se creará un objeto ``Series`` donde el índice se extrae de las claves ordenadas.
Desde aquí, se puede realizar el acceso a elementos de estilo típico de diccionario:

In [None]:
population['California']

38332521

Sin embargo, a diferencia de un diccionario, el objeto ``Series`` también admite operaciones de estilo de matriz, como el corte:

In [None]:
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

### Construcción de objetos Series de Pandas

Ya hemos visto algunas formas de construir un objeto ``Series`` de Pandas desde cero; todos ellos son alguna versión de lo siguiente:

```python
>>> pd.Series(data, index=index)
```

donde ``index`` es un argumento opcional, y ``data`` puede ser una de muchas entidades.

Por ejemplo, ``data`` puede ser una lista o matriz NumPy, en cuyo caso ``index`` por defecto es una secuencia entera:

In [None]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

``data`` puede ser un escalar, que se repite para llenar el índice especificado:

In [None]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

``data`` puede ser un diccionario, en el que ``index`` tiene por defecto las claves ordenadas del diccionario:

In [None]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

En cada caso, el índice se puede establecer explícitamente si se prefiere un resultado diferente:

In [None]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

Ten en cuenta que, en este caso, el objeto ``Series`` se completa solo con las claves identificadas explícitamente.

## El objeto DataFrame de Pandas

La siguiente estructura fundamental en Pandas es ``DataFrame``.
Al igual que el objeto ``Series`` discutido en la sección anterior el objeto ``DataFrame`` se puede considerar como una generalización de una matriz NumPy o como una especialización de un diccionario de Python.
Ahora vamos a echar un vistazo a cada una de estas perspectivas.

### El objeto DataFrame como una matriz NumPy generalizada

Si un objeto ``Series`` es parecido a una matriz unidimensional con índices flexibles, un objeto ``DataFrame`` es parecido a una matriz bidimensional con índices de fila flexibles y nombres de columna flexibles.
Así como podrías pensar en una matriz bidimensional como una secuencia ordenada de columnas unidimensionales alineadas, puedes pensar en un objeto ``DataFrame`` como una secuencia de objetos ``Series`` alineados.
Aquí, por "alineados" queremos decir que comparten el mismo índice.

Para demostrar esto, primero construyamos un nuevo objeto ``Series`` que enumere el área de cada uno de los cinco estados discutidos en la sección anterior:

In [None]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

Ahora que tenemos esto junto con el objeto Series ``población`` de antes, podemos usar un diccionario para construir un solo objeto bidimensional que contenga esta información:

In [None]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


Al igual que el objeto ``Series``, ``DataFrame`` tiene un atributo ``index`` que da acceso a las etiquetas de los índices:

In [None]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

Además, el objeto ``DataFrame`` tiene un atributo ``columns``, que es un objeto ``Index`` que contiene las etiquetas de las columnas:

In [None]:
states.columns

Index(['population', 'area'], dtype='object')

Por lo tanto, el objeto ``DataFrame`` se puede considerar como una generalización de una matriz NumPy bidimensional, donde tanto las filas como las columnas tienen un índice generalizado para acceder a los datos.

### El objeto DataFrame como diccionario especializado

De manera similar, también podemos pensar en un objeto ``DataFrame`` como una especialización de un diccionario.
Donde un diccionario asigna una clave a un valor, un objeto ``DataFrame`` asigna un nombre de columna a un objeto ``Series`` de datos de columna.
Por ejemplo, pedir el atributo ``'area'`` devuelve el objeto ``Series`` que contiene las áreas que vimos anteriormente:

In [None]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Observa el posible punto de confusión aquí: en una matriz NumPy de dos dimensiones, ``data[0]`` devolverá la primera *fila*. Para un objeto ``DataFrame``, ``data['col0']`` devolverá la primera *columna*.
Debido a esto, probablemente sea mejor pensar en el objeto ``DataFrame``s como diccionarios generalizados en lugar de arreglos generalizados, aunque ambas formas de ver la situación pueden ser útiles.

### Construcción de objetos DataFrame

Un objeto ``DataFrame`` de Pandas se puede construir de varias formas.
Aquí daremos varios ejemplos.

#### Desde un solo objeto Series

Un objeto ``DataFrame`` es una colección de objetos ``Series``, y un objeto ``DataFrame`` de una sola columna se puede construir a partir de un único objeto ``Series``:

In [None]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


#### De una lista de diccionarios

Cualquier lista de diccionarios se puede convertir en un objeto ``DataFrame``.
Usaremos una lista simple de comprensión para crear algunos datos:

In [None]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Incluso si faltan algunas llaves en el diccionario, Pandas las completará con valores ``NaN`` (es decir, "not a number"):

In [None]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


#### De un diccionario de objetos Series

Como vimos antes, un ``DataFrame`` también se puede construir a partir de un diccionario de objetos ``Series``:

In [None]:
pd.DataFrame({'population': population,
              'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


#### A partir de una matriz NumPy bidimensional

Dada una matriz bidimensional de datos, podemos crear un objeto ``DataFrame`` con cualquier nombre de columna e índice especificado.
Si se omite, se utilizará un índice entero para cada fila:

In [None]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.477736,0.249218
b,0.133022,0.206351
c,0.186478,0.412788


#### Desde una matriz estructurada NumPy

Un objeto ``DataFrame`` de Pandas funciona como una matriz estructurada Numpy y se puede crear directamente a partir de una:

In [None]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [None]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


## El objeto Index de Pandas

Hemos visto aquí que tanto los objetos ``Series`` como ``DataFrame`` contienen un *índice* explícito que te permite hacer referencia y modificar datos.
Este objeto ``Index`` es una estructura interesante en sí misma, y se puede considerar como una *matriz inmutable* o como un *set ordenado* (técnicamente, un set múltiple, ya que los objetos ``Index`` pueden contener valores repetidos).
Esas vistas tienen algunas consecuencias interesantes en las operaciones disponibles en los objetos ``Index``.
Como ejemplo simple, construyamos un ``Index`` a partir de una lista de enteros:

In [None]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

### El objeto Index como matriz inmutable

El objeto ``Index`` en muchos sentidos funciona como una matriz.
Por ejemplo, podemos usar la notación de indexación estándar de Python para recuperar valores o segmentos:

In [None]:
ind[1]

3

In [None]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

Los objetos ``Index`` también tienen muchos de los atributos familiares de las matrices NumPy:

In [None]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


Una diferencia entre los objetos ``Index`` y las matrices NumPy es que los índices son inmutables, es decir, no se pueden modificar por los medios normales:

In [None]:
ind[1] = 0

TypeError: ignored

Esta inmutabilidad hace que sea más seguro compartir índices entre múltiples objetos ``DataFrame`` y arreglos, sin la posibilidad de efectos secundarios por la modificación inadvertida del índice.

### El objeto Index como set ordenado

Los objetos de Pandas están diseñados para facilitar operaciones como las uniones entre conjuntos de datos, que dependen de muchos aspectos de la aritmética de sets.
El objeto ``Index`` sigue muchas de las convenciones utilizadas por la estructura de datos ``set`` de Python, de modo que las uniones, intersecciones, diferencias y otras combinaciones se pueden calcular de una manera familiar:

In [None]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [None]:
indA & indB  # intersection

  """Entry point for launching an IPython kernel.


Int64Index([3, 5, 7], dtype='int64')

In [None]:
indA | indB  # union

  """Entry point for launching an IPython kernel.


Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [None]:
indA ^ indB  # symmetric difference

  """Entry point for launching an IPython kernel.


Int64Index([1, 2, 9, 11], dtype='int64')

También se puede acceder a estas operaciones a través de métodos de objetos, por ejemplo ``indA.intersection(indB)``.

Bibliografía
> Vanderplas, J. T. (2016). *Python data science handbook: Essential tools for working with data*. O’Reilly Media, Inc.

