# Presentación de objetos Pandas

En un nivel muy básico, los objetos Pandas pueden considerarse como versiones mejoradas de matrices estructuradas NumPy en las que las filas y columnas se identifican con etiquetas en lugar de simples índices enteros.
Como veremos a lo largo de este capítulo, Pandas proporciona una gran cantidad de herramientas, métodos y funcionalidades útiles además de las estructuras de datos básicas, pero casi todo lo que sigue requerirá una comprensión de qué son estas estructuras.
Por lo tanto, antes de continuar, echemos un vistazo a estas tres estructuras de datos fundamentales de Pandas: `Serie`, `DataFrame` e `Index`.

Comenzaremos nuestras sesiones de código con las importaciones estándar de NumPy y Pandas:

In [1]:
import numpy as np
import pandas as pd

## El objeto de la serie Pandas

Una `Serie` de Pandas es una matriz unidimensional de datos indexados.
Se puede crear a partir de una lista o matriz de la siguiente manera:

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

La `Serie` combina una secuencia de valores con una secuencia explícita de índices, a los que podemos acceder con los atributos `values` e `index`.
Los "valores" son simplemente una matriz NumPy familiar:

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

El `index` es un objeto similar a una matriz de tipo `pd.Index`, que discutiremos con más detalle en un momento:

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

Al igual que con una matriz NumPy, el índice asociado puede acceder a los datos a través de la conocida notación de corchetes de Python:

In [5]:
data[1]

0.5

In [6]:
data[1:3]

1    0.50
2    0.75
dtype: float64

Sin embargo, como veremos, la `Serie` de Pandas es mucho más general y flexible que la matriz NumPy unidimensional que emula.

### Serie como matriz NumPy generalizada

Por lo que hemos visto hasta ahora, el objeto `Series` puede parecer básicamente intercambiable con una matriz NumPy unidimensional.
La diferencia esencial es que mientras que la matriz NumPy tiene un índice entero *implícitamente definido* utilizado para acceder a los valores, la `Serie` de Pandas tiene un índice *explícitamente definido* asociado con los valores.

Esta definición de índice explícita le da al objeto "Serie" capacidades adicionales. Por ejemplo, no es necesario que el índice sea un número entero, pero puede constar de valores de cualquier tipo deseado.
Entonces, si lo deseamos, podemos usar cadenas como índice:

In [7]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

Y el acceso al elemento funciona como se esperaba:

In [8]:
data['b']

0.5

Incluso podemos utilizar índices no contiguos o no secuenciales:

In [9]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [10]:
data[5]

0.5

### Serie como diccionario especializado

De esta manera, puedes pensar en una `Serie` de Pandas como una especialización de un diccionario de Python.
Un diccionario es una estructura que asigna claves arbitrarias a un conjunto de valores arbitrarios, y una "Serie" es una estructura que asigna claves escritas a un conjunto de valores escritos.
Esta escritura es importante: así como el código compilado de tipo específico detrás de una matriz NumPy lo hace más eficiente que una lista de Python para ciertas operaciones, la información de tipo de una `Serie` de Pandas lo hace más eficiente que los diccionarios de Python para ciertas operaciones.

La analogía de "Serie" como diccionario se puede hacer aún más clara construyendo un objeto "Serie" directamente a partir de un diccionario de Python, aquí los cinco estados más poblados de EE. UU. según el censo de 2020:

In [11]:
population_dict = {'California': 39538223, 'Texas': 29145505,
                   'Florida': 21538187, 'New York': 20201249,
                   'Pennsylvania': 13002700}
population = pd.Series(population_dict)
population

California      39538223
Texas           29145505
Florida         21538187
New York        20201249
Pennsylvania    13002700
dtype: int64

Desde aquí, se puede realizar el acceso típico a elementos de estilo diccionario:

In [12]:
population['California']

39538223

Sin embargo, a diferencia de un diccionario, `Series` también admite operaciones de estilo de matriz, como la división:

In [13]:
population['California':'Florida']

California    39538223
Texas         29145505
Florida       21538187
dtype: int64

Discutiremos algunas de las peculiaridades de la indexación y división de Pandas en [Indexación y selección de datos] (03.02-Indexación-y-selección-de-datos.ipynb).

### Construyendo objetos en serie

Ya hemos visto algunas formas de construir una "Serie" de Pandas desde cero. Todos ellos son alguna versión de lo siguiente:

```pitón
pd.Series(datos, índice=índice)
```

donde "índice" es un argumento opcional y "datos" puede ser una de muchas entidades.

Por ejemplo, "datos" puede ser una lista o una matriz NumPy, en cuyo caso "índice" por defecto es una secuencia de números enteros:

In [14]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

O "datos" puede ser un escalar, que se repite para llenar el índice especificado:

In [15]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

O puede ser un diccionario, en cuyo caso `index` por defecto son las claves del diccionario:

In [16]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

En cada caso, el índice se puede configurar explícitamente para controlar el orden o el subconjunto de claves utilizadas:

In [17]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[1, 2])

1    b
2    a
dtype: object

## El objeto Pandas DataFrame

La siguiente estructura fundamental en Pandas es el "DataFrame".
Al igual que el objeto `Series` discutido en la sección anterior, el `DataFrame` puede considerarse como una generalización de una matriz NumPy o como una especialización de un diccionario de Python.
Ahora echaremos un vistazo a cada una de estas perspectivas.

### DataFrame como matriz NumPy generalizada
Si una "Serie" es análoga a una matriz unidimensional con índices explícitos, un "DataFrame" es un análogo de una matriz bidimensional con índices explícitos de filas y columnas.
Así como podría pensar en una matriz bidimensional como una secuencia ordenada de columnas unidimensionales alineadas, puede pensar en un "DataFrame" como una secuencia de objetos "Series" alineados.
Aquí, por "alineados" queremos decir que comparten el mismo índice.

Para demostrar esto, primero construyamos una nueva "Serie" que enumere el área de cada uno de los cinco estados discutidos en la sección anterior (en kilómetros cuadrados):

In [18]:
area_dict = {'California': 423967, 'Texas': 695662, 'Florida': 170312, 
             'New York': 141297, 'Pennsylvania': 119280}
area = pd.Series(area_dict)
area

California      423967
Texas           695662
Florida         170312
New York        141297
Pennsylvania    119280
dtype: int64

Ahora que tenemos esto junto con la serie "población" anterior, podemos usar un diccionario para construir un único objeto bidimensional que contenga esta información:

In [19]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,39538223,423967
Texas,29145505,695662
Florida,21538187,170312
New York,20201249,141297
Pennsylvania,13002700,119280


Al igual que el objeto `Series`, el `DataFrame` tiene un atributo `index` que da acceso a las etiquetas de índice:

In [20]:
states.index

Index(['California', 'Texas', 'Florida', 'New York', 'Pennsylvania'], dtype='object')

Además, el `DataFrame` tiene un atributo `columns`, que es un objeto `Index` que contiene las etiquetas de las columnas:

In [21]:
states.columns

Index(['population', 'area'], dtype='object')

Por lo tanto, se puede considerar el "DataFrame" como una generalización de una matriz NumPy bidimensional, donde tanto las filas como las columnas tienen un índice generalizado para acceder a los datos.

### DataFrame como diccionario especializado

De manera similar, también podemos pensar en un "DataFrame" como una especialización de un diccionario.
Donde un diccionario asigna una clave a un valor, un "DataFrame" asigna un nombre de columna a una "Serie" de datos de columna.
Por ejemplo, al solicitar el atributo `'área'` se devuelve el objeto `Serie` que contiene las áreas que vimos anteriormente:

In [22]:
states['area']

California      423967
Texas           695662
Florida         170312
New York        141297
Pennsylvania    119280
Name: area, dtype: int64

Observe el posible punto de confusión aquí: en una matriz NumPy bidimensional, `datos[0]` devolverá la primera *fila*. Para un `DataFrame`, `data['col0']` devolverá la primera *columna*.
Debido a esto, probablemente sea mejor pensar en los ``DataFrame`` como diccionarios generalizados en lugar de matrices generalizadas, aunque ambas formas de ver la situación pueden ser útiles.
Exploraremos medios más flexibles para indexar ``DataFrame``s en [Indexación y selección de datos] (03.02-Indexación-y-selección-de-datos.ipynb).

### Construyendo objetos de marco de datos

Un `DataFrame` de Pandas se puede construir de varias maneras.
Aquí exploraremos varios ejemplos.

#### Desde un solo objeto Serie

Un `DataFrame` es una colección de objetos `Series`, y se puede construir un `DataFrame` de una sola columna a partir de una sola `Series`:

In [23]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,39538223
Texas,29145505
Florida,21538187
New York,20201249
Pennsylvania,13002700


#### De una lista de dictados

Cualquier lista de diccionarios se puede convertir en un "DataFrame".
Usaremos una lista de comprensión simple para crear algunos datos:

In [24]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Incluso si faltan algunas claves en el diccionario, Pandas las completará con valores `NaN` (es decir, "No es un número"; consulte [Manejo de datos faltantes](03.04-Missing-Values.ipynb)):

In [25]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


#### De un diccionario de objetos de serie

Como vimos antes, un `DataFrame` también se puede construir a partir de un diccionario de objetos `Series`:

In [26]:
pd.DataFrame({'population': population,
              'area': area})

Unnamed: 0,population,area
California,39538223,423967
Texas,29145505,695662
Florida,21538187,170312
New York,20201249,141297
Pennsylvania,13002700,119280


#### De una matriz NumPy bidimensional

Dada una matriz bidimensional de datos, podemos crear un "DataFrame" con cualquier nombre de columna e índice especificado.
Si se omite, se utilizará un índice entero para cada uno:

In [27]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.471098,0.317396
b,0.614766,0.305971
c,0.533596,0.512377


#### Desde una matriz estructurada NumPy

Cubrimos matrices estructuradas en [Datos estructurados: matrices estructuradas de NumPy] (02.09-Datos-estructurados-NumPy.ipynb).
Un `DataFrame` de Pandas funciona de manera muy similar a una matriz estructurada y se puede crear directamente a partir de una:

In [28]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [29]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


## El objeto del índice Pandas

Como ha visto, los objetos `Series` y `DataFrame` contienen un *índice* explícito que le permite hacer referencia y modificar datos.
Este objeto `Index` es una estructura interesante en sí misma, y ​​puede considerarse como una *matriz inmutable* o como un *conjunto ordenado* (técnicamente, un conjunto múltiple, ya que los objetos `Index` pueden contener valores repetidos).
Esas vistas tienen algunas consecuencias interesantes en términos de las operaciones disponibles en los objetos "Índice".
Como ejemplo simple, construyamos un "Índice" a partir de una lista de números enteros:

In [30]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

### Índice como matriz inmutable

El "Índice" en muchos sentidos funciona como una matriz.
Por ejemplo, podemos usar la notación de indexación estándar de Python para recuperar valores o sectores:

In [31]:
ind[1]

3

In [32]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

Los objetos `Index` también tienen muchos de los atributos familiares de las matrices NumPy:

In [33]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


Una diferencia entre los objetos `Index` y las matrices NumPy es que los índices son inmutables, es decir, no se pueden modificar por los medios normales:

In [34]:
ind[1] = 0

TypeError: Index does not support mutable operations

Esta inmutabilidad hace que sea más seguro compartir índices entre múltiples ``DataFrame``s y matrices, sin la posibilidad de que se produzcan efectos secundarios debido a una modificación involuntaria del índice.

### Índice como conjunto ordenado

Los objetos Pandas están diseñados para facilitar operaciones como la unión entre conjuntos de datos, que dependen de muchos aspectos de la aritmética de conjuntos.
El objeto `Index` sigue muchas de las convenciones utilizadas por la estructura de datos `set` incorporada de Python, de modo que las uniones, intersecciones, diferencias y otras combinaciones se pueden calcular de una manera familiar:

In [35]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [36]:
indA.intersection(indB)

Int64Index([3, 5, 7], dtype='int64')

In [37]:
indA.union(indB)

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [38]:
indA.symmetric_difference(indB)

Int64Index([1, 2, 9, 11], dtype='int64')