# Introducción a objetos de Pandas

En el nivel muy básico, los objetos PANDAS se pueden considerar como **versiones mejoradas de matrices estructuradas numpy en las que las filas y las columnas se identifican con etiquetas en lugar de índices enteros simples.**
Como veremos durante el curso de este capítulo, Pandas proporciona una gran cantidad de herramientas, métodos y funcionalidad útiles además de las estructuras de datos básicas, pero **casi todo lo que sigue requerirá una comprensión de cuáles son estas estructuras**.
Por lo tanto, antes de continuar, presentemos estas tres estructuras de datos de pandas fundamentales: la `` series``, `` DataFrame`` y `` Índice``.

Comenzaremos nuestras sesiones de código con las importaciones estándar de Numpy y Pandas:

In [1]:
import numpy as np
import pandas as pd

## El objeto Serie de Pandas

Un pandas `` series`` es una matriz unidimensional de datos indexados.
Se puede crear a partir de una lista o matriz de la siguiente manera:

In [2]:
np.array([1.5, 1.6, 1.75, 1.80])

array([1.5 , 1.6 , 1.75, 1.8 ])

In [3]:
# Heights of class

data = pd.Series([1.5, 1.6, 1.75, 1.80]) # From list
data = pd.Series(np.array([1.5, 1.6, 1.75, 1.80])) # From array
data

0    1.50
1    1.60
2    1.75
3    1.80
dtype: float64

Como vemos en la salida, el `` Series`` envuelve una secuencia de valores y una secuencia de índices, a los que podemos acceder con los atributos `` values`` e ``index``.
Los ``values`` son simplemente una matriz numpy familiar:

In [4]:
data.values

array([1.5 , 1.6 , 1.75, 1.8 ])

El ``index`` es un objeto de tipo de matriz ``pd.index``, que discutiremos con más detalle momentáneamente.

In [5]:
(data.index)

RangeIndex(start=0, stop=4, step=1)

Al igual que con una matriz Numpy, se puede acceder a los datos mediante el índice asociado a través de la familiar notación de python cuadrado:

In [6]:
data[1]

1.6

In [7]:
otra_serie = data[1:4].copy() #mantiene los indicies de la serie original, no se reestructuran
print(otra_serie)

1    1.60
2    1.75
3    1.80
dtype: float64


In [8]:
print(type(otra_serie))

<class 'pandas.core.series.Series'>


In [9]:
otra_serie[1] # índices declarados [1,2,3]

1.6

In [13]:
otra_serie[0::2] # índices naturales [0,1,2]. Quiere decir desde el principio al final de 2 en 2, pero aqui si usa los indices normales: empiezan en 0

1    1.6
3    1.8
dtype: float64

Sin embargo, como veremos, **Los pandas ``series`` son mucho más generales y flexibles que la matriz Numpy** unidimensional que emula.

### ``Series`` como una matriz Numpy generalizada

Por lo que hemos visto hasta ahora, puede parecer que el objeto ``series`` es básicamente intercambiable con una matriz numpy unidimensional.
**La diferencia esencial es la presencia del índice**: Si bien la matriz numpy tiene un índice entero *implícitamente definido* utilizado para acceder a los valores, los pandas ``series`` tienen un índice ***explícitamente definido*** asociado con los valores.

Esta definición de índice explícito proporciona las capacidades adicionales del objeto ``series``.Por ejemplo, el índice no necesita ser un entero, pero puede consistir en valores de cualquier tipo deseado.
Por ejemplo, **Si lo deseamos, podemos usar cadenas como índice:**

In [10]:
data = pd.Series([1.5, 1.6, 1.75, 1.80],
                 index=['Jane', 'Joe', 'Susan', 'Mike'])
data

Jane     1.50
Joe      1.60
Susan    1.75
Mike     1.80
dtype: float64

In [11]:
data.values

array([1.5 , 1.6 , 1.75, 1.8 ])

In [12]:
list(data.index)

['Jane', 'Joe', 'Susan', 'Mike']

Y el acceso al artículo funciona como se esperaba:

In [13]:
data["Susan"]

1.75

Incluso podemos usar índices no contiguos o no secuenciales:

In [18]:
data = pd.Series([1.5, 1.6, 1.75, 1.80],
                 index=[2, 5, 3, 7])
data

2    1.50
5    1.60
3    1.75
7    1.80
dtype: float64

In [19]:
data[2]

1.5

In [25]:
data[1:3]

5    1.60
3    1.75
dtype: float64

### Serie como diccionario especializado

De esta manera, puedes pensar en un **Pandas ``series`` un poco como una especialización de un diccionario de Python.**
Un diccionario es una estructura que mapea las teclas arbitrarias para un conjunto de valores arbitrarios, y una ``series`` es una estructura que mapea las teclas tipeadas para un conjunto de valores tipados.
Esta escritura es importante: al igual que el código compilado específico de tipo detrás de una matriz numpy lo hace más eficiente que una lista de Python para ciertas operaciones, la información de tipo de un Pandas ``series`` lo hace mucho más eficiente que los diccionarios de Python con ciertas operaciones.

La analogía ``series`` como diccionario se puede dejar aún más clara construyendo un objeto ``series`` directamente de un diccionario de Python:

In [20]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
print(population_dict.keys())
print(population_dict.values())

dict_keys(['California', 'Texas', 'New York', 'Florida', 'Illinois'])
dict_values([38332521, 26448193, 19651127, 19552860, 12882135])


In [15]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
# print(population_dict)
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

Por defecto, se creará una ``series`` donde el índice se extrae de las teclas ordenadas.
Desde aquí, se puede realizar el acceso típico al artículo de estilo diccionario:

In [22]:
population['California']

38332521

Sin embargo, a diferencia de un diccionario, la ``series`` también admite operaciones de estilo matriz como cortar:

In [23]:
population['California':'Florida'] # Nos respeta los extremos. Seria como un slicing de una serie, al ser str no respeta la regla del n-1

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64

In [26]:
# Slicing mediante posiciones
population[0:-1] # No nos coge el último elemento.

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64

Discutiremos algunas de las peculiaridades de la indexación y corte de Pandas en Data Indexing and Selection.

### Construcción de objetos de la serie

Ya hemos visto algunas formas de construir un pandas ``series`` desde cero;Todos ellos son una versión de lo siguiente:

```Python
>>> PD.Series(datos, índice = índice)
```

Donde ``índice`` es un argumento opcional, y ``Data`` puede ser una de las muchas entidades.

Por ejemplo, ``Data`` puede ser una lista o una matriz Numpy, en cuyo caso ``Índice`` predeterminado a una secuencia entera:

In [27]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

``Data`` puede ser un escalar, que se repite para llenar el índice especificado:

In [43]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

``Data`` puede ser un diccionario, en el que ``index`` predeterminado a las claves de diccionario ordenadas:

In [34]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

En cada caso, el índice se puede establecer explícitamente si se prefiere un resultado diferente:

In [35]:
mi_serie = pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

In [36]:
mi_serie

3    c
2    a
dtype: object

Tenga en cuenta que en este caso, el objeto ``series`` solo se pobla con las teclas identificadas explícitamente.

## El objeto DataFrame de Pandas

La siguiente estructura fundamental en Pandas es el ``DataFrame``.
Al igual que el objeto ``series`` discutido en la sección anterior, el ``DataFrame`` puede ser **considerarse como una generalización de una matriz numpy o como una especialización de un diccionario de Python.**
Ahora echaremos un vistazo a cada una de estas perspectivas.

### DataFrame como una matriz Numpy generalizada
Si un ``series`` es un análogo de una matriz unidimensional con índices flexibles, un **``DataFrame`` es un análogo de una matriz bidimensional con índices de fila flexibles y nombres de columnas flexibles.**
Del mismo modo que podría pensar en una matriz bidimensional como una secuencia ordenada de columnas unidimensionales alineadas, puede pensar en un ``DataFrame`` como una secuencia de objetos alineados ``series``.
Aquí, por "alineado" queremos decir que **comparten el mismo índice**.

Para demostrar esto, construyamos primero un nuevo ``series`` que enumere el área de cada uno de los cinco estados discutidos en la sección anterior:

In [44]:
area_dict = {'Texas': 695662, 'California': 423967, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995, 'Carolina Sur': 445698}
area = pd.Series(area_dict)
area

Texas           695662
California      423967
New York        141297
Florida         170312
Illinois        149995
Carolina Sur    445698
dtype: int64

In [45]:
print(area)

Texas           695662
California      423967
New York        141297
Florida         170312
Illinois        149995
Carolina Sur    445698
dtype: int64


Ahora que tenemos esto junto con la serie ``población`` de antes, podemos usar un diccionario para construir un solo objeto bidimensional que contenga esta información:

In [46]:
print(population)

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64


In [47]:
print(area)

Texas           695662
California      423967
New York        141297
Florida         170312
Illinois        149995
Carolina Sur    445698
dtype: int64


In [48]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521.0,423967
Carolina Sur,,445698
Florida,19552860.0,170312
Illinois,12882135.0,149995
New York,19651127.0,141297
Texas,26448193.0,695662


Al igual que el objeto ``series``, el ``DataFrame`` tiene un atributo ``índice`` que da acceso a las etiquetas de índice:

In [49]:
states.index #object en pandas es string

Index(['California', 'Carolina Sur', 'Florida', 'Illinois', 'New York',
       'Texas'],
      dtype='object')

Además, el ``DataFrame`` tiene un atributo ``columnas``, que es un objeto ``índice`` que contiene las etiquetas de la columna:

In [50]:
list(states.columns)

['population', 'area']

In [51]:
states

Unnamed: 0,population,area
California,38332521.0,423967
Carolina Sur,,445698
Florida,19552860.0,170312
Illinois,12882135.0,149995
New York,19651127.0,141297
Texas,26448193.0,695662


In [52]:
states.values

array([[38332521.,   423967.],
       [      nan,   445698.],
       [19552860.,   170312.],
       [12882135.,   149995.],
       [19651127.,   141297.],
       [26448193.,   695662.]])

**Por lo tanto, el ``DataFrame`` puede considerarse como una generalización de una matriz numpy bidimensional, donde tanto las filas como las columnas tienen un índice generalizado para acceder a los datos.**

### DataFrame como un diccionario especializado

De manera similar, también podemos pensar en un ``DataFrame`` como una especialización de un diccionario. Mientras que un diccionario asigna una clave a un valor, un ``DataFrame`` asigna un nombre de columna a una ``Serie`` de datos de columna. Por ejemplo, al solicitar el atributo ``'área'`` se devuelve el objeto ``Serie`` que contiene las áreas que vimos anteriormente:

In [55]:
states['population']

California      38332521.0
Carolina Sur           NaN
Florida         19552860.0
Illinois        12882135.0
New York        19651127.0
Texas           26448193.0
Name: population, dtype: float64

**Observe el posible punto de confusión aquí: en una matriz NumPy bidimensional, ``datos[0]`` devolverá la primera *fila*. Para un ``DataFrame``, ``data['col0']`` devolverá la primera *columna*.**
Debido a esto, probablemente sea mejor pensar en los ``DataFrame`` como diccionarios generalizados en lugar de matrices generalizadas, aunque ambas formas de ver la situación pueden ser útiles.
Exploraremos medios más flexibles para indexar ``DataFrame``s en [Data Indexing and Selection](03.02-Data-Indexing-and-Selection.ipynb).

### Construyendo objetos DataFrame

Un ``DataFrame`` de Pandas se puede construir de varias maneras.
Aquí daremos varios ejemplos.

#### Desde un solo objeto Serie

Un ``DataFrame`` es una colección de objetos ``Series``, y un ``DataFrame`` de una sola columna se puede construir a partir de una sola ``Series``:

In [56]:
print(population)

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64


In [17]:
pop = pd.DataFrame(data=population, columns=['Population'])
pop

Unnamed: 0,Population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


#### De una lista de diccionarios

Cualquier lista de diccionarios se puede convertir en un ``DataFrame``.
Usaremos una lista de comprensión simple para crear algunos datos:

In [58]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)] # lista de diccionarios
print(data)
pd.DataFrame(data)

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]


Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Incluso si faltan algunas claves en el diccionario, Pandas las completará con valores ``NaN`` (es decir, "no es un número"):

In [59]:
pd.DataFrame([{'nombre': "Juan", 'edad': 29}, {'edad': 26, 'altura': 1.75}])

Unnamed: 0,nombre,edad,altura
0,Juan,29,
1,,26,1.75


#### De un diccionario de objetos de la serie.

Como vimos antes, un ``DataFrame`` también se puede construir a partir de un diccionario de objetos ``Series``:

In [61]:
pd.DataFrame({'population': population,
              'area': area})

print(states.loc['California']) #Para acceder por filas se usa el loc

population    38332521.0
area            423967.0
Name: California, dtype: float64


#### Desde una matriz NumPy bidimensional

Dada una matriz bidimensional de datos, podemos crear un ``DataFrame`` con cualquier nombre de columna e índice especificado.
Si se omite, se utilizará un índice entero para cada uno:

In [20]:
np.random.seed(10)
np.random.rand(3, 2)

array([[0.77132064, 0.02075195],
       [0.63364823, 0.74880388],
       [0.49850701, 0.22479665]])

In [21]:
np.random.seed(10)
x = pd.DataFrame(np.random.rand(3, 2),
             columns=['Columna_1', 'Columna_2'],
             index=['a', 'b', 'c'])

In [22]:
x

Unnamed: 0,Columna_1,Columna_2
a,0.771321,0.020752
b,0.633648,0.748804
c,0.498507,0.224797


In [23]:
x.index

Index(['a', 'b', 'c'], dtype='object')

In [24]:
#x.reset_index() no aplasta el indice original
x.reset_index(inplace=True) #esto si aplasta el indice original, con inplace

In [25]:
x.index

RangeIndex(start=0, stop=3, step=1)

In [26]:
x.rename(columns={'index':'Index'}, inplace = True)

In [27]:
x

Unnamed: 0,Index,Columna_1,Columna_2
0,a,0.771321,0.020752
1,b,0.633648,0.748804
2,c,0.498507,0.224797


In [28]:
x.Columna_1

0    0.771321
1    0.633648
2    0.498507
Name: Columna_1, dtype: float64

In [29]:
x.iloc[0, :]

Index               a
Columna_1    0.771321
Columna_2    0.020752
Name: 0, dtype: object

#### Desde una matriz estructurada NumPy

Un ``DataFrame`` de Pandas funciona de manera muy similar a una matriz estructurada y se puede crear directamente a partir de uno:

In [90]:
import numpy as np
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8'), ('C', 'f8')])
A
# i8 -> entero
# f8 -> float

array([(0, 0., 0.), (0, 0., 0.), (0, 0., 0.)],
      dtype=[('A', '<i8'), ('B', '<f8'), ('C', '<f8')])

In [91]:
pd.DataFrame(A)

Unnamed: 0,A,B,C
0,0,0.0,0.0
1,0,0.0,0.0
2,0,0.0,0.0


## El objeto del índice Pandas

Hemos visto aquí que tanto el objeto ``Series`` como ``DataFrame`` contienen un *índice* explícito que le permite hacer referencia y modificar datos.
Este objeto ``Index`` es una estructura interesante en sí misma, y **puede considerarse como una *matriz inmutable* o como un *conjunto ordenado* (técnicamente un conjunto múltiple, como objetos ``Index`` puede contener valores repetidos).**
Esas vistas tienen algunas consecuencias interesantes en las operaciones disponibles en los objetos ``Index``.
Como ejemplo simple, construyamos un ``Índice`` a partir de una lista de números enteros:

In [92]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

### Índice como matriz inmutable

El ``Índice`` en muchos sentidos funciona como una matriz.
Por ejemplo, podemos usar la notación de indexación estándar de Python para recuperar valores o sectores:

In [93]:
ind[1]

3

In [94]:
ind[::2]

Index([2, 5, 11], dtype='int64')

Los objetos ``Index`` también tienen muchos de los atributos familiares de los arrays NumPy:

In [95]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


Una diferencia entre los objetos ``Index`` y los arreglos NumPy es que los índices son inmutables, es decir, no se pueden modificar por los medios normales:

In [96]:
ind[1] = 0

TypeError: Index does not support mutable operations

**Esta inmutabilidad hace que sea más seguro compartir índices entre múltiples ``DataFrames`` y matrices, sin la posibilidad de que se produzcan efectos secundarios debido a una modificación involuntaria del índice.**

### Índice como conjunto ordenado

Los objetos Pandas están diseñados para facilitar operaciones como la unión entre conjuntos de datos, que dependen de muchos aspectos de la aritmética de conjuntos.
**El objeto ``Index`` sigue muchas de las convenciones utilizadas por la estructura de datos ``set`` integrada de Python, de modo que las uniones, intersecciones, diferencias y otras combinaciones se pueden calcular de una manera familiar:**

In [97]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [101]:
indA.intersection(indB)  # intersection

Index([3, 5, 7], dtype='int64')

In [102]:
indA.union(indB)  # union

Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [103]:
indA.symmetric_difference(indB)  # symmetric difference

Index([1, 2, 9, 11], dtype='int64')