In [None]:
try:
    # settings colab:
    import google.colab
except ModuleNotFoundError:    
    # settings local:
    %run "../../../common/0_notebooks_base_setup.py"

---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


# Pandas I

<a id="section_toc"></a> 
## Tabla de Contenidos

[Intro](#section_intro)

[Series](#section_series)

$\hspace{.5cm}$[1. `Series` como generalización de un array de NumPy](#section_series_array_numpy)

$\hspace{.5cm}$[2. `Series` como un `dict` especializado](#section_series_dict)

[Constructor](#section_constructor)

[Selección de datos en Series](#section_selection)

[Reindexing](#section_reindexing)

[Indexers: loc e iloc](#section_loc_iloc)

---


## Series

<a id="section_intro"></a> 
###  Intro
[volver a TOC](#section_toc)


#### Documentación 
https://pandas.pydata.org/pandas-docs/stable/reference/series.html

Una Series es un objeto similar a un vector **unidimensional**. 

Contiene un **array de valores** (que en este caso son Perro, Oso, Jirafa, ...) y un **array de etiquetas** asociados a estos valores **denominado índice** (que en este caso son numéricos: 0, 1, 2, ...).

Cuando no especificamos un índice para los datos, se asigna por default un índice formado por valores enteros de 0 a N-1, donde N es la cantidad de valores en la serie.

Los valores de la serie pueden ser de cualquier tipo de datos, pero todos **los valores de una serie deben coincidir en su tipo**.

Las etiquetas, además de numéricas, también pueden ser de tipo cadena de caracteres.

Una Serie también puede pensarse como un **diccionario de tamaño fijo** con sus claves numéricas (Index) ordenadas.

Al igual que  los arrays de NumPy, permiten pasar una **lista de elementos (índices) para seleccionar un subconjunto** de valores.

![Image](img/serie.jpg)



<div id="caja1" style="float:left;width: 100%;">
  <div style="float:left;width: 15%;"><img src="../../../common/icons/para_seguir_pensando.png" style="align:left"/> </div>
  <div style="float:left;width: 85%;"><label>Entonces ¿qué diferencia una serie de  pandas de una instancia de numpy array unidimensional?</label></div>
</div>

---

In [None]:
import numpy as np
import pandas as pd

<a id="section_series"></a> 
## Objetos `Series` en Pandas
[volver a TOC](#section_toc)

* Puede pensarse como una array de una sola dimensión indexado. 
* Puede ser creado desde una lista:

In [None]:
lista = [0.25, 0.5, 0.75, 1.0]
data = pd.Series(lista)
data

Los valores de la serie se obtienen con:

In [None]:
data.values

El índice de la serie se obtiene con:

In [None]:
data.index

Podemos acceder a los valores de los elementos de una serie usando el índice asociado a esos elementos, de forma similar a los arrays de Numpy: con los `[]`

In [None]:
data[1]

In [None]:
data[1:3]

---

<a id="section_series_array_numpy"></a> 
### `Series` como generalización de un array de NumPy 
[volver a TOC](#section_toc)


* La diferencia esencial con un array de Numpy es que el array tiene un índice entero *implícitamente definido*, mientras que un objeto `Series` de Pandas tiene un índice asociado a los valores *que está definido de forma explícita*.

* El índice explícito no tiene por qué ser de tipo entero y **sus valores pueden no ser únicos**, es decir tener repeticiones.


Creemos una instancia de `Series`:

In [None]:
valores =   [0.25, 0.5 , 0.75, 1.0]
etiquetas = ['a' , 'b' , 'c' , 'd']
etiquetas_num = [2, 5, 3, 1]
data1 = pd.Series(valores, index=etiquetas)
data2 = pd.Series(valores, index=etiquetas_num)
print(data1)
print(data2)

Miremos el valor del segundo elemento usando su etiqueta:

In [None]:
print(data1['b'])
print(data2[5])

Y repitamos usando su posición:

In [None]:
print(data1[1])
print(data2[1])

Esperábamos que `print(data2[1])`devolviera `0.50` que es el segundo elementos de data2

<div id="caja2" style="float:left;width: 100%;">
  <div style="float:left;width: 15%;"><img src="../../../common/icons/para_seguir_pensando.png" style="align:left"/> </div>
  <div style="float:left;width: 85%;"><label>
      <label>¿Qué pasó? ¿Qué hicimos mal? ¿Cómo se resuelve este problema? </label></div>
</div>



Vamos a ver ahora las properties `loc` e `iloc`

`iloc` recibe como parámetro la posición y `loc` recibe como parámetro la etiqueta

Como ayuda memoria pensemos `iloc` como integer-location: indexamos con enteros que representan la posición.

Vamos a ver entonces qué obtenemos como segundo elemento con estas properties:

In [None]:
print(data1.iloc[1])
print(data2.iloc[1])

In [None]:
print(data1.loc['b'])
print(data2.loc[5])

---

<a id="section_series_dict"></a> 
### `Series` como un `dict` especializado
[volver a TOC](#section_toc)

Un `dict` es una estructura de datos que mapea un conjunto de keys arbitrarias a un conjunto de valores.

La analogía entre una instancia de `Series` y una de `dict` es inmediata. Puede crearse una instancia de `Series` a partir de un `dict` donde las keys del diccionario serán el índice de la instancia de Series.


In [None]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict)

print('instancia de diccionario: ')
print(population_dict)
print('---')
print('instancia de series: ')
print(population)

Miramos el valor de población en California con la misma sintaxis para `Series` y `dict`:

In [None]:
print(population['California'])
print(population_dict['California'])

A diferencia de un `dict` una instancia de `Series` soporta algunas operaciones del estilo de un numpy array como, por ejemplo, slicing. 

<div id="caja3" style="float:left;width: 100%;">
  <div style="float:left;width: 15%;"><img src="../../../common/icons/para_seguir_pensando.png" style="align:left"/> </div>
  <div style="float:left;width: 85%;"><label>
      <label>¿Recuerdan qué pasa con los límites en slicing en arrays?</label></div>
</div>


Veamos un ejemplo de slicing en una instancia de Series (notar que en este caso el endpoint es inclusivo):   

In [None]:
population['California':'Florida']

Si usamos el index implícito, el endpoint **no** se incluye en el slicing:

In [None]:
population[0:3]

Otro ejemplo:

In [None]:
states_list = ['Illinois','Texas','New York', 'Florida', 'California']
states_pop = [12882135, 26448193, 19651127, 19552860, 38332521]
states = pd.Series(states_pop, index= states_list)
states['Illinois':'New York']

---

<a id="section_constructor"></a> 
## Constructor
[volver a TOC](#section_toc)

#### Documentación 
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

Podemos construir instancias de `Series` a partir de:

1) una lista o un array de `Numpy`:

In [None]:
pd.Series([2, 4, 6]) 

2) un escalar repetido a lo largo de un índice:

In [None]:
pd.Series(5, index = [100, 200, 300]) 

3) un diccionario:

In [None]:
pd.Series({2:'a', 1:'b', 3:'c'}) 

Y en todos los casos podría usarse un índice explícitamente definido:

In [None]:
pd.Series([2, 4, 6], index=[3, 2, 2])

In [None]:
tmp = pd.Series({2:'a', 1:'b', 3:'c'},  index=[3, 2, 2, 1]) 

<div id="caja3" style="float:left;width: 100%;">
  <div style="float:left;width: 15%;"><img src="../../../common/icons/para_seguir_pensando.png" style="align:left"/> </div>
  <div style="float:left;width: 85%;"><label>
      <label>¿Cuántos elementos obtengo si indexo este objeto con el índice 2?</label></div>
</div>



In [None]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2, 2, 2, 2, 3, 1]) 

---

<a id="section_selection"></a> 
## Selección de datos en Series
[volver a TOC](#section_toc)

Vamos a ver ahora distintas formas de seleccionar elementos en instancias de `Series`

Comencemos creando el objeto `data`:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

### `Series` como diccionarios

Si pensamos a las instancias de `Series` como diccionarios, podemos usar expresiones similares a las usadas en dicts para examinar keys y valores:

In [None]:
'b' in data

**'b' in data** es equivalente a **'b' in data.keys()**:

In [None]:
'b' in data.keys()

In [None]:
data.keys()

**data.keys()** es equivalente a **data.index**:

In [None]:
data.index

In [None]:
data.keys() is data.index

In [None]:
data.keys() == data.index

In [None]:
list(data.items())

Como en un diccionario, podemos extender una instancia de Series definiendo una nueva key y asignarle un nuevo valor:

In [None]:
data['e'] = 1.25
data

### `Series` como array de una dimensión

Una instancia de `Series` provee una forma de seleccionar datos análoga a la de arrays. Podemos usar _slices_, _masking_ y _fancy indexing_.

#### Slicing explícito

Cuando hacemos slicing explícito (`data['a':'c']`) el índice final es incluido en el slice


In [None]:
data['a':'c']

#### Slicing implícito por posición (enteros)

Cuando hacemos slicing implícto (`data[0:2]`) el índice final **NO** es incluido en el slice

In [None]:
data[0:2]

#### Boolean masking:

In [None]:
data[(data > 0.3) & (data < 0.8)]

#### Fancy indexing:

In [None]:
data[['a', 'e']]

In [None]:
data[['a', 'e', 'e', 'b']]


<a id="section_reindexing"></a> 
##  Reindexing
[volver a TOC](#section_toc)

Este método permite crear una nueva instancia de `Series` con el índice y el método de "relleno" especificados como parámetros.

#### Documentación 
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.reindex.html

In [None]:
data2 = data.reindex(['d', 'b', 'a', 'c','d', 'b', 'a', 'c', 'e', 'e']) 
print(data)
print(data2)

`ffill` copia la última observación válida hasta que encuentra una nueva observación válida:

In [None]:
data3 = data.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g'], method='ffill') 
print(data)
print(data3)


<a id="section_loc_iloc"></a> 
##  Indexers: loc e iloc
[volver a TOC](#section_toc)

`loc` e `iloc` son propeties que nos permiten acceder a los elementos de una instancia de `Series` por ubicación o valor de index:


### loc

#### Documentación
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.loc.html

Accedemos a un grupo de elementos por etiqueta(s) o array de booleanos

In [None]:
data.loc['a']

In [None]:
data.loc['a':'c']

In [None]:
filtro = [True, False, False, True, False]
print(data)
print(data.loc[filtro])

<div id="caja4" style="float:left;width: 100%;">
  <div style="float:left;width: 15%;"><img src="../../../common/icons/para_seguir_pensando.png" style="align:left"/> </div>
  <div style="float:left;width: 85%;"><label>
      <label>¿Qué pasa si filtro tiene más elementos que la cantidad de filas de data?<br/>¿Qué pasa si filtro tiene menos elementos que la cantidad de filas de data?</label></div>
</div>


### iloc

#### Documentación
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.iloc.html

Accedemos a un grupo de elementos únicamente por posición (números enteros).


In [None]:
data.iloc[1]

In [None]:
data.iloc[0:3]

In [None]:
posiciones = [0, 2, 4]
data.iloc[posiciones]

---

#### Referencias

Python for Data Analysis. Wes McKinney. Cap 5

https://pandas.pydata.org/docs/getting_started/10min.html
