# Pandas I

## Series

#### Documentación 
https://pandas.pydata.org/pandas-docs/stable/reference/series.html

Una Series es un objeto similar a un vector **unidimensional**. 

Contiene un **array de valores** (que en este caso son Perro, Oso, Jirafa, ...) y un **array de etiquetas** asociados a estos valores **denominado índice** (que en este caso son numéricos: 0, 1, 2, ...).

Cuando no especificamos un índice para los datos, se asigna por default un índice formado por valores enteros de 0 a N-1, donde N es la cantidad de valores en la serie.

Los valores de la serie pueden ser de cualquier tipo de datos, pero todos **los valores de una serie deben coincidir en su tipo**.

Las etiquetas, además de numéricas, también pueden ser de tipo cadena de caracteres.

Una Serie también puede pensarse como un **diccionario de tamaño fijo** con sus claves numéricas (Index) ordenadas.

Al igual que  los arrays de NumPy, permiten pasar una **lista de elementos (índices) para seleccionar un subconjunto** de valores.

![Image](img/serie.jpg)


In [2]:
import numpy as np
import pandas as pd

<a id="section_series"></a> 
## Objetos `Series` en Pandas

* Puede pensarse como una array de una sola dimensión indexado. 
* Puede ser creado desde una lista:

In [3]:
lista = [0.25, 0.5, 0.75, 1.0]
data = pd.Series(lista)
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Los valores de la serie se obtienen con:

In [4]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

El índice de la serie se obtiene con:

In [5]:
data.index

RangeIndex(start=0, stop=4, step=1)

Podemos acceder a los valores de los elementos de una serie usando el índice asociado a esos elementos, de forma similar a los arrays de Numpy: con los `[]`

In [6]:
data[1]

0.5

In [7]:
data[1:3]

1    0.50
2    0.75
dtype: float64

---

<a id="section_series_array_numpy"></a> 
### `Series` como generalización de un array de NumPy

* La diferencia esencial con un array de Numpy es que el array tiene un índice entero *implícitamente definido*, mientras que un objeto `Series` de Pandas tiene un índice asociado a los valores *que está definido de forma explícita*.

* El índice explícito no tiene por qué ser de tipo entero y **sus valores pueden no ser únicos**, es decir tener repeticiones.


Creemos una instancia de `Series`:

In [8]:
valores =   [0.25, 0.5 , 0.75, 1.0]
etiquetas = ['a' , 'b' , 'c' , 'd']
etiquetas_num = [2, 5, 3, 1]
data1 = pd.Series(valores, index=etiquetas)
data2 = pd.Series(valores, index=etiquetas_num)
print(data1)
print(data2)

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64
2    0.25
5    0.50
3    0.75
1    1.00
dtype: float64


Miremos el valor del segundo elemento usando su etiqueta:

In [9]:
print(data1['b'])
print(data2[5])

0.5
0.5


Y repitamos usando su posición:

In [10]:
print(data1[1])
print(data2[1])

0.5
1.0


Esperábamos que `print(data2[1])`devolviera `0.50` que es el segundo elementos de data2

<div id="caja2" style="float:left;width: 100%;">
  <div style="float:left;width: 15%;"><img src="../../../common/icons/para_seguir_pensando.png" style="align:left"/> </div>
  <div style="float:left;width: 85%;"><label>
      <label>¿Qué pasó? ¿Qué hicimos mal? ¿Cómo se resuelve este problema? </label></div>
</div>



Vamos a ver ahora las properties `loc` e `iloc`

`iloc` recibe como parámetro la posición y `loc` recibe como parámetro la etiqueta

Como ayuda memoria pensemos `iloc` como integer-location: indexamos con enteros que representan la posición.

Vamos a ver entonces qué obtenemos como segundo elemento con estas properties:

In [11]:
print(data1.iloc[1])
print(data2.iloc[1])

0.5
0.5


In [12]:
print(data1.loc['b'])
print(data2.loc[5])

0.5
0.5


---

<a id="section_series_dict"></a> 
### `Series` como un `dict` especializado

Un `dict` es una estructura de datos que mapea un conjunto de keys arbitrarias a un conjunto de valores.

La analogía entre una instancia de `Series` y una de `dict` es inmediata. Puede crearse una instancia de `Series` a partir de un `dict` donde las keys del diccionario serán el índice de la instancia de Series.


In [13]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict)

print('instancia de diccionario: ')
print(population_dict)
print('---')
print('instancia de series: ')
print(population)

instancia de diccionario: 
{'California': 38332521, 'Texas': 26448193, 'New York': 19651127, 'Florida': 19552860, 'Illinois': 12882135}
---
instancia de series: 
California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64


Miramos el valor de población en California con la misma sintaxis para `Series` y `dict`:

In [14]:
print(population['California'])
print(population_dict['California'])

38332521
38332521


A diferencia de un `dict` una instancia de `Series` soporta algunas operaciones del estilo de un numpy array como, por ejemplo, slicing. 

<div id="caja3" style="float:left;width: 100%;">
  <div style="float:left;width: 15%;"><img src="../../../common/icons/para_seguir_pensando.png" style="align:left"/> </div>
  <div style="float:left;width: 85%;"><label>
      <label>¿Recuerdan qué pasa con los límites en slicing en arrays?</label></div>
</div>


Veamos un ejemplo de slicing en una instancia de Series (notar que en este caso el endpoint es inclusivo):   

In [15]:
population['California':'Florida']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64

Si usamos el index implícito, el endpoint **no** se incluye en el slicing:

In [16]:
population[0:3]

California    38332521
Texas         26448193
New York      19651127
dtype: int64

Otro ejemplo:

In [17]:
states_list = ['Illinois','Texas','New York', 'Florida', 'California']
states_pop = [12882135, 26448193, 19651127, 19552860, 38332521]
states = pd.Series(states_pop, index= states_list)
states['Illinois':'New York']

Illinois    12882135
Texas       26448193
New York    19651127
dtype: int64

---

<a id="section_constructor"></a> 
## Constructor

#### Documentación 
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

Podemos construir instancias de `Series` a partir de:

1) una lista o un array de `Numpy`:

In [18]:
pd.Series([2, 4, 6]) 

0    2
1    4
2    6
dtype: int64

2) un escalar repetido a lo largo de un índice:

In [19]:
pd.Series(5, index = [100, 200, 300]) 

100    5
200    5
300    5
dtype: int64

3) un diccionario:

In [20]:
pd.Series({2:'a', 1:'b', 3:'c'}) 

2    a
1    b
3    c
dtype: object

Y en todos los casos podría usarse un índice explícitamente definido:

In [21]:
pd.Series([2, 4, 6], index=[3, 2, 2])

3    2
2    4
2    6
dtype: int64

In [22]:
tmp = pd.Series({2:'a', 1:'b', 3:'c'},  index=[3, 2, 2, 1]) 

<div id="caja3" style="float:left;width: 100%;">
  <div style="float:left;width: 15%;"><img src="../../../common/icons/para_seguir_pensando.png" style="align:left"/> </div>
  <div style="float:left;width: 85%;"><label>
      <label>¿Cuántos elementos obtengo si indexo este objeto con el índice 2?</label></div>
</div>



In [23]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2, 2, 2, 2, 3, 1]) 

3    c
2    a
2    a
2    a
2    a
3    c
1    b
dtype: object

---

<a id="section_selection"></a> 
## Selección de datos en Series
[volver a TOC](#section_toc)

Vamos a ver ahora distintas formas de seleccionar elementos en instancias de `Series`

Comencemos creando el objeto `data`:

In [24]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

### `Series` como diccionarios

Si pensamos a las instancias de `Series` como diccionarios, podemos usar expresiones similares a las usadas en dicts para examinar keys y valores:

In [25]:
'b' in data

True

**'b' in data** es equivalente a **'b' in data.keys()**:

In [26]:
'b' in data.keys()

True

In [27]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

**data.keys()** es equivalente a **data.index**:

In [28]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [29]:
data.keys() is data.index

True

In [30]:
data.keys() == data.index

array([ True,  True,  True,  True])

In [31]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

Como en un diccionario, podemos extender una instancia de Series definiendo una nueva key y asignarle un nuevo valor:

In [32]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

### `Series` como array de una dimensión

Una instancia de `Series` provee una forma de seleccionar datos análoga a la de arrays. Podemos usar _slices_, _masking_ y _fancy indexing_.

#### Slicing explícito

Cuando hacemos slicing explícito (`data['a':'c']`) el índice final es incluido en el slice


In [33]:
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

#### Slicing implícito por posición (enteros)

Cuando hacemos slicing implícto (`data[0:2]`) el índice final **NO** es incluido en el slice

In [34]:
data[0:2]

a    0.25
b    0.50
dtype: float64

#### Boolean masking:

In [35]:
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

#### Fancy indexing:

In [36]:
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

In [37]:
data[['a', 'e', 'e', 'b']]

a    0.25
e    1.25
e    1.25
b    0.50
dtype: float64


<a id="section_reindexing"></a> 
##  Reindexing
[volver a TOC](#section_toc)

Este método permite crear una nueva instancia de `Series` con el índice y el método de "relleno" especificados como parámetros.

#### Documentación 
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.reindex.html

In [38]:
data2 = data.reindex(['d', 'b', 'a', 'c','d', 'b', 'a', 'c', 'e', 'e']) 
print(data)
print(data2)

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64
d    1.00
b    0.50
a    0.25
c    0.75
d    1.00
b    0.50
a    0.25
c    0.75
e    1.25
e    1.25
dtype: float64


`ffill` copia la última observación válida hasta que encuentra una nueva observación válida:

In [39]:
data3 = data.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g'], method='ffill') 
print(data)
print(data3)

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64
a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
f    1.25
g    1.25
dtype: float64



<a id="section_loc_iloc"></a> 
##  Indexers: loc e iloc
[volver a TOC](#section_toc)

`loc` e `iloc` son propeties que nos permiten acceder a los elementos de una instancia de `Series` por ubicación o valor de index:


### loc

#### Documentación
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.loc.html

Accedemos a un grupo de elementos por etiqueta(s) o array de booleanos

In [40]:
data.loc['a']

0.25

In [41]:
data.loc['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [42]:
filtro = [True, False, False, True, False]
print(data)
print(data.loc[filtro])

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64
a    0.25
d    1.00
dtype: float64


<div id="caja4" style="float:left;width: 100%;">
  <div style="float:left;width: 15%;"><img src="../../../common/icons/para_seguir_pensando.png" style="align:left"/> </div>
  <div style="float:left;width: 85%;"><label>
      <label>¿Qué pasa si filtro tiene más elementos que la cantidad de filas de data?<br/>¿Qué pasa si filtro tiene menos elementos que la cantidad de filas de data?</label></div>
</div>


### iloc

#### Documentación
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.iloc.html

Accedemos a un grupo de elementos únicamente por posición (números enteros).


In [43]:
data.iloc[1]

0.5

In [44]:
data.iloc[0:3]

a    0.25
b    0.50
c    0.75
dtype: float64

In [45]:
posiciones = [0, 2, 4]
data.iloc[posiciones]

a    0.25
c    0.75
e    1.25
dtype: float64

---

#### Referencias

Python for Data Analysis. Wes McKinney. Cap 5

https://pandas.pydata.org/docs/getting_started/10min.html
