# Pandas I

<a id="section_toc"></a> 
## Tabla de Contenidos

[Intro](#section_intro)

[Series](#section_series)

$\hspace{.5cm}$[1. `Series` como generalización de un array de NumPy](#section_series_array_numpy)

$\hspace{.5cm}$[2. `Series` como un `dict` especializado](#section_series_dict)

[Constructor](#section_constructor)

[Selección de datos en Series](#section_selection)

[Reindexing](#section_reindexing)

[Indexers: loc e iloc](#section_loc_iloc)

---


## Series

<a id="section_intro"></a> 
###  Intro
[volver a TOC](#section_toc)


#### Documentación 
https://pandas.pydata.org/pandas-docs/stable/reference/series.html

Una Series es un objeto similar a un vector **unidimensional**. 

Contiene un **array de valores** (que en este caso son Perro, Oso, Jirafa, ...) y un **array de etiquetas** asociados a estos valores **denominado índice** (que en este caso son numéricos: 0, 1, 2, ...).

Cuando no especificamos un índice para los datos, se asigna por default un índice formado por valores enteros de 0 a N-1, donde N es la cantidad de valores en la serie.

Los valores de la serie pueden ser de cualquier tipo de datos, pero todos **los valores de una serie deben coincidir en su tipo**.

Las etiquetas, además de numéricas, también pueden ser de tipo cadena de caracteres.

Una Serie también puede pensarse como un **diccionario de tamaño fijo** con sus claves numéricas (Index) ordenadas.

Al igual que  los arrays de NumPy, permiten pasar una **lista de elementos (índices) para seleccionar un subconjunto** de valores.

![Image](img/serie.jpg)



In [1]:
import numpy as np
import pandas as pd

<a id="section_series"></a> 
## Objetos `Series` en Pandas
[volver a TOC](#section_toc)

* Puede pensarse como una array de una sola dimensión indexado. 
* Puede ser creado desde una lista:

In [2]:
lista = [0.25, 0.5, 0.75, 1.0]
data = pd.Series(lista)
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Los valores de la serie se obtienen con:

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [4]:
type(data.values)

numpy.ndarray

El índice de la serie se obtiene con:

In [50]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
data.index[2]

2

Podemos acceder a los valores de los elementos de una serie usando el índice asociado a esos elementos, de forma similar a los arrays de Numpy: con los `[]`

In [51]:
data[1]

0.5

In [52]:
data[1:3]

1    0.50
2    0.75
dtype: float64

---

# Puedo poner el indice que yo quiera?

<a id="section_series_array_numpy"></a> 
### `Series` como generalización de un array de NumPy 
[volver a TOC](#section_toc)


* La diferencia esencial con un array de Numpy es que el array tiene un índice entero *implícitamente definido*, mientras que un objeto `Series` de Pandas tiene un índice asociado a los valores *que está definido de forma explícita*.

* El índice explícito no tiene por qué ser de tipo entero y **sus valores pueden no ser únicos**, es decir tener repeticiones.


Creemos una instancia de `Series`:

In [7]:
valores =   [0.25, 0.5 , 0.75, 1.0]


etiquetas = ['a' , 'b' , 'c' , 'd']
etiquetas_num = [2, 5, 3, 1]

data1 = pd.Series(valores, index=etiquetas)
data2 = pd.Series(valores, index=etiquetas_num)

print(data1)


a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64


In [8]:
print(data2)


2    0.25
5    0.50
3    0.75
1    1.00
dtype: float64


Miremos el valor del segundo elemento usando su etiqueta:

In [54]:
print(data1['b'])
print(data2[5])

0.5
0.5


Y repitamos usando su posición:

In [55]:
print(data1[1])
print(data2[1])

0.5
1.0


Esperábamos que `print(data2[1])`devolviera `0.50` que es el segundo elementos de data2

<div id="caja2" style="float:left;width: 100%;">
  <div style="float:left;width: 15%;"></div>
  <div style="float:left;width: 85%;"><label>
      <label>¿Qué pasó? ¿Qué hicimos mal? ¿Cómo se resuelve este problema? </label></div>
</div>

### Pandas interpreto el indice literalemente, por default hace loc

Vamos a ver ahora las properties `loc` e `iloc`

`iloc` recibe como parámetro la posición y `loc` recibe como parámetro la etiqueta

Como ayuda memoria pensemos `iloc` como integer-location: indexamos con enteros que representan la posición.

Vamos a ver entonces qué obtenemos como segundo elemento con estas properties:

In [56]:
print(data1.iloc[1])
print(data2.iloc[1])

0.5
0.5


In [57]:
print(data1.loc['b'])
print(data2.loc[5])

0.5
0.5


---

<a id="section_series_dict"></a> 
### `Series` como un `dict` especializado
[volver a TOC](#section_toc)

Un `dict` es una estructura de datos que mapea un conjunto de keys arbitrarias a un conjunto de valores.

La analogía entre una instancia de `Series` y una de `dict` es inmediata. Puede crearse una instancia de `Series` a partir de un `dict` donde las keys del diccionario serán el índice de la instancia de Series.


In [58]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict)

print('instancia de diccionario: ')
print(population_dict)
print('---')
print('instancia de series: ')
print(population)

instancia de diccionario: 
{'California': 38332521, 'Texas': 26448193, 'New York': 19651127, 'Florida': 19552860, 'Illinois': 12882135}
---
instancia de series: 
California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64


Miramos el valor de población en California con la misma sintaxis para `Series` y `dict`:

In [59]:
print(population['California'])
print(population_dict['California'])

38332521
38332521


A diferencia de un `dict` una instancia de `Series` soporta algunas operaciones del estilo de un numpy array como, por ejemplo, slicing. 

<div id="caja3" style="float:left;width: 100%;">
  <div style="float:left;width: 15%;"><img src="../../../common/icons/para_seguir_pensando.png" style="align:left"/> </div>
  <div style="float:left;width: 85%;"><label>
      <label>¿Recuerdan qué pasa con los límites en slicing en arrays?</label></div>
</div>


Veamos un ejemplo de slicing en una instancia de Series (notar que en este caso el endpoint es inclusivo):   

In [60]:
population['California':'Florida']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64

Si usamos el index implícito, el endpoint **no** se incluye en el slicing:

In [61]:
population[0:3]

California    38332521
Texas         26448193
New York      19651127
dtype: int64

Otro ejemplo:

In [62]:
states_list = ['Illinois','Texas','New York', 'Florida', 'California']
states_pop = [12882135, 26448193, 19651127, 19552860, 38332521]
states = pd.Series(states_pop, index= states_list)
states['Illinois':'New York']

Illinois    12882135
Texas       26448193
New York    19651127
dtype: int64

---

<a id="section_constructor"></a> 
## Constructor
[volver a TOC](#section_toc)

#### Documentación 
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

Podemos construir instancias de `Series` a partir de:

1) una lista o un array de `Numpy`:

In [63]:
pd.Series([2, 4, 6]) 

0    2
1    4
2    6
dtype: int64

2) un escalar repetido a lo largo de un índice:

In [64]:
pd.Series(5, index = [100, 200, 300]) 

100    5
200    5
300    5
dtype: int64

3) un diccionario:

In [65]:
pd.Series({2:'a', 1:'b', 3:'c'}) 

2    a
1    b
3    c
dtype: object

Y en todos los casos podría usarse un índice explícitamente definido:

In [66]:
pd.Series([2, 4, 6], index=[3, 2, 2])

3    2
2    4
2    6
dtype: int64

<div id="caja3" style="float:left;width: 100%;">
  <div style="float:left;width: 15%;"><img src="../../../common/icons/para_seguir_pensando.png" style="align:left"/> </div>
  <div style="float:left;width: 85%;"><label>
      <label>¿Cuántos elementos obtengo si indexo este objeto con el índice 2?</label></div>
</div>



In [9]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2, 2, 2, 2, 3, 1]) 

3    c
2    a
2    a
2    a
2    a
3    c
1    b
dtype: object

---

<a id="section_selection"></a> 
## Selección de datos en Series
[volver a TOC](#section_toc)

Vamos a ver ahora distintas formas de seleccionar elementos en instancias de `Series`

Comencemos creando el objeto `data`:

In [10]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

### `Series` como diccionarios

Si pensamos a las instancias de `Series` como diccionarios, podemos usar expresiones similares a las usadas en dicts para examinar keys y valores:

In [11]:
'b' in data

True

In [20]:
0.5 in data

False

In [21]:
0.5 in data.values

True

**'b' in data** es equivalente a **'b' in data.keys()**:

In [12]:
'b' in data.keys()

True

In [13]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

**data.keys()** es equivalente a **data.index**:

In [14]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [15]:
data.keys() is data.index

True

In [76]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

Como en un diccionario, podemos extender una instancia de Series definiendo una nueva key y asignarle un nuevo valor:

In [77]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

### `Series` como array de una dimensión

Una instancia de `Series` provee una forma de seleccionar datos análoga a la de arrays. Podemos usar _slices_, _masking_ y _fancy indexing_.

#### Slicing explícito

Cuando hacemos slicing explícito (`data['a':'c']`) el índice final es incluido en el slice


In [78]:
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

#### Slicing implícito por posición (enteros)

Cuando hacemos slicing implícto (`data[0:2]`) el índice final **NO** es incluido en el slice

In [79]:
data[0:2]

a    0.25
b    0.50
dtype: float64

#### Boolean masking:

In [80]:
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

#### Fancy indexing:

In [81]:
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

In [82]:
data[['a', 'e', 'e', 'b']]

a    0.25
e    1.25
e    1.25
b    0.50
dtype: float64