# PRACTICA GUIADA 1: Objetos de Pandas

## Introducción

* Las filas y columnas están identificados con etiquetas, además de simples índices enteros
* Es importante entender un poco de las estructuras de Pandas
* Tres estructuras importantes:
    + `Series`
    + `DataFrame`
    + `Index`

In [1]:
import numpy as np
import pandas as pd

## Objetos `Series` en Pandas

* Puede pensarse como una array de una sola dimensión indexado. 
* Puede ser creado desde una lista:

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

* Una ``Series`` encapsula tanto una secuencia de valores como una de índices.
* Podemos acceder a ellos con los atributos `values` e `index`

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

* Podemos acceder a una `Series` a través del índice asociado de forma similar a los arrays de Numpy: con los `[]` 


In [5]:
data[1]

0.5

In [6]:
data[1:3]

1    0.50
2    0.75
dtype: float64

### ``Series`` como generalización de un array de  NumPy 

* La diferencia esencial con un array de Numpy es que mientras que el array tiene un índice entero *"implícitamente definido"*, una `Series` de Pandas tiene un índice asociado a los valores *que está definido de forma explícita*
* Este índice explícito le da a una `Series` capacidades adicionales.
* El índice explícito no tiene por qué ser un entero y tampoco todos sus valores tienen que ser necesariamente únicos.

* Pueden ser `strings` 

In [7]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

* Y podemos acceder simplemente:

In [8]:
data['b']

0.5

In [9]:
data[1]

0.5

* O puede ser una secuencia no contigua de `int`s

In [55]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 2, 1])
data

2    0.25
5    0.50
2    0.75
1    1.00
dtype: float64

In [56]:
data[2]

2    0.25
2    0.75
dtype: float64

### ``Series`` como un `dict` especializado

* Un `dict` es una estructura que mapea un set de keys arbitrarias a un set de valores.
* Puede hacerse, entonces, una analogía entre una `Series` y un `dict`

In [11]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

* Puede crearse una `Series` a partir de un `dict`: el índice se toma de las keys.
* Así, puede accederse de forma análoga a un `dict`.

In [12]:
population['California']

38332521

In [58]:
population[0]

38332521

* A diferencia de un `dict` una `Series` soporta algunas operaciones del estilo de un array, como por ejemplo, slicing. Notar que en este caso el endpoint es inclusivo:

In [13]:
population['California':'Florida']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64

* Si creamos una `Series` con una lista de strings se respeta el orden de las columnas, mientras que las claves de los `dicts` se ordenan alfabéticamente al crearse la `Series`

In [14]:
states_list = ['Illinois','Texas','New York', 'Florida', 'California']
states_pop = [12882135, 26448193, 19651127, 19552860, 38332521]
states = pd.Series(states_pop, index= states_list)

In [15]:
states['Illinois':'New York']

Illinois    12882135
Texas       26448193
New York    19651127
dtype: int64

### Construyendo objetos Series

* Podemos construir `Series` desde cero. La forma general de hacerlo es la siguiente:

```python
>>> pd.Series(data, index=index)
```
* `index` es un argumento opcional y `data` puede ser varias cosas

In [16]:
# Una lista o un array de Numpy

pd.Series([2, 4, 6]) 

0    2
1    4
2    6
dtype: int64

In [17]:
# Un escalar repetido a lo largo de un índice

pd.Series(5, index = [100, 200, 300]) 

100    5
200    5
300    5
dtype: int64

In [18]:
# Un diccionario

pd.Series({2:'a', 1:'b', 3:'c'}) 

2    a
1    b
3    c
dtype: object

In [19]:
# En cada caso, podría usarse el índice explícitamente si lo que se busca es otro resultado

pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2, 2, 2, 2, 3, 1]) 

3    c
2    a
2    a
2    a
2    a
3    c
1    b
dtype: object

## Objeto `DataFrame`

* Otra estructura fundamental. 
* También puede ser pensada como una generalización de un array de NumPy o como un tipo especial de diccionario.

### `DataFrame` como un array de Numpy

* Un `DataFrame` es un tipo análogo a una `Series` en dos dimensiones y, por lo tanto, puede ser una pensado tanto como una generalización de un array de Numpy o como un conjunto de `Series` alineados. Es decir, que tienen el mismo índice.

* Para demostrar esto generemos una `Serie` con el área de algunos estados:

In [36]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area


California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [37]:
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

* Ahora, podemos usar un diccionario para construir un objeto bidimensional conteniendo toda la información.

In [21]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


Al igual que las ``Series``, un ``DataFrame`` posee un atributo ``index``:

In [22]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

Además, tiene un atributo ``columns``, que es un objeto ``Index`` conteniendo las etiquetas de columnas:

In [23]:
states.columns

Index(['population', 'area'], dtype='object')

### DataFrame como un diccionario especializado

* De forma similar, podemos pensar al `DataFrame` como un diccionario: 
    
    - Un diccionario mapea una key con un valor
    - Un `DataFrame` mapea un nombre de columna con una `Series` de datos.
    
    
* Por ejemplo, pedir el atributo `area` del `DataFrame` `states` devuelve una `Series`. 

In [24]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

### Construyendo objetos `DataFrame`

#### Desde una `Series` simple:

In [25]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [38]:
pd.DataFrame(population, columns=['area'])

Unnamed: 0,area
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


#### Desde una lista de dicts

In [26]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [39]:
data

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]

In [61]:
data.dtype

dtype('float64')

* Notar que incluso si alguna key está perdida en el diccionario, Pandas llena con `NaN` el valor:

In [27]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


#### De un dict de `Series`

In [28]:
pd.DataFrame({'population': population,
              'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


#### Desde un array Numpy de dos dimensiones

In [29]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.245335,0.514527
b,0.330777,0.352273
c,0.467039,0.726194


## El objeto `Index`

* Un `Index` puede ser pensado como un _array inmutable_  o como un set ordenado
* Para ilustrar las implicancias de este punto pensemos en el siguiente ejemplo en el que construimos un `Index` desde una lista de enteros.
* Los `DataFrames` tienen un `Index` que describe a las filas y otro que describe a las columnas. 
* Al  `Index` de filas se accede con `df.index` y al de columna `df.columns`.

In [30]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

### `Index` como una array inmutable

* Podemos indexar y hacer slicing de forma similar a un array

In [31]:
ind[1]

3

In [32]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

Los `Index` tienen atributos similares a los arrays de Numpy

In [33]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


In [50]:
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

Una diferencia entre los ``Index`` y los arrays de NumPy es que los primeros son *inmutables*:

In [34]:
ind[1] = 0

TypeError: Index does not support mutable operations

### `Index` como un set ordenado

* Se pueden utilizar operaciones de conjuntos con los ``Index`` siguiendo las convenciones de Python

In [40]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [41]:
indA & indB  # intersection

Int64Index([3, 5, 7], dtype='int64')

In [42]:
indA | indB  # union

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [43]:
indA ^ indB  # symmetric difference

Int64Index([1, 2, 9, 11], dtype='int64')

In [44]:
indA.difference(indB) # indA - indB
# set(indA)-set(indB)

Int64Index([1, 9], dtype='int64')

In [62]:
indB.difference(indB) # indA - indB
# set(indA)-set(indB)

Int64Index([], dtype='int64')

In [63]:
indB.difference(indA) # indA - indB
# set(indA)-set(indB)

Int64Index([2, 11], dtype='int64')

#### Pequeño paréntesis sobre conjuntos en Python:

In [45]:
setA = set([1, 3, 5, 7, 9])
setB = set([2, 3, 5, 7, 11])

In [46]:
setA - setB

{1, 9}

In [47]:
setA | setB

{1, 2, 3, 5, 7, 9, 11}

In [48]:
setA & setB

{3, 5, 7}

In [49]:
setA ^ setB

{1, 2, 9, 11}