# PRACTICA GUIADA 1: Objetos de Pandas

## Introducción

* Las filas y columnas están identificados con etiquetas, además de simples índices enteros
* Es importante entender un poco de las estructuras de Pandas
* Tres estructuras importantes:
    + `Series`
    + `DataFrame`
    + `Index`

In [None]:
import numpy as np
import pandas as pd

## Objetos `Series` en Pandas

* Puede pensarse como una array de una sola dimensión indexado. 
* Puede ser creado desde una lista:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

* Una ``Series`` encapsula tanto una secuencia de valores como una de índices.
* Podemos acceder a ellos con los atributos `values` e `index`

In [None]:
data

In [None]:
data.values

* Un `index` es un objeto similar a un array.

In [None]:
data.index

* Podemos acceder a una `Series` a través del índice asociado de forma similar a los arrays de Numpy: con los `[]` 


In [None]:
data[1]

In [None]:
data[1:2]

### ``Series`` como generalización de un array de  NumPy 

* La diferencia esencial con un array de Numpy es que mientras que el array tiene un índice entero *"implícitamente definido"*, una `Series` de Pandas tiene un índice asociado a los valores *que está definido de forma explícita*
* Este índice explícito le da a una `Series` capacidades adicionales.
* El índice explícito no tiene por qué ser un entero y tampoco todos sus valores tienen que ser necesariamente únicos.

* Pueden ser `strings` 

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

* Y podemos acceder simplemente:

In [None]:
data['a':'c']

* O puede ser una secuencia no contigua de `int`s

In [None]:
data.value_counts(dropna=False)

In [None]:
data = pd.Series([0.25,0.25, 0.5, 0.75, 1.0,None]
                 )
data

In [None]:
data[5]

### ``Series`` como un `dict` especializado

* Un `dict` es una estructura que mapea un set de keys arbitrarias a un set de valores de un tipo.
* Puede hacerse, entonces, una analogía entre una `Series` y un `dict`

In [None]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict)
population

* Puede crearse una `Series` a partir de un `dict`: el índice se toma de las keys.
* Así, puede accederse de forma análoga a un `dict`.

In [None]:
population['California']

* A diferencia de un `dict` una `Series` soporta algunas operaciones del estilo de un array, como por ejemplo, slicing:

In [None]:
population['California':'New York']

* Si creamos una `Series` con una lista de strings se respeta el orden de las columnas, mientras que las claves de los `dicts` se ordenan alfabéticamente al crearse la `Series`

In [None]:
states_list = ['Illinois','Texas','New York', 'Florida', 'California']
states_pop = [12882135, 26448193, 19651127, 19552860, 38332521]
states = pd.Series(states_pop, index= states_list)

In [None]:
states['Illinois':'New York']

### Construyendo objetos Series

* Podemos construir `Series` desde cero. La forma general de hacerlo es la siguiente:

```python
>>> pd.Series(data, index=index)
```
* `index` es un argumento opcional y `data` puede ser varias cosas

In [None]:
# Una lista o un array de Numpy

pd.Series([2, 4, 6]) 

In [None]:
# Un escalar repetido a lo largo de un índice

pd.Series(5, index = [100, 200, 300]) 

In [None]:
# Un diccionario

pd.Series({2:'a', 1:'b', 3:'c'}) 

In [None]:
# En cada caso, podría usarse el índice explícitamente si lo que se busca es otro resultado

pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2]) 

## Objeto `DataFrame`

* Otra estructura fundamental. 
* También puede ser pensada como una generalización de un array de NumPy o como un tipo especial de diccionario.

### `DataFrame` como un array de Numpy

* Un `DataFrame` es un tipo análogo a una `Series` en dos dimensiones y, por lo tanto, puede ser una pensado tanto como una generalización de un array de Numpy o como un conjunto de `Series` alineados. Es decir, que tienen el mismo índice.

* Para demostrar esto generemos una `Serie` con el área de algunos estados:

In [None]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995, 'Pensilvania': 3122311}
area = pd.Series(area_dict)
area

* Ahora, podemos usar un diccionario para construir un objeto bidimensional conteniendo toda la información.

In [None]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

In [None]:
states['population']

Al igual que las ``Series``, un ``DataFrame`` posee un atributo ``index``:

In [None]:
states.index

Además, tiene un atributo ``columns``, que es un objeto ``Index`` conteniendo las etiquetas de columnas:

In [None]:
list(states.columns)

### DataFrame como un diccionario especializado

* De forma similar, podemos pensar al `DataFrame` como un diccionario: 
    
    - Un diccionario mapea una key con un valor
    - Un `DataFrame` mapea un nombre de columna con una `Series` de datos.
    
    
* Por ejemplo, pedir el atributo `area` del `DataFrame` `states` devuelve una `Series`. 

In [None]:
states['area']

### Construyendo objetos `DataFrame`

#### Desde una `Series` simple:

In [None]:
pd.DataFrame(population, columns=['population'])

#### Desde una lista de dicts

In [None]:
data = [{'a': i, 'b': 2 * i} for i in range(3)]
pd.DataFrame(data)

In [None]:
data

* Notar que incluso si alguna key está perdida en el diccionario, Pandas llena con `NaN` el valor:

In [None]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

#### De un dict de `Series`

In [None]:
pd.DataFrame({'population': population,
              'area': area})

#### Desde un array Numpy de dos dimensiones

In [None]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

## El objeto `Index`

* Un `Index` puede ser pensado como un _array inmutable_  o como un set ordenado
* Para ilustrar las implicancias de este punto pensemos en el siguiente ejemplo en el que construimos un `Index` desde una lista de enteros.
* Los `DataFrames` tienen un `Index` que describe a las filas y otro que describe a las columnas. 
* Al  `Index` de filas se accede con `df.index` y al de columna `df.columns`.

In [None]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

### `Index` como una array inmutable

* Podemos indexar y hacer slicing de forma similar a un array

In [None]:
ind[1]

In [None]:
ind[::2]

Los `Index` tienen atributos similares a los arrays de Numpy

In [None]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

Una diferencia entre los ``Index`` y los arrays de NumPy es que los primeros son *inmutables*:

In [None]:
ind[1] = 0

### `Index` como un set ordenado

* Se pueden utilizar operaciones de conjuntos con los ``Index`` siguiendo las convenciones de Python

In [None]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [None]:
indA & indB  # intersection

In [None]:
indA | indB  # union

In [None]:
indA ^ indB  # symmetric difference