In [None]:
try:
    # settings colab:
    import google.colab
except ModuleNotFoundError:    
    # settings local:
    %run "../../../common/0_notebooks_base_setup.py"    

---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


# Pandas I

<a id="section_toc"></a> 
## Tabla de Contenidos

[Intro](#section_intro)

[Constructor](#section_constructor)

$\hspace{.5cm}$[1. Desde una instancia de `Series`](#section_constructor_from_series)

$\hspace{.5cm}$[2. Desde una lista de `dicts`](#section_constructor_from_dicts)

$\hspace{.5cm}$[2. Desde un array `Numpy` de dos dimensiones](#section_constructor_from_2darray)

[Selección de datos en `DataFrame`](#section_selection)

$\hspace{.5cm}$[1. Primeros n elementos, últimos n elementos](#section_selection_head_tail)

$\hspace{.5cm}$[2. Muestra aleatoria de n elementos](#section_selection_sample)

$\hspace{.5cm}$[3. Columnas](#section_selection_col)

$\hspace{.5cm}$[4. Indexación](#section_selection_index)

[Moficación de valores](#section_modify)

---


## DataFrame

<a id="section_intro"></a> 
###  Intro
[volver a TOC](#section_toc)

#### Documentación 
https://pandas.pydata.org/pandas-docs/stable/reference/frame.html

Representa una estructura de datos **tabular** que contiene una colección de columnas, cada una de las cuales tiene un tipo de datos determinado (number, string, boolean, etc.).

Podemos pensar un objeto `DataFrame` como un diccionario de `Series` "alineadas" (que comparten el mismo índice).

Una instancia de DataFrame tiene **índices de columnas y de filas**.  

![Image](img/dataframe.jpg)


### `DataFrame` como un diccionario de `Series` "alineadas"

Un `DataFrame` es un tipo de datos análogo a `Series` en dos dimensiones. 

Como ejemplo, generemos un DataFrame con datos de área y población para distintos estados combinando dos series.

1) Generemos un objeto `Series` con el área de algunos estados a partir de un diccionario:

In [None]:
import pandas as pd
import numpy as np

In [None]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

2) Generemos un objeto `Series` con la población de algunos estados a partir de listas:

In [None]:
states_list = ['Illinois','Texas','New York', 'Florida', 'California']
states_pop = [12882135, 26448193, 19651127, 19552860, 38332521]
population = pd.Series(states_pop, index= states_list)
population

Generamos un objeto `DataFrame` a partir de los dos objetos `Series` generados en los puntos anteriores:

In [None]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Al igual que Series, un DataFrame posee un atributo index:

In [None]:
states.index

Además, tiene un atributo columns, que es un objeto de tipo Index conteniendo las etiquetas de columnas:

In [None]:
states.columns

Pueden observar que tanto los nombres de filas como los nombres de columnas son objetos del tipo `Index`.

### DataFrame como un diccionario especializado

De forma similar, podemos pensar auna instancia de `DataFrame` como un diccionario: 
    
* Un diccionario mapea una key con un valor
* Un `DataFrame` mapea un nombre de columna con una `Series` de datos.
    
Por ejemplo, pedir el atributo `area` del `DataFrame` `states` devuelve una instancia de `Series`. 


In [None]:
states['area']

In [None]:
states.area

In [None]:
print(type(states['area']))
print(type(states.area))

In [None]:
states['area'] is states.area

In [None]:
states['area'] == states.area

<div id="caja1" style="float:left;width: 100%;">
  <div style="float:left;width: 15%;"><img src="../../../common/icons/para_seguir_pensando.png" style="align:left"/> </div>
  <div style="float:left;width: 85%;"><label>
      <label>¿Qué diferencia hay entre == y is ?</label></div>
</div>


<a id="section_constructor"></a> 
## Constructor

#### Documentación
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html


<a id="section_constructor_from_series"></a> 
### Desde una instancia de `Series`:
[volver a TOC](#section_toc)

In [None]:
pd.DataFrame(population, columns=['population'])

<a id="section_constructor_from_dicts"></a> 
### Desde una lista de `dicts`
[volver a TOC](#section_toc)

In [None]:
dict_0 = {'a': 0, 'b': 0}
dict_1 = {'a': 1, 'b': 2}
dict_2 = {'a': 2, 'b': 4}

data = [dict_0, dict_1, dict_2]

pd.DataFrame(data)

Otra forma de construir lo mismo, usando listas por comprensión:

In [None]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]

print(data)

pd.DataFrame(data)

Incluso si alguna key no tiene un valor asociado en el diccionario, Pandas completa con NaN el valor:

In [None]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

<a id="section_constructor_from_2darray"></a> 
### Desde un array `Numpy` de dos dimensiones:
[volver a TOC](#section_toc)


In [None]:
array_2d = np.random.rand(3, 2)
# veamos qué hay en la variable array_2d:
print(array_2d)

columns_names = ['foo', 'bar']
rows_names = ['a', 'b', 'c']

pd.DataFrame(array_2d, columns=columns_names, index=rows_names)


<a id="section_selection"></a> 
## Selección de datos en `DataFrame`
[volver a TOC](#section_toc)

Vamos a ver ahora distintas formas de seleccionar elementos en instancias de `DataFrame`

Comencemos creando el objeto `data`:

In [None]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

<a id="section_selection_head_tail"></a> 
### Primeros n elementos, últimos n elementos
[volver a TOC](#section_toc)

Puede accederse a los primeros n elementos del DataFrame con el método df.head(n). Del mismo modo, puede aplicarse el método df.tail(n) para acceder a los últimos elementos del DataFrame:

In [None]:
data.head(2)

In [None]:
data.tail(3)

<a id="section_selection_sample"></a> 
### Muestra aleatoria de n elementos
[volver a TOC](#section_toc)

Con el método df.sample(n) obtenemos una muestra aleatória de n elementos:

In [None]:
data.sample(2)

<a id="section_selection_col"></a> 
### Columnas
[volver a TOC](#section_toc)
    
Podemos acceder a las Series individuales que forman las columnas del DataFrame de forma análoga a un diccionario de varias formas:

* Vía el nombre de la columna:

In [None]:
data['area']

* Como atributo:

In [None]:
data.area

Ambas formas son equivalentes:

In [None]:
data['area'] is data.area

`values` devuelve los valores de todos los elementos que conforman el objeto `DataFrame` como un objeto `numpy.ndarray`:

In [None]:
data.values

<a id="section_selection_index"></a> 
### Indexación
[volver a TOC](#section_toc)
    
Vamos a indexar un objeto `DataFrame` con dos índices, uno para las filas y el otro para las columnas.
    
Las formas de indexar que vimos en arrays y es series sirven también para dataframes.

Recordemos cuáles son:
    

####  loc iloc

In [None]:
data.iloc[:3, :2]

In [None]:
data.loc[:'Illinois', :'pop']

####  Boolean masking

In [None]:
data.loc[data.area > 423000, :]

####  Fancy indexing

In [None]:
data.loc[:, ['pop', 'area']]

####  Combinando boolean masking y fancy indexing

In [None]:
data.loc[data.area > 423000, ['pop', 'area']]

#### Algunas convenciones adicionales para indexar

Hasta ahora vimos cómo indexar un objeto `DataFrame` con un índice sobre filas y otro sobre columnas. 

Podemos tambien indexarlos usando sólo un índice que se interpreta según el detalle que vemos a continuación.


En general, "fancy indexing" refiere a columnas, mientras que "slicing" refiere a filas:

In [None]:
data[['area', 'area']]

In [None]:
data['Florida':'Illinois']

Slicing puede referir filas por posición, en lugar de índices:

In [None]:
data[1:3]

Boolean masking se interpretada por defecto sobre filas:

In [None]:
data[data.area > 423000]

<a id="section_modify"></a> 
### Moficación de valores
[volver a TOC](#section_toc)

Podemos crear una nueva columna en un objeto DataFrame como el resultado de una operación sobre otros elementos del objeto:

In [None]:
data['density'] = data['pop'] / data['area']
data

Cualquiera de las formas de indexar que vimos puede ser usada para asignar o modificar valores:

In [None]:
data.iloc[0, 2] = 90
data

---

#### Referencias

Python for Data Analysis. Wes McKinney. Cap 5

https://pandas.pydata.org/docs/getting_started/10min.html
