In [None]:
# Configuracion para recargar módulos y librerías 
%reload_ext autoreload
%autoreload 2

# MAT281

## Aplicaciones de la Matemática en la Ingeniería

Puedes ejecutar este jupyter notebook de manera interactiva:

[![Binder](../shared/images/jupyter_binder.png)](https://mybinder.org/v2/gh/sebastiandres/mat281_m01_introduccion/master?filepath=00_template/00_template.ipynb)

[![Colab](../shared/images/jupyter_colab.png)](https://colab.research.google.com/github/sebastiandres/mat281_m01_introduccion/blob/master//00_template/00_template.ipynb)

## ¿Qué contenido aprenderemos?
* Manipulación de datos con ```pandas```.
    - Crear objetos (Series, DataFrames, Index).
    - Análisis exploratorio.
    - Realizar operaciones y filtros.
    - Aplicar funciones y métodos.

## Motivación

En los últimos años, el interés por los datos ha crecido sostenidamente, algunos términos de moda tales como *data science*, *machine learning*, *big data*, *artifial intelligence*, *deep learning*, etc. son prueba fehaciente de ello. Por dar un ejemplo, las búsquedas la siguiente imagen muestra el interés de búsqueda en Google por *__Data Science__* en los últimos cinco años. 

[Fuente](https://trends.google.com/trends/explore?date=today%205-y&q=data%20science)

![alt text](images/dataScienceTrend.png "Logo Title Text 1")


Muchos se ha dicho respecto a esto, declaraciones tales como: 

* _"The world’s most valuable resource is no longer oil, but data."_
* _"AI is the new electricity."_
* _"Data Scientist: The Sexiest Job of the 21st Century."_

<script type="text/javascript" src="https://ssl.gstatic.com/trends_nrtr/1544_RC05/embed_loader.js"></script> <script type="text/javascript"> trends.embed.renderExploreWidget("TIMESERIES", {"comparisonItem":[{"keyword":"data science","geo":"","time":"today 5-y"}],"category":0,"property":""}, {"exploreQuery":"date=today%205-y&q=data%20science","guestPath":"https://trends.google.com:443/trends/embed/"}); </script> 

Los datos por si solos no son útiles, su verdadero valor está en el análisis y en todo lo que esto conlleva, por ejemplo:

* Predicciones
* Clasificaciones
* Optimización
* Visualización
* Aprendizaje

Por esto es importante recordar al tío Ben: _"Un gran poder conlleva una gran responsabilidad"_.

## Numpy

Desde la propia página web:

NumPy is the fundamental package for scientific computing with Python. It contains among other things:

* a powerful N-dimensional array object
* sophisticated (broadcasting) functions
* tools for integrating C/C++ and Fortran code
* useful linear algebra, Fourier transform, and random number capabilities

Besides its obvious scientific uses, NumPy can also be used as an efficient multi-dimensional container of generic data. Arbitrary data-types can be defined. This allows NumPy to seamlessly and speedily integrate with a wide variety of databases.


**Idea**: Realizar cálculos numéricos eficientemente.

## Pandas


Desde el repositorio de GitHub:

pandas is a Python package providing fast, flexible, and expressive data structures designed to make working with "relational" or "labeled" data both easy and intuitive. It aims to be the fundamental high-level building block for doing practical, real world data analysis in Python. Additionally, it has the broader goal of becoming the most powerful and flexible open source data analysis / manipulation tool available in any language. It is already well on its way toward this goal.

Actualmente cuenta con más de 1200 contribuidores y casi 18000 commits!

In [None]:
import pandas as pd

In [None]:
pd.__version__

## Series

Arreglos unidimensionales con etiquetas. Se puede pensar como una generalización de los diccionarios de Python.

In [None]:
pd.Series?

Para crear una instancia de una serie existen muchas opciones, las más comunes son:

* A partir de una lista.
* A partir de un _numpy.array_.
* A partir de un diccionario.
* A partir de un archivo (por ejemplo un csv).

In [None]:
my_serie = pd.Series(range(3, 33, 3))
my_serie

In [None]:
type(my_serie)

In [None]:
# Presiona TAB y sorpréndete con la cantidad de métodos!
# my_serie.

Las series son arreglos unidemensionales que constan de _data_ e _index_.

In [None]:
my_serie.values

In [None]:
type(my_serie.values)

In [None]:
my_serie.index

In [None]:
type(my_serie.index)

A diferencia de numpy, pandas ofrece más flexibilidad para los valores e índices.

In [None]:
my_serie_2 = pd.Series(range(3, 33, 3), index=list('abcdefghij'))
my_serie_2

Acceder a los valores de una serie es muy fácil!

In [None]:
my_serie_2['b']

In [None]:
my_serie_2.loc['b']

In [None]:
my_serie_2.iloc[1]

```loc```?? ```iloc```??

In [None]:
# pd.Series.loc?

A modo de resumen:

* ```loc``` es un método que hace referencia a las etiquetas (*labels*) del objeto .
* ```iloc``` es un método que hace referencia posicional del objeto.

**Consejo**: Si quieres editar valores siempre utiliza ```loc``` y/o ```iloc```.

In [None]:
my_serie_2.loc['d'] = 1000

In [None]:
my_serie_2

### Trabajar con fechas

Pandas incluso permite que los index sean fechas! Por ejemplo, a continuación se crea una serie con las tendencia de búsqueda de *data science* en Google.

In [None]:
import os

In [None]:
ds_trend = pd.read_csv(os.path.join('data', 'dataScienceTrend.csv'), index_col=0, squeeze=True)

In [None]:
ds_trend.head(10)

In [None]:
ds_trend.tail(10)

In [None]:
ds_trend.dtype

In [None]:
ds_trend.index

**OJO!** Los valores del Index son _strings_ (_object_ es una generalización). 

**Solución:** _Parsear_ a elementos de fecha con la función ```pd.to_datetime()```.

In [None]:
# pd.to_datetime?

In [None]:
ds_trend.index = pd.to_datetime(ds_trend.index, format='%Y-%m-%d')

In [None]:
ds_trend.index

Para otros tipos de _parse_ puedes visitar la documentación [aquí](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior).


La idea de los elementos de fecha es poder realizar operaciones que resulten naturales para el ser humano. Por ejemplo:

In [None]:
ds_trend.index.min()

In [None]:
ds_trend.index.max()

In [None]:
ds_trend.index.max() - ds_trend.index.min()

Volviendo a la Serie, podemos trabajar con todos sus elementos, por ejemplo, determinar rápidamente la máxima tendencia.

In [None]:
max_trend = ds_trend.max()
max_trend 

Para determinar el _index_ correspondiente al valor máximo usualmente se utilizan dos formas:

* Utilizar una máscara (*mask*)
* Utilizar métodos ya implementados

In [None]:
# Mask
ds_trend[ds_trend == max_trend]

In [None]:
# Built-in method
ds_trend.idxmax()

## Dataframes

Arreglo bidimensional y extensión natural de una serie. Podemos pensarlo como la generalización de un numpy.array.

Utilizando el dataset de los jugadores de la NBA la flexibilidad de pandas se hace mucho más visible. No es necesario que todos los elementos sean del mismo tipo!

In [None]:
import os

In [None]:
player_data = pd.read_csv(os.path.join('data', 'player_data.csv'), index_col='name')
player_data.head()

In [None]:
player_data.info(memory_usage=True)

In [None]:
type(player_data)

In [None]:
player_data.dtypes

Puedes pensar que un dataframe es una colección de series

In [None]:
player_data['birth_date'].head()

In [None]:
type(player_data['birth_date'])

### Exploración 

In [None]:
player_data.describe()

In [None]:
player_data.describe(include='all')

In [None]:
player_data.max()

Para extraer elementos lo más recomendable es el método loc.

In [None]:
player_data.loc['Zaid Abdul-Aziz', 'college']

Evita acceder con doble corchete

In [None]:
player_data['college']['Zaid Abdul-Aziz']

Aunque en ocasiones funcione, no se asegura que sea siempre así. [Más info aquí.](https://pandas.pydata.org/pandas-docs/stable/indexing.html#why-does-assignment-fail-when-using-chained-indexing)

### Valores perdidos/nulos

Pandas ofrece herramientas para trabajar con valors nulos, pero es necesario conocerlas y saber aplicarlas. Por ejemplo, el método ```isnull()``` entrega un booleano si algún valor es nulo.

Por ejemplo: ¿Qué jugadores no tienen registrado su fecha de nacimiento?

In [None]:
player_data.index.shape

In [None]:
player_data[player_data['birth_date'].isnull()]

Si deseamos encontrar todas las filas que contengan por lo menos un valor nulo.

In [None]:
player_data.isnull()

In [None]:
# pd.DataFrame.any?

In [None]:
rows_null_mask = player_data.isnull().any(axis=1)  # axis=1 hace referencia a las filas.
rows_null_mask.head()

In [None]:
player_data[rows_null_mask].head()

In [None]:
player_data[rows_null_mask].shape

Para determinar aquellos que no tienen valors nulos el prodecimiento es similar.

In [None]:
player_data[player_data.notnull().all(axis=1)].head()

¿Te fijaste que para usar estas máscaras es necesario escribir por lo menos dos veces el nombre del objeto? Una buena práctica para generalizar las máscaras consiste en utilizar las funciones ``lambda``

In [None]:
player_data[lambda df: df.notnull().all(axis=1)].head()

Una función lambda es una función pequeña y anónima. Pueden tomar cualquer número de argumentos pero solo tienen una expresión.

Pandas incluso ofrece opciones para eliminar elementos nulos!

In [None]:
pd.DataFrame.dropna?

In [None]:
# Cualquier registro con null
print(player_data.dropna().shape)
# Filas con elementos nulos
print(player_data.dropna(axis=0).shape)
# Columnas con elementos nulos
print(player_data.dropna(axis=1).shape)

## Ejemplo práctico

¿Para cada posición, cuál es la máxima cantidad de tiempo que ha estado un jugador?

Un _approach_ para resolver la pregunta anterior tiene los siguientes pasos:

1. Determinar el tiempo de cada jugador en su posición.
2. Determinar todas las posiciones.
3. Iterar sobre cada posición y encontrar el mayor valor.

In [None]:
# 1. Determinar el tiempo de cada jugador en su posición.
player_data['duration'] = player_data['year_end'] - player_data['year_start']
player_data.head()

In [None]:
# 2. Determinar todas las posiciones.
positions = player_data['position'].unique()
positions

In [None]:
# 3. Iterar sobre cada posición y encontrar el mayor valor.
nba_position_duration = pd.Series()
for position in positions:
    df_aux = player_data.loc[lambda x: x['position'] == position]
    max_duration = df_aux['duration'].max()
    nba_position_duration.loc[position] = max_duration

In [None]:
nba_position_duration

## Resumen
* Pandas posee una infinidad de herramientas para trabajar con datos, incluyendo la carga, manipulación, operaciones y filtrado de datos.
* La documentación oficial (y StackOverflow) son tus mejores amigos.
* La importancia está en darle sentido a los datos, no solo a coleccionarlos.

# Evaluación Laboratorio

* Nombre: 
* Rol:

#### Instruciones

1. Pon tu nombre y rol en la celda superior.
2. Debes enviar este **.ipynb** con el siguiente formato de nombre: **```04_data_manipulation_NOMBRE_APELLIDO.ipynb```** con tus respuestas a alonso.ogueda@gmail.com  y  sebastian.flores@usm.cl .
3. Se evaluara tanto el código como la respuesta en una escala de 0 a 4 con valores enteros.
4. La entrega es al final de esta clase.

## Dataset jugadores NBA (2pts)

1. ¿Cuál o cuáles son los jugadores más altos de la NBA?
2. Crear un DataFrame llamado ```nba_stats``` donde los índices sean las distintas posiciones y que posea las siguientes columns:
    - nm_players: Cantidad de jugadores distintos que utilizan esa posición.
    - mean_duration: Duración de años promedio.
    - tallest: Mayor altura en cm.
    - young_birth: Fecha de nacimiento del jugador/es más joven.

In [None]:
tallest_player = # FIX ME

In [None]:
nba_stats = #FIX ME

## Dataset del Gasto Neto Mensualizado por año de las Instituciones Públicas (2pts)

Este dataset incluye las cifras (actualizadas a la moneda del año 2017), el gasto ejecutado
por las distintas instituciones en los variados programas del Presupuesto, y desglosado
hasta el máximo nivel del clasificador presupuestario. Los montos contemplan el Gasto
Neto, es decir, integran los gastos que afectan el patrimonio público, excluyendo aquéllos
que sólo se traducen en movimientos de activos y pasivos financieros que sirven de
fuente de financiamiento de los primeros



1. Cargar el dataset ```gasto_fiscal.csv``` que se encuentra en la carpeta ```data``` en un DataFrame llamado **```gasto_fiscal```**. ¿Cuánta MB de memoria está utilizando? ¿Cuáles son las columnas que consumen más y menos memoria? ¿Cuál crees que es la razón?
2. Crear un DataFrame llamado ```gasto_fiscal_stats```, donde los _index_ sean cada Partida y las columnas correspondan a:
    - A la suma total de los montos desde el año 2011 al 2014.
    - Cantidad de registros con monto igual a cero.
    - Mes con mayor gasto
    - Porcentaje del mes con mayor gasto respecto al gasto total.

In [None]:
gasto_fiscal = # FIX ME

gasto_fiscal_mb = # FIX ME
more_memory_columns = []
less_memory_columns = []
reason = ''

In [None]:
gasto_fiscal_stats = # FIX ME