# MAT281

## Aplicaciones de la Matemática en la Ingeniería

## ¿Qué contenido aprenderemos?
* Manipulación de datos con ```pandas```.
    - Crear objetos (Series, DataFrames, Index).
    - Análisis exploratorio.
    - Realizar operaciones y filtros.
    - Aplicar funciones y métodos.

## Motivación

En los últimos años, el interés por los datos ha crecido sostenidamente, algunos términos de moda tales como *data science*, *machine learning*, *big data*, *artifial intelligence*, *deep learning*, etc. son prueba fehaciente de ello. Por dar un ejemplo, las búsquedas la siguiente imagen muestra el interés de búsqueda en Google por *__Data Science__* en los últimos cinco años. 

[Fuente](https://trends.google.com/trends/explore?date=today%205-y&q=data%20science)

![alt text](images/dataScienceTrend.png "Logo Title Text 1")


Muchos se ha dicho respecto a esto, declaraciones tales como: 

* _"The world’s most valuable resource is no longer oil, but data."_
* _"AI is the new electricity."_
* _"Data Scientist: The Sexiest Job of the 21st Century."_

<script type="text/javascript" src="https://ssl.gstatic.com/trends_nrtr/1544_RC05/embed_loader.js"></script> <script type="text/javascript"> trends.embed.renderExploreWidget("TIMESERIES", {"comparisonItem":[{"keyword":"data science","geo":"","time":"today 5-y"}],"category":0,"property":""}, {"exploreQuery":"date=today%205-y&q=data%20science","guestPath":"https://trends.google.com:443/trends/embed/"}); </script> 

Los datos por si solos no son útiles, su verdadero valor está en el análisis y en todo lo que esto conlleva, por ejemplo:

* Predicciones
* Clasificaciones
* Optimización
* Visualización
* Aprendizaje

Por esto es importante recordar al tío Ben: _"Un gran poder conlleva una gran responsabilidad"_.

## Numpy

Desde la propia página web:

NumPy is the fundamental package for scientific computing with Python. It contains among other things:

* a powerful N-dimensional array object
* sophisticated (broadcasting) functions
* tools for integrating C/C++ and Fortran code
* useful linear algebra, Fourier transform, and random number capabilities

Besides its obvious scientific uses, NumPy can also be used as an efficient multi-dimensional container of generic data. Arbitrary data-types can be defined. This allows NumPy to seamlessly and speedily integrate with a wide variety of databases.


**Idea**: Realizar cálculos numéricos eficientemente.

## Pandas


Desde el repositorio de GitHub:

pandas is a Python package providing fast, flexible, and expressive data structures designed to make working with "relational" or "labeled" data both easy and intuitive. It aims to be the fundamental high-level building block for doing practical, real world data analysis in Python. Additionally, it has the broader goal of becoming the most powerful and flexible open source data analysis / manipulation tool available in any language. It is already well on its way toward this goal.

Actualmente cuenta con más de 1200 contribuidores y casi 18000 commits!

In [1]:
import pandas as pd

In [2]:
pd.__version__

'0.24.2'

## Series

Arreglos unidimensionales con etiquetas. Se puede pensar como una generalización de los diccionarios de Python.

In [3]:
pd.Series?

[0;31mInit signature:[0m
[0mpd[0m[0;34m.[0m[0mSeries[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mdata[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mindex[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mdtype[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mname[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mcopy[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mfastpath[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m     
One-dimensional ndarray with axis labels (including time series).

Labels need not be unique but must be a hashable type. The object
supports both integer- and label-based indexing and provides a host of
methods for performing operations involving the index. Statistical
methods from ndarray have been overridden to automatically exclude
missing data (currentl

Para crear una instancia de una serie existen muchas opciones, las más comunes son:

* A partir de una lista.
* A partir de un _numpy.array_.
* A partir de un diccionario.
* A partir de un archivo (por ejemplo un csv).

In [4]:
my_serie = pd.Series(range(3, 33, 3))
my_serie

0     3
1     6
2     9
3    12
4    15
5    18
6    21
7    24
8    27
9    30
dtype: int64

In [5]:
type(my_serie)

pandas.core.series.Series

In [6]:
# Presiona TAB y sorpréndete con la cantidad de métodos!
# my_serie.

Las series son arreglos unidemensionales que constan de _data_ e _index_.

In [7]:
my_serie.values

array([ 3,  6,  9, 12, 15, 18, 21, 24, 27, 30])

In [8]:
type(my_serie.values)

numpy.ndarray

In [9]:
my_serie.index

RangeIndex(start=0, stop=10, step=1)

In [10]:
type(my_serie.index)

pandas.core.indexes.range.RangeIndex

A diferencia de numpy, pandas ofrece más flexibilidad para los valores e índices.

In [11]:
my_serie_2 = pd.Series(range(3, 33, 3), index=list('abcdefghij'))
my_serie_2

a     3
b     6
c     9
d    12
e    15
f    18
g    21
h    24
i    27
j    30
dtype: int64

Acceder a los valores de una serie es muy fácil!

In [12]:
my_serie_2['b']

6

In [13]:
my_serie_2.loc['b']

6

In [14]:
my_serie_2.iloc[1]

6

```loc```?? ```iloc```??

In [15]:
# pd.Series.loc?

A modo de resumen:

* ```loc``` es un método que hace referencia a las etiquetas (*labels*) del objeto .
* ```iloc``` es un método que hace referencia posicional del objeto.

**Consejo**: Si quieres editar valores siempre utiliza ```loc``` y/o ```iloc```.

In [16]:
my_serie_2.loc['d'] = 1000

In [17]:
my_serie_2

a       3
b       6
c       9
d    1000
e      15
f      18
g      21
h      24
i      27
j      30
dtype: int64

### Trabajar con fechas

Pandas incluso permite que los index sean fechas! Por ejemplo, a continuación se crea una serie con las tendencia de búsqueda de *data science* en Google.

In [18]:
import os

In [19]:
ds_trend = pd.read_csv(os.path.join('data', 'dataScienceTrend.csv'), index_col=0, squeeze=True)

In [20]:
ds_trend.head(10)

week
2013-09-29    15
2013-10-06    15
2013-10-13    14
2013-10-20    14
2013-10-27    14
2013-11-03    14
2013-11-10    15
2013-11-17    16
2013-11-24    12
2013-12-01    17
Name: trend, dtype: int64

In [21]:
ds_trend.tail(10)

week
2018-07-22     84
2018-07-29     86
2018-08-05     82
2018-08-12     83
2018-08-19     91
2018-08-26     93
2018-09-02    100
2018-09-09     93
2018-09-16     98
2018-09-23     93
Name: trend, dtype: int64

In [22]:
ds_trend.dtype

dtype('int64')

In [23]:
ds_trend.index

Index(['2013-09-29', '2013-10-06', '2013-10-13', '2013-10-20', '2013-10-27',
       '2013-11-03', '2013-11-10', '2013-11-17', '2013-11-24', '2013-12-01',
       ...
       '2018-07-22', '2018-07-29', '2018-08-05', '2018-08-12', '2018-08-19',
       '2018-08-26', '2018-09-02', '2018-09-09', '2018-09-16', '2018-09-23'],
      dtype='object', name='week', length=261)

**OJO!** Los valores del Index son _strings_ (_object_ es una generalización). 

**Solución:** _Parsear_ a elementos de fecha con la función ```pd.to_datetime()```.

In [24]:
# pd.to_datetime?

In [25]:
ds_trend.index = pd.to_datetime(ds_trend.index, format='%Y-%m-%d')

In [26]:
ds_trend.index

DatetimeIndex(['2013-09-29', '2013-10-06', '2013-10-13', '2013-10-20',
               '2013-10-27', '2013-11-03', '2013-11-10', '2013-11-17',
               '2013-11-24', '2013-12-01',
               ...
               '2018-07-22', '2018-07-29', '2018-08-05', '2018-08-12',
               '2018-08-19', '2018-08-26', '2018-09-02', '2018-09-09',
               '2018-09-16', '2018-09-23'],
              dtype='datetime64[ns]', name='week', length=261, freq=None)

Para otros tipos de _parse_ puedes visitar la documentación [aquí](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior).


La idea de los elementos de fecha es poder realizar operaciones que resulten naturales para el ser humano. Por ejemplo:

In [27]:
ds_trend.index.min()

Timestamp('2013-09-29 00:00:00')

In [28]:
ds_trend.index.max()

Timestamp('2018-09-23 00:00:00')

In [29]:
ds_trend.index.max() - ds_trend.index.min()

Timedelta('1820 days 00:00:00')

Volviendo a la Serie, podemos trabajar con todos sus elementos, por ejemplo, determinar rápidamente la máxima tendencia.

In [30]:
max_trend = ds_trend.max()
max_trend 

100

Para determinar el _index_ correspondiente al valor máximo usualmente se utilizan dos formas:

* Utilizar una máscara (*mask*)
* Utilizar métodos ya implementados

In [31]:
# Mask
ds_trend[ds_trend == max_trend]

week
2018-09-02    100
Name: trend, dtype: int64

In [32]:
# Built-in method
ds_trend.idxmax()

Timestamp('2018-09-02 00:00:00')

## Dataframes

Arreglo bidimensional y extensión natural de una serie. Podemos pensarlo como la generalización de un numpy.array.

Utilizando el dataset de los jugadores de la NBA la flexibilidad de pandas se hace mucho más visible. No es necesario que todos los elementos sean del mismo tipo!

In [33]:
import os

In [34]:
player_data = pd.read_csv(os.path.join('data', 'player_data.csv'), index_col='name')
player_data.head()

Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Alaa Abdelnaby,1991,1995,F-C,6-10,240.0,"June 24, 1968",Duke University
Zaid Abdul-Aziz,1969,1978,C-F,6-9,235.0,"April 7, 1946",Iowa State University
Kareem Abdul-Jabbar,1970,1989,C,7-2,225.0,"April 16, 1947","University of California, Los Angeles"
Mahmoud Abdul-Rauf,1991,2001,G,6-1,162.0,"March 9, 1969",Louisiana State University
Tariq Abdul-Wahad,1998,2003,F,6-6,223.0,"November 3, 1974",San Jose State University


In [35]:
player_data.info(memory_usage=True)

<class 'pandas.core.frame.DataFrame'>
Index: 4550 entries, Alaa Abdelnaby to Matt Zunic
Data columns (total 7 columns):
year_start    4550 non-null int64
year_end      4550 non-null int64
position      4549 non-null object
height        4549 non-null object
weight        4544 non-null float64
birth_date    4519 non-null object
college       4248 non-null object
dtypes: float64(1), int64(2), object(4)
memory usage: 284.4+ KB


In [36]:
type(player_data)

pandas.core.frame.DataFrame

In [37]:
player_data.dtypes

year_start      int64
year_end        int64
position       object
height         object
weight        float64
birth_date     object
college        object
dtype: object

Puedes pensar que un dataframe es una colección de series

In [38]:
player_data['birth_date'].head()

name
Alaa Abdelnaby            June 24, 1968
Zaid Abdul-Aziz           April 7, 1946
Kareem Abdul-Jabbar      April 16, 1947
Mahmoud Abdul-Rauf        March 9, 1969
Tariq Abdul-Wahad      November 3, 1974
Name: birth_date, dtype: object

In [39]:
type(player_data['birth_date'])

pandas.core.series.Series

### Exploración 

In [40]:
player_data.describe()

Unnamed: 0,year_start,year_end,weight
count,4550.0,4550.0,4544.0
mean,1985.076264,1989.272527,208.908011
std,20.974188,21.874761,26.268662
min,1947.0,1947.0,114.0
25%,1969.0,1973.0,190.0
50%,1986.0,1992.0,210.0
75%,2003.0,2009.0,225.0
max,2018.0,2018.0,360.0


In [41]:
player_data.describe(include='all')

Unnamed: 0,year_start,year_end,position,height,weight,birth_date,college
count,4550.0,4550.0,4549,4549,4544.0,4519,4248
unique,,,7,28,,4161,473
top,,,G,6-7,,"August 26, 1947",University of Kentucky
freq,,,1574,473,,3,99
mean,1985.076264,1989.272527,,,208.908011,,
std,20.974188,21.874761,,,26.268662,,
min,1947.0,1947.0,,,114.0,,
25%,1969.0,1973.0,,,190.0,,
50%,1986.0,1992.0,,,210.0,,
75%,2003.0,2009.0,,,225.0,,


In [42]:
player_data.max()

year_start    2018.0
year_end      2018.0
weight         360.0
dtype: float64

Para extraer elementos lo más recomendable es el método loc.

In [43]:
player_data.loc['Zaid Abdul-Aziz', 'college']

'Iowa State University'

Evita acceder con doble corchete

In [44]:
player_data['college']['Zaid Abdul-Aziz']

'Iowa State University'

Aunque en ocasiones funcione, no se asegura que sea siempre así. [Más info aquí.](https://pandas.pydata.org/pandas-docs/stable/indexing.html#why-does-assignment-fail-when-using-chained-indexing)

### Valores perdidos/nulos

Pandas ofrece herramientas para trabajar con valors nulos, pero es necesario conocerlas y saber aplicarlas. Por ejemplo, el método ```isnull()``` entrega un booleano si algún valor es nulo.

Por ejemplo: ¿Qué jugadores no tienen registrado su fecha de nacimiento?

In [45]:
player_data.index.shape

(4550,)

In [46]:
player_data[player_data['birth_date'].isnull()]

Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Bill Allen,1968,1968,C-F,6-8,205.0,,New Mexico State University
Don Bielke,1956,1956,C,6-7,240.0,,Valparaiso University
Clarence Brookins,1971,1971,F,6-4,190.0,,Temple University
Walter Byrd,1970,1970,F,6-7,205.0,,Temple University
Ken Corley,1947,1947,C,6-5,210.0,,Oklahoma State Teachers College
Mack Daughtry,1971,1971,G,6-3,175.0,,Albany State University
Harry Dinnel,1968,1968,F-G,6-4,200.0,,Pepperdine University
Rich Dumas,1969,1969,G,6-3,170.0,,Northeastern State University
Gene Gillette,1947,1947,F,6-2,205.0,,Saint Mary's College of California
Darrell Hardy,1968,1968,F,6-7,220.0,,Baylor University


Si deseamos encontrar todas las filas que contengan por lo menos un valor nulo.

In [47]:
player_data.isnull()

Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Alaa Abdelnaby,False,False,False,False,False,False,False
Zaid Abdul-Aziz,False,False,False,False,False,False,False
Kareem Abdul-Jabbar,False,False,False,False,False,False,False
Mahmoud Abdul-Rauf,False,False,False,False,False,False,False
Tariq Abdul-Wahad,False,False,False,False,False,False,False
Shareef Abdur-Rahim,False,False,False,False,False,False,False
Tom Abernethy,False,False,False,False,False,False,False
Forest Able,False,False,False,False,False,False,False
John Abramovic,False,False,False,False,False,False,False
Alex Abrines,False,False,False,False,False,False,True


In [48]:
# pd.DataFrame.any?

In [49]:
rows_null_mask = player_data.isnull().any(axis=1)  # axis=1 hace referencia a las filas.
rows_null_mask.head()

name
Alaa Abdelnaby         False
Zaid Abdul-Aziz        False
Kareem Abdul-Jabbar    False
Mahmoud Abdul-Rauf     False
Tariq Abdul-Wahad      False
dtype: bool

In [50]:
player_data[rows_null_mask].head()

Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Alex Abrines,2017,2018,G-F,6-6,190.0,"August 1, 1993",
Alexis Ajinca,2009,2017,C,7-2,248.0,"May 6, 1988",
Furkan Aldemir,2015,2015,F-C,6-10,240.0,"August 9, 1991",
Bill Allen,1968,1968,C-F,6-8,205.0,,New Mexico State University
David Andersen,2010,2011,C,6-11,245.0,"June 23, 1980",


In [51]:
player_data[rows_null_mask].shape

(337, 7)

Para determinar aquellos que no tienen valors nulos el prodecimiento es similar.

In [52]:
player_data[player_data.notnull().all(axis=1)].head()

Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Alaa Abdelnaby,1991,1995,F-C,6-10,240.0,"June 24, 1968",Duke University
Zaid Abdul-Aziz,1969,1978,C-F,6-9,235.0,"April 7, 1946",Iowa State University
Kareem Abdul-Jabbar,1970,1989,C,7-2,225.0,"April 16, 1947","University of California, Los Angeles"
Mahmoud Abdul-Rauf,1991,2001,G,6-1,162.0,"March 9, 1969",Louisiana State University
Tariq Abdul-Wahad,1998,2003,F,6-6,223.0,"November 3, 1974",San Jose State University


¿Te fijaste que para usar estas máscaras es necesario escribir por lo menos dos veces el nombre del objeto? Una buena práctica para generalizar las máscaras consiste en utilizar las funciones ``lambda``

In [53]:
player_data[lambda df: df.notnull().all(axis=1)].head()

Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Alaa Abdelnaby,1991,1995,F-C,6-10,240.0,"June 24, 1968",Duke University
Zaid Abdul-Aziz,1969,1978,C-F,6-9,235.0,"April 7, 1946",Iowa State University
Kareem Abdul-Jabbar,1970,1989,C,7-2,225.0,"April 16, 1947","University of California, Los Angeles"
Mahmoud Abdul-Rauf,1991,2001,G,6-1,162.0,"March 9, 1969",Louisiana State University
Tariq Abdul-Wahad,1998,2003,F,6-6,223.0,"November 3, 1974",San Jose State University


Una función lambda es una función pequeña y anónima. Pueden tomar cualquer número de argumentos pero solo tienen una expresión.

Pandas incluso ofrece opciones para eliminar elementos nulos!

In [54]:
pd.DataFrame.dropna?

[0;31mSignature:[0m
[0mpd[0m[0;34m.[0m[0mDataFrame[0m[0;34m.[0m[0mdropna[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mself[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0maxis[0m[0;34m=[0m[0;36m0[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mhow[0m[0;34m=[0m[0;34m'any'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mthresh[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msubset[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0minplace[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Remove missing values.

See the :ref:`User Guide <missing_data>` for more on which values are
considered missing, and how to work with missing data.

Parameters
----------
axis : {0 or 'index', 1 or 'columns'}, default 0
    Determine if rows or columns which contain missing values are
    removed.

    * 0, or 'index' : Drop rows which contain missing values.
    * 1,

In [55]:
# Cualquier registro con null
print(player_data.dropna().shape)
# Filas con elementos nulos
print(player_data.dropna(axis=0).shape)
# Columnas con elementos nulos
print(player_data.dropna(axis=1).shape)

(4213, 7)
(4213, 7)
(4550, 2)


## Ejemplo práctico

¿Para cada posición, cuál es la máxima cantidad de tiempo que ha estado un jugador?

Un _approach_ para resolver la pregunta anterior tiene los siguientes pasos:

1. Determinar el tiempo de cada jugador en su posición.
2. Determinar todas las posiciones.
3. Iterar sobre cada posición y encontrar el mayor valor.

In [56]:
# 1. Determinar el tiempo de cada jugador en su posición.
player_data['duration'] = player_data['year_end'] - player_data['year_start']
player_data.head()

Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college,duration
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Alaa Abdelnaby,1991,1995,F-C,6-10,240.0,"June 24, 1968",Duke University,4
Zaid Abdul-Aziz,1969,1978,C-F,6-9,235.0,"April 7, 1946",Iowa State University,9
Kareem Abdul-Jabbar,1970,1989,C,7-2,225.0,"April 16, 1947","University of California, Los Angeles",19
Mahmoud Abdul-Rauf,1991,2001,G,6-1,162.0,"March 9, 1969",Louisiana State University,10
Tariq Abdul-Wahad,1998,2003,F,6-6,223.0,"November 3, 1974",San Jose State University,5


In [57]:
# 2. Determinar todas las posiciones.
positions = player_data['position'].unique()
positions

array(['F-C', 'C-F', 'C', 'G', 'F', 'G-F', 'F-G', nan], dtype=object)

In [58]:
# 3. Iterar sobre cada posición y encontrar el mayor valor.
nba_position_duration = pd.Series()
for position in positions:
    df_aux = player_data.loc[lambda x: x['position'] == position]
    max_duration = df_aux['duration'].max()
    nba_position_duration.loc[position] = max_duration

In [59]:
nba_position_duration

F-C    22.0
C-F    20.0
C      20.0
G      19.0
F      19.0
G-F    19.0
F-G    18.0
NaN     NaN
dtype: float64

## Resumen
* Pandas posee una infinidad de herramientas para trabajar con datos, incluyendo la carga, manipulación, operaciones y filtrado de datos.
* La documentación oficial (y StackOverflow) son tus mejores amigos.
* La importancia está en darle sentido a los datos, no solo a coleccionarlos.

# Evaluación Laboratorio

* Nombre: 
* Rol:

#### Instruciones

1. Pon tu nombre y rol en la celda superior.
2. Debes enviar este **.ipynb** con el siguiente formato de nombre: **```04_data_manipulation_NOMBRE_APELLIDO.ipynb```** con tus respuestas a alonso.ogueda@gmail.com  y  sebastian.flores@usm.cl .
3. Se evaluara tanto el código como la respuesta en una escala de 0 a 4 con valores enteros.
4. La entrega es al final de esta clase.

## Dataset jugadores NBA (2pts)

1. ¿Cuál o cuáles son los jugadores más altos de la NBA?
2. Crear un DataFrame llamado ```nba_stats``` donde los índices sean las distintas posiciones y que posea las siguientes columns:
    - nm_players: Cantidad de jugadores distintos que utilizan esa posición.
    - mean_duration: Duración de años promedio.
    - tallest: Mayor altura en cm.
    - young_birth: Fecha de nacimiento del jugador/es más joven.

In [60]:
import numpy as np

height_split = player_data['height'].str.split('-')
for player, height_list in height_split.items():
    if height_list == height_list:
        # Para manejar el caso en que la altura sea nan.
        height = int(height_list[0]) * 30.48 + int(height_list[1]) * 2.54
        player_data.loc[player, "height_cm"] = height
    else:
        player_data.loc[player, "height_cm"] = np.nan

max_height = player_data['height_cm'].max()
tallest_player = player_data.loc[lambda x: x['height_cm'] == max_height].index.tolist()
print(tallest_player)

['Manute Bol', 'Gheorghe Muresan']


In [61]:
# Castear la fecha de str a objeto datetime
player_data['birth_date_fix'] = pd.to_datetime(player_data['birth_date'], format="%B %d, %Y")
# Crear dataframe con las columnas solicitadas
nba_stats = pd.DataFrame(columns=["nm_players", "mean_duration", "tallest", "young_birth"])
for position in player_data['position'].unique():
    if position == position:
        # Existen posiciones nan, por lo que hay que tratarlas de manera distinta.
        aux_df = player_data.loc[lambda x: x['position'] == position]  # Dataframe filtrado 
    else:
        aux_df = player_data.loc[lambda x: x['position'].isnull()]
    # Calcular
    nm_players = aux_df.index.nunique() # or len(aux_df.index.unique())
    mean_duration = aux_df['duration'].mean()
    tallest = aux_df['height_cm'].max()
    young_birth = aux_df['birth_date_fix'].min()
    # Escribir en el dataframe
    nba_stats.loc[position, ["nm_players", "mean_duration", "tallest", "young_birth"]] = [nm_players, mean_duration, tallest, young_birth]

In [62]:
nba_stats

Unnamed: 0,nm_players,mean_duration,tallest,young_birth
F-C,388,6.31186,220.98,1915-01-14 00:00:00
C-F,219,6.11872,223.52,1915-04-23 00:00:00
C,502,4.1255,231.14,1916-06-12 00:00:00
G,1564,3.77065,208.28,1916-02-13 00:00:00
F,1285,3.1907,215.9,1913-09-06 00:00:00
G-F,360,5.19722,208.28,1902-01-30 00:00:00
F-G,216,6.05093,210.82,1913-09-04 00:00:00
,1,4.0,,1952-05-12 00:00:00


## Dataset del Gasto Neto Mensualizado por año de las Instituciones Públicas (2pts)

Este dataset incluye las cifras (actualizadas a la moneda del año 2017), el gasto ejecutado
por las distintas instituciones en los variados programas del Presupuesto, y desglosado
hasta el máximo nivel del clasificador presupuestario. Los montos contemplan el Gasto
Neto, es decir, integran los gastos que afectan el patrimonio público, excluyendo aquéllos
que sólo se traducen en movimientos de activos y pasivos financieros que sirven de
fuente de financiamiento de los primeros



1. Cargar el dataset ```gasto_fiscal.csv``` que se encuentra en la carpeta ```data``` en un DataFrame llamado **```gasto_fiscal```**. ¿Cuánta MB de memoria está utilizando? ¿Cuáles son las columnas que consumen más y menos memoria? ¿Cuál crees que es la razón?
2. Crear un DataFrame llamado ```gasto_fiscal_stats```, donde los _index_ sean cada Partida y las columnas correspondan a:
    - A la suma total de los montos desde el año 2011 al 2014.
    - Cantidad de registros con monto igual a cero.
    - Mes con mayor gasto
    - Porcentaje del mes con mayor gasto respecto al gasto total.

In [64]:
gasto_fiscal = _ # NO EVALUADO

* gasto_fiscal_mb = # FIX ME
* more_memory_columns = []
* less_memory_columns = []
* reason = ''

In [65]:
gasto_fiscal_stats = _ # NO EVALUADO