<img src="images/usm.png" width="480" height="240" align="left"/>

# MAT281 - 2° Semestre 2019
## Aplicaciones de la Matemática en la Ingeniería

## Objetivos de la clase

* Aprender aspectos básicos de la librería numpy y pandas.


## Contenidos

* [Numpy](#c1)
* [Pandas](#c2)

<a id='c1'></a>

## I.- Numpy 

<img src="images/numpy.jpeg" width="360" height="240" align="center"/>

**NumPy** es el paquete fundamental para la computación científica con Python. Contiene entre otras cosas:

 * un poderoso objeto de matriz N-dimensional
 * funciones sofisticadas (de transmisión)
 * herramientas para integrar código C / C ++ y Fortran
 * Álgebra lineal útil, transformada de Fourier y capacidades de números aleatorios

Además de sus obvios usos científicos, **NumPy** también se puede utilizar como un eficiente contenedor multidimensional de datos genéricos. Se pueden definir tipos de datos arbitrarios. Esto permite que  **NumPy** se integre sin problemas y rápidamente con una amplia variedad de bases de datos.

 **NumPy** tiene licencia bajo la licencia BSD, lo que permite su reutilización con pocas restricciones.

###  Operaciones básicas de NumPy
Las razones por las que debería usar NumPy en lugar de cualquier otro objeto _iterable en Python son:

NumPy proporciona una estructura de ndarray para almacenar datos numéricos de manera contigua.
También implementa operaciones matemáticas rápidas en ndarrays, que explotan esta contigüidad.
Brevedad de la sintaxis para las operaciones de matriz. Un lenguaje como C o Java requeriría que escribamos un bucle para una operación matricial tan simple como C = A + B.

In [1]:
# importar libreria: numpy
import numpy as np

In [2]:
# Arreglo de ceros: np.zeros(shape)
print("Zeros:")
print( np.zeros((3,3)) )

# Arreglos de uno: np.ones(shape)
print("\nOnes:")
print( np.ones((3,3)) )

# Arreglo vacio: np.empty(shape)
print("\nEmpty:")
print( np.empty((3,3)) )

# Rango de valores: np.range(start, stop, step)
print("\nRange:")
print( np.arange(0., 10., 1.) )

# Grilla de valores: np.linspace(start, end, n_values)
print("\nRegular grid:")
print( np.linspace(0., 1., 9) )

# Sequencia aleatoria: np.random
print("\nRandom sequences:")
print( np.random.uniform(10, size=6) )

# Construccion de arreglos: np.array( python_iterable )
print("\nArray constructor")
print( np.array([2, 3, 5, 10, -1]) )

Zeros:
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]

Ones:
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]

Empty:
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]

Range:
[0. 1. 2. 3. 4. 5. 6. 7. 8. 9.]

Regular grid:
[0.    0.125 0.25  0.375 0.5   0.625 0.75  0.875 1.   ]

Random sequences:
[8.61958465 4.85503867 1.20436873 6.69184492 2.5984077  9.45701035]

Array constructor
[ 2  3  5 10 -1]


### Operaciones matemáticas básicas
La mayoría de las operaciones realizadas en NumPy se manejan por elementos, es decir, calcular C = A + B se traducirá en $ C [i, j] = A [i, j] + B [i, j] $. (La excepción es la transmisión y se explicará pronto).

A continuación hay una lista con las operaciones matemáticas más comunes. Para obtener una lista completa, vea aquí: NumPy funciones matemáticas.

In [3]:
# crear dos arreglos
A = np.random.random((5,5))
B = np.random.random((5,5))

# suma
print("Sum:")
print( A+B )

# resta
print("\nSubtraction")
print( A-B )

# producto
print("\nProduct")
print( A*B )

# producto matricial
print("\nMatricial Product")
print( np.dot(A,B) )

# potencia
print("\n Power")
print( A**2 )

# funciones trigonometricas
print("\n np.exp()")
print( np.exp(A) )
print("\n np.sin()")
print( np.sin(A) )
print("\n np.cos()")
print( np.cos(A))
print("\n np.tan()")
print( np.tan(A) )

Sum:
[[0.73401103 1.33252281 1.06135201 1.90192358 0.33796997]
 [0.78857724 0.56428351 0.89141259 1.33624791 1.77837333]
 [0.74963247 0.7873314  1.49491636 0.33939551 1.28277934]
 [1.82361509 1.40676407 1.28383442 1.51099651 0.79953591]
 [1.06518155 0.817963   1.27947142 0.94817349 1.08982994]]

Subtraction
[[ 0.26699572 -0.56695309 -0.16910136 -0.06392753 -0.29636468]
 [-0.50325719 -0.07314983 -0.45331714  0.00223377  0.18374979]
 [-0.17403029  0.22928517  0.32381031 -0.24413188  0.18223623]
 [ 0.06355851  0.30418901  0.48090987  0.12597341 -0.4635583 ]
 [-0.64199252  0.06690028 -0.55829454 -0.46294954 -0.16260374]]

Product
[[0.11687137 0.36354531 0.2744682  0.90330664 0.00659792]
 [0.09214657 0.07826624 0.14728    0.44638837 0.78221193]
 [0.13291557 0.14182976 0.53248046 0.01389723 0.4030782 ]
 [0.83038307 0.47161355 0.35423913 0.56681029 0.10609284]
 [0.18061434 0.16614696 0.33133858 0.17117767 0.29032233]]

Matricial Product
[[1.3966545  1.23627044 1.21458239 1.52853523 1.30284977

<a id='c2'></a>

## Pandas

<img src="images/pandas.jpeg" width="360" height="240" align="center"/>


**pandas** es un paquete de Python que proporciona estructuras de datos rápidas, flexibles y expresivas diseñadas para que trabajar con datos "relacionales" o "etiquetados" sea fácil e intuitivo. 

Su objetivo es ser el bloque de construcción fundamental de alto nivel para hacer análisis de datos prácticos del mundo real en Python. Además, tiene el objetivo más amplio de convertirse en la herramienta de análisis / manipulación de datos de código abierto más potente y flexible disponible en cualquier idioma. Ya está en camino hacia este objetivo.



### Series y DataFrames

* Las **series** son  arreglos unidimensionales con etiquetas. Se puede pensar como una generalización de los diccionarios de Python. 

* Los **dataframe** son arreglos bidimensionales y una extensión natural de las series. Se puede pensar como la generalización de un numpy.array.


### Operaciones Básicas con series

In [4]:
# importar libreria: pandas, os
import pandas as pd

In [5]:
# crear serie
my_serie = pd.Series(range(3, 33, 3), index=list('abcdefghij'))

# imprimir serie
print("serie:")
print( my_serie )

# tipo 
print("\ntype:")
print( type(my_serie) )

# valores 
print("\nvalues:")
print(my_serie.values)

# indice
print("\nindex:")
print(my_serie.index)

# acceder al valor de la serie: directo
print("\ndirect:")
print(my_serie['b'])

# acceder al valor de la serie: loc
print("\nloc:")
print(my_serie.loc['b'])


# acceder al valor de la serie: iloc
print("\niloc:")
print(my_serie.iloc[1])

# editar valores
print("\nedit:")

print("\nold 'd':",my_serie.loc['d'] )
my_serie.loc['d'] = 1000
print("new 'd':",my_serie.loc['d'] )

serie:
a     3
b     6
c     9
d    12
e    15
f    18
g    21
h    24
i    27
j    30
dtype: int64

type:
<class 'pandas.core.series.Series'>

values:
[ 3  6  9 12 15 18 21 24 27 30]

index:
Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'], dtype='object')

direct:
6

loc:
6

iloc:
6

edit:

old 'd': 12
new 'd': 1000


###  Manejo de Fechas

Pandas también trae módulos para trabajar el formato de fechas.

In [6]:
# crear serie de fechas
date_rng = pd.date_range(start='1/1/2019', end='1/02/2019', freq='H')

# imprimir serie
print("serie:")
print( date_rng )

# tipo 
print("\ntype:")
print( type(date_rng) )

# elementos de datetime a string 
string_date_rng = [str(x) for x in date_rng]

print("\ndatetime to string:")
print( string_date_rng )

# elementos de string a datetime 
timestamp_date_rng = pd.to_datetime(string_date_rng, infer_datetime_format=True)

print("\nstring to datetime:")
print( timestamp_date_rng )

serie:
DatetimeIndex(['2019-01-01 00:00:00', '2019-01-01 01:00:00',
               '2019-01-01 02:00:00', '2019-01-01 03:00:00',
               '2019-01-01 04:00:00', '2019-01-01 05:00:00',
               '2019-01-01 06:00:00', '2019-01-01 07:00:00',
               '2019-01-01 08:00:00', '2019-01-01 09:00:00',
               '2019-01-01 10:00:00', '2019-01-01 11:00:00',
               '2019-01-01 12:00:00', '2019-01-01 13:00:00',
               '2019-01-01 14:00:00', '2019-01-01 15:00:00',
               '2019-01-01 16:00:00', '2019-01-01 17:00:00',
               '2019-01-01 18:00:00', '2019-01-01 19:00:00',
               '2019-01-01 20:00:00', '2019-01-01 21:00:00',
               '2019-01-01 22:00:00', '2019-01-01 23:00:00',
               '2019-01-02 00:00:00'],
              dtype='datetime64[ns]', freq='H')

type:
<class 'pandas.core.indexes.datetimes.DatetimeIndex'>

datetime to string:
['2019-01-01 00:00:00', '2019-01-01 01:00:00', '2019-01-01 02:00:00', '2019-01-01 03:00:00',

### Operaciones matemáticas

Al igual que numpy, las series de pandas pueden realizar operaciones matemáticas similares (mientrás los arreglos a operar sean del tipo numérico). Por otro lado existen otras funciones de utilidad.

In [7]:
# crear serie
s1 = pd.Series([1,2,3,4,5])

# maximo
print("max:")
print( s1.max())

# minimo
print("min:")
print( s1.min())

# meadia
print("mean:")
print( s1.mean())

# mediana
print("median:")
print( s1.median())

max:
5
min:
1
mean:
3.0
median:
3.0


###  Masking

Existen módulos para acceder a valores que queremos que cumplan una determinada regla. Por ejemplo, acceder al valor máximo de una serie. En este caso a esta regla la denominaremos *mask*.

In [8]:
# imprimir serie
print("serie:")
print( s1 )

# valor maximo
print("\nvalor maximo:")
print(s1.max() )

# Mask
print("\nmask: search max value")
print(my_serie == max(my_serie) )


# apply mask
print("\nmask: apply mask")
print(my_serie[my_serie == max(my_serie)] )

serie:
0    1
1    2
2    3
3    4
4    5
dtype: int64

valor maximo:
5

mask: search max value
a    False
b    False
c    False
d     True
e    False
f    False
g    False
h    False
i    False
j    False
dtype: bool

mask: apply mask
d    1000
dtype: int64


### Valores Nulos o datos perdidos

En algunas ocaciones, los arreglos no tienen información en una determinada posición, lo cual puede ser perjudicial si no se tiene control sobre estos valores.

In [9]:
# crear serie
s_null = pd.Series([1,2,np.nan,4,5,6,7,np.nan,9])

# imprimir serie
print("serie:")
print( s_null )

# valores nulos
print("\nis null?:")
print(s_null.isnull() )
print("\n null serie")
print(s_null[s_null.isnull()] )


#  valores nulos ? 
print("\nis not null?:")
print(s_null.notnull() )
print("\nserie with not null values")
print(s_null[s_null.notnull()] )

serie:
0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
5    6.0
6    7.0
7    NaN
8    9.0
dtype: float64

is null?:
0    False
1    False
2     True
3    False
4    False
5    False
6    False
7     True
8    False
dtype: bool

 null serie
2   NaN
7   NaN
dtype: float64

is not null?:
0     True
1     True
2    False
3     True
4     True
5     True
6     True
7    False
8     True
dtype: bool

serie with not null values
0    1.0
1    2.0
3    4.0
4    5.0
5    6.0
6    7.0
8    9.0
dtype: float64


### Trabajando  con DataFrames


<img src="images/dataframe.png" width="360" height="240" align="center"/>


Como se mencina anteriormente, los dataframes son arreglos de series, los cuales pueden ser de distintos tipos (numéricos, string, etc.). En esta parte mostraremos un ejemplo aplicado de las distintas funcionalidades de los dataframes.

### Lectura de datos

En general, cuando se trabajan con datos, estos se almacenan en algún lugar y en algún tipo de formato, por ejemplo:
 * .txt
 * .csv
 * .xlsx
 * .db
 * etc.
 
Para cada formato, existe un módulo para realizar la lectura de datos. En este caso, se analiza el conjunto de datos 'player_data.csv', el cual muestra informacion básica de algunos jugadores de la NBA.

In [11]:
import os

In [13]:
### lectura de datos
player_data = pd.read_csv(os.path.join('data', 'player_data.csv'), index_col='name')

### Módulos básicos

Existen módulos para comprender rápidamente la naturaleza del dataframe.

In [14]:
# imprimir las primeras 10 filas
print("first 5 rows:")
print(player_data.head(5))

# imprimir las ultimas 10 filas
print("\nlast 5 rows:")
print(player_data.tail(5))

# tipo
print("\ntype of dataframe:")
print(type(player_data))

# tipo por columns
print("\ntype of columns:")
print(player_data.dtypes)

# dimension
print("\nshape:")
print(player_data.shape)

# columna posicion
print("\ncolumn 'position': ")
print(player_data['position'].head())

first 5 rows:
                     year_start  year_end position height  weight  \
name                                                                
Alaa Abdelnaby             1991      1995      F-C   6-10   240.0   
Zaid Abdul-Aziz            1969      1978      C-F    6-9   235.0   
Kareem Abdul-Jabbar        1970      1989        C    7-2   225.0   
Mahmoud Abdul-Rauf         1991      2001        G    6-1   162.0   
Tariq Abdul-Wahad          1998      2003        F    6-6   223.0   

                           birth_date                                college  
name                                                                          
Alaa Abdelnaby          June 24, 1968                        Duke University  
Zaid Abdul-Aziz         April 7, 1946                  Iowa State University  
Kareem Abdul-Jabbar    April 16, 1947  University of California, Los Angeles  
Mahmoud Abdul-Rauf      March 9, 1969             Louisiana State University  
Tariq Abdul-Wahad    Novembe

En general, si uno quiere ver las primeras filas del dataframe en `jupyer notebook,` basta instanciar el dataframe de la siguiente forma:


In [15]:

player_data.head()

Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Alaa Abdelnaby,1991,1995,F-C,6-10,240.0,"June 24, 1968",Duke University
Zaid Abdul-Aziz,1969,1978,C-F,6-9,235.0,"April 7, 1946",Iowa State University
Kareem Abdul-Jabbar,1970,1989,C,7-2,225.0,"April 16, 1947","University of California, Los Angeles"
Mahmoud Abdul-Rauf,1991,2001,G,6-1,162.0,"March 9, 1969",Louisiana State University
Tariq Abdul-Wahad,1998,2003,F,6-6,223.0,"November 3, 1974",San Jose State University


### Exploración de datos

Existen módulos de pandas que realizan resumen de la información que dispone el dataframe.

In [16]:
# descripcion 
player_data.describe(include='all')

Unnamed: 0,year_start,year_end,position,height,weight,birth_date,college
count,4550.0,4550.0,4549,4549,4544.0,4519,4248
unique,,,7,28,,4161,473
top,,,G,6-7,,"September 21, 1990",University of Kentucky
freq,,,1574,473,,3,99
mean,1985.076264,1989.272527,,,208.908011,,
std,20.974188,21.874761,,,26.268662,,
min,1947.0,1947.0,,,114.0,,
25%,1969.0,1973.0,,,190.0,,
50%,1986.0,1992.0,,,210.0,,
75%,2003.0,2009.0,,,225.0,,


### Operando sobre Dataframes

Cuando se trabaja con un conjunto de datos, se crea una dinámica de preguntas y respuestas, en donde a medida que necesito información, se va accediendo al dataframe. En algunas ocaciones es directo, basta un simple módulo, aunque en otras será necesaria realizar operaciones un poco más complejas. 

Por ejemplo, del conjunto de datos en estudio, se esta interesado en responder las siguientes preguntas:


### a) Determine si el dataframe tiene valores nulos  

In [21]:
player_data.notnull().all(axis=1).head(10)

name
Alaa Abdelnaby          True
Zaid Abdul-Aziz         True
Kareem Abdul-Jabbar     True
Mahmoud Abdul-Rauf      True
Tariq Abdul-Wahad       True
Shareef Abdur-Rahim     True
Tom Abernethy           True
Forest Able             True
John Abramovic          True
Alex Abrines           False
dtype: bool

### b) Elimine los valores nulos del dataframe

In [24]:
player_data = player_data[lambda df: df.notnull().all(axis=1)]
player_data.head()

Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college,duration
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Alaa Abdelnaby,1991,1995,F-C,6-10,240.0,"June 24, 1968",Duke University,4
Zaid Abdul-Aziz,1969,1978,C-F,6-9,235.0,"April 7, 1946",Iowa State University,9
Kareem Abdul-Jabbar,1970,1989,C,7-2,225.0,"April 16, 1947","University of California, Los Angeles",19
Mahmoud Abdul-Rauf,1991,2001,G,6-1,162.0,"March 9, 1969",Louisiana State University,10
Tariq Abdul-Wahad,1998,2003,F,6-6,223.0,"November 3, 1974",San Jose State University,5


### c) Determinar el tiempo de cada jugador en su posición.

In [25]:
# Determinar el tiempo de cada jugador en su posición.
player_data['duration'] = player_data['year_end'] - player_data['year_start']
player_data.head()

Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college,duration
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Alaa Abdelnaby,1991,1995,F-C,6-10,240.0,"June 24, 1968",Duke University,4
Zaid Abdul-Aziz,1969,1978,C-F,6-9,235.0,"April 7, 1946",Iowa State University,9
Kareem Abdul-Jabbar,1970,1989,C,7-2,225.0,"April 16, 1947","University of California, Los Angeles",19
Mahmoud Abdul-Rauf,1991,2001,G,6-1,162.0,"March 9, 1969",Louisiana State University,10
Tariq Abdul-Wahad,1998,2003,F,6-6,223.0,"November 3, 1974",San Jose State University,5


### d) Castear la fecha de str a objeto datetime

In [26]:
# Castear la fecha de str a objeto datetime
player_data['birth_date_dt'] = pd.to_datetime(player_data['birth_date'], format="%B %d, %Y")
player_data.head()

Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college,duration,birth_date_dt
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Alaa Abdelnaby,1991,1995,F-C,6-10,240.0,"June 24, 1968",Duke University,4,1968-06-24
Zaid Abdul-Aziz,1969,1978,C-F,6-9,235.0,"April 7, 1946",Iowa State University,9,1946-04-07
Kareem Abdul-Jabbar,1970,1989,C,7-2,225.0,"April 16, 1947","University of California, Los Angeles",19,1947-04-16
Mahmoud Abdul-Rauf,1991,2001,G,6-1,162.0,"March 9, 1969",Louisiana State University,10,1969-03-09
Tariq Abdul-Wahad,1998,2003,F,6-6,223.0,"November 3, 1974",San Jose State University,5,1974-11-03


### e) Determinar todas las posiciones.

In [27]:
# Determinar todas las posiciones.
positions = player_data['position'].unique()
positions

array(['F-C', 'C-F', 'C', 'G', 'F', 'F-G', 'G-F'], dtype=object)

### f) Iterar sobre cada posición y encontrar el mayor valor.

In [28]:
# Iterar sobre cada posición y encontrar el mayor valor.
nba_position_duration = pd.Series()
for position in positions:
    df_aux = player_data.loc[lambda x: x['position'] == position]
    max_duration = df_aux['duration'].max()
    nba_position_duration.loc[position] = max_duration

### g) Dermine los jugadores más altos de la NBA

In [29]:
height_split = player_data['height'].str.split('-')
for player, height_list in height_split.items():
    if height_list == height_list:
        # Para manejar el caso en que la altura sea nan.
        height = int(height_list[0]) * 30.48 + int(height_list[1]) * 2.54
        player_data.loc[player, "height_cm"] = height
    else:
        player_data.loc[player, "height_cm"] = np.nan

max_height = player_data['height_cm'].max()
tallest_player = player_data.loc[lambda x: x['height_cm'] == max_height].index.tolist()
print(tallest_player)

['Manute Bol']


## Referencia

1. [Quickstart tutorial-numpy](https://docs.scipy.org/doc/numpy/user/quickstart.html)
2. [Python Pandas Tutorial: A Complete Introduction for Beginners](https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/)