In [2]:
import numpy as np

# MODULO 3 - Biblioteca Numpy 3

## 3.1. Missing Values
¿Qué sucede con las funciones y métodos cuando el array  tiene missing values?
Están diseñadas para propagar el valor al resultado ﬁnal.      
Para ignorar los missing values se deben usar las funciones  **nansum**, **nanprod**, **nanmean**, **nanstd**, **nanvar**, **nanmin**,  **nanmax**, etc. Estas funciones no tienen métodos equivalentes.

In [3]:
a= np.array([1, 1, np.nan, 1])
a

array([ 1.,  1., nan,  1.])

In [4]:
np.nanmean(a), np.nanmax(a), np.nansum(a)

(1.0, 1.0, 3.0)

In [5]:
# isfinite se utiliza para verificar si los valores son distintos a 'nan'
np.isfinite(a)

array([ True,  True, False,  True])

# MODULO 3 - Biblioteca Numpy 4

## 4.1.- Álgebra Lineal
Hemos visto hay numerosas operaciones que se  pueden hacer con arrays. Algunas son elemento a  elemento, otras son sobre el conjunto de los datos, o  en alguno de los ejes.
Además de todo eso, Numpy implementa muchas  operaciones de álgebra lineal, como producto escalar  entre vectores, producto matricial, cálculo de  determinante, matriz inversa, etc.

### 4.1.1.- Producto Escalar
Recordemos qué es el producto escalar de  dos vectores. Si tenemos los vectores v y w el  producto escalar es:
![imagen](producto_escalar.png)

In [6]:
v = np.array([5, 3, 2, 6])
w = np.array([1, 2, 0, 8])

print(v.dot(w))
print (v @ w)

59
59


### 4.1.2.- Producto Matricial
El método **dot** y su correspondiente operador **@**  se pueden usar también para efectuar productos  matriciales, en donde cada elemento de la nueva  matriz es el producto escalar de una ﬁla de la  primer matriz y una columna de la segunda. La  cantidad de columnas de la primer matriz debe  ser igual a la cantidad de ﬁlas de la segunda.
![imagen](matricial.png)

In [7]:
A = np.array([[2, 5, 3], [7, 1, 4]])
print(A)
print('_________________________')
B = np.array([[3, 2], [9, 6],[5, 8]])
print(B)

[[2 5 3]
 [7 1 4]]
_________________________
[[3 2]
 [9 6]
 [5 8]]


In [8]:
A.dot(B)

array([[66, 58],
       [50, 52]])

4.1.3.- Matriz Transpuesta
Cuando se trabaja con matrices es muy usual tener que obtener la matriz transpuesta. Para obtenerla podemos usar el método transpose o el atributo T.

In [9]:
A = np.array([[2, 5, 3], [7, 1, 4]])
print(A)

[[2 5 3]
 [7 1 4]]


### 4.1.4.-  Determinate de una Matriz 
Numpy tiene un módulo dedicado a álgebra  lineal: el módulo ***linalg***, donde se implementan  muchas funciones de álgebra lineal. Una de ellas  es det, que calcula el determinante de una  matriz cuadrada.

In [11]:
M = np.array([[0, 7, 0], [0, 2, 6], [4, 3, 2]])
print(M)

[[0 7 0]
 [0 2 6]
 [4 3 2]]


In [12]:
np.linalg.det(M)

167.99999999999997

## 1.1. Que es Pandas
Pandas es un módulo muy popular para manipulación  y análisis de datos. Está hecho sobre Numpy y provee  estructuras de datos diseñadas para trabajar con datos estructirados(tablas). A diferencia de un array de numpy,  pandas permite trabajar con distintos tipos de datos  para cada columna asemejándose más a lo que se usa  en bases de datos relacionales.
Tiene dos estructuras de datos: **la serie** y **el  dataframe**.

El primero es un arreglo unidimensional  etiquetado y con un tipo de dato determinado.

El  dataframe es una estructura bidimensional similar a  una tabla que admite etiquetas para ﬁlas y columnas.  Cada columna de un dataframe es una serie.

## 1.2. Series
La **serie** es una estructura de datos unidimensional en donde  cada dato tiene además una etiqueta. 
Es una estructura  mutable a la que no sólo se le puede cambiar sus elementos, si no que además se le pueden agregar y quitar elementos.

Se reﬁere a las etiquetas colectivamente como **index**, y las  etiquetas no tienen por qué ser únicas.      
Estas etiquetas  añaden funcionalidad para manipular los datos. Para crear  una serie se usa el constructor **pd.Series()** que es capaz de  convertir a serie distintas estructuras como listas,  diccionarios, arrays, etc.      
También tiene un atributo nombre,  que es el que se utiliza como etiqueta de la columna cuando  forma parte de un dataframe.

In [13]:
import pandas as pd
import numpy as np

In [14]:
pd.Series([5, 7, 2])

0    5
1    7
2    2
dtype: int64

In [15]:
pd.Series([5, 7, 2], index = ['a', 'b', 'c'], dtype = 'int8', name = 'numeros')

a    5
b    7
c    2
Name: numeros, dtype: int8

In [16]:
pd.Series({'Martin': 8, 'Juan': 9, 'Lucia': 7}, name = 'notas')

Martin    8
Juan      9
Lucia     7
Name: notas, dtype: int64

## 1.3. Dataframe
El dataframe es la estructura más utilizada de pandas. Es  una estructura bidimensional tipo tabla con etiquetas para  ﬁlas y columnas, lo que da más ﬂexibilidad a la hora de  manipular los datos.      
Cada columna puede tener su propio  tipo de dato.
Es mutable tanto en los datos como en su tamaño, por lo que  se pueden añadir o quitar ﬁlas y columnas.      
Cada columna es  una serie en donde todas las series tienen el mismo index.
Para crear  una serie se usa el constructor **pd.DataFrame()** que es capaz de  convertir a serie distintas estructuras como listas,  diccionarios, arrays.

In [17]:
# desde listas anidadas

pd.DataFrame([[0, 1, 2], [3, 3, 5], [6, 7, 8]])

Unnamed: 0,0,1,2
0,0,1,2
1,3,3,5
2,6,7,8


In [18]:
# desde listas anidadas y definiendo index y columnas

pd.DataFrame([[0, 1, 2], [3, 3, 5], [6, 7, 8]], index = ['a', 'b', 'c'], columns = ['lunes', 'martes', 'miercoles'] )

Unnamed: 0,lunes,martes,miercoles
a,0,1,2
b,3,3,5
c,6,7,8


In [19]:
# desde un array de numpy

array = np.random.randint(0, 50, (3,5))
array

array([[45,  2, 29, 18, 44],
       [37, 22, 23, 49, 21],
       [33, 40, 16, 46, 39]])

In [20]:
pd.DataFrame(array)

Unnamed: 0,0,1,2,3,4
0,45,2,29,18,44
1,37,22,23,49,21
2,33,40,16,46,39


In [21]:
# desde un diccionario

pd.DataFrame({'Columna 1': [1, 2, 3], 'Columna 2': [4, 5, 6]}, index = ['A', 'B', 'C'])

Unnamed: 0,Columna 1,Columna 2
A,1,4
B,2,5
C,3,6


## 1.4. Lectura de archivos con Pandas
Pandas tiene numerosas funciones para leer diferentes  formatos de archivos y construir dataframes a partir de ellos.    
Esto facilita enormemente la tarea de importar los datos.
Entre los formatos que se pueden leer podemos encontrar  csv, excel, json, html, sql, entre otros.
Los nombres de estas funciones empiezan con el preﬁjo  **read_**, por ejemplo, **pd.read_csv**, **pd.read_excel**, etc.    
Cada una de estas funciones tiene numerosos parámetros  para controlar cómo se realiza la lectura si es necesario.

Para practicar las funcionalidades que ofrece pandas vamos a  trabajar con un dataset muy conocido, el del Titanic.    
En el  material del Alumni se provee el archivo **“titanic.csv”**, que  vamos a abrir con la función **read_csv**.    
El primer parámetro  puede ser un string con la ruta absoluta o relativa al archivo.  Si el archivo se encuentra en el mismo directorio que la  jupyter notebook, se puede poner simplemente el nombre  del archivo. Además, se pueden pasar URLs de archivos csv.
La función va a crear un DataFrame a partir del archivo. En  general no hace falta especiﬁcar más parámetros pero si es  necesario se puede controlar cada detalle de cómo se realiza  la lectura del archivo.

In [23]:
data = pd.read_csv('titanic.csv')
data

FileNotFoundError: [Errno 2] No such file or directory: 'titanic.csv'

## 1.5. Explorando el Dataframe

Se pueden visualizar ﬁlas del comienzo del dataframe con el  método **head**, y del ﬁnal con el método **tail**. En ambos se  puede especiﬁcar la cantidad de ﬁlas a imprimir.    
El método  **info** imprime información sobre un DataFrame que incluye el  tipo de índice y los tipos de columna, los valores no nulos y el  uso de memoria.

También se puede ver los atributos dtype (tipo de dato de  cada columna), shape (dimensiones del dataframe),  size  (cantidad de elementos). Las etiquetas se pueden ver con los  atributos  index y columns, que además permiten  reasignarlos para modiﬁcar las etiquetas. El atributo values  devuelve una representación del dataframe como un array de  numpy.

In [None]:
data.head(12)


In [None]:
data.tail(10)