# Librerias Científicas en Python

## Numpy

<img align="center" width="300" height="300" src="https://3.bp.blogspot.com/-mPhBM7dzjaI/XGiiOfM_RzI/AAAAAAAABmk/BW4RUH033GAWDbmx8SXT7FEgzY9R8TjwQCLcBGAs/s640/1200px-NumPy_logo.svg.png">

[Numpy](https://numpy.org/) proporciona un objeto de matriz multidimensional de alto rendimiento (tensores) y herramientas para trabajar con ellas. 
Además de sus usos científicos, NumPy también puede manipular datos en muchas dimensioneslo que permite integrarse de forma transparente y rápida con una amplia variedad de bases de datos.

In [None]:
import numpy as np

Una matriz numpy es una cuadrícula de valores, __del mismo tipo__, y es indexada por una tupla de enteros no negativos. El número de dimensiones es el rango de la matriz; La forma de una matriz es una tupla de enteros que da el tamaño de la matriz a lo largo de cada dimensión.

In [None]:
a = np.array([48, 12, 18])  # Rango 1
print(type(a)) 
print(a.shape)

Se acceden a los elementos de la matriz de la misma forma que en una lista. Es posible modificar lo elementos de una matriz

In [None]:
a[0] = 2
print(a)                 

Se define un array de rango 2

In [None]:
b = np.array([[2,3,5],
              [11,13,17]]
            )
print(b.shape)
print('\nSlicing del Vector:')
print(b[0, 0], b[0, 1], b[1, 0])

Array de rango 3

In [None]:
M = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
    ]) 
print(M)

Numpy tiene funciones para crear matrices especiales

In [None]:
a = np.zeros((3,3)) # Crea una matriz de ceros
b = np.ones((3,3)) # Crea una matriz de unos
c = np.full((2, 2), 10, dtype=np.int) # Crea una matriz constante
d = np.eye(3) # Crea una matriz identidad de 3x3
e = np.random.randint(10, size=(3, 4)) #Crea una matriz aleatoria de 3x4

### Operaciones Matemáticas en arrays

Las funciones matemáticas básicas funcionan de manera **element-wise**

In [None]:
x = np.array([[1,2],
              [3,4]], 
             dtype=np.float64)
y = np.array([[5,6],
              [7,8]], 
             dtype=np.float64)

#### Suma

In [None]:
print(x + y)
print()
print(np.add(x, y))

#### Resta

In [None]:
print(x - y)
print()
print(np.subtract(x, y))

#### Multiplicación

In [None]:
print(x * y)
print()
print(np.multiply(x, y))

#### División

In [None]:
print(x / y)
print()
print(np.divide(x, y))

#### Multiplicación Matricial

In [None]:
print(x.dot(y))
print(np.dot(x, y))
print(x @ y) # Versión 3.5 de Python

#### Transposición Matricial

In [None]:
print(x.T) 

#### Determinante de una Matriz

In [None]:
print(np.linalg.det(x))

#### Inversa de una Matriz

In [None]:
np.linalg.inv(x)

Para más funciones matemáticas consulte [acá](https://numpy.org/doc/stable/reference/routines.math.html) y para las funciones de algebra lineal consulte [acá](https://numpy.org/doc/stable/reference/routines.linalg.html)

### Reshape

Esta función devuelve un nuevo array con los datos del array cedido como primer argumento y el nuevo tamaño indicado:

In [None]:
a = np.arange(10,100,10)
print(a)
print()

M = np.reshape(a, [3, 3])
print(M)

In [None]:
print('Shape de a')
print(np.shape(a))
print('\nNuevo shape de b')
b = np.reshape(a,[1,9])
print(np.shape(b))

### Broadcasting

Las operaciones básicas en arrays de Numpy __element-wise__. Esto funciona con arreglos del mismo tamaño. Sin embargo, es posible hacer operaciones con matrices de diferentes tamaños si Numpy puede transformar estos arreglos en arreglos del mismo tamaño: esta conversión se llama __broadcasting__.

In [None]:
x = np.array([[1,2,3], 
              [4,5,6], 
              [7,8,9], 
              [10, 11, 12]])
v = np.array([1, 0, 1])

y = x + v  # Añada v a cada fila de x mediante broadcasting
print(y)

## Ejercicios:

Sean las matrices:


$$ B = 
\left(\begin{array}{ccc} 
1 & 2 & -3\\
3 & 4 & -1\\
\end{array}\right)
, A= 
\left(\begin{array}{ccc} 
2 & -5 & 1\\
1 & 4 & 5\\
2 & -1 & 6\\
\end{array}\right)
$$

Calcule e imprima cada una de las siguientes operaciones:

* $BA$ 


* $AB^T$


* $Ay$

## Pandas

<img align="center" width="300" height="300" src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png">

[Pandas](https://pandas.pydata.org/) es una extensión de NumPy para manipulación y análisis de datos. En particular, ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales.

Pandas es muy adecuado para muchos tipos diferentes de datos:

- Datos tabulares con columnas, tablas de SQL o una hojas de cálculo de Excel
- Datos de series de tiempo ordenados y no ordenados.
- Datos de matriz con etiquetas de fila y columna

Pandas ofrece las siguientes estructuras de datos:

* __Series__: Son arrays unidimensionales con indexación (arrays con índice o etiquetados), similar a los diccionarios. Pueden generarse a partir de diccionarios o de listas.
 
* __DataFrame__: Son estructuras de datos similares a las tablas de bases de datos relacionales como SQL.
 
* __Panel, Panel4D y PanelND__: Estas estructuras de datos permiten trabajar con más de dos dimensiones. 

Pandas se suele usar en:

- Manejo de __datos faltantes__.
- Cambios de tamaño: las columnas se pueden __insertar y eliminar__ de DataFrame y objetos de dimensiones superiores.
- __Feature Engineering__
- Cargue de __archivos planos__, archivos de Excel, bases de datos y formato __HDFS__.
- __Series de tiempo__: generación de intervalos de fechas y conversión de frecuencia, cambio de fecha operadores de rezago, etc.

![wget](https://drive.google.com/uc?export=view&id=1mbFgZLmt0qD80FleVEj4cpxh5oO3ocvQ)

In [None]:
import numpy as np
import pandas as pd

### Series

La estructura de datos de Series en Pandas es una matriz etiquetada unidimensional.

- Los datos de la matriz pueden ser de cualquier tipo (números enteros, cadenas, números de punto flotante, objetos Python, etc.).

- Los datos dentro de la matriz son homogéneos.

- Los datos pueden ser listas, arrays, o un diccionario.

In [None]:
s1 = pd.Series(np.random.randint(1, high=5, size=100, dtype='l'))
s2 = pd.Series(np.random.randint(1, high=4, size=100, dtype='l'))
s3 = pd.Series(np.random.randint(10000, high=30001, size=100, dtype='l'))

d = pd.concat([s1, s2, s3], axis=1)
d.rename(columns = {0: 'bedrs', 1: 'bathrs', 2: 'price_sqr_meter'}, inplace=True)

data.head()

In [None]:
print(d.shape)
print(d.dtypes)

### DataFrames

La estructura de datos de DataFrame en Pandas es una matriz etiquetada bidimensional.

- Los datos de la matriz pueden ser de cualquier tipo (números enteros, cadenas, números de punto flotante, objetos Python, etc.).
- Los datos dentro de cada columna son homogéneos
- De forma predeterminada, Pandas crea un índice numérico para las filas en la secuencia 0 ... n

In [None]:
data = pd.DataFrame(d)
data

### Lectura de Archivos Externos

Mediante la funcion [read_csv](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) es posible cargar archivos planos separados por comas. Análogamente __read_table__ carga archivos separados por tabulaciones

##### Data Frame 1 

Lectura de ordenes en un restaurante, el archivo de datos esta cargado en el [link](http://bit.ly/chiporders)

In [None]:
orders = pd.read_table('http://bit.ly/chiporders')
orders.head()

##### Data Frame 2

Lectura un archivo local de avistamiento de OVNIS

In [None]:
ufo = pd.read_table('data/ufo.csv', sep=",")
ufo.head()

In [None]:
ufo.dtypes

In [None]:
ufo['City'].head() # Seleccion de una columna con notacion de nombre

In [None]:
ufo.City.head() # Seleccion de una columna con notacion de objeto

La notacion de brackets [] siempre funciona mientras que la notación del punto tiene limitaciones:

- La notación de puntos no funciona si hay espacios en el nombre de la serie
- La notación de puntos no funciona si la Serie tiene el mismo nombre que un método o atributo de DataFrame (como 'head' o 'shape')
- No se puede utilizar la notación de puntos para definir el nombre de una nueva serie

##### Data Frame 3

In [None]:
movies = pd.read_csv('data/imdb.csv')
movies.head()

#### Descriptivos iniciales

In [None]:
movies.describe()

In [None]:
movies.shape

Nota: Los __métodos__ terminan con paréntesis, mientras que los __atributos__ no

In [None]:
movies.dtypes

In [None]:
# describir el método para resumir sólo las columnas 'object'
movies.describe(include=['object'])

Ahora vamos a obtener el numero de peliculas por clasificación de contenido ( R, PG-13, PG.. etc):

In [None]:
movie_ratings = movies['content_rating'].value_counts()

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.rcParams['figure.figsize'] = (15, 5)

movie_ratings.plot(kind='bar')

#### Renombrar Columnas

Reemplazar todos los nombres de columnas sobrescribiendo el atributo 'columns'

In [None]:
ufo_cols = ['city', 'colors_reported', 'shape_reported', 'state', 'time']
ufo.columns = ufo_cols
ufo.head()

Renombrar dos de las columnas mediante el método 'rename'

In [None]:
ufo.rename(columns={'colors_reported':'Colors_Reported_test', 'shape_reported':'Shape_Reported_test'}, inplace=True)
ufo.head()

#### Elminar Columnas

La columna __Colors_Reported_test__ solo tiene datos ausentes por lo que se debe eliminar. Para remover una columna se usa el método __drop__ :

In [None]:
ufo.drop('Colors_Reported_test', axis=1, inplace=True) #(axis=1 se refiere a columnas)
ufo.head()

In [None]:
# Eliminar varias columnas a la vez
ufo.drop(['state', 'time'], axis=1, inplace=True)
ufo.head()

#### Eliminar Filas

In [None]:
# Eliminar varias filas a la vez (axis=0 se refiere a filas)
ufo.drop([0, 1], axis=0, inplace=True)
ufo.head()

#### Ordenar Dataframes

Si se quiere ordenar se usa el metodo sort_values()

In [None]:
movies.title.sort_values(ascending=False).head() # orden descendente

Ordenar todo el DataFrame por la serie 'title'. Nótese que mantiene el idice de la fila

In [None]:
movies.sort_values('title').head()

#### Filtrar Dataframes

Se quiere filtrar las filas de DataFrame para mostrar sólo películas con una "duración" de al menos 200 minutos.

In [None]:
is_long = movies.duration >= 200
is_long.head()

In [None]:
movies[is_long].head()

In [None]:
movies[movies.duration >= 200].head()

Ahora se quiere filtrar el DataFrame original para mostrar películas con un 'genre' de 'Crime' o 'Drama' o 'Action' 

In [None]:
# Utiliza el operador '|' para especificar que una fila puede coincidir con cualquiera de los tres criterios
movies[(movies.genre == 'Crime') | (movies.genre == 'Drama') | (movies.genre == 'Action')].head()

# O de forma equivalente, use el método 'isin'
movies[movies.genre.isin(['Crime', 'Drama', 'Action'])].head()

#### Agrupaciones en Dataframes

In [None]:
drinks = pd.read_csv('http://bit.ly/drinksbycountry')
drinks.head()

In [None]:
# Calcula el rpmedio de cervezas servidas solo en paises del continente africano
drinks[drinks.continent=='Africa'].beer_servings.mean()

In [None]:
# Calcula el promedio de cervezas servidas por cada continente
drinks.groupby('continent').beer_servings.mean()

In [None]:
# Promedio general de todas las variables por continente
drinks.groupby('continent').mean()

In [None]:
# Diagrama de barras de lado a lado del DataFrame de arriba

drinks.groupby('continent').beer_servings.mean().plot(kind='bar')

#### Manejando Valores ausentes o Missing Values

¿Qué significa "NaN"? 

- "NaN" no es una cadena, sino que es un valor especial: __numpy.nan__. 
- Representa "Not a number" e indica un valor faltante. 
- __read_csv__ detecta los valores perdidos (de forma predeterminada) al leer el archivo y los reemplaza con este valor especial.

In [None]:
# Leyendo el dataset de reportes de avistamientos en un dataframe
ufo = pd.read_csv('data/ufo.csv')
ufo.tail()

In [None]:
# Si color reported es null retornara True
ufo['Colors Reported'].isnull().tail()

In [None]:
# Caso contrario retornara False con notnull()
ufo['Colors Reported'].notnull().tail()

In [None]:
# Nos devuelve el dataframe con las columnas vacias de City
ufo[ufo.City.isnull()].head()

In [None]:
# Devuelve el numero de filas y columnas
ufo.shape

In [None]:
# Si faltan 'algun (any)' valor en una fila entonces elimina esa fila esa fila
ufo.dropna(how='any').shape

In [None]:
# Si faltan todos(all) los valores en una fila, entonces elimina esa fila (no se eliminan en este caso)
ufo.dropna(how='all').shape

In [None]:
# Si falta algun valor en una fila (teniendo en cuenta sólo 'City' y 'Shape Reported'), entonces se elimina esa fila
ufo.dropna(subset=['City', 'Shape Reported'], how='any').shape

In [None]:
# Si "all" los valores estan faltantes en una filla (considerando solo 'City' y 'Shape Reported') entonces elimina esa fila
ufo.dropna(subset=['City', 'Shape Reported'], how='all').shape

In [None]:
# 'value_counts' no incluye missing values por defecto
ufo['Shape Reported'].value_counts().head()

In [None]:
# Incluye explícitamente los missing values
ufo['Shape Reported'].value_counts(dropna=False).head()

In [None]:
# Rellenar los valores faltantes con un valor especificado
ufo['Shape Reported'].fillna(value='VARIOUS', inplace=True)

In [None]:
# Confirmar que los valores faltantes fueron rellenados
ufo['Shape Reported'].value_counts().head()

### Series de Tiempo

In [None]:
# Leyendo el dataset de reportes de avistamientos en un dataframe
ufo = pd.read_csv('../data/ufo.csv')
ufo.head()

In [None]:
ufo.dtypes

In [None]:
# Convierte 'Time' a un datetime format
ufo['Time'] = pd.to_datetime(ufo.Time)
ufo['Time'].head()

In [None]:
ufo.dtypes

In [None]:
# Extraer el año de una variable de fecha
ufo['Year'] = ufo.Time.dt.year
ufo['Year'].head()

In [None]:
# Grafica el número de informes de OVNI por año

ufo.Year.value_counts().sort_index().plot()