
# <center>  Librerías para Ciencia de Datos </center>

## Descripción
En esta lección se trabajará con las principales librerías enfocadas en Ciencia de Datos

## Contenido

* Arreglos n-dimensionales y operaciones con NumPy
* Series y Dataframes con Pandas
* Manipulación de DataFrames con Pandas

## Audiencia

* Audiencia primaria: TODOS
* Audiencias adicionales: TODOS

## Requisitos previos

* Python crash course
* Estructuras de control y funciones
* Conocimientos básicos de programación
* Navegador web: Chrome
* Se puede utilizar la versión CE de Databricks, experimentará pequeños delays.

### Programación orientada a objetos en Python

#### Clases / Objetos
En la verdadera programación orientada a objetos (OOP), el desarrollador escribe código en torno a cosas llamadas objetos. Un objeto (o una clase) agrupa datos y funciones que operan sobre esos datos. Es posible que conozca esta terminología de *C++* y otros lenguajes.

#### Módulos
Los módulos en Python contienen grandes cantidades de código que se encuentran relacionados. En la mayoría de los casos, poseen varias clases y funciones que abordan una necesidad particular. 

#### Librerías / Bibliotecas
Las librerías pueden contener múltiples módulos que van juntos. Las librerías generalmente tiene una estructura de directorio específica.

### Importar Módulos
Todo notebook debería empezar con una sección de código que importe los **módulos** que se emplearán.

A continuación importaremos el módulo **numpy** y **pandas**. Estas son librerías comúnmente empleadas en el área de la Ciencia de Datos. 

De manera general, utilizaremos la estructura `import MODULE_NAME as MODULE_NICKNAME` para importar cualquier módulo que la programación requiera.

In [0]:
import numpy as np
import pandas as pd

### Buena práctica: verificar versión actual de librerías

In [0]:
print('** Versiones Actuales | Requeridas **')
print('NumPy: Version Actual:', np.__version__)
print('Pandas: Version Actual:', pd.__version__)

## 1. Arreglos n-dimensionales y operaciones con NumPy
NumPy es una librería optimizada para programación numérica a través de procesamiento de datos en arreglos multidimensionales. <br>

Optimiza operaciones tradicionales que se realizan a través de bucles o tipos de datos primitivos, gracias a su mecanismo de procesar las operaciones a través de lotes en códigos optimizados en C y Fortran.

[NumPy](https://numpy.org/devdocs/index.html) define estructuras de datos de tipo *ndarrays* : arreglos n-dimensionales.
### 1.1 Arreglos en 1D:

In [0]:
# Emplear listas para la creación de ndarrays, por medio de la función np.array
A = np.array([1, 2, 3, 5])
print(A)
print(type(A))

In [0]:
# Métodos para analizar propiedades en un ndarray
print ('Forma (filas, columnas): ', A.shape)
print ('Número de dimensiones', A.ndim)
print ('Tipo de dato: ', A.dtype)

Selección de elementos por indexado o slicing en un vector

In [0]:
print(A[0])
print(A[:3])

Operaciones aritméticas `(+ , - , *, /, //, **, %)`  en los ndarrays son de elemento a elemento con arreglos del mismo tamaño (caso contrario se aplica **broadcasting**)

In [0]:
A

In [0]:
# Operaciones entre ndarrays
A ** A

### 1.2 Arreglos en 2D:

In [0]:
# Emplear una lista de listas para la creación de un ndarray de dos dimensiones
T = np.array([[3, 4, 2], 
              [6, 1, 9],
              [5, 7, 8]])
print(T)

In [0]:
# Métodos para analizar propiedades en un ndarray
print ('Forma (filas,cols): ', T.shape)
print ('Número de dimesiones:', T.ndim)
print ('Tipo dato de elementos: ', T.dtype)

Selección de elementos por indexado y slicing en una matriz

In [0]:
# Selección de un elemento en una matriz: ndarray[filas][columnas]
print(T[0][0])

In [0]:
# Selección de varios elementos en una matriz: ndarray[filas, columnas]
print(T[0:2, 0:2])

### 1.3 Funciones básicas en NumPy

Podemos especificar el tipo de dato requerido a través del parámetro **dtype**:

In [0]:
#Creación de ndarrays con valores de cero, empleando la función np.zeros
cero_array = np.zeros((2,3), dtype = float)
print(cero_array)

In [0]:
#Creación de ndarrays con valores de cero, empleando la función np.ones
uno_array = np.ones((3,4), dtype = int)
print(uno_array)

In [0]:
#Creación de un ndarray con un rango de valores, empleando la función np.arange(inicio, fin-1, step)
rango = np.arange(0, 1, 0.1)
print(rango)

### 1.4 Métodos útiles para aplanar y cambiar la forma de un ndarray

In [0]:
# El método reshape permite cambiar la forma de un ndarray
rango_reshape = rango.reshape(5, 2)
print(rango_reshape)

In [0]:
# El método ravel permite aplanar un ndarray
rango_flat = rango_reshape.ravel()
print(rango_flat)

### 1.5 Funciones estadísticas en NumPy

Al ser arreglos que pueden tener 1 o más dimensiones, las funciones pueden involucrar todos los elementos, o los elementos por cada una de las dimensiones.<br>
A continuación algunas de las funciones más utilizados en NumPy (siendo X un ``ndarray``):
    - Suma: np.sum(X)
    - Raíz cuadrada: np.sqrt(X)
    - Promedio: np.mean(X)
    - Varianza: np.var(X)
    - Ordenamiento: np.sort(X)
    - Maximo, Minimo: np.max(X), np.min(X)
    - Indice de posición del valor Maximo: np.argmax(X)
    - Indice de posición del valor Minimo: np.argmin(X)

In [0]:
#La función np.random.randint genera números aleatorios enteros: np.random.randint(inicio, fin-1, (filas, columnas))
np.random.seed(0)
A = np.random.randint(1,5,(3,5)) 
print(A)

In [0]:
#SUMA TOTAL
print(np.sum(A))

In [0]:
#SUMA POR COLUMNAS
print(np.sum(A, axis = 0))

In [0]:
#SUMA POR FILAS
print(np.sum(A, axis = 1))

#### 1.6 Broadcasting

Permite realizar operaciones aritméticas entre ndarrays de distintos tamaños

![](https://www.astroml.org/_images/fig_broadcast_visual_1.png)

In [0]:
# Operación de un ndarray con un escalar
np.arange(3) + 5

## 2. Series y Dataframes con Pandas

Nos gustaría una estructura de datos que pueda almacenar fácilmente variables de diferentes tipos, que almacene nombres de columnas, y en la que podamos hacer referencia por nombre de columna así como por posición indexada. Y sería bueno si esta estructura de datos viniera con funciones integradas que podamos usar para manipularla.

`Pandas` es una librería que hace todo esto! La librería está construida sobre `numpy`.

Existen dos objetos `pandas` básicos, *series* y *dataframes*, que se pueden considerar como versiones mejoradas de arreglos 1D y 2D `numpy`, respectivamente. 

Para referencia `pandas` [cheatsheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf) y `pandas` [documentación](https://pandas.pydata.org/pandas-docs/stable/).

**Importancia de Pandas**
*    Lectura y escritura de datos 
*    Modificación de índices y etiquetas de las columnas
*    Trabajo con fechas
*    Ordenamiento, agrupación y tratamiento de valores faltantes (curación de datos)
    
Para importar este módulo utilizamos el comando: ```import pandas as pd```

### 2.1 Pandas - Series

Una Serie es una colección de observaciones de una variable individual. <br>

Se puede pensar en una Serie como los datos en un arreglo de 1D.

En la serie ``items``, cada uno de los índices del 0 al 4 son los identificadores de 5 productos diferentes y los valores float representan el precio unitario correspondiente a cada uno.

In [0]:
# Usamos el constructor pd.Series
items = pd.Series(data = np.array([2, 3, 8, 6, 7]) * 10, name = 'precios', index = ['veg1','cer1','frut1','frut2','frut3'])
print(items)

**Importante**: las Series están implementadas sobre arreglos NumPy. Esto les permite soportar operaciones válidas con estos arreglos. En el ejemplo tenemos el caso de la multiplicación de un arreglo de 1D por un escalar.

Método útiles de las Series de Pandas

In [0]:
print('Obtener los índices:', items.index)
print('Obtener los valores:', items.values)
print('Obtener tipo de dato:', items.dtypes)

### 2.2 Pandas - DataFrames: creación, propiedades y funciones

Un DataFrame de Pandas es un objeto que permite guardar datos en varias columnas que estan mutuamente relacionadas. 

Podemos pensar un DataFrame como una hoja de datos de Excel altamente optimizada. Los DataFrames estan compuestos por filas y columnas.

Pandas posee múltiples funciones para cargar varios tipos de archivos: pd.read_csv, pd.read_excel, pd.read_json, pd.read_parquet, etc.


### Lectura de datos en un DataFrame

A continuación, iniciaremos leyendo los datos del archivo en formato csv en un DataFrame. <br>

Este archivo contiene una muestra de datos de 'Penn World Table' con diferentes indicadores socioeconómicos de los países en diferentes años. 

<a href='https://storage.googleapis.com/datasets-academy/Track%20Data%20Science/01_Intro_Python/PWT91.csv'>
  Link para descargar el dataset PWT</a>

**Diccionario de datos:**

**countrycode:** Código estándar ISO 3166-1 alfa-3, proporciona códigos para los nombres de países por medio de tres letras<br>
**country:** Nombre del país <br>
**year:** Año <br>
**rgdpo:** Producto Interno Bruto Real calculado mediante la PPA (pariedad de poder adquisitivo) con año base 2011 (en millones dólares) <br>
**pop:** Población (millones de personas) <br>
**emp:** Personas de 15 años y más que durante la semana trabajaron incluso solo durante una hora, o no estaban en el trabajo pero tenían un trabajo o negocio del que estaban temporalmente ausentes (millones de personas) <br>
**avh:** Promedio de horas anuales trabajadas por personas que cumplan la condición de la variable emp <br>
**hc:** Índice de capital humano por persona, que se relaciona con los años promedio de escolaridad y el retorno a la educación

In [0]:
# Nomeclatura estándar para el nombre de un Dataframe se abrevia con df
df = pd.read_csv(filepath_or_buffer = 'https://storage.googleapis.com/datasets-academy/Track%20Data%20Science/01_Intro_Python/PWT91.csv', 
                 sep = ',', 
                 decimal = '.')

# El método head permite observar las primeras 5 filas del dataframe
df.head()

**Fuente**: Feenstra, Robert C., Robert Inklaar and Marcel P. Timmer (2015), "The Next Generation of the Penn World Table" American Economic Review, 105(10), 3150-3182, available for download at www.ggdc.net/pwt

Lo que tenemos ahora es una hoja de cálculo con filas indexadas y columnas nombradas, llamada `df`. **Importante**: Las columnas son *series de pandas*.

In [0]:
# Comprobamos las dimensiones del Dataframe (filas, columnas)
df.shape

In [0]:
print(type(df))

La función `pd.read_csv` infiere el tipo de datos por defecto

In [0]:
# Comprobamos el tipo de las variables en el dataframe
print(df.dtypes)

Podemos cambiar el tipo de las columnas:
- Convertir la columna year para que sea tipo datetime, para una mayor información sobre los tipos de [formatos fecha](https://strftime.org/)
- Convertir la columna pop (población)

In [0]:
df['year']

In [0]:
df['year'] = pd.to_datetime(df['year'], format = '%Y')
df['pop']  = df['pop'].fillna(0).astype(int)
df.dtypes

## 3. Manipulación de DataFrames con Pandas

### Selección de filas y columnas de un DataFrame utilizando ```iloc```
Cuando queremos seleccionar filas y columnas de acuerdo a la posición del índice, utilizamos el atributo:<br>
```iloc[indiceInicioFilas:indiceFinFilas-1 , indiceInicioCols:indiceFinCols-1]```

In [0]:
#Seleccion de las filas por posición y las tres primeras columnas
df.iloc[2300:2303, :3]

### Selección de filas y columnas de un DataFrame utilizando ```loc```
Cuando queremos seleccionar filas y columnas de acuerdo a una mezcla del nombre de los índices y nombres de las columnas (etiquetas), utilizamos el atributo: ```loc[]```

In [0]:
df_seleccion = df.loc[:, ['countrycode', 'year', 'pop', 'rgdpo']]
df_seleccion.head()

### Renombrar columnas en un DataFrame

In [0]:
df_seleccion.rename(columns = {'countrycode': 'codigo_pais', 'pop': 'pob_millones', 'rgdpo': 'pib_real_millones'}, inplace = True)
df_seleccion.tail()

>**Ejercicio 1:** Utilizando el método `rename` y la opción `inplace=False`, cambie el nombre de la columna `codigo_pais` por `codigo_iso` en el dataframe `df_seleccion`. Utilizando el método `columns` verifique si el cambio de nombre se grabó de forma permanente en `df_seleccion`.

In [0]:
#Su código aquí

In [0]:
print('Resolución;')
df_seleccion.rename(columns = {'codigo_pais': 'codigo_iso'}, inplace = False)
df_seleccion.columns

### Filtrado del DataFrame

In [0]:
df_seleccion['year']

In [0]:
# Condición booleana de una Serie de Pandas (indexado condicional)
df_seleccion['year'] > np.array('2015-01-01', dtype=np.datetime64)

In [0]:
# Filtramos por filas a partir de una condición en la columna year (fechas mayores a 2015)
df_filtrado = df_seleccion.loc[df_seleccion['year'] > np.array('2015-01-01', dtype=np.datetime64)]
df_filtrado

>**Ejercicio 2:** Generar un nuevo dataframe llamado `df_mayor_pob` realizando un filtrado de las filas del dataframe `df_filtrado`, si la población es mayor a 200 millones de habitantes.

In [0]:
# Su código aquí


In [0]:
df_mayor_pob = df_filtrado.loc[df_filtrado['pob_millones'] > 200]
df_mayor_pob

### Creación de nuevas columnas

In [0]:
df_percapita = df_mayor_pob.copy()
df_percapita.loc[:, 'pib_percapita'] = df_percapita['pib_real_millones'] / df_percapita['pob_millones']
df_percapita

### Ordenamiento en el DataFrame

In [0]:
df_percapita.sort_values(by='pib_percapita', ascending = True)

### Agregación en DataFrames

#### Uso la función groupby

Busca agrupar grandes cantidades de datos y aplicar operaciones de cálculo en estos grupos

In [0]:
# Agregamos los datos mediante empleando el promedio
df_agrupado = df_percapita.groupby(by = 'codigo_pais')\
                          .agg('mean')
df_agrupado

>**Ejercicio 3:** Generar un nuevo dataframe llamado `df_final` realizando un agrupamiento por el `codigo_pais` obteniendo los valores máximos y mínimos `['max', 'min']` del dataframe `df_percapita`

In [0]:
#Su código aquí


In [0]:
df_final = df_percapita.groupby(by = 'codigo_pais').agg(['max', 'min'])
df_final