

<div style="text-align: center; line-height: 0; padding-top: 9px;">
  <img src="https://storage.googleapis.com/datasets-academy/public-img/notebooks/headers/databits-header-notebook.png" alt="Databricks Learning" style="width: 100%;">
</div>



# <center>  Librerías para Ciencia de Datos </center>

## Descripción
En esta lección se trabajará con las principales librerías enfocadas en Ciencia de Datos

## Contenido

* Arreglos n-dimensionales y operaciones con NumPy
* Series y Dataframes con Pandas
* Manipulación de DataFrames con Pandas


## Audiencia

* Audiencia primaria: Desarrolladores, Ingenieros y Científicos de datos y Analistas de BI

## Requisitos previos

* Conocimientos básicos de programación
* Navegador web: Chrome

<img alt="Caution" title="Caution" style="vertical-align: text-bottom; position: relative; height:1.3em; top:0.0em" src="https://storage.googleapis.com/datasets-academy/public-img/notebooks/icons/danger.png"/> **Disclaimer:** Este material ha sido preparado por el equipo de **handytec Academy®**. Se prohibe la publicación o reproducción de este material sin previa autorización de **handytec Academy®** - 2022 Todos los derechos reservados.

### Programación orientada a objetos en Python

#### Clases / Objetos
En la verdadera programación orientada a objetos (OOP), el desarrollador escribe código en torno a cosas llamadas objetos. Un objeto (o una clase) agrupa datos y funciones que operan sobre esos datos. Es posible que conozca esta terminología de *C++* y otros lenguajes.

#### Módulos
Los módulos en Python contienen grandes cantidades de código que se encuentran relacionados. En la mayoría de los casos, poseen varias clases y funciones que abordan una necesidad particular. 

#### Librerías / Bibliotecas
Las librerías pueden contener múltiples módulos que van juntos. Las librerías generalmente tiene una estructura de directorio específica.

### Importar Módulos
Todo notebook debería empezar con una sección de código que importe los **módulos** que se emplearán.

A continuación importaremos el módulo **numpy** y **pandas**. Estas son librerías comúnmente empleadas en el área de la Ciencia de Datos. 

De manera general, utilizaremos la estructura `import MODULE_NAME as MODULE_NICKNAME` para importar cualquier módulo que la programación requiera.

In [1]:
import numpy as np
import pandas as pd

### Buena práctica: verificar versión actual de librerías

In [2]:
print('** Versiones Actuales | Requeridas **')
print('NumPy: Version Actual:', np.__version__)
print('Pandas: Version Actual:', pd.__version__)

** Versiones Actuales | Requeridas **
NumPy: Version Actual: 1.19.5
Pandas: Version Actual: 1.1.5


## 1. Arreglos n-dimensionales y operaciones con NumPy
NumPy es una librería optimizada para programación numérica a través de procesamiento de datos en arreglos multidimensionales. <br>

Optimiza operaciones tradicionales que se realizan a través de bucles o tipos de datos primitivos, gracias a su mecanismo de procesar las operaciones a través de lotes en códigos optimizados en C y Fortran.

[NumPy](https://numpy.org/devdocs/index.html) define estructuras de datos de tipo *ndarrays* : arreglos n-dimensionales.
### 1.1 Arreglos en 1D:

In [3]:
# Emplear listas para la creación de ndarrays, por medio de la función np.array
A = np.array([1, 2, 3, 5])
print(A)
print(type(A))

[1 2 3 5]
<class 'numpy.ndarray'>


In [4]:
# Métodos para analizar propiedades en un ndarray
print ('Forma (filas, columnas): ', A.shape)
print ('Número de dimensiones', A.ndim)
print ('Tipo de dato: ', A.dtype)

Forma (filas, columnas):  (4,)
Número de dimensiones 1
Tipo de dato:  int64


Selección de elementos por indexado o slicing en un vector

In [5]:
print(A[0])
print(A[:3])

1
[1 2 3]


Operaciones aritméticas `(+ , - , *, /, //, **, %)`  en los ndarrays son de elemento a elemento con arreglos del mismo tamaño (caso contrario se aplica **broadcasting**)

In [6]:
A

array([1, 2, 3, 5])

In [7]:
# Operaciones entre ndarrays
A ** A

array([   1,    4,   27, 3125])

### 1.2 Arreglos en 2D:

In [8]:
# Emplear una lista de listas para la creación de un ndarray de dos dimensiones
T = np.array([[3, 4, 2], 
              [6, 1, 9],
              [5, 7, 8]])
print(T)

[[3 4 2]
 [6 1 9]
 [5 7 8]]


In [9]:
# Métodos para analizar propiedades en un ndarray
print ('Forma (filas,cols): ', T.shape)
print ('Número de dimesiones:', T.ndim)
print ('Tipo dato de elementos: ', T.dtype)

Forma (filas,cols):  (3, 3)
Número de dimesiones: 2
Tipo dato de elementos:  int64


Selección de elementos por indexado y slicing en una matriz

In [10]:
# Selección de un elemento en una matriz: ndarray[filas][columnas]
print(T[0][0])

3


In [11]:
# Selección de varios elementos en una matriz: ndarray[filas, columnas]
print(T[0:2, 0:2])

[[3 4]
 [6 1]]


### 1.3 Funciones básicas en NumPy

Podemos especificar el tipo de dato requerido a través del parámetro **dtype**:

In [12]:
#Creación de ndarrays con valores de cero, empleando la función np.zeros
cero_array = np.zeros((2,3), dtype = float)
print(cero_array)

[[0. 0. 0.]
 [0. 0. 0.]]


In [13]:
#Creación de ndarrays con valores de cero, empleando la función np.ones
uno_array = np.ones((3,4), dtype = int)
print(uno_array)

[[1 1 1 1]
 [1 1 1 1]
 [1 1 1 1]]


In [14]:
#Creación de un ndarray con un rango de valores, empleando la función np.arange(inicio, fin-1, step)
rango = np.arange(0, 1, 0.1)
print(rango)

[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9]


### 1.4 Métodos útiles para aplanar y cambiar la forma de un ndarray

In [15]:
# El método reshape permite cambiar la forma de un ndarray
rango_reshape = rango.reshape(5, 2)
print(rango_reshape)

[[0.  0.1]
 [0.2 0.3]
 [0.4 0.5]
 [0.6 0.7]
 [0.8 0.9]]


In [16]:
# El método ravel permite aplanar un ndarray
rango_flat = rango_reshape.ravel()
print(rango_flat)

[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9]


### 1.5 Funciones estadísticas en NumPy

Al ser arreglos que pueden tener 1 o más dimensiones, las funciones pueden involucrar todos los elementos, o los elementos por cada una de las dimensiones.<br>
A continuación algunas de las funciones más utilizados en NumPy (siendo X un ``ndarray``):
    - Suma: np.sum(X)
    - Raíz cuadrada: np.sqrt(X)
    - Promedio: np.mean(X)
    - Varianza: np.var(X)
    - Ordenamiento: np.sort(X)
    - Maximo, Minimo: np.max(X), np.min(X)
    - Indice de posición del valor Maximo: np.argmax(X)
    - Indice de posición del valor Minimo: np.argmin(X)

In [17]:
#La función np.random.randint genera números aleatorios enteros: np.random.randint(inicio, fin-1, (filas, columnas))
np.random.seed(0)
A = np.random.randint(1,5,(3,5)) 
print(A)

[[1 4 2 1 4]
 [4 4 4 2 4]
 [2 3 1 4 3]]


In [18]:
#SUMA TOTAL
print(np.sum(A))

43


In [19]:
#SUMA POR COLUMNAS
print(np.sum(A, axis = 0))

[ 7 11  7  7 11]


In [20]:
#SUMA POR FILAS
print(np.sum(A, axis = 1))

[12 18 13]


#### 1.6 Broadcasting

Permite realizar operaciones aritméticas entre ndarrays de distintos tamaños

![](https://www.astroml.org/_images/fig_broadcast_visual_1.png)

In [21]:
# Operación de un ndarray con un escalar
np.arange(3) + 5

array([5, 6, 7])

## 2. Series y Dataframes con Pandas

Nos gustaría una estructura de datos que pueda almacenar fácilmente variables de diferentes tipos, que almacene nombres de columnas, y en la que podamos hacer referencia por nombre de columna así como por posición indexada. Y sería bueno si esta estructura de datos viniera con funciones integradas que podamos usar para manipularla.

`Pandas` es una librería que hace todo esto! La librería está construida sobre `numpy`.

Existen dos objetos `pandas` básicos, *series* y *dataframes*, que se pueden considerar como versiones mejoradas de arreglos 1D y 2D `numpy`, respectivamente. 

Para referencia `pandas` [cheatsheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf) y `pandas` [documentación](https://pandas.pydata.org/pandas-docs/stable/).

**Importancia de Pandas**
*    Lectura y escritura de datos 
*    Modificación de índices y etiquetas de las columnas
*    Trabajo con fechas
*    Ordenamiento, agrupación y tratamiento de valores faltantes (curación de datos)
    
Para importar este módulo utilizamos el comando: ```import pandas as pd```

### 2.1 Pandas - Series

Una Serie es una colección de observaciones de una variable individual. <br>

Se puede pensar en una Serie como los datos en un arreglo de 1D.

En la serie ``items``, cada uno de los índices del 0 al 4 son los identificadores de 5 productos diferentes y los valores float representan el precio unitario correspondiente a cada uno.

In [22]:
# Usamos el constructor pd.Series
items = pd.Series(data = np.array([2, 3, 8, 6, 7]) * 10, name = 'precios', index = ['veg1','cer1','frut1','frut2','frut3'])
print(items)

veg1     20
cer1     30
frut1    80
frut2    60
frut3    70
Name: precios, dtype: int64


**Importante**: las Series están implementadas sobre arreglos NumPy. Esto les permite soportar operaciones válidas con estos arreglos. En el ejemplo tenemos el caso de la multiplicación de un arreglo de 1D por un escalar.

Método útiles de las Series de Pandas

In [23]:
print('Obtener los índices:', items.index)
print('Obtener los valores:', items.values)
print('Obtener tipo de dato:', items.dtypes)

Obtener los índices: Index(['veg1', 'cer1', 'frut1', 'frut2', 'frut3'], dtype='object')
Obtener los valores: [20 30 80 60 70]
Obtener tipo de dato: int64


### 2.2 Pandas - DataFrames: creación, propiedades y funciones

Un DataFrame de Pandas es un objeto que permite guardar datos en varias columnas que estan mutuamente relacionadas. 

Podemos pensar un DataFrame como una hoja de datos de Excel altamente optimizada. Los DataFrames estan compuestos por filas y columnas.

Pandas posee múltiples funciones para cargar varios tipos de archivos: pd.read_csv, pd.read_excel, pd.read_json, pd.read_parquet, etc.


### Lectura de datos en un DataFrame

A continuación, iniciaremos leyendo los datos del archivo en formato csv en un DataFrame. <br>

Este archivo contiene una muestra de datos de 'Penn World Table' con diferentes indicadores socioeconómicos de los países en diferentes años. 

<a href='https://storage.googleapis.com/datasets-academy/Track%20Data%20Science/01_Intro_Python/PWT91.csv'>
  Link para descargar el dataset PWT</a>

**Diccionario de datos:**

**countrycode:** Código estándar ISO 3166-1 alfa-3, proporciona códigos para los nombres de países por medio de tres letras<br>
**country:** Nombre del país <br>
**year:** Año <br>
**rgdpo:** Producto Interno Bruto Real calculado mediante la PPA (pariedad de poder adquisitivo) con año base 2011 (en millones dólares) <br>
**pop:** Población (millones de personas) <br>
**emp:** Personas de 15 años y más que durante la semana trabajaron incluso solo durante una hora, o no estaban en el trabajo pero tenían un trabajo o negocio del que estaban temporalmente ausentes (millones de personas) <br>
**avh:** Promedio de horas anuales trabajadas por personas que cumplan la condición de la variable emp <br>
**hc:** Índice de capital humano por persona, que se relaciona con los años promedio de escolaridad y el retorno a la educación

In [24]:
# Nomeclatura estándar para el nombre de un Dataframe se abrevia con df
df = pd.read_csv(filepath_or_buffer = 'https://storage.googleapis.com/datasets-academy/Track%20Data%20Science/01_Intro_Python/PWT91.csv', 
                 sep = ',', 
                 decimal = '.')

# El método head permite observar las primeras 5 filas del dataframe
df.head()

Unnamed: 0,countrycode,country,year,rgdpo,pop,emp,avh,hc
0,ABW,Aruba,1950,,,,,
1,ABW,Aruba,1951,,,,,
2,ABW,Aruba,1952,,,,,
3,ABW,Aruba,1953,,,,,
4,ABW,Aruba,1954,,,,,


**Fuente**: Feenstra, Robert C., Robert Inklaar and Marcel P. Timmer (2015), "The Next Generation of the Penn World Table" American Economic Review, 105(10), 3150-3182, available for download at www.ggdc.net/pwt

Lo que tenemos ahora es una hoja de cálculo con filas indexadas y columnas nombradas, llamada `df`. **Importante**: Las columnas son *series de pandas*.

In [25]:
# Comprobamos las dimensiones del Dataframe (filas, columnas)
df.shape

(12376, 8)

In [26]:
print(type(df))

<class 'pandas.core.frame.DataFrame'>


La función `pd.read_csv` infiere el tipo de datos por defecto

In [27]:
# Comprobamos el tipo de las variables en el dataframe
print(df.dtypes)

countrycode     object
country         object
year             int64
rgdpo          float64
pop            float64
emp            float64
avh            float64
hc             float64
dtype: object


Podemos cambiar el tipo de las columnas:
- Convertir la columna year para que sea tipo datetime, para una mayor información sobre los tipos de [formatos fecha](https://strftime.org/)
- Convertir la columna pop (población)

In [28]:
df['year']

0        1950
1        1951
2        1952
3        1953
4        1954
         ... 
12371    2013
12372    2014
12373    2015
12374    2016
12375    2017
Name: year, Length: 12376, dtype: int64

In [29]:
df['year'] = pd.to_datetime(df['year'], format = '%Y')
df['pop']  = df['pop'].fillna(0).astype(int)
df.dtypes

countrycode            object
country                object
year           datetime64[ns]
rgdpo                 float64
pop                     int64
emp                   float64
avh                   float64
hc                    float64
dtype: object

## 3. Manipulación de DataFrames con Pandas

### Selección de filas y columnas de un DataFrame utilizando ```iloc```
Cuando queremos seleccionar filas y columnas de acuerdo a la posición del índice, utilizamos el atributo:<br>
```iloc[indiceInicioFilas:indiceFinFilas-1 , indiceInicioCols:indiceFinCols-1]```

In [30]:
#Seleccion de las filas por posición y las tres primeras columnas
df.iloc[2300:2303, :3]

Unnamed: 0,countrycode,country,year
2300,CHN,China,2006-01-01
2301,CHN,China,2007-01-01
2302,CHN,China,2008-01-01


### Selección de filas y columnas de un DataFrame utilizando ```loc```
Cuando queremos seleccionar filas y columnas de acuerdo a una mezcla del nombre de los índices y nombres de las columnas (etiquetas), utilizamos el atributo: ```loc[]```

In [31]:
df_seleccion = df.loc[:, ['countrycode', 'year', 'pop', 'rgdpo']]
df_seleccion.head()

Unnamed: 0,countrycode,year,pop,rgdpo
0,ABW,1950-01-01,0,
1,ABW,1951-01-01,0,
2,ABW,1952-01-01,0,
3,ABW,1953-01-01,0,
4,ABW,1954-01-01,0,


### Renombrar columnas en un DataFrame

In [32]:
df_seleccion.rename(columns = {'countrycode': 'codigo_pais', 'pop': 'pob_millones', 'rgdpo': 'pib_real_millones'}, inplace = True)
df_seleccion.tail()

Unnamed: 0,codigo_pais,year,pob_millones,pib_real_millones
12371,ZWE,2013-01-01,15,28329.81055
12372,ZWE,2014-01-01,15,29355.75977
12373,ZWE,2015-01-01,15,29150.75
12374,ZWE,2016-01-01,16,29420.44922
12375,ZWE,2017-01-01,16,30940.81641


>**Ejercicio 1:** Utilizando el método `rename` y la opción `inplace=False`, cambie el nombre de la columna `codigo_pais` por `codigo_iso` en el dataframe `df_seleccion`. Utilizando el método `columns` verifique si el cambio de nombre se grabó de forma permanente en `df_seleccion`.

In [33]:
#Su código aquí

### Solución

In [34]:
print('Resolución;')
df_seleccion.rename(columns = {'codigo_pais': 'codigo_iso'}, inplace = False)
df_seleccion.columns

Resolución;


Index(['codigo_pais', 'year', 'pob_millones', 'pib_real_millones'], dtype='object')

### Filtrado del DataFrame

In [35]:
df_seleccion['year']

0       1950-01-01
1       1951-01-01
2       1952-01-01
3       1953-01-01
4       1954-01-01
           ...    
12371   2013-01-01
12372   2014-01-01
12373   2015-01-01
12374   2016-01-01
12375   2017-01-01
Name: year, Length: 12376, dtype: datetime64[ns]

In [36]:
# Condición booleana de una Serie de Pandas (indexado condicional)
df_seleccion['year'] > np.array('2015-01-01', dtype=np.datetime64)

0        False
1        False
2        False
3        False
4        False
         ...  
12371    False
12372    False
12373    False
12374     True
12375     True
Name: year, Length: 12376, dtype: bool

In [37]:
# Filtramos por filas a partir de una condición en la columna year (fechas mayores a 2015)
df_filtrado = df_seleccion.loc[df_seleccion['year'] > np.array('2015-01-01', dtype=np.datetime64)]
df_filtrado

Unnamed: 0,codigo_pais,year,pob_millones,pib_real_millones
66,ABW,2016-01-01,0,3101.279785
67,ABW,2017-01-01,0,3144.354980
134,AGO,2016-01-01,28,151165.046900
135,AGO,2017-01-01,29,148737.671900
202,AIA,2016-01-01,0,227.307556
...,...,...,...,...
12239,ZAF,2017-01-01,56,665931.562500
12306,ZMB,2016-01-01,16,58932.542970
12307,ZMB,2017-01-01,17,63231.378910
12374,ZWE,2016-01-01,16,29420.449220


>**Ejercicio 2:** Generar un nuevo dataframe llamado `df_mayor_pob` realizando un filtrado de las filas del dataframe `df_filtrado`, si la población es mayor a 200 millones de habitantes.

In [38]:
# Su código aquí


### Solución

In [39]:
df_mayor_pob = df_filtrado.loc[df_filtrado['pob_millones'] > 200]
df_mayor_pob

Unnamed: 0,codigo_pais,year,pob_millones,pib_real_millones
1698,BRA,2016-01-01,207,2863052.75
1699,BRA,2017-01-01,209,2890897.5
2310,CHN,2016-01-01,1403,17360582.0
2311,CHN,2017-01-01,1409,18383838.0
5234,IDN,2016-01-01,261,2643358.5
5235,IDN,2017-01-01,263,2796742.5
5302,IND,2016-01-01,1324,7995329.5
5303,IND,2017-01-01,1339,8599774.0
11762,USA,2016-01-01,322,17392620.0
11763,USA,2017-01-01,324,17778680.0


### Creación de nuevas columnas

In [40]:
df_percapita = df_mayor_pob.copy()
df_percapita.loc[:, 'pib_percapita'] = df_percapita['pib_real_millones'] / df_percapita['pob_millones']
df_percapita

Unnamed: 0,codigo_pais,year,pob_millones,pib_real_millones,pib_percapita
1698,BRA,2016-01-01,207,2863052.75,13831.172705
1699,BRA,2017-01-01,209,2890897.5,13832.045455
2310,CHN,2016-01-01,1403,17360582.0,12373.900214
2311,CHN,2017-01-01,1409,18383838.0,13047.43648
5234,IDN,2016-01-01,261,2643358.5,10127.810345
5235,IDN,2017-01-01,263,2796742.5,10634.001901
5302,IND,2016-01-01,1324,7995329.5,6038.768505
5303,IND,2017-01-01,1339,8599774.0,6422.534727
11762,USA,2016-01-01,322,17392620.0,54014.347826
11763,USA,2017-01-01,324,17778680.0,54872.469136


### Ordenamiento en el DataFrame

In [41]:
df_percapita.sort_values(by='pib_percapita', ascending = True)

Unnamed: 0,codigo_pais,year,pob_millones,pib_real_millones,pib_percapita
5302,IND,2016-01-01,1324,7995329.5,6038.768505
5303,IND,2017-01-01,1339,8599774.0,6422.534727
5234,IDN,2016-01-01,261,2643358.5,10127.810345
5235,IDN,2017-01-01,263,2796742.5,10634.001901
2310,CHN,2016-01-01,1403,17360582.0,12373.900214
2311,CHN,2017-01-01,1409,18383838.0,13047.43648
1698,BRA,2016-01-01,207,2863052.75,13831.172705
1699,BRA,2017-01-01,209,2890897.5,13832.045455
11762,USA,2016-01-01,322,17392620.0,54014.347826
11763,USA,2017-01-01,324,17778680.0,54872.469136


### Agregación en DataFrames

#### Uso la función groupby

Busca agrupar grandes cantidades de datos y aplicar operaciones de cálculo en estos grupos

In [42]:
# Agregamos los datos mediante empleando el promedio
df_agrupado = df_percapita.groupby(by = 'codigo_pais')\
                          .agg('mean')
df_agrupado

Unnamed: 0_level_0,pob_millones,pib_real_millones,pib_percapita
codigo_pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
BRA,208.0,2876975.0,13831.60908
CHN,1406.0,17872210.0,12710.668347
IDN,262.0,2720050.0,10380.906123
IND,1331.5,8297552.0,6230.651616
USA,323.0,17585650.0,54443.408481


>**Ejercicio 3:** Generar un nuevo dataframe llamado `df_final` realizando un agrupamiento por el `codigo_pais` obteniendo los valores máximos y mínimos `['max', 'min']` del dataframe `df_percapita`

In [43]:
#Su código aquí


### Solución

In [44]:
df_final = df_percapita.groupby(by = 'codigo_pais').agg(['max', 'min'])
df_final

Unnamed: 0_level_0,year,year,pob_millones,pob_millones,pib_real_millones,pib_real_millones,pib_percapita,pib_percapita
Unnamed: 0_level_1,max,min,max,min,max,min,max,min
codigo_pais,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
BRA,2017-01-01,2016-01-01,209,207,2890897.5,2863052.75,13832.045455,13831.172705
CHN,2017-01-01,2016-01-01,1409,1403,18383838.0,17360582.0,13047.43648,12373.900214
IDN,2017-01-01,2016-01-01,263,261,2796742.5,2643358.5,10634.001901,10127.810345
IND,2017-01-01,2016-01-01,1339,1324,8599774.0,7995329.5,6422.534727,6038.768505
USA,2017-01-01,2016-01-01,324,322,17778680.0,17392620.0,54872.469136,54014.347826


### Fin



<div style="text-align: center; line-height: 0; padding-top: 9px;">
  <img src="https://storage.googleapis.com/datasets-academy/public-img/notebooks/headers/databits-footer-notebook.png" alt="Databricks Learning" style="width: 100%;">
</div>