# Módulos, paquetes y librerías en Python

En Python, los módulos son  archivos con la extensión ". py" que contienen código Python que puede ser importado dentro de otro programa Python. Podemos considerar que un módulo es una parte de una librería de código o un archivo que contiene un conjunto de funciones y variables globales que quieres incluir en tu aplicación. Ejemplos de módulos interesantes son: datetime, Urllib, Wikipedia, howdoi y pyperclip.

El paquete es un directorio que contiene **colecciones de módulos**. El paquete también contiene subpaquetes dentro de él.

La librería es un código que contiene una colección de módulos, es decir, de funcionalidades relacionadas que te permiten realizar diversas tareas **sin escribir el código expresamente**. Es decir, es un fragmento de código reutilizable que podemos usar importándolo en nuestro programa,  y llamando al método de esa librería con punto(.).
Tres de las librerías más útiles (y famosas por su gran poder y funcionalidad) en Python son NumPy, Pandas y Matplotlib. Aunque existen otras como, Statsmodels, Scikit-learn, TensorFlow, Keras, Plotly y Seaborn, que muchos autores consideran importantes para análisis y ciencia de datos.

En este curso, cubriremos las tres librerías fundamentales para ser un analista de datos: NumPy, Pandas y Matplotlib.

![1280px-NumPy_logo_2020.svg.png](attachment:6e9e5068-0e90-4a23-809e-06aa70794941.png)

# NumPy
Empezaremos nuestra discusión con Numpy. En análisis de datos, generalmente utilizamos datos numéricos. Por ejemplo, precios de productos, servicios, cifras de ventas, mediciones de sensores, marcadores financieros etc. 
Numpy proporciona estructuras de datos especializadas, funciones y otras herramientas para la computación numérica en Python. 
Citando a la documentación oficial, NumPy es: "la librería fundamental para la computación científica en Python. Es una librería de Python que proporciona un objeto de matriz multidimensional, varios objetos derivados (como matrices y matrices enmascaradas), y un surtido de rutinas para realizar operaciones rápidas con matrices, incluyendo operaciones matemáticas, lógicas, de manipulación de formas, de ordenación, de selección, de E/S, de transformadas discretas de Fourier, de álgebra lineal básica, de operaciones estadísticas básicas, de simulación aleatoria y mucho más".

Te sugerimos revisar la documentación para que puedas resolver problemas específicos en tu área de trabajo: https://numpy.org/doc/stable/user/index.html
FUNCIONES DE NUMPY:  https://numpy.org/doc/stable/reference/routines.html


 Numpy funciona a través de ndarrays o arreglos múlti-dimensionales. Un arreglo  matrizmulti-dimensional es una "tabla" que almacena datos del mismo tipo, generalmente números. Los arreglos de Numpy están indexados por tuples de enteros no negativos. Las dimensiones de los arreglos son conocidos como axes o axis (ejes).

![numpy arrays.png](attachment:96616395-cc11-43b0-a372-e301d373f927.png)

Tomado de: w3schools.com

![numpy-arrays-have-axes.png](attachment:79f4f03e-9750-4bd4-8c67-2074dbc20cf3.png)

In [None]:
#pip es el paquete instalador de Python
import pip

In [2]:
#Instalar Numpy usando el instalador pip
!pip install numpy



In [1]:
#Importar NumPy
import numpy as np
#np es la abreviación de NumPy por convención.

# Funciones de NumPy más comunes para análisis de datos

NumPy tiene muchas funciones interesantes para el analista de datos. Revisaremos las más comunes con un ejemplo.

Tomemos el ejemplo de un comerciante mayorista de verduras. El comerciante opera en tres segmentos de verdura: calabaza, brócoli y espinaca. Además, vende las verduras en cuatro sitios (países) distintos.
Durante el año, solo para el sitio A el mayorista de verdura vendió 500,000  kilos de calabazas, 100, 000  kilos de brócolis y 300,000 kilos de espinacas. Los precios de las calabazas oscilaron entre 10 por kilo y 18 pesos por kilo, mientras que los precios de los brócolis oscilaron entre 36.5 pesos por kilo y 48 pesos por kilo. Los precios de las espinacas oscilaron entre 14.70 pesos por kilo y 20.10 pesos por kilo. Queremos calcular los ingresos del mayorista en el año en el sitio A.
Las ventas se calculan con la fórmula que se indica a continuación

Ventas = Número de kilos vendidas de calabaza * Precio medio de venta de calabaza + Número de kilos vendidas de brócoli * Precio medio de venta de brócoli + Número de kilos vendidas de espinaca * Precio medio de venta de espinaca 



In [2]:
#np.array
calabaza = np.array([10, 18])

In [3]:
type(calabaza)

numpy.ndarray

Se ha visto que el precio de cada verdura tiene una fluctuación. Necesitamos calcular un valor medio de precio de cada producto para tener una estimación de las ventas. 
Obtengamos primero la media de precio de cada producto en el sitio A. Para ello, utilizaremos la funcion np.mean().

In [4]:
#np.mean
media1 = np.mean (calabaza)
media1

14.0

In [5]:
brocoli = np.array([36.5, 48])

In [6]:
media2 = np.mean (brocoli)
media2



42.25

In [7]:
espinaca = np.array([14.7, 20.1])

In [8]:
media3 = np.mean (espinaca)
media3 

17.4

In [9]:
#medias de ventas del sitio A
sitioA= np.array([media1, media2, media3])

In [10]:
sitioA

array([14.  , 42.25, 17.4 ])

In [14]:
cantidad_vendida_A= np.array([5e5, 10e5, 3e5])

In [12]:
cantidad_vendida_A

array([ 500000., 1000000.,  300000.])

In [18]:
ventas_sitioA = sitioA* cantidad_vendida_A
ventas_sitioA

array([ 7000000., 42250000.,  5220000.])

In [19]:
ventas_totalesA= np.sum(ventas_sitioA)

In [20]:
ventas_totalesA

54470000.0

Una de las funciones más útiles de np.mean es que podemos introducir los valores directamente y NumPy calcula la media. Sin embargo, nuestro resultado no tiene el tipo de formato numpy array, sino que nos devuelve un int o un float, según sea el caso. 

In [16]:
a = np.mean([14.7, 20.1])
a

17.4

In [21]:
type(a)

numpy.float64

In [23]:
type(calabaza)

numpy.ndarray

Ahora, supongamos que queremos calcular las ventas de todos los sitios. Podemos hacerlo en pocos pasos utilizando las matrices de NumPy. Ya tenemos los precios medios de cada producto por sitio, como muestra la siguiente tabla:
 
![Picture2.jpg](attachment:486191dc-9164-4e66-aa21-96ad1b184219.jpg)

Tomemos esos valores y convirtámolos en matrices de NumPy.

In [24]:
sitioA #ya lo definimos arriba
sitioB = np.array([18.75, 55.2, 23])
sitioC = np.array([ 12.15, 35.67, 13.85])
sitioD = np.array([ 14.6, 40.55, 16.7])

In [25]:
#Definimos la cantidad de kilos vendidos por producto por sitio.
cantidad_vendida_A #ya lo definimos arriba
cantidad_vendida_B= np.array([3.55e5, 7.89e4, 1.5e5])
cantidad_vendida_C= np.array([8.40e4, 4.24e5, 7.95e4])
cantidad_vendida_D= np.array([8.40e4, 5.56e4, 5.32e4])

In [26]:
#Obtenemos el total de ventas por sitio
ventas_sitioB = sitioB* cantidad_vendida_B
ventas_sitioC = sitioC* cantidad_vendida_C
ventas_sitioD = sitioD* cantidad_vendida_D


In [28]:
#Gran total de ventas en todos los sitios
ventas_totales = ventas_sitioA+ ventas_sitioB+ ventas_sitioC +ventas_sitioD
ventas_totales

array([15903250., 63983940., 10659515.])

In [29]:
np.sum(ventas_totales)

90546705.0

Éstas son las ventas totales de calabaza, brócoli y espinaca para el total de regiones.

Una vez que entendimos la estructura de las matrices de NumPy, ya estamos listos para aprender a manejar archivos y convertirlos en matrices, para así realizar los cálculos necesarios.

# Importar archivos CSV

NumPy contiene funciones que nos ayudan a trabajar con archivos de datos numéricos. Tomemos como ejemplo un archivo csv del gobierno de Nueva Zelanda, que contiene datos sobre las importaciones y exportaciones de productos del mar de este país de los últimos años. En este archivo se puede observar el impacto de la pandemia COVID-19 en estos rubros. 
En esta página, encomtrarás muchos datasets interesantes, que te serán de utilidad para practicar: https://www.stats.govt.nz/large-datasets/csv-files-for-download/

In [30]:
#Utilizaremos la función np.genfromtxt() para importar el archivo.
nz= np.genfromtxt('effects-of-covid-19-on-trade-2021.csv',delimiter=',', skip_header= 1)

In [31]:
nz

array([[1.00e+00, 1.04e+08, 1.04e+08],
       [1.00e+00, 1.13e+08, 1.13e+08],
       [1.00e+00, 5.10e+07, 1.64e+08],
       ...,
       [3.00e+00, 2.00e+06, 1.66e+08],
       [3.00e+00, 1.00e+06, 1.67e+08],
       [3.00e+00, 1.00e+06, 1.68e+08]])

En este dataset, vienen los valores del comercio de NZ, el valor acumulado y el año. Para este ejercicio, cambiamos el año por número 1 (2019), 2(2020) y 3 (2021). 

In [32]:
nz.shape

(47392, 3)

Supongamos que queremos calcular la media y mediana general de valores y los cuantiles de la distribucion. Para ello, primero realizaremos lo que se conoce como *slicing*. El slicing es la selección un conjunto de elementos de la matriz o submatriz. En el ejemplo, queremos seleccionar una columna del dataset (Valor). Esa columna sería nuestro *slice*.

![slice.jpg](attachment:5862a1ce-a02b-4b23-b52f-de03dc8b490c.jpg)

In [33]:
#seleccionamos la segunda columna del dataset con la notación de índice.
valores= nz[1: , 1]

In [34]:
valores

array([1.13e+08, 5.10e+07, 1.43e+08, ..., 2.00e+06, 1.00e+06, 1.00e+06])

In [24]:
media_de_valores= np.mean(valores)

In [25]:
media_de_valores

31611730.43404866

In [None]:
mediana_de_valores = np.median(valores)


In [None]:
mediana_de_valores

El mejor método para estimar cuantiles en NumPy, si la distribución es desconocida es: median unbiased. 

In [33]:
cuantil_25 = np.quantile(valores, 0.25, method = 'median_unbiased')
cuantil_25

1000000.0

In [34]:
cuantil_75 = np.quantile(valores, 0.75, method = 'median_unbiased')

In [35]:
cuantil_75

30000000.0

# Ejercicio
Revisar los otros archivos csv de la página del gobierno de Nueva Zelanda (https://www.stats.govt.nz/large-datasets/csv-files-for-download/) y elegir alguno que te sea interesante. 
Utilizar 5 funciones de NumPy que te resulten útiles para analizar el dataset, como lo realizamos en clase con el csv de COVID19 y trading. Como sugerencia: no te limites a utilizar las funciones  vistas en clase, también puedes explorar otras funciones interesantes como **np.concatenate ()** o **np.dot ()**.  La lista de funciones de NumPy está aquí: https://numpy.org/doc/stable/reference/routines.html
La documentación oficial completa de NumPy la encuentras aquí: https://numpy.org/doc/stable/index.html.
