# Analista de datos

El análisis de datos es el proceso de explorar, investigar y recopilar información de los datos utilizando medidas y visualizaciones estadísticas.

El objetivo del análisis de datos es desarrollar una comprensión de los datos al descubrir tendencias, relaciones y patrones

requiere el conocimiento de estadística, técnicas de visualización y paquetes de Python como Numpy, Pandas y Seaborn.

1. ¿Qué es el cálculo numérico? Python y Numpy para principiantes     
 
2. Cómo analizar datos tabulares usando Python y Pandas      

3. Visualización de datos usando Python, Matplotlib y Seaborn  

## Numpy

1. Cómo trabajar con datos numéricos en Python    

2. Cómo convertir listas de Python en arreglos Numpy    

3. Arreglos Numpy multidimensionales y sus beneficios    

4. Operaciones con arreglos; transmisión, indexación y división    

5. Cómo trabajar con archivos de datos CSV usando Numpy

#### 1. Cómo trabajar con datos numéricos en Python

Los "datos" en el análisis de datos, generalmente se refieren a datos numéricos; como precios de acciones, cifras de ventas, mediciones de sensores, puntajes deportivos, tablas de bases de datos, etc.

Supongamos que queremos usar datos climáticos como la temperatura, la lluvia y la humedad para determinar si una región es adecuada para el cultivo de manzanas.

 Formular la relación entre el rendimiento anual de manzanas (toneladas por hectárea) y las condiciones climáticas como la temperatura promedio (en grados Fahrenheit), la lluvia (en milímetros) y la humedad relativa promedio (en porcentaje) como una ecuación lineal.

![image.png](attachment:image.png)

Esta ecuación es una aproximación, ya que la relación real puede no ser necesariamente lineal y puede haber otros factores involucrados.

Pero un modelo lineal simple como este suele funcionar bien en la práctica con base en algunos análisis estadísticos de datos históricos

In [1]:
w1, w2, w3 = 0.3, 0.2, 0.5

Dados algunos datos climáticos para una región, ahora podemos predecir el rendimiento de las manzanas. Aquí hay algunos datos de muestra:

In [2]:
# Cerro de pasco
pasco_temperatura = 73
pasco_lluvia = 67
pasco_humedad = 43

In [3]:
pasco_rendimiento_manz = pasco_temperatura * w1 + pasco_lluvia * w2 + pasco_humedad * w3

In [4]:
print(f'El rendimiento de manzanas en la Región de Cerro de Pasco es {pasco_rendimiento_manz} toneladas por hectárea ')

El rendimiento de manzanas en la Región de Cerro de Pasco es 56.8 toneladas por hectárea 


Para que sea un poco más fácil realizar el cálculo anterior para varias regiones, podemos representar los datos climáticos de cada región como un vector, es decir, una lista de números.

In [5]:
pasco = [73, 67, 43]
cusco = [91, 88, 64]
arequipa = [87, 134, 58]
amazonas = [102, 43, 37]
ucayali = [69, 96, 70]

Los tres números en cada vector representan los datos de temperatura, lluvia y humedad, respectivamente

In [6]:
pesos = [w1, w2, w3]

Una función para calcular el rendimiento de manzanas por región

In [7]:
# Función ZIP, toma 2 o más objetos iterables y une sus elementos como tuplas dentro de una lista.

In [8]:
def rendimiento_cultivos(region, pesos):
    resultado = 0

    for  x, w in zip(region, pesos):
        resultado += x * w

    return resultado

# Rendimiento de la región Cerro de Pasco
pasco_rendimiento = rendimiento_cultivos(pasco, pesos)
print(pasco_rendimiento)

# Rendimiento de la región Cusco
cusco_rendimiento = rendimiento_cultivos(cusco, pesos)
print(cusco_rendimiento)

# Rendimiento de la región Arequipa
arequipa_rendimiento = rendimiento_cultivos(arequipa, pesos)
print(arequipa_rendimiento)

56.8
76.9
81.9


#### 2. Cómo convertir lista de Python en arreglos Numpy

A este proceso matemático se le denomina producto escalar.

![image.png](attachment:image.png)

La biblioteca Numpy proporciona una función integrada para calcular el producto escalar de dos vectores. 

primero debemos convertir las listas en arreglos Numpy.

In [9]:
# pip install numpy

In [158]:
# Importamos el módulo Numpy con el alias de np.

import numpy as np 

In [159]:
# Cómo crear un arreglo

pasco = np.array([73, 67, 43])
print(pasco)

[73 67 43]


In [160]:
pesos = np.array([w1, w2, w3])
print(pesos)

[0.3 0.2 0.5]


In [161]:
type(pasco)

numpy.ndarray

In [162]:
pesos.ndim # dimension

1

In [163]:
pesos.size # numeros de elementos totales

3

In [164]:
pesos.shape # forma del array

(3,)

In [17]:
pesos.dtype # tipos de sus elementos

dtype('float64')

##### Tipos de datos

Numpy maneja gran cantidad de tipos de datos. A diferencia de los tipos de datos númericos en Python que no establecen un tamaño de bytes de almacenamiento, aquí si hay una diferencia clara.

![image.png](attachment:image.png)

NumPy entiende por defecto que int hace referencia a np.int32 y que float hace
referencia a np.float64. Son «alias» bastante utilizados.

In [18]:
a = np.array([3,4,5,6,7,8,9,10,11])
a.dtype

dtype('int32')

In [19]:
b = np.array([3.4,3.2])
b.dtype

dtype('float64')

In [20]:
# Cambiamos el tipo de dato
c = b.astype('float32')
c.dtype

dtype('float32')

In [21]:
# Como convertir un array a lista
temperatura = np.array([23, 24, 28, 23])
list_temperatura = temperatura.tolist()
type(list_temperatura)

list

### Matrices

Una matriz es un array bidimensional. Numpy provee ndarray que se comporta como un array multidimensional con lo que podríamos crear una matriz.

![image.png](attachment:image.png)

In [22]:
M = np.array([[1, 2, 3],
            [4, 5, 6],
            [7, 8, 9],
            [10, 11, 12]])

M

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [23]:
print(f'La dimensión es {M.ndim}, tiene {M.size} elementos, esta formado por {M.shape[0]} filas y {M.shape[1]} columnas. Es de tipo {M.dtype}')

La dimensión es 2, tiene 12 elementos, esta formado por 4 filas y 3 columnas. Es de tipo int32


In [24]:
# Ejercicios

![image.png](attachment:image.png)

In [25]:
# Cambiando la forma del array mediante np.reshape()

M.shape

(4, 3)

![image.png](attachment:image.png)

In [26]:
M.reshape(3,4)

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [27]:
np.reshape(M, (3,4))

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [28]:
M # No cambia el array original

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [29]:
N = np.reshape(M, (3, 4))
N

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [30]:
N = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
N.reshape((-1, 1))

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

In [31]:
N.reshape((-1, 3))

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

### Funciones predefinidas para creación de arrays

Numpy ofrece una gran variedad de funciones predefinidas para creación de arrays que nos permiten simplicar el proceso de construcción de este tipo de estructuras de datos

In [32]:
# CEROS - por defecto son flotantes
np.zeros((3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [33]:
# Ceros - enteros
np.zeros((3,4), dtype = int)

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

In [34]:
M

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [35]:
# Crear un array con las mismas dimensiones de otro array
np.zeros_like(M)

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [36]:
# Otra forma de crear un array con la misma dimension de otro
np.zeros(M.shape, dtype = int)

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [37]:
# UNOS
np.ones((3, 4)) # también existe np.ones_like()

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [38]:
# MISMO VALOR
np.full((3, 4), 7) # también existe np.full_like()

array([[7, 7, 7, 7],
       [7, 7, 7, 7],
       [7, 7, 7, 7]])

In [39]:
# MATRIZ IDENTIDAD
np.eye(5) # dtype = int

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [40]:
# MATRIZ DIAGONAL
np.diag([5, 4, 3, 2, 1])

array([[5, 0, 0, 0, 0],
       [0, 4, 0, 0, 0],
       [0, 0, 3, 0, 0],
       [0, 0, 0, 2, 0],
       [0, 0, 0, 0, 1]])

EJERCICIO  
  
![image.png](attachment:image.png)  
  
Obtenga su dimensión, tamaño, forma y tipo de sus elementos


### Valores equiespaciados

#### Valores enteros equiespaciados

In [41]:
#Límite superior
np.arange(21)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20])

In [42]:
#Límite inferior, superior
np.arange(6, 60)

array([ 6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22,
       23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39,
       40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56,
       57, 58, 59])

In [43]:
#Límite inferior, superior y paso
np.arange(6, 60, 3)

array([ 6,  9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48, 51, 54,
       57])

In [44]:
np.arange(6, 16, .3) # punto flotante

array([ 6. ,  6.3,  6.6,  6.9,  7.2,  7.5,  7.8,  8.1,  8.4,  8.7,  9. ,
        9.3,  9.6,  9.9, 10.2, 10.5, 10.8, 11.1, 11.4, 11.7, 12. , 12.3,
       12.6, 12.9, 13.2, 13.5, 13.8, 14.1, 14.4, 14.7, 15. , 15.3, 15.6,
       15.9])

#### Valores flotantes equiespaciados

In [45]:
# Límite inferior y superior
np.linspace(6, 60) # [6, 60] con 50 valores por defecto

array([ 6.        ,  7.10204082,  8.20408163,  9.30612245, 10.40816327,
       11.51020408, 12.6122449 , 13.71428571, 14.81632653, 15.91836735,
       17.02040816, 18.12244898, 19.2244898 , 20.32653061, 21.42857143,
       22.53061224, 23.63265306, 24.73469388, 25.83673469, 26.93877551,
       28.04081633, 29.14285714, 30.24489796, 31.34693878, 32.44897959,
       33.55102041, 34.65306122, 35.75510204, 36.85714286, 37.95918367,
       39.06122449, 40.16326531, 41.26530612, 42.36734694, 43.46938776,
       44.57142857, 45.67346939, 46.7755102 , 47.87755102, 48.97959184,
       50.08163265, 51.18367347, 52.28571429, 53.3877551 , 54.48979592,
       55.59183673, 56.69387755, 57.79591837, 58.89795918, 60.        ])

In [46]:
np.linspace(6, 60, 20) # genera 20 valores

array([ 6.        ,  8.84210526, 11.68421053, 14.52631579, 17.36842105,
       20.21052632, 23.05263158, 25.89473684, 28.73684211, 31.57894737,
       34.42105263, 37.26315789, 40.10526316, 42.94736842, 45.78947368,
       48.63157895, 51.47368421, 54.31578947, 57.15789474, 60.        ])

In [47]:
np.linspace(6, 60, 20, endpoint = False) # [6, 60) con 20 elementos

array([ 6. ,  8.7, 11.4, 14.1, 16.8, 19.5, 22.2, 24.9, 27.6, 30.3, 33. ,
       35.7, 38.4, 41.1, 43.8, 46.5, 49.2, 51.9, 54.6, 57.3])

#### Valores aleatorios enteros

In [48]:
# [a, b)
np.random.randint(3, 30) # escalar

4

In [49]:
np.random.randint(3, 30, size = 3) # vector

array([16, 27, 24])

In [50]:
np.random.randint(3, 30, size = (3, 3)) # matriz

array([[24,  4, 24],
       [ 6,  3, 25],
       [ 8, 18, 20]])

#### Valores aleatorios flotantes

In [51]:
np.random.random(9) # [0, 1)

array([0.34390891, 0.27349485, 0.21978824, 0.5287099 , 0.17505012,
       0.97457415, 0.46596123, 0.59141862, 0.9345655 ])

In [52]:
np.random.uniform(1, 100, size = 9) # [a, b)

array([46.19424891, 61.09692306, 25.98168016,  4.96262423, 45.26283954,
       48.67584844, 27.97418209, 18.18620898, 89.56450691])

#### Distribuciones de probabilidad


In [53]:
# Distribución normal u = 0, o = 5
dist = np.random.normal(0, 5, size = 10_000)
dist[:20]

array([ -0.88526488, -10.28333065,  -4.20546984,   4.0872489 ,
        -3.93325626,  11.33412662,   0.304752  ,   1.3588116 ,
        -4.37626683,   2.97550907,  -0.18329394,  -4.60493603,
        -3.69207942,   1.60853171,   0.13831094,  -5.86265443,
         2.74569105,  10.25498588,  -7.98820434,  -5.35740989])

In [54]:
dist.mean()

-0.06758991468658947

In [55]:
# Muestra aleatoria
coins = np.random.choice(['head', 'tail'], size = 10_000)
coins

array(['head', 'head', 'tail', ..., 'tail', 'tail', 'head'], dtype='<U4')

In [56]:
sum(coins == 'head')

4978

In [57]:
sum(coins == 'tail')

5022

In [58]:
np.random.choice([1, 2, 3, 4], size = 10)

array([3, 1, 2, 4, 3, 1, 4, 4, 3, 1])

In [59]:
# Muestra aleatorio con probabilidades no uniformes
dices = np.random.choice(range(1, 7), size = 10_000, p = [.5, .1, .1, .1, .1, .1])
dices

array([5, 1, 1, ..., 1, 1, 6])

In [60]:
sum(dices == 1)

5079

In [61]:
sum(dices == 6)

996

##### Ejercicios
1. Una matriz de 20 filas y 5 columnas con valores flotantes equiespaciados en el intervalo
cerrado [1, 10].
2.  Un array unidimensional con 128 valores aleatorios de una distribución normal 𝜇 =
1, 𝜎 = 2.
3. Un array unidimensional con 15 valores aleatorios de una muestra 1, X, 2 donde la
probabilidad de que gane el equipo local es del 50%, la probabilidad de que empaten
es del 30% y la probabilidad de que gane el visitante es del 20%.


#### Constantes
Serie de contantes predefinidas que facilitan su acceso y reutilización

In [62]:
np.Inf

inf

In [63]:
np.nan

nan

In [64]:
np.e

2.718281828459045

In [65]:
np.pi

3.141592653589793

### Manipulación de elementos

In [66]:
pesos

array([0.3, 0.2, 0.5])

In [67]:
pesos[0]

0.3

In [68]:
pesos[-1]

0.5

In [69]:
pesos[0] * pasco[0] + pesos[1] * pasco[1] + pesos[2] * pasco[2]

56.8

In [70]:
# Modificación de arrays
numeros = np.random.randint(0, 10, size = (3, 3))
numeros[0,0] = 10 # El 0 lo cambiamos por el número 10
numeros

array([[10,  7,  5],
       [ 6,  8,  0],
       [ 1,  4,  4]])

In [71]:
# Acceso a elementos individuales
numeros[1, 2]

0

In [72]:
# Acceso a múltiples elementos
numeros[[0,2], [2, 2]]

array([5, 4])

In [73]:
# Acceso a filas o columnas completas
numeros[2] # Tercera fila

array([1, 4, 4])

In [74]:
numeros[:, 1] # segunda columna

array([7, 8, 4])

In [75]:
# Acceso a zonas parciales del array
numeros[0:2, 0:2]

array([[10,  7],
       [ 6,  8]])

Todos estos accesos crean una copia del array original. Si modificamos el array copia, se verá reflejado en el original. Para evitar esta situación podemos usar la función np.copy()

In [76]:
# Borrado de arrays multidimensionales
matriz = np.arange(1, 10).reshape((3,3))

In [77]:
matriz

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [78]:
np.delete(matriz, 0, axis = 0) # Retorna

array([[4, 5, 6],
       [7, 8, 9]])

In [79]:
np.delete(matriz, (1, 2), axis = 1) # Retorna

array([[1],
       [4],
       [7]])

In [80]:
# Inserción en arrays multidimensionales

In [81]:
np.append(matriz, [[10, 11, 12]], axis = 0)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [82]:
np.append(matriz, [[4], [4], [4]], axis = 1)

array([[1, 2, 3, 4],
       [4, 5, 6, 4],
       [7, 8, 9, 4]])

In [83]:
# Insertar elementos en posiciones arbitrarias del array
matriz

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [84]:
np.insert(matriz, 0, [0, 0, 0], axis = 0)

array([[0, 0, 0],
       [1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [85]:
np.insert(matriz, 1, [10, 10, 10], axis = 1)

array([[ 1, 10,  2,  3],
       [ 4, 10,  5,  6],
       [ 7, 10,  8,  9]])

##### Ejercicios  
![image.png](attachment:image.png)  
  
  
Utilizando las operaciones de modificación, borrado e inserción, convierta la siguiente matriz


In [86]:
# Extracción de elementos por diagonal
np.diag(matriz, k = 1)

array([2, 6])

![image.png](attachment:image.png)

In [87]:
# Datos
pasco = np.array([73, 67, 43])
print(pesos, pasco)

[0.3 0.2 0.5] [73 67 43]


In [88]:
# Calcular el producto de dos vectores usando la función np.dot

np.dot(pasco, pesos)

56.8

In [89]:
pasco @ pesos

56.8

In [90]:
# Hallar sus diferencias de np.dot y @
# https://www.delftstack.com/es/howto/numpy/numpy-dot-vs-matmul/

In [91]:
# Algunas operaciones de numpy

arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])

In [92]:
np.multiply(arr1,arr2)

array([ 4, 10, 18])

In [93]:
# Suma de elementos
arr2.sum()

15

In [94]:
# Búsqueda de un elemento, entrega los índices
np.where(arr2 == 5)

(array([1], dtype=int64),)

In [95]:
# Restar dos arrays
np.subtract(arr1,arr2)

array([-3, -3, -3])

In [96]:
# Cambiar el signo a los valores
np.negative(arr1)

array([-1, -2, -3])

In [97]:
# Redondear todos los valores del array al entero más próximo
np.rint(arr1)

array([1., 2., 3.])

In [98]:
# Estadística
# Promedio
np.mean(arr1)

2.0

In [99]:
# Varianza
np.var(arr1)

0.6666666666666666

In [100]:
# Desviación típica
np.std(arr1)

0.816496580927726

In [101]:
# Promedio del peso y la altura de los países dados.
paises = np.array(['Perú', 'Argentina', 'Chile', 'Colombia', 'Ecuador', 'El Salvador', 'Brasil'])
peso = np.array([81.4, 88.7, 88.3, 62.7, 73.4, 81.2, 78.7])
altura = np.array([1.82, 1.89, 1.77, 1.75, 1.89, 1.75, 1.7])

# Filtraciones de datos
paises[peso > 80]

array(['Perú', 'Argentina', 'Chile', 'El Salvador'], dtype='<U11')

In [102]:
paises[altura < 1.8]

array(['Chile', 'Colombia', 'El Salvador', 'Brasil'], dtype='<U11')

In [103]:
np.where(altura < 1.8)

(array([2, 3, 5, 6], dtype=int64),)

In [104]:
paises[(peso < 80) & (altura < 1.75)]

array(['Brasil'], dtype='<U11')

In [105]:
# Unión y separación de Arrays para procesar datos
np.stack((altura, peso), axis = 1)

array([[ 1.82, 81.4 ],
       [ 1.89, 88.7 ],
       [ 1.77, 88.3 ],
       [ 1.75, 62.7 ],
       [ 1.89, 73.4 ],
       [ 1.75, 81.2 ],
       [ 1.7 , 78.7 ]])

In [106]:
def calcular_imc(peso, altura):
    return peso / (altura ** 2)

calcular_imc = np.frompyfunc(calcular_imc, 2, 1)

print(calcular_imc(peso, altura))

[24.57432677212897 24.83133170963859 28.18474895464266 20.473469387755102
 20.548136950253355 26.514285714285716 27.231833910034606]


In [107]:
from time import perf_counter

inicio = perf_counter()

for i in range(1000000):
    calcular_imc(peso, altura)

final = perf_counter()

print('Numpy: %0.2f' % (final-inicio))


Numpy: 2.81


In [108]:
pesolist = [81.4, 88.7, 88.3, 62.7, 73.4, 81.2, 78.7]
alturalist = [1.82, 1.89, 1.77, 1.75, 1.89, 1.75, 1.7]

def calcular_imc(peso, altura):
    return peso / (altura ** 2)

inicio = perf_counter()

imc = []
for i in range(1000000):
    for j in range(len(peso)):
        imc.append(calcular_imc(pesolist[j], alturalist[j]))

final = perf_counter()
print('Listas %0.2f' % (final-inicio))

Listas 6.23


In [109]:
# https://python-para-impacientes.blogspot.com/2019/12/calculo-con-arrays-numpy.html#:~:text=Con%20Numpy%20se%20puede%20operar,)%2C%20**%20(potenciaci%C3%B3n).


#### Ejercicios

In [110]:
values = np.array([[10, 11, 12, 13],
                [14, 15, 16, 17],
                [18, 19, 20, 21]])

In [111]:
values % 2 != 0

array([[False,  True, False,  True],
       [False,  True, False,  True],
       [False,  True, False,  True]])

In [112]:
values[values % 2 != 0]

array([11, 13, 15, 17, 19, 21])

In [113]:
# Contando valores
randomz = np.random.randint(1, 11, size = 100) # [1, 100]
randomz

array([ 2, 10,  6,  5,  2,  9,  9, 10,  6,  2,  2,  9,  6,  4,  4,  3,  4,
        2,  6,  9,  1,  2,  9,  1,  3,  3, 10,  4,  9,  9,  9,  1,  4,  3,
        9,  7,  5,  6,  3,  5,  2,  8,  9,  6,  8,  1,  3, 10,  7,  9,  5,
        8,  6,  8,  1,  7,  7,  1, 10,  7,  2,  5,  8, 10,  9,  8,  9,  5,
        6,  1,  6,  8,  9,  2,  1,  4,  9,  5,  9,  1,  1,  8,  7,  9,  6,
        3,  5,  4,  5,  6,  2,  9,  2,  8,  7, 10,  6, 10,  6,  1])

In [114]:
# Valores únicos
np.unique(randomz)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [115]:
np.unique(randomz, return_counts = True) # Con sus frecuencias

(array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10]),
 array([11, 11,  7,  7,  9, 13,  7,  9, 18,  8], dtype=int64))

In [116]:
np.count_nonzero(randomz) # Distintos de cero

100

In [117]:
np.count_nonzero(randomz > 5)

55

#### Operaciones aritméticas

In [118]:
# Mismas dimensiones
A = np.arange(1, 10).reshape(3, 3)
B = np.random.randint(1, 10, size = (3, 3))

In [119]:
A + B

array([[ 3,  7, 10],
       [13,  8, 14],
       [13, 11, 14]])

In [120]:
A * B

array([[ 2, 10, 21],
       [36, 15, 48],
       [42, 24, 45]])

In [121]:
# Distintas dimensiones
C = np.array(range(3))
C

array([0, 1, 2])

In [122]:
A + C  # broadcasting

array([[ 1,  3,  5],
       [ 4,  6,  8],
       [ 7,  9, 11]])

In [123]:
A + np.array([[1], [2], [3]])

array([[ 2,  3,  4],
       [ 6,  7,  8],
       [10, 11, 12]])

In [124]:
# Operaciones entre arrays y escalares
A

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [125]:
A + 5

array([[ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [126]:
A - 5

array([[-4, -3, -2],
       [-1,  0,  1],
       [ 2,  3,  4]])

In [127]:
A / 7

array([[0.14285714, 0.28571429, 0.42857143],
       [0.57142857, 0.71428571, 0.85714286],
       [1.        , 1.14285714, 1.28571429]])

In [128]:
A // 7

array([[0, 0, 0],
       [0, 0, 0],
       [1, 1, 1]], dtype=int32)

In [129]:
# Funciones Universales
np.sqrt(A)

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974],
       [2.64575131, 2.82842712, 3.        ]])

In [130]:
np.sin(A)

array([[ 0.84147098,  0.90929743,  0.14112001],
       [-0.7568025 , -0.95892427, -0.2794155 ],
       [ 0.6569866 ,  0.98935825,  0.41211849]])

In [131]:
np.cos(A)

array([[ 0.54030231, -0.41614684, -0.9899925 ],
       [-0.65364362,  0.28366219,  0.96017029],
       [ 0.75390225, -0.14550003, -0.91113026]])

In [132]:
np.log(A)

array([[0.        , 0.69314718, 1.09861229],
       [1.38629436, 1.60943791, 1.79175947],
       [1.94591015, 2.07944154, 2.19722458]])

In [133]:
# Máximos y Mínimos

In [134]:
values = np.random.randint(1, 100, size = (5,5))
values

array([[49, 31, 46, 64, 86],
       [78, 52, 65, 57, 89],
       [ 3, 92, 29, 46,  5],
       [76, 70, 10, 20, 88],
       [93, 96, 24, 48, 47]])

In [135]:
np.min(values)

3

In [136]:
np.min(values, axis = 0)

array([ 3, 31, 10, 20,  5])

In [137]:
np.min(values, axis = 1)

array([31, 52,  3, 10, 24])

In [138]:
np.max(values)

96

In [139]:
np.max(values, axis = 1)

array([86, 89, 92, 88, 96])

In [140]:
# Indices de maximos y mínimos
values

array([[49, 31, 46, 64, 86],
       [78, 52, 65, 57, 89],
       [ 3, 92, 29, 46,  5],
       [76, 70, 10, 20, 88],
       [93, 96, 24, 48, 47]])

In [141]:
idx = np.argmax(values, axis = 0)
idx

array([4, 4, 1, 0, 1], dtype=int64)

In [142]:
values[idx, range(values.shape[1])] # ¿por que [1]? ya que se hace referencia a las columnas.

array([93, 96, 65, 64, 89])

#### 3. Beneficios de usar arreglos en Numpy

Faciles de usar, poseen operaciones matemáticas, simples, concisas e intuitivas.  
Rendimientos las operaciones y funciones de Numpy son implementadas internamente en C++.

In [143]:
# Python lists
arr1 = list(range(1000000))
arr2 = list(range(1000000, 2000000))

# Numpy arrays
arr1_np = np.array(arr1, dtype = np.int64)
arr2_np = np.array(arr2, dtype = np.int64)

In [144]:
%%time
result = 0
for x1, x2 in zip(arr1, arr2):
    result += x1*x2
result

CPU times: total: 312 ms
Wall time: 368 ms


833332333333500000

In [145]:
%%time
np.dot(arr1_np, arr2_np)

CPU times: total: 0 ns
Wall time: 8.17 ms


833332333333500000

In [146]:
# En conclusión, observamos que los arrays en 100 veces más rapido que las listas

### Algebra Lineal

In [147]:
# Tiene un sección dedicada al Algebra cuyas funciones pueden resultar muy interesantes según el contexto en el que estemos trabajando.

In [148]:
# Producto de Matrices
m1 = np.array([1, 2, 4, 5])
m2 = np.array([7, 8, 10, 11])

In [149]:
np.dot(m1, m2)

118

In [150]:
m1 @ m2

118

In [151]:
# Determinante de una matriz
m3 = np.random.randint(1, 10, size =(3,3))
m3

array([[5, 9, 1],
       [5, 4, 5],
       [9, 7, 8]])

In [152]:
np.linalg.det(m3)

28.99999999999999

In [153]:
# Inversa de una matriz
m_inv = np.linalg.inv(m3)
m_inv

array([[-0.10344828, -2.24137931,  1.4137931 ],
       [ 0.17241379,  1.06896552, -0.68965517],
       [-0.03448276,  1.5862069 , -0.86206897]])

In [154]:
np.dot(m3, m_inv)

array([[ 1.00000000e+00, -2.22044605e-16, -7.77156117e-16],
       [ 2.01227923e-16,  1.00000000e+00, -3.33066907e-16],
       [ 2.22044605e-16, -1.77635684e-15,  1.00000000e+00]])

#### Arreglos multidimensionales con Numpy

In [155]:
# Representamos los datos climáticos de todas las regiones utilizando una sola matriz bidimensional

In [156]:
clima_data = np.array([[73, 67, 43],
                       [91, 88, 64],
                       [87, 134, 58],
                       [102, 43, 37],
                       [69, 96, 70]])

pesos = np.array([0.3, 0.2, 0.5])

print(clima_data, pesos)

[[ 73  67  43]
 [ 91  88  64]
 [ 87 134  58]
 [102  43  37]
 [ 69  96  70]] [0.3 0.2 0.5]


In [165]:
np.matmul(clima_data, pesos)

array([56.8, 76.9, 81.9, 57.7, 74.9])

#### Como trabajar con 10000 datos

In [193]:
clima = np.random.randint(20,100, size = (100000, 3))
clima

array([[65, 60, 51],
       [39, 26, 26],
       [65, 45, 92],
       ...,
       [45, 30, 84],
       [94, 85, 29],
       [57, 85, 75]])

In [194]:
pesos = np.array([0.3, 0.2, 0.5])

In [195]:
clima.shape

(100000, 3)

In [196]:
clima.ndim

2

In [197]:
clima.dtype

dtype('int32')

In [198]:
resultado = clima @ pesos
resultado

array([57. , 29.9, 74.5, ..., 61.5, 59.7, 71.6])

In [199]:
clima_result = np.concatenate((clima, resultado.reshape(-1, 1)), axis = 1) # (100000,1)

In [200]:
clima_result

array([[65. , 60. , 51. , 57. ],
       [39. , 26. , 26. , 29.9],
       [65. , 45. , 92. , 74.5],
       ...,
       [45. , 30. , 84. , 61.5],
       [94. , 85. , 29. , 59.7],
       [57. , 85. , 75. , 71.6]])

In [201]:
np.savetxt('clima_resultado.csv', clima_result, fmt = '%.2f', delimiter = ',', header = 'temperature, lluvia, humedad, rend_manz', comments = '')

In [206]:
data = np.genfromtxt('clima_resultado.csv', delimiter = ',', skip_header = 1) # txt - 1, csv - 0

In [207]:
data

array([[65. , 60. , 51. , 57. ],
       [39. , 26. , 26. , 29.9],
       [65. , 45. , 92. , 74.5],
       ...,
       [45. , 30. , 84. , 61.5],
       [94. , 85. , 29. , 59.7],
       [57. , 85. , 75. , 71.6]])

In [209]:
import pandas as pd

df = pd.read_csv('clima_resultado.csv')
data = df.values
# print(data)
print(df)

       temperature   lluvia   humedad   rend_manz
0             65.0     60.0      51.0        57.0
1             39.0     26.0      26.0        29.9
2             65.0     45.0      92.0        74.5
3             31.0     69.0      50.0        48.1
4             57.0     79.0      41.0        53.4
...            ...      ...       ...         ...
99995         39.0     84.0      88.0        72.5
99996         33.0     25.0      68.0        48.9
99997         45.0     30.0      84.0        61.5
99998         94.0     85.0      29.0        59.7
99999         57.0     85.0      75.0        71.6

[100000 rows x 4 columns]
