# Curso Iniciación Python: NumPy

##################################################################

Fecha: 20/06/2019

Autores: 

    Ana Jimenez Pastor
    
    Rafael López González
    
    Jose Sánchez García

Quibim S.L.

![logo.png](attachment:logo.png)

##################################################################

# Python

Python es un lenguaje de programación interpretado cuya filosofía consiste en una sintaxis muy limpia y que favorece un código legible.

Un lenguaje interpretado o de script es aquel que se ejecuta utilizando un programa intermedio llamado intérprete, un lugar de compilar el código a lenguaje máquina que pueda comprender y ejecutar directamente una computadora (lenguajes compilados). La ventaja de los lenguajes compilados es que su ejecución es más rápida. Sin embargo los lenguajes interpretados son más flexibles y más portables. Python tiene, no obstante, muchas de las características de los lenguajes compilados, por lo que se podría decir que es semi interpretado. En Python,  como en Java y muchos otros lenguajes, el código fuente se traduce a un pseudo código máquina intermedio llamado bytecode la primera vez que se ejecuta, generando archivos .pyc o .pyo (bytecode optimizado), que son los que se ejecutarán en sucesivas ocasiones.

Básicamente un lenguaje interpretado es aquel en el cual sus instrucciones o más bien el código fuente, escrito por el programador en un lenguaje de alto nivel, es traducido por el interprete a un lenguaje entendible para la máquina paso a paso, instrucción por instrucción. El proceso se repite cada vez que se ejecuta el programa el código en cuestión.


## Principales ventajas

### 1. Multiplataforma

Python es un lenguaje de programación interpretado, por lo que funciona en cualquier tipo de sistema que integre su interpretador. 

### 2. Frameworks de gran utilidad

Permite desarrollar cualquier tipo de vía, como por ejemplo web o móvil. Para que esto se lleve a cabo, este lenguaje de programación cuenta con frameworks de gran calibre, los cuales auxilian desde el desarrollo web, hasta el desarrollo de juegos o algoritmos científicos de cálculos avanzados.

### 3. Es libre y nos ofrece código abierto

Si hablamos de la licencia que posee, ésta es Python Software Foundation License, licencia muy parecida a la de GPL, pero encontrando la excepción de que se pueden distribuir los binarios del lenguaje sin tener que anexar las fuentes.

### 4. Gran calidad en su sintaxis

Esta es una de sus características más notorias. En Python, un bloque de código interno como puede ser un if, se crea a través de indentaciones, lo que fuerza al desarrollador a indentar su código fuente garantizando una legibilidad notoria.

### 5. Programación orientada a objetos

La programación orientada a objetos se utiliza para tratar el rápido aumento en el tamaño y la complejidad de los sistemas de software, y facilitar la modificación de esos grandes y complicados sistemas a lo largo del tiempo.

### 6. Empresas de alto prestigio utilizan Python para programar todo tipo de aplicaciones y servicios

Algunos casos de éxito en el uso de Python son Google, Yahoo, la NASA, Industrias Light & Magic, y todas las distribuciones Linux, en las que Python cada vez representa un tanto por ciento mayor de los programas disponibles.

### 7. Gran disponibilidad de librerías

Podemos hablar de tecnología para Big Data como PySpark, de herramientas para Data Science como Pandas, NumPy, Matplotlib o Jupyter. De herramientas del procesamiento del lenguaje natural como NLTK, y por último el área de machine learning que tanto interés está despertando con herramientas como Tensorflow, keras o scikit-learn.

### 8. Ofrece un tipado dinámico fuerte

Por último, cabe destacar la fácil atribución de una variable que nos ofrece a cualquier tipo de valor, y lo mejor de todo, en cualquier lugar de su código fuente.


## Conclusión

Python es un lenguaje maduro, con una gran base de desarrolladores, documentación y proyectos en producción. El crecimiento en el uso del lenguaje está siendo espectacular gracias, fundamentalmente, a las nuevas tecnologías de Data Science y Machine Learning, donde junto con el lenguaje R es el rey.

Sin embargo, R es un lenguaje más de nicho que proviene del mundo de la estadística. Python, por otro lado, es un lenguaje de propósito general y su uso está mucho más extendido.

En la siguiente gráfica vemos una proyección para los próximos años de Stackoverflow sobre el número de visitas que espera recibir en función de los principales lenguajes de programación.

![stackoverflow.png](attachment:stackoverflow.png)

Si hablamos específicamente del área de datos, las comparativas son aún más demoledoras. Recientemente, Kaggle, la plataforma para Machine Learning y Data Science de Google, ha realizado un estudio recopilando información sobre las preferencias de los profesionales del sector.

Un dato muy significativo es la respuesta a la pregunta: ¿Qué lenguaje de programación recomendaría a los nuevos científicos de datos aprender primero? Más del 63% de los encuestados respondió Python.

![kaggle.png](attachment:kaggle.png)


# Introducción a NumPy

NumPy es una librería de python (NUMerical PYthon) para trabajar con arreglos numéricos y uno de los paquetes más importantes en machine learning junto con pandas, matplotlib y scikitlearn.

Esta librería proporciona una estructura de datos de matriz y presenta grandes ventajas frente a las listas regulares de python. Es la librería principal en la informática científica. Permite crear potentes estructuras de datos implementando matrices multidimensionales y garantizando cálculos eficientes.


In [173]:
import numpy as np # Importar numpy
np.random.seed(0) # mismos valores aparecerán en cada nueva ejecución

In [174]:
vector = np.array([1,2,3,4,5,6])
print('vector:')
print(vector)

matriz = np.array([(1,2,3),(4,5,6)])
print('matriz:')
print(matriz)

vector:
[1 2 3 4 5 6]
matriz:
[[1 2 3]
 [4 5 6]]


## Principales ventajas

1. Ocupa menos espacio en memoria
2. Funciona mucho más rápido
3. Es funcional

### Espacio en memoria

In [3]:
# Espacio en memoria

import sys
lista = range(100)
print('Espacio ocupado por la lista de Python:', sys.getsizeof(5) * len(lista))

array = np.arange(100)
print('Espacio ocupado por el NumPy array:', array.size * array.itemsize)


Espacio ocupado por la lista de Python: 2800
Espacio ocupado por el NumPy array: 400


### Tiempo de ejecución

In [None]:
# Tiempo de ejecución

import time

size = 100000

lista1 = range(size)
lista2 = range(size)

array1 = np.arange(size)
array2 = np.arange(size)

tic = time.time()
suma = [(x,y) for x,y in zip(lista1, lista2)]
print('Tiempo ejecución con listas:')
print((time.time() - tic) * 1000)

tic = time.time()
suma = array1 + array2
print('Tiempo ejecución con arrays:')
print((time.time() - tic) * 1000)



### Funciones

#### Matriz vacía

In [10]:
a = np.zeros((2,3))
print(a)

[[0. 0. 0.]
 [0. 0. 0.]]


#### Matriz de unos

In [165]:
b = np.ones((2,3))
b

array([[1., 1., 1.],
       [1., 1., 1.]])

#### Matriz aleatoria

In [164]:
c = np.random.random((2,3))
c

array([[0.8482685 , 0.18800181, 0.97963784],
       [0.75796438, 0.75323021, 0.98138477]])

In [163]:
# Marcar límites de la generación aleatoria
c = np.random.randint(0, 5, 10)
c

array([4, 3, 2, 4, 2, 4, 3, 2, 4, 0])

#### Matriz valor unico

In [161]:
d = np.full ((2,3),4)
d

array([[4, 4, 4],
       [4, 4, 4]])

#### Matriz valores equiespaciados

In [166]:
e = np.arange(0,60,10)
e

array([ 0, 10, 20, 30, 40, 50])

#### Matriz identidad

In [167]:
f = np.eye(5,5)
f

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

#### Carácteristicas matriz creada

In [16]:
print('dimensiones:', f.shape)
print('tipo de datos:', f.dtype)

dimensiones: (5, 5)
tipo de datos: float64


#### Cambio de dimensiones

In [169]:
print('matriz d:')
print(d)
g = d.reshape(3,2)
g

matriz d:
[[4 4 4]
 [4 4 4]]


array([[4, 4],
       [4, 4],
       [4, 4]])

#### Extraer valores de una matriz

In [170]:
h =  np.array([(1,2,3,4,5), (6,7,8,9,10)])
h

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [79]:
# Extraer un único valor
print(h[1,2])

8


In [149]:
# Extraer valor empezando por el final
print(h[1,-1])

10


In [81]:
# Extraer una fila
fila = h[0,:]
fila

array([1, 2, 3, 4, 5])

In [83]:
# Extraer una columna
columna = h[:,1]
columna

array([2, 7])

In [84]:
#Extraer grupo de valores
grupo = h[0,1:3]
grupo

array([2, 3])

In [159]:
# Extraer elementos de las columnas pares
columnas_pares = h[:,::2]
columnas_pares

array([[ 1,  3,  5],
       [ 6,  8, 10]])

In [160]:
# Extraer elementos de las columnas impares
columnas_impares = h[:,1::2]
columnas_impares

array([[2, 4],
       [7, 9]])

### Operaciones con matrices

#### Encontrar mínimo y máximo

In [85]:
i = np.array([(1,7,2), (0,3,9)])
print('minimo:', i.min())
print('maximo:', i.max())

minimo: 0
maximo: 9


#### Sumar elementos, raíz cuadrada, media, desviación estandar

In [29]:
j = np.array([(1,2,3),(4,5,6),(7,8,9)])

print('suma:', j.sum())

print('raíz:')
print(np.sqrt(j))

print('media:', np.mean(j))

print('desviación estandar:', np.std(j))


suma: 45
raíz:
[[1.         1.41421356 1.73205081]
 [2.         2.23606798 2.44948974]
 [2.64575131 2.82842712 3.        ]]
media: 5.0
desviación estandar: 2.581988897471611


#### Suma, resta, multiplicación y división de matrices (element-wise)

In [32]:
k = np.full((2,3),2)
l = np.full((2,3),3)

print('matriz 1:', k)
print('matriz 2:', l)

# Suma
suma = k + l
print('Suma:')
print(suma)

# Resta
print('Resta:')
resta = l - k
print(resta)

# Multiplicación
print('Multiplicación:')
mult = k * l
print(mult)

# División
print('División:')
div = k / l
print(div)

matriz 1: [[2 2 2]
 [2 2 2]]
matriz 2: [[3 3 3]
 [3 3 3]]
Suma:
[[5 5 5]
 [5 5 5]]
Resta:
[[1 1 1]
 [1 1 1]]
Multiplicación:
[[6 6 6]
 [6 6 6]]
División:
[[0.66666667 0.66666667 0.66666667]
 [0.66666667 0.66666667 0.66666667]]


#### *Trabajando con NumPy, cuando copiamos, en realidad, estamos haciendo una vista al objeto original, apuntamos al mismo objeto. Solución: forzar copia

In [39]:
a = np.array([1, 2, 3])
b = a[:]
print(b)
b[0] = 5
print(b)
print(a)

[1 2 3]
[5 2 3]
[5 2 3]


In [44]:
a = np.array([1, 2, 3])
b = a[:].copy() # fuerzo la copia
print(b)
b[0] = 5
print(b)
print(a)

[1 2 3]
[5 2 3]
[1 2 3]


In [89]:
a = np.arange(6)
b = np.ones(6).astype(int)
a,b

(array([0, 1, 2, 3, 4, 5]), array([1, 1, 1, 1, 1, 1]))

### Funciones de comparación 

In [90]:
a == b

array([False,  True, False, False, False, False])

In [93]:
a != b

array([ True, False,  True,  True,  True,  True])

In [91]:
# Element wise
a < b

array([ True, False, False, False, False, False])

In [92]:
# Algún elemento
np.any(a < b)

True

In [88]:
# Todos los elementos
np.all(a > b)

True

#### *** Cuidado con el tipo de datos de las matrices a la hora de comparar

In [56]:
a = np.arange(6).astype(float)
b = np.ones(6)
a,b

(array([0., 1., 2., 3., 4., 5.]), array([1., 1., 1., 1., 1., 1.]))

In [57]:
np.isclose(a, b, rtol=1e-6)

array([False,  True, False, False, False, False])

In [62]:
c = a[np.isclose(a, b, rtol=1e-6) == True]
c

array([1.])

In [65]:
n,m = 100, 100
a = np.empty(10000).reshape(n,m)
b = np.random.rand(10000).reshape(n,m)
c = np.random.rand(10000).reshape(n,m)

In [66]:
%%timeit
for i in range(n):
    for j in range(m):
        a[i,j] = b[i,j] + c[i,j]

3.79 ms ± 42.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [67]:
%%timeit
 a = b + c

4.46 µs ± 36.6 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


## Ejercicios

### Ejercicio 1

1. Crear un array 3x4 lleno de 0s tipo entero
2. Crear un array 3x4 lleno de 0s menos la última fila que debe estar toda a 1s
3. Crear un array 3x4 lleno de ceros, menos la última fila, donde el rango será de 6 a 9

In [95]:
a = np.zeros((3,4))
a

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [99]:
a[0,:] = 1
a

array([[1., 1., 1., 1.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [104]:
b = np.zeros((3,4))
b

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [107]:
b[-1,:] = np.arange(6,10)
b

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [6., 7., 8., 9.]])

### Ejercicio 2 

1. Crear un vector de 10 elementos, siendo los impares 1s y los pares 2s
2. Crear un tablero de ajedrez, con 1s en las casillas negras y 0s en las blancas

In [111]:
a = np.ones(10)
a

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [113]:
a[::2] = 2
a

array([2., 1., 2., 1., 2., 1., 2., 1., 2., 1.])

In [152]:
tablero = np.zeros((8,8))
tablero

array([[0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.]])

In [155]:
tablero[1::2, ::2] = 1
tablero[::2, 1::2] = 1
tablero

array([[0., 1., 0., 1., 0., 1., 0., 1.],
       [1., 0., 1., 0., 1., 0., 1., 0.],
       [0., 1., 0., 1., 0., 1., 0., 1.],
       [1., 0., 1., 0., 1., 0., 1., 0.],
       [0., 1., 0., 1., 0., 1., 0., 1.],
       [1., 0., 1., 0., 1., 0., 1., 0.],
       [0., 1., 0., 1., 0., 1., 0., 1.],
       [1., 0., 1., 0., 1., 0., 1., 0.]])

### Ejercicio 3

1. Crear una matriz aleatoria 10x10 y obten la media y la desviación estandard y obtener un nuevo array que contenga los valores que estén por encima de la media.

2. Definir una matriz 20x20 con valores aleatorios entre 0 y 255 y normalizala entre 0 y 1

In [119]:
a = np.random.random((10,10))
a

array([[0.06821365, 0.14774896, 0.09074142, 0.28264   , 0.9313025 ,
        0.65791157, 0.45415892, 0.82224595, 0.90487544, 0.6233505 ],
       [0.23683736, 0.13929849, 0.09218334, 0.70245276, 0.50767467,
        0.97920704, 0.50331881, 0.63466276, 0.15588592, 0.80734477],
       [0.80732019, 0.08086704, 0.28519978, 0.94249332, 0.69002114,
        0.9455316 , 0.23878949, 0.1480083 , 0.2268519 , 0.75186013],
       [0.99585903, 0.8970122 , 0.81521833, 0.74527672, 0.52759414,
        0.1793373 , 0.89305533, 0.10296897, 0.45049352, 0.21969932],
       [0.18751114, 0.35192922, 0.26286596, 0.28998099, 0.88296392,
        0.2793597 , 0.8130366 , 0.57261115, 0.81691243, 0.28512499],
       [0.60965449, 0.33207282, 0.15860117, 0.08393165, 0.37454755,
        0.35759393, 0.16642475, 0.97824002, 0.70606262, 0.48417048],
       [0.14457058, 0.37925099, 0.14909758, 0.8277162 , 0.15675487,
        0.19866279, 0.61272905, 0.5402625 , 0.328999  , 0.51563988],
       [0.87010487, 0.83008308, 0.2468744

In [121]:
media = a.mean()
desv_est = a.std()

media, desv_est

(0.50011976970905, 0.28588643738333974)

In [122]:
b = a[a > media]
b

array([0.9313025 , 0.65791157, 0.82224595, 0.90487544, 0.6233505 ,
       0.70245276, 0.50767467, 0.97920704, 0.50331881, 0.63466276,
       0.80734477, 0.80732019, 0.94249332, 0.69002114, 0.9455316 ,
       0.75186013, 0.99585903, 0.8970122 , 0.81521833, 0.74527672,
       0.52759414, 0.89305533, 0.88296392, 0.8130366 , 0.57261115,
       0.81691243, 0.60965449, 0.97824002, 0.70606262, 0.8277162 ,
       0.61272905, 0.5402625 , 0.51563988, 0.87010487, 0.83008308,
       0.69087213, 0.73943572, 0.64003862, 0.57974534, 0.84297819,
       0.7183443 , 0.8866204 , 0.63333466, 0.74246382, 0.55045178,
       0.63278323, 0.58539391, 0.8150477 , 0.76113545, 0.61452823,
       0.76478308, 0.84768977])

In [134]:
imagen = np.random.randint(0, 256, 400)
imagen = imagen.reshape(20,20)
imagen.shape

(20, 20)

In [144]:
imagen_norm = (imagen - np.min(imagen)) / ((np.max(imagen) - np.min(imagen)) + 1e-10)
imagen_norm

array([[0.44094488, 0.56692913, 0.72834646, 0.02362205, 0.68110236,
        0.77559055, 0.69291339, 0.75590551, 0.82677165, 0.16929134,
        0.33070866, 0.29133858, 0.09055118, 0.09448819, 0.12204724,
        0.29133858, 0.47637795, 0.30314961, 0.        , 0.63385827],
       [0.57874016, 0.90944882, 0.27952756, 0.61811024, 0.95275591,
        0.45275591, 0.77559055, 0.99212598, 0.3503937 , 0.91338583,
        0.06299213, 0.7992126 , 0.47244094, 0.54330709, 0.75984252,
        0.07480315, 0.56299213, 0.6023622 , 0.37795276, 0.62204724],
       [0.53149606, 0.15354331, 0.7007874 , 0.48425197, 0.82677165,
        0.9015748 , 0.4488189 , 0.04724409, 0.34645669, 0.52755906,
        0.50787402, 0.72834646, 0.43307087, 0.74015748, 0.62992126,
        0.34645669, 0.62598425, 0.53937008, 0.16929134, 0.94094488],
       [0.67716535, 0.27952756, 0.64173228, 0.06299213, 0.26377953,
        0.31102362, 0.5984252 , 0.59448819, 0.07086614, 0.74409449,
        0.03937008, 0.22440945, 0.57086614, 0

In [140]:
print('minimo:', np.min(imagen_norm))
print('maximo:', np.max(imagen_norm))

minimo: 0.0
maximo: 0.9999999999996063


## Bibliografía

https://docs.python.org/3/

https://www.medium.com

https://www.bejob.com

https://www.paradigmadigital.com