# Analisis de Datos con Python - Clase 3

[Material Complementario](https://1drv.ms/f/s!Anh5cvrOJtUTlPZnUCQ9UDEpjh1Gtg?e=P6Qlu9)

In [5]:
![image](numpy.png) 

"[image]" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [7]:
import numpy as np

# MODULO 3 - Biblioteca Numpy 1
Numpy (de Numerical Python) es la principal librería de  cálculo numérico de Python y el ecosistema de librerías  cientíﬁcas del lenguaje (como Pandas y Matplotlib)  recurre a Numpy para realizar sus operaciones.    
Se basa en una estructura de datos multidimensional  llamada **array** y en una serie de funciones muy  optimizadas para su manipulación, incluyendo  operaciones matemáticas, lógicas, de selección y  ordenamiento, operaciones estadísticas, álgebra lineal  y más.

# 1.1. Array
El array (o ndarray) es la estructura que permite  acelerar las operaciones matemáticas en Python, sin  la necesidad de recurrir a bucles para operar con  todos sus elementos, lo que se llama **vectorización**.     
El array es una estructura de datos mucho más  optimizada que la lista, pero a cambio presenta  menos ﬂexibilidad.     
El array sólo admite elementos  de un **único tipo de dato** y **no se puede cambiar la  cantidad de elementos**.     
Esto garantiza que siempre  ocupe el mismo espacio y todos sus elementos se  puedan representar en una sección continua de  memoria.    
Es una estructura multidimensional, por lo que  permite representar vectores, matrices o arreglos  de más dimensiones.

### 1.1.1. Atributos de un Array
- **dtype**: el tipo de dato del array, en general numérico.
- **size**: cantidad de elementos.
- **nbytes**: total de bytes consumidos por los datos  (bytes del tipo de dato por la cantidada de elementos).
- **ndim**: número de dimensiones.
- **shape**: cantidad de elementos en cada dimensión.

In [10]:
a = np.array([1, 2, 3])
print(type(a))
a.dtype

<class 'numpy.ndarray'>


dtype('int32')

In [12]:
b = np.array([[4, 5, 6], [7, 8, 9]])
print(b)
# Obtenemos la transposicion de b
print(b.T)

# Cantidad de elementos
print(a.size)
print(b.size)

# Cuantos bytes hay en a y b
print(a.nbytes)
print(b.nbytes)

# Tipos de datos
print(a.dtype)
print(b.dtype)

# Tipos de shape(filas, columnas)
print(a.shape)
print(b.shape)


# Dimension 
print(a.ndim)
print(b.ndim)

[[4 5 6]
 [7 8 9]]
[[4 7]
 [5 8]
 [6 9]]
3
6
12
24
int32
int32
(3,)
(2, 3)
1
2


### 1.1.2. Creacion de un Array
Hay muchas formas de crear arrays. A través de la función **np.array**  se pueden usar secuencias como listas (que pueden estar anidadas  para representar arreglos multidimensionales). Podemos pasar el  parámetro dtype para forzar a representar los datos en un tipo  determinado. Si no se pasa, la función tratará de inferirlo.

In [13]:
arr1 =np.array([1,2,3,4,5])
print(arr1, arr1.dtype, arr1.nbytes)
print('_________________________________')
arr2 =np.array([1,2,3,4,5], dtype = np.float64)
print(arr2, arr2.dtype, arr2.nbytes)
print('_________________________________')
arr3 =np.array([1,2,3,4,5], dtype = np.int8)
print(arr3, arr3.dtype, arr3.nbytes)

[1 2 3 4 5] int32 20
_________________________________
[1. 2. 3. 4. 5.] float64 40
_________________________________
[1 2 3 4 5] int8 5


Podemos armar un array de dos dimensiones con listas anidadas,  siempre y cuando todas tengan la misma cantidad de elementos.

In [14]:
arr = np.array([[1,2,3,4], [4,5,6,7], [8,9,10,11]])
print(arr)
print('ndim:', arr.ndim, '- shape:', arr.shape)

[[ 1  2  3  4]
 [ 4  5  6  7]
 [ 8  9 10 11]]
ndim: 2 - shape: (3, 4)


Además hay numerosas funciones para crear arrays:
- **arange** y **linspace** para rangos de números equiespaciados.
- **zeros**, **ones** y **full** para arrays de cualquier dimensión y forma.
- **identity**, **eye** y **diagonal** para arrays de 2 dimensiones.    
El módulo **random** permite crear arrays con distintas  distribuciones de números al azar.
Las funciones loadtxt y genfromtxt permiten leer archivos de  texto tipo csv.
Tener en cuenta especiﬁcar el tipo de dato y el shape cuando sea  necesario.

In [15]:
# zeros
# El dtype es float64 por defecto, pero puede ser asignado con cualquier tipo de datos en NumPy.
#np.zeros(5)
#np.zeros((5), dtype=int)
np.zeros((4,3),dtype=int)

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [6]:
# Ones
# El dtype es float64 por defecto, pero puede ser asignado con cualquier tipo de datos en NumPy.
np.ones(5)
np.ones((5), dtype=int)
np.ones((4,3))

NameError: name 'np' is not defined

In [18]:
# np.arange
np.arange(10)
np.arange(6,20,2)

array([ 6,  8, 10, 12, 14, 16, 18])

In [19]:
# np.full
np.full((4, 3), 5)

array([[5, 5, 5],
       [5, 5, 5],
       [5, 5, 5],
       [5, 5, 5]])

In [20]:
np.random.randint(5, size=(2, 4))

array([[4, 4, 2, 4],
       [4, 1, 0, 1]])

### 1.1.3. Reshaping
Ya vimos que el tipo de dato es muy importante  en un array. Ahora nos vamos a centrar en el  atributo shape. Éste determina la forma del  array, lo que implica la dimensión y el paso.
Los datos se almacenan en un espacio contiguo  de memoria y el shape determina cómo debe  ser interpretada la forma del array: cuántos  elementos debe contener cada dimensión. Se  especiﬁca como una tupla de números enteros.  Estos números deben ser compatibles con la  cantidad de elementos.
Para cambiar la forma del array se usa el método
**reshape**.          El método **flatten** transforma  el array en unidimensional.

In [3]:
a = np.arange(6)
a = np.arange(6).reshape((3, 2))
a = a.flatten()


NameError: name 'np' is not defined

### 1.1.4. Indexing
Se conoce como indexing a cualquier operación  que seleccione elementos de una array a través  de corchetes ([]).
Para un array unidimensional la indexación  funciona igual que con las listas. Sin embargo,  para los arrays multidimensionales es posible  especiﬁcar los índices de cada dimensión  dentro de los mismos corchetes.                     
Los índices en las matrices NumPy comienzan con 0, lo que significa que el primer elemento tiene el índice 0 y el segundo tiene el índice 1, etc.

In [9]:
arr = np.array([1, 2, 3, 4])

print(arr[0])
print(arr[3])

1
4


Para acceder a elementos de matrices **2-D**, podemos usar números enteros separados por comas que representan la dimensión y el índice del elemento.
Piense en las matrices 2D como una tabla con filas y columnas, donde la fila representa la dimensión y el índice representa la columna.

In [8]:
arr = np.array([[1,2,3,4,5], [6,7,8,9,10]])
print(arr)
print('2do elemento en 1ra fila: ', arr[0, 1])

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
2do elemento en 1ra fila:  2


In [10]:
arr = np.array([[1,2,3,4,5], [6,7,8,9,10]])
print(arr)
print('5to elemento en 2da fila: ', arr[1, 4])

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
5to elemento en 2da fila:  10


Acceda a arreglos 3D
Para acceder a elementos de matrices **3-D**, podemos usar números enteros separados por comas que representan las dimensiones y el índice del elemento.

In [11]:
arr = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

print(arr)

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


In [12]:
print(arr[0, 1, 2])

6


### Explicacion ejemplo anterior

**arr[0, 1, 2] imprime el valor 6.**


El primer número representa la primera dimensión, que contiene dos matrices:    
[[1, 2, 3], [4, 5, 6]]

y:

[[7, 8, 9], [10, 11, 12]]

Como seleccionamos 0, nos quedamos con la primera matriz:

[[1, 2, 3], [4, 5, 6]]

El segundo número representa la segunda dimensión, que también contiene dos matrices:    
[1, 2, 3]

y:

[4, 5, 6]

Como seleccionamos 1, nos quedamos con la segunda matriz:    
[4, 5, 6]

El tercer número representa la tercera dimensión, que contiene tres valores:
4
5
6
Como seleccionamos 2, terminamos con el tercer valor:
6

### 1.1.5. Enmascaramiento
Una característica interesante de Numpy es que permite seleccionar  elementos en base a una condición. Esto es posible porque se  puede usar un array de booleanos para seleccionar elementos de  otro array.

In [14]:
numeros = np.array([10,20,30,40])
print(numeros)

booleanos = np.array([True, False, False, True])
print(booleanos)


[10 20 30 40]
[ True False False  True]


In [15]:
arr = np.array([10,20,30, 40, 50])
arr > 30

array([False, False, False,  True,  True])

### 1.1.6. Asignaciones
Con la notación de corchetes no sólo es posible elegir elementos de  un array, sino que también se puede reasignar sus valores.

In [16]:
b = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])

In [17]:
b[:,2] = 0 
print(b)

[[1 2 0 4]
 [5 6 0 8]]


In [18]:
b[b<3] = 11
print(b)

[[11 11 11  4]
 [ 5  6 11  8]]
