# CLASE 2

##Trabajando con NumPy Arrays

NumPy, o Python numérico, es una biblioteca basada en Python para cálculos matemáticos y procesamiento de arrays. Python no admite estructuras de datos en más de una dimensión, con contenedores como listas y diccionarios que son unidimensionales. Por ello, se hace uso del paquete NumPy.



> Un array puede ser unidimensional (un vector), bidimensional (una matriz) o multidimensional



El paquete NumPy debe importarse antes de que se puedan utilizar sus funciones. La notación abreviada o alias de NumPy es np.

In [None]:
#Importando el paquete NumPy

import numpy as np

### Creando un array

La unidad básica en NumPy es un array.

**Creando un array a partir de una lista**

La función *np.array* se utiliza para crear un array unidimensional o multidimensional a partir de una lista.

In [None]:
#help(np.array)

In [None]:
np.array([1,2,3])

In [None]:
a = np.array([1,2,3])
print(a)

In [None]:
type(a)  # N-dimensional array (ndarray)

In [None]:
a.shape

In [None]:
b = np.array([ [1,2,3],[4,5,6] ])
print(b)

In [None]:
b.shape

**Creando un array a partir de una rango**

La función *np.arange* se usa para crear un rango de integers

In [None]:
#help(np.arange)

In [None]:
np.arange(0,11,1)

In [None]:
np.arange(0,11)

In [None]:
#Genera 11 integers igualmente espaciados comenzando desde 0
np.arange(11)

**Creando un array de números igualmente espaciados**

La función *np.linspace* crea un número dado de valores igualmente espaciados
entre dos límites.

In [None]:
#Esto genera cinco valores igualmente espaciados entre 1 y 6
np.linspace(1,6,5)  

**Creando un array de ceros**

La función *np.zeros* crea una array con un número determinado de filas y
columnas, con un solo valor en todo el array: "0".

In [None]:
#Crea un array de 3*4 con todos sus valores igual a 0
np.zeros((3,4))

**Creando un array de unos**

La función *np.ones* es similar a la función* np.zeros*, siendo la diferencia
que el valor repetido en toda la matriz es "1".

In [None]:
#Crea un array de 2*4 con todos sus valores igual a 1
np.ones((2,4))

**Creando un array con un valor dado repetido a lo largo**



La función *np.full* crea un array utilizando el valor especificado por el usuario.

In [None]:
#Crea un array de 2*4 con todos sus valores igual a 2
np.full((2,4),2)

**Creando un array a partir de la repetición de una lista**

La función *np.repeat* crea un array a partir de una lista que se repite un determinado número de veces.

In [None]:
#Se repite cada valor de la lista 4 veces
np.repeat([1,2,3],4)

La función *np.tile* crear un array a partir de la repetición exacta de una lista un determinado número de veces.

In [None]:
#Repitiendo la lista exacta 3 veces

A = np.array([1,2,3]) 
B = np.tile(A,3)

print(B)

**Creando un array de integers aleatorios**

In [None]:
#Se crea un array con 5 números aleatorios entre 1 y 100
np.random.randint(1,100,5)  

Un punto a tener en cuenta es que los arrays son estructuras de datos homogéneas, a diferencia de los contenedores (como listas y diccionarios). Es decir, una array debe contener elementos del mismo tipo de dato. Por ejemplo, no podemos tener una array que contenga strings, integers y floats al mismo tiempo. 

Si bien la definición de un NumPy array con elementos de diferentes tipos de datos no genera un error al escribir el código, esto debe evitarse.

### Reshaping an array

Reshaping un array es el proceso de cambiar la dimensionalidad de una array. El método NumPy "reshape" es importante y se usa comúnmente para convertir un 1-D array en uno multidimensional.

In [None]:
x = np.arange(0,10)
print(x)

In [None]:
type(x)

In [None]:
x.shape

**Comando reshape**

Podemos "remodelar" el 1-D array "x" en un 2-D array con 5 filas y 2 columnas.

In [None]:
x.reshape(5,2)

In [None]:
x    #no alterna el array original. Debemos ponerlo en un nuevo array

In [None]:
y = x.reshape(5,2)
y

In [None]:
y.shape

In [None]:
type(y)

Ahora, apliqueos el método "reshape" para crear dos subarreglos - cada uno con 3 filas y 2 columnas.

In [None]:
X1 = np.arange(0,12)
print(X1)

In [None]:
X1.reshape(2,3,2)    #(subarreglos,filas,columnas)

In [None]:
np.arange(0,12).reshape(2,3,2)

El producto de las dimensiones del array "reformado" debe ser igual al número de elementos del array original.

**Comando shape**

Podemos usar el comando *shape* para cambiar las dimensiones de un array

In [None]:
X1 = np.arange(0,12)
X1

In [None]:
X1.shape=(6,2)
X1

Tenga en cuenta que el comando *shape* realiza cambios al array original. En cambio, el comando *reshape* no altera el array

### Combinando arrays

**Appending**

Implica unir una array al final de otro array.

La función *np.append* se usa para unir dos arrays.

In [None]:
x1=np.array([[1,2],[3,4]])
x1

In [None]:
x2=np.array([[6,7,8],[9,10,11]])
x2

In [None]:
np.append(x1,x2)

**Concatenación**

Implica unir array a lo largo de un eje (ya sea vertical u horizontal). La función *np.concatenate* concatena arrays.

In [None]:
x=np.array([[1,2],[3,4]])
x

In [None]:
y=np.array([[6,7],[9,10]])
y

In [None]:
np.concatenate((x,y))

Por defecto, la función concatenar une los array verticalmente (a lo largo del eje "0"). Si desea que los array se unan uno al lado de la otro, el parámetro "eje" debe agregarse con el valor "1".

In [None]:
np.concatenate((x,y),axis=1)

### Operaciones con arrays

**Operaciones aritméticas**

In [None]:
a = np.array([1, 2, 3, 4]) 

In [None]:
a+10       #suma

In [None]:
a*2        #multiplicación

In [None]:
a**2        #potencia

In [None]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])

In [None]:
a+b         #suma (tienen que ser de la misma dimensión)

In [None]:
a*b         #multiplicación

In [None]:
(a+b)**2    #potencia

**Operadores de comparación**

In [None]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])

In [None]:
a==b                 #igualdad (elemento por elemento)

In [None]:
np.array_equal(a,b)  #igualdad (total)

In [None]:
c = np.array([1, 2, 3, 4])
d = np.array([1, 2, 3, 4])

In [None]:
np.array_equal(c,d)

### Matrices

Una matriz es una estructura de datos bidimensional (filas y columnas), mientras que una array puede constar de cualquier número
de dimensiones.

In [None]:
x=np.matrix([[10,3],[43,3],[4,7]])
x

In [None]:
type(x)

In [None]:
#También se puede utilizar punto y coma para separar las filas
y=np.matrix('10,3; 43,3 ;4,7')
y

Dado que las matrices son solo un caso específico de los array y podrían quedar obsoletas en futuras versiones de NumPy, generalmente es preferible usar NumPy arrays.

In [None]:
z=np.array([[10,3],[43,3],[4,7]])
z

In [None]:
type(z)

In [None]:
z.shape

**Operaciones básicas con matrices**

In [None]:
x1 = np.array([10,1,4,7])

y1 = x1.reshape(2,2)
y1

In [None]:
x2 = np.array([30,78,4,8])

y2 = x2.reshape(2,2)
y2

In [None]:
#suma de matrices
y1 + y2

In [None]:
#resta de matrices
y1 - y2

In [None]:
#multiplicación de matrices
#np.dot(y1,y2)

In [None]:
#determinante de una matriz
#np.linalg.det(y1)

In [None]:
#inversa de una matriz
#np.linalg.inv(y1)

## Preparando tus datos con Pandas (I)

Pandas, la biblioteca de Python para la manipulación de datos, tiene la ventaja de ser una herramienta poderosa con muchas capacidades para manipular datos.

Pandas tiene muchas funciones, enumeradas a continuación, que la convierten en una herramienta popular para la gestión de datos y análisis.


* Pandas ofrece funciones para etiquetar o indexar datos, que
acelera la recuperación de datos.
* Ofrece opciones para leer datos
de diferentes formatos de archivo como JSON (JavaScript Object Notation),
CSV (valores separados por comas), Excel, entre otros.
* Permite combinar distintas fuentes de datos.
* Pandas proporciona muchas herramientas de visualización integradas
utilizando Matplotlib como biblioteca base.
* Soporte para otras bibliotecas: Pandas se integra sin problemas con
otras bibliotecas como Numpy, Matplotlib, Scipy y Scikit-learn.




In [None]:
import pandas as pd

### Creating a Series object

Una serie es como una columna (solo tiene una dimensión). Cada valor guardado en una serie tiene una etiqueta o un índice asociado.

In [None]:
pd.Series?


> Tenga en cuenta que la letra "S" en "Series" está en mayúscula. Si es así, pd.Series no funcionará.



**Usando un valor escalar**

In [None]:
#Creando una serie con solo un valor. Aquí 0 es el índice y 5 es el valor asociado.
pd.Series(5)

**Usando una lista**

In [None]:
notas = [10,20,14]                              #integers

In [None]:
pd.Series(notas)

In [None]:
cursos = ['Historia', 'Matemáticas', 'Arte']   #strings

In [None]:
pd.Series(cursos)

In [None]:
#Creando una serie con un solo valor (2) en una lista y replicarla 5 veces. 0,1,2,3,4 son los índices autogenerados.
pd.Series([2]*5)

**Utilizando un diccionario**

In [None]:
pd.Series({1:'India',2:'Japan',3:'Singapore'})

In [None]:
deportes = {0: 'Tiro al arco',
            1: 'Fútbol',
            2: 'Tenis',
            3: 'Taekwondo'}

In [None]:
x = pd.Series(deportes)
x

In [None]:
#Consultando los índices
x.index

In [None]:
#Consultando los valores
x.values

**Utilizando un rango**

Asegurarse que la biblioteca Numpy también esté importada.

In [None]:
#Utilizando la función de NumPy arrays para crear una serie de un rango de 4 números (1-4)
pd.Series(np.arange(1,5))

In [None]:
pd.Series(np.arange(1,10,2))

**Creando una serie con escogiendo los labels de los índices**

In [None]:
#La lista [2,0,1,6] especifica los valores de la serie y la lista ['a', 'b', 'c', 'd'] especifica las etiquetas del índice
pd.Series([2,0,1,6],index=['a','b','c','d'])

### Consultar una serie

In [None]:
deportes = {'Primero': 'Tiro al arco',
            'Segundo': 'Fútbol',
            'Tercero': 'Tenis',
            'Cuarto': 'Taekwondo'}

In [None]:
x = pd.Series(deportes)
x

In [None]:
#Tercer valor de la serie
x.iloc[2]

In [None]:
#Tercer índice de la serie
x.loc['Tercero']

In [None]:
#largo de la serie
len(deportes)

### Dataframe


Se verá en la siguiente clase