<a href="https://colab.research.google.com/github/alfonsoamt/Curso-Pandas-y-Numpy/blob/main/Curso_B%C3%A1sico_de_Manipulaci%C3%B3n_y_Transformaci%C3%B3n_de_Datos_con_Pandas_y_Numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#  **🤓 ¿Por qué NumPy y Pandas?**

## **🔢¿Por qué NumPy?**
Es una librería enfocada al cálculo númerico y manejo de Arrays.
* Es muy veloz, hasta 50 veces más rápido que usar una lista de Python o C.
* Optimiza el almacenamiento en memoria.
* Además, maneja distintos tipos de datos.

Es una librería muy poderosa, se pueden crear redes neuronales desde cero.

## **🐼¿Por qué Pandas?**

Pandas está enfocada a la manipulación y análisis de datos.
* Al estar construido sobre NumPy veloz.
* Requiere poco código para manipular los datos.
* Soporta múltiples formatos de archivos.
* Ordena los datos en una alienación inteligente.

Se pueden manejar grandes cantidades de datos, hacer analítica y crear dahsboards.

La forma de importar estas librerías es de la siguiente manera:


```
import numpy as np
import pandas as pd
```



In [127]:
import numpy as np
import pandas as pd

## **🔢NumPy Array**
El array es el principal objeto de la librería. Representa datos de manera estructurada y se puede acceder a ellos a traves del indexado, a un dato específico o un grupo de muchos datos específicos.

In [128]:
lista = [1, 2 , 3, 4, 5, 6, 7, 8, 9]
lista

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [129]:
arr = np.array(lista)

In [130]:
type(arr)

numpy.ndarray

In [131]:
matriz = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
matriz = np.array(matriz)
matriz

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [132]:
# El indexado nos permite acceder a los elementos de los array y matrices
# Los elementos se emepiezan a contar desde 0.
arr[0]

1

In [133]:
# Es posible operar directamente con los elementos.
arr[0] + arr[5]

7

In [134]:
# En el caso de las matrices al indezar una posición se regresa el array de dicha posición.
matriz[0]

array([1, 2, 3])

In [135]:
# Para seleccionar un solo elemento de la matriz se especifica la posición del elemento separada por comas.
matriz[0, 2]

3

In [136]:
# El slicing nos permite extraer varios datos, tiene un comienzo y un final.
# En este ejemplo se está extrayendo datos desde la posición 1 hasta la 5. [1:6].
arr[1:6]

array([2, 3, 4, 5, 6])

In [137]:
# Si no se ingresa el valor de Start se toma el incio como la posición 0.
arr[:6]

array([1, 2, 3, 4, 5, 6])

In [138]:
# En cambio si no se le da una posción de End se regresan todos los elementos hasta el final del array.
arr[2:]

array([3, 4, 5, 6, 7, 8, 9])

In [139]:
# También se puede trabajar por pasos.
# En este ejemplo de 3 en 3.
arr[::3]
# Regresa la posición 0, 0 + 3, 3 + 3 y como no hay posición 6 + 3, no se regrese nada.

array([1, 4, 7])

In [140]:
# Cuando se le asigna un valor negativo se regresan los valores comenzando desde la última posición del array.
arr[-1]

9

In [141]:
arr[-3:]

array([7, 8, 9])

In [142]:
# Para el caso de las matrices sucede algo similar.
# Para acceder a los valores a nivel de filas.
matriz[1:]

array([[4, 5, 6],
       [7, 8, 9]])

In [143]:
# Para acceder a los valores a nivel de filas y columnas.
matriz[1:, 0:2]

array([[4, 5],
       [7, 8]])

## **🔡Tipos de datos**
Los arrays de NumPy solo pueden contener un tipo de dato, ya que esto es lo que le confiere las ventajas de la optimización de memoria.

In [144]:
# Podemos conocer el tipo de datos del array consultando la propiedad .dtype.
arr = np.array([1, 2, 3, 4])
arr.dtype

dtype('int64')

In [145]:
# Si queremos usar otro tipo de dato lo podemos definir en la declaración del array.
arr = np.array([1, 2, 3, 4], dtype = 'float64')
arr.dtype

dtype('float64')

In [146]:
# Ahora vemos que los valores están con punto decimal.
arr

array([1., 2., 3., 4.])

In [147]:
# Si ya se tiene el array definido se usa el método .astype() para convertir el tipo de dato.
arr = np.array([1, 2, 3, 4])
arr = arr.astype(np.float64)
arr

array([1., 2., 3., 4.])

In [148]:
# También se puede cambiar a tipo booleano recordando que los números diferentes de 0 se convierten en True.
arr = np.array([0, 1, 2, 3, 4])
arr = arr.astype(np.bool_)
arr

array([False,  True,  True,  True,  True])

In [149]:
# También podemos convertir los datos en tipo string.
arr = np.array([0, 1, 2, 3, 4])
arr = arr.astype(np.string_)
arr

array([b'0', b'1', b'2', b'3', b'4'], dtype='|S21')

In [150]:
# De igual forma se puede pasar de string a numero.
arr = np.array(['0', '1', '2', '3', '4'])
arr = arr.astype(np.int8)
arr

array([0, 1, 2, 3, 4], dtype=int8)

In [151]:
# Si un elemento no es de tipo número el método falla.
arr = np.array(['hola','0', '1', '2', '3', '4'])
arr = arr.astype(np.int8)
arr

ValueError: ignored

## **🔳Dimensiones**
scalar: dim = 0 Un solo dato o valor

vector: dim = 1 Listas de Python

matriz: dim = 2 Hoja de cálculo

tensor: dim > 3 Series de tiempo o Imágenes

In [152]:
# Declarando un escalar.
scalar = np.array(42)
print(scalar)
scalar.ndim

42


0

In [153]:
# Declarando un vector.
vector = np.array([1, 2, 3])
print(vector)
vector.ndim

[1 2 3]


1

In [154]:
# Declarando una matriz.
matriz = np.array([[1, 2, 3], [4, 5, 6]])
print(matriz)
matriz.ndim

[[1 2 3]
 [4 5 6]]


2

In [155]:
# Declarando un tensor.
tensor = np.array([[[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]],[[13, 13, 15], [16, 17, 18], [19, 20, 21], [22, 23, 24]]])
print(tensor)
tensor.ndim

[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]
  [10 11 12]]

 [[13 13 15]
  [16 17 18]
  [19 20 21]
  [22 23 24]]]


3

### Agregar o eliminar dimensiones

In [156]:
# Se puede definir el número de dimensiones desde la declaración del array
vector = np.array([1, 2, 3], ndmin = 10)
print(vector)
vector.ndim

[[[[[[[[[[1 2 3]]]]]]]]]]


10

In [157]:
# Se pueden expandir dimensiones a los array ya existentes.
# Axis = 0 hace refencia a las filas, mientras que axis = 1 a las columnas.
expand = np.expand_dims(np.array([1, 2, 3]), axis = 0)
print(expand)
expand.ndim

[[1 2 3]]


2

In [158]:
# Remover/comprimir las dimensiones que no están siendo usadas.
print(vector, vector.ndim)
vector_2 = np.squeeze(vector)
print(vector_2, vector_2.ndim)


[[[[[[[[[[1 2 3]]]]]]]]]] 10
[1 2 3] 1


### **Reto**
1. Definir un tensor de 5 dimensiones
2. Sumar una dimensión en algún eje
3. Borrar dimensiones que no se usen

In [159]:
# 1) 
tensor5 = np.array([[[[1, 2],[3, 4]], [[5, 6],[7, 8]]], [[[1, 2],[3, 4]], [[5, 6],[7, 8]]]], ndmin = 5)
print(tensor5, tensor5.ndim)

[[[[[1 2]
    [3 4]]

   [[5 6]
    [7 8]]]


  [[[1 2]
    [3 4]]

   [[5 6]
    [7 8]]]]] 5


In [160]:
# 2)
expand5 = np.expand_dims(tensor5, axis=1)
print(expand5, expand5.ndim)

[[[[[[1 2]
     [3 4]]

    [[5 6]
     [7 8]]]


   [[[1 2]
     [3 4]]

    [[5 6]
     [7 8]]]]]] 6


In [161]:
# 3)
print(expand5, expand5.ndim)
reduced5 = np.squeeze(expand5)
print(reduced5, reduced5.ndim)

[[[[[[1 2]
     [3 4]]

    [[5 6]
     [7 8]]]


   [[[1 2]
     [3 4]]

    [[5 6]
     [7 8]]]]]] 6
[[[[1 2]
   [3 4]]

  [[5 6]
   [7 8]]]


 [[[1 2]
   [3 4]]

  [[5 6]
   [7 8]]]] 4


## **🔀Creando arrays**

In [162]:
# Este métodode NumPy nos permite generar arrays sin definir previamente una lista.
np.arange(0,10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [163]:
# Un tercer argumento permite definir un tamaño de paso.
np.arange(0,20,2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [164]:
# np.zeros() nos permite definir estructuras o esquemas. 
np.zeros(3)

array([0., 0., 0.])

In [165]:
np.zeros((10,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [166]:
# De iugal forma tenemos np.ones()
np.ones(3)

array([1., 1., 1.])

In [167]:
# np.linspace() permite generar una arrary definiendo un incio, un final y cuantas divisiones tendrá.
np.linspace(0, 10 , 10)

array([ 0.        ,  1.11111111,  2.22222222,  3.33333333,  4.44444444,
        5.55555556,  6.66666667,  7.77777778,  8.88888889, 10.        ])

In [168]:
# También podemos crear una matriz con una diagonal de 1 y el resto de 9.
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [169]:
# Otra metódo importante es generar números aleatorios.
np.random.rand()

0.39648563127810577

In [170]:
# También se pueden generar vectores.
np.random.rand(4)

array([0.33450699, 0.20844092, 0.86866042, 0.43614156])

In [171]:
# Y a su vez generar matrices.
np.random.rand(4,4)

array([[0.38514349, 0.2807658 , 0.41646943, 0.1812521 ],
       [0.44296944, 0.14602522, 0.2975566 , 0.36338212],
       [0.84653841, 0.28373576, 0.00524107, 0.46767225],
       [0.67139336, 0.98542321, 0.49768331, 0.63905179]])

In [172]:
# NumPy nos permite tambien generar números enteros.
# En este caso números enteros entre el 1 y 14
np.random.randint(1,15)

7

In [173]:
# También podemos llevarlos a una  estructura definida.
np.random.randint(1,15, (3,3))

array([[ 6,  5,  1],
       [ 4, 10,  4],
       [10,  8,  2]])

## **🟦🔹Shape y Reshape**
* Shape me indica la forma del arreglo
* Reshape transforma el arreglo mientras se mantengan los elementos.

In [174]:
arr = np.random.randint(1,10,(3,2))
arr.shape

(3, 2)

In [175]:
arr

array([[7, 6],
       [6, 5],
       [2, 6]])

In [176]:
arr.reshape(1,6)

array([[7, 6, 6, 5, 2, 6]])

In [177]:
arr.reshape(2,3)

array([[7, 6, 6],
       [5, 2, 6]])

In [178]:
np.reshape(arr,(1,6))

array([[7, 6, 6, 5, 2, 6]])

In [179]:
# Se puede hacer un reshape como lo haría C.
np.reshape(arr,(2,3), 'C')

array([[7, 6, 6],
       [5, 2, 6]])

In [180]:
# También se puede hacer reshape a como lo haría Fortran.
np.reshape(arr,(2,3), 'F')

array([[7, 2, 5],
       [6, 6, 6]])

In [181]:
# Además existe la opción de hacer reshape según como esté optimizado nuestro computador. En este caso es como en C.
np.reshape(arr,(2,3), 'A')

array([[7, 6, 6],
       [5, 2, 6]])

### **Reto**
1. Crear un array de cualquier dimesnión y cambiar sus dimensiones
2. Intentar cambiar el array de forma que no respete la estructura original

In [182]:
# 1)
array_original = np.random.randint(0,10, (3,3))
array_original

array([[8, 3, 9],
       [1, 3, 8],
       [4, 4, 2]])

In [183]:
array_original.reshape(1,9)

array([[8, 3, 9, 1, 3, 8, 4, 4, 2]])

In [184]:
# 2)
array_original.reshape(2,4)

ValueError: ignored

## 🧮**Funciones principales de NumPy**

In [185]:
arr = np.random.randint(1, 20, 10)
matriz = arr.reshape(2,5)
matriz

array([[18,  8,  3, 11,  1],
       [15, 10, 13,  9, 15]])

In [195]:
arr

array([18,  8,  3, 11,  1, 15, 10, 13,  9, 15])

In [187]:
arr.max()

18

In [188]:
matriz.max()

18

In [189]:
# Podemos regresar los máximos de cada fila o columna especificando el eje.
matriz.max(1)

array([18, 15])

In [190]:
matriz.max(0)

array([18, 10, 13, 11, 15])

In [191]:
# tambien tenemos .argmax() que nos devuelve la posición del elemento
arr.argmax()

0

In [193]:
matriz.argmax(0)

array([0, 1, 1, 0, 1])

In [194]:
# De forma análoga tenemos .min()
arr.min()

1

In [197]:
arr.argmin()

4

In [198]:
matriz.min(0)

array([15,  8,  3,  9,  1])

In [199]:
matriz.argmin(1)

array([4, 3])

In [200]:
# Podemos saber la diferncia de valor más bajo con el más alto.
arr.ptp() # 18 - 1

17

In [201]:
matriz.ptp(0)

array([ 3,  2, 10,  2, 14])

In [203]:
# Para hacer análisis estádistico se tienen la siguientes funciones.
# Ordenar los elementos:
arr.sort() 

In [206]:
# Obtener un percentil:
np.percentile(arr, 0)

1.0

In [207]:
# Mediana:
np.median(arr)

10.5

In [209]:
# Desviación estándar:
np.std(arr)

5.0803543183522155

In [210]:
# Varianza:
np.var(arr)

25.810000000000002

In [211]:
# Promedio
np.mean(arr)

10.3

In [208]:
# Lo mismo aplica para las matrices.
np.median(matriz, 1)

array([ 8., 15.])

In [212]:
# SSe pueden unir dos arrays por medio de la concatenación
a = np.array([[1,2], [3,4]])
b= np.array([5, 6])

In [213]:
np.concatenate((a,b), axis = 0)

ValueError: ignored

In [215]:
# El error anterior es debido a a tiene 2 dimensiones mientras que b tiene 1.
print(a.ndim)
b.ndim

2


1

In [216]:
b = np.expand_dims(b, axis = 0)
np.concatenate((a,b), axis = 0)

array([[1, 2],
       [3, 4],
       [5, 6]])

In [217]:
# De igual forma podemos agregarlo en el otro eje
np.concatenate((a,b), axis = 1)

ValueError: ignored

In [218]:
# Como b es una fila y no una columna, no se puede concatenar a menos que se aplique la transpuesta.
np.concatenate((a,b.T), axis = 1)

array([[1, 2, 5],
       [3, 4, 6]])