<a href="https://colab.research.google.com/github/alfonsoamt/Curso-Pandas-y-Numpy/blob/main/Curso_B%C3%A1sico_de_Manipulaci%C3%B3n_y_Transformaci%C3%B3n_de_Datos_con_Pandas_y_Numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#  **🤓 ¿Por qué NumPy y Pandas?**

## **🔢¿Por qué NumPy?**
Es una librería enfocada al cálculo númerico y manejo de Arrays.
* Es muy veloz, hasta 50 veces más rápido que usar una lista de Python o C.
* Optimiza el almacenamiento en memoria.
* Además, maneja distintos tipos de datos.

Es una librería muy poderosa, se pueden crear redes neuronales desde cero.

## **🐼¿Por qué Pandas?**

Pandas está enfocada a la manipulación y análisis de datos.
* Al estar construido sobre NumPy veloz.
* Requiere poco código para manipular los datos.
* Soporta múltiples formatos de archivos.
* Ordena los datos en una alienación inteligente.

Se pueden manejar grandes cantidades de datos, hacer analítica y crear dahsboards.

La forma de importar estas librerías es de la siguiente manera:


```
import numpy as np
import pandas as pd
```



In [1]:
import numpy as np
import pandas as pd

## **🔢NumPy Array**
El array es el principal objeto de la librería. Representa datos de manera estructurada y se puede acceder a ellos a traves del indexado, a un dato específico o un grupo de muchos datos específicos.

In [2]:
lista = [1, 2 , 3, 4, 5, 6, 7, 8, 9]
lista

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [3]:
arr = np.array(lista)

In [4]:
type(arr)

numpy.ndarray

In [5]:
matriz = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
matriz = np.array(matriz)
matriz

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [6]:
# El indexado nos permite acceder a los elementos de los array y matrices
# Los elementos se emepiezan a contar desde 0.
arr[0]

1

In [7]:
# Es posible operar directamente con los elementos.
arr[0] + arr[5]

7

In [8]:
# En el caso de las matrices al indezar una posición se regresa el array de dicha posición.
matriz[0]

array([1, 2, 3])

In [9]:
# Para seleccionar un solo elemento de la matriz se especifica la posición del elemento separada por comas.
matriz[0, 2]

3

In [10]:
# El slicing nos permite extraer varios datos, tiene un comienzo y un final.
# En este ejemplo se está extrayendo datos desde la posición 1 hasta la 5. [1:6].
arr[1:6]

array([2, 3, 4, 5, 6])

In [11]:
# Si no se ingresa el valor de Start se toma el incio como la posición 0.
arr[:6]

array([1, 2, 3, 4, 5, 6])

In [12]:
# En cambio si no se le da una posción de End se regresan todos los elementos hasta el final del array.
arr[2:]

array([3, 4, 5, 6, 7, 8, 9])

In [13]:
# También se puede trabajar por pasos.
# En este ejemplo de 3 en 3.
arr[::3]
# Regresa la posición 0, 0 + 3, 3 + 3 y como no hay posición 6 + 3, no se regrese nada.

array([1, 4, 7])

In [14]:
# Cuando se le asigna un valor negativo se regresan los valores comenzando desde la última posición del array.
arr[-1]

9

In [15]:
arr[-3:]

array([7, 8, 9])

In [16]:
# Para el caso de las matrices sucede algo similar.
# Para acceder a los valores a nivel de filas.
matriz[1:]

array([[4, 5, 6],
       [7, 8, 9]])

In [17]:
# Para acceder a los valores a nivel de filas y columnas.
matriz[1:, 0:2]

array([[4, 5],
       [7, 8]])

## **🔡Tipos de datos**
Los arrays de NumPy solo pueden contener un tipo de dato, ya que esto es lo que le confiere las ventajas de la optimización de memoria.

In [18]:
# Podemos conocer el tipo de datos del array consultando la propiedad .dtype.
arr = np.array([1, 2, 3, 4])
arr.dtype

dtype('int64')

In [19]:
# Si queremos usar otro tipo de dato lo podemos definir en la declaración del array.
arr = np.array([1, 2, 3, 4], dtype = 'float64')
arr.dtype

dtype('float64')

In [20]:
# Ahora vemos que los valores están con punto decimal.
arr

array([1., 2., 3., 4.])

In [21]:
# Si ya se tiene el array definido se usa el método .astype() para convertir el tipo de dato.
arr = np.array([1, 2, 3, 4])
arr = arr.astype(np.float64)
arr

array([1., 2., 3., 4.])

In [22]:
# También se puede cambiar a tipo booleano recordando que los números diferentes de 0 se convierten en True.
arr = np.array([0, 1, 2, 3, 4])
arr = arr.astype(np.bool_)
arr

array([False,  True,  True,  True,  True])

In [23]:
# También podemos convertir los datos en tipo string.
arr = np.array([0, 1, 2, 3, 4])
arr = arr.astype(np.string_)
arr

array([b'0', b'1', b'2', b'3', b'4'], dtype='|S21')

In [24]:
# De igual forma se puede pasar de string a numero.
arr = np.array(['0', '1', '2', '3', '4'])
arr = arr.astype(np.int8)
arr

array([0, 1, 2, 3, 4], dtype=int8)

In [25]:
# Si un elemento no es de tipo número el método falla.
arr = np.array(['hola','0', '1', '2', '3', '4'])
arr = arr.astype(np.int8)
arr

ValueError: ignored

## **🔳Dimensiones**
scalar: dim = 0 Un solo dato o valor

vector: dim = 1 Listas de Python

matriz: dim = 2 Hoja de cálculo

tensor: dim > 3 Series de tiempo o Imágenes

In [26]:
# Declarando un escalar.
scalar = np.array(42)
print(scalar)
scalar.ndim

42


0

In [29]:
# Declarando un vector.
vector = np.array([1, 2, 3])
print(vector)
vector.ndim

[1 2 3]


1

In [31]:
# Declarando una matriz.
matriz = np.array([[1, 2, 3], [4, 5, 6]])
print(matriz)
matriz.ndim

[[1 2 3]
 [4 5 6]]


2

In [33]:
# Declarando un tensor.
tensor = np.array([[[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]],[[13, 13, 15], [16, 17, 18], [19, 20, 21], [22, 23, 24]]])
print(tensor)
tensor.ndim

[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]
  [10 11 12]]

 [[13 13 15]
  [16 17 18]
  [19 20 21]
  [22 23 24]]]


3

### Agregar o eliminar dimensiones

In [35]:
# Se puede definir el número de dimensiones desde la declaración del array
vector = np.array([1, 2, 3], ndmin = 10)
print(vector)
vector.ndim

[[[[[[[[[[1 2 3]]]]]]]]]]


10

In [36]:
# Se pueden expandir dimensiones a los array ya existentes.
# Axis = 0 hace refencia a las filas, mientras que axis = 1 a las columnas.
expand = np.expand_dims(np.array([1, 2, 3]), axis = 0)
print(expand)
expand.ndim

[[1 2 3]]


2

In [37]:
# Remover/comprimir las dimensiones que no están siendo usadas.
print(vector, vector.ndim)
vector_2 = np.squeeze(vector)
print(vector_2, vector_2.ndim)


[[[[[[[[[[1 2 3]]]]]]]]]] 10
[1 2 3] 1


### **Reto**
1. Definir un tensor de 5 dimensiones
2. Sumar una dimensión en algún eje
3. Borrar dimensiones que no se usen

In [41]:
# 1) 
tensor5 = np.array([[[[1, 2],[3, 4]], [[5, 6],[7, 8]]], [[[1, 2],[3, 4]], [[5, 6],[7, 8]]]], ndmin = 5)
print(tensor5, tensor5.ndim)

[[[[[1 2]
    [3 4]]

   [[5 6]
    [7 8]]]


  [[[1 2]
    [3 4]]

   [[5 6]
    [7 8]]]]] 5


In [46]:
# 2)
expand5 = np.expand_dims(tensor5, axis=1)
print(expand5, expand5.ndim)

[[[[[[1 2]
     [3 4]]

    [[5 6]
     [7 8]]]


   [[[1 2]
     [3 4]]

    [[5 6]
     [7 8]]]]]] 6


In [47]:
# 3)
print(expand5, expand5.ndim)
reduced5 = np.squeeze(expand5)
print(reduced5, reduced5.ndim)

[[[[[[1 2]
     [3 4]]

    [[5 6]
     [7 8]]]


   [[[1 2]
     [3 4]]

    [[5 6]
     [7 8]]]]]] 6
[[[[1 2]
   [3 4]]

  [[5 6]
   [7 8]]]


 [[[1 2]
   [3 4]]

  [[5 6]
   [7 8]]]] 4


## **🔀Creando arrays**

In [48]:
# Este métodode NumPy nos permite generar arrays sin definir previamente una lista.
np.arange(0,10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [50]:
# Un tercer argumento permite definir un tamaño de paso.
np.arange(0,20,2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [51]:
# np.zeros() nos permite definir estructuras o esquemas. 
np.zeros(3)

array([0., 0., 0.])

In [52]:
np.zeros((10,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [53]:
# De iugal forma tenemos np.ones()
np.ones(3)

array([1., 1., 1.])

In [54]:
# np.linspace() permite generar una arrary definiendo un incio, un final y cuantas divisiones tendrá.
np.linspace(0, 10 , 10)

array([ 0.        ,  1.11111111,  2.22222222,  3.33333333,  4.44444444,
        5.55555556,  6.66666667,  7.77777778,  8.88888889, 10.        ])

In [55]:
# También podemos crear una matriz con una diagonal de 1 y el resto de 9.
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [56]:
# Otra metódo importante es generar números aleatorios.
np.random.rand()

0.37185218178880153

In [57]:
# También se pueden generar vectores.
np.random.rand(4)

array([0.77923054, 0.90495575, 0.12949965, 0.55974303])

In [58]:
# Y a su vez generar matrices.
np.random.rand(4,4)

array([[0.26920153, 0.24873544, 0.02278515, 0.08250538],
       [0.16755087, 0.59570639, 0.83604996, 0.57717126],
       [0.00161574, 0.27857138, 0.33982786, 0.19693596],
       [0.69474123, 0.01208492, 0.38613157, 0.609117  ]])

In [109]:
# NumPy nos permite tambien generar números enteros.
# En este caso números enteros entre el 1 y 14
np.random.randint(1,15)

4

In [110]:
# También podemos llevarlos a una  estructura definida.
np.random.randint(1,15, (3,3))

array([[ 8,  2,  6],
       [ 7,  1,  8],
       [11, 14,  4]])