<a href="https://colab.research.google.com/github/Ryuta2329/course-notes/blob/main/fCC_data_analysis_python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data Analysis with Python Course Notes

Estas son mis notas y ejercicios de codigo en _Python_ para el curso de _Data Analysis with Python_ en [freeCodeCamp](www.freecodecamp.org).

---

## Parte I. Usando ```NumPy```.

* Es una libreria de computo numerico que acelera el procesado de grandes cantidades de datos. ```matplotlib``` y ```pandas``` funcionan implementando ```NumPy```. 

* Optimiza el uso de memoria para llevar a cabo calculos complejos.

Permite procesar arreglos en una forma optimizada que permite hacer un mejor uso de la memoria alocada para esos arreglos y hacer uso de formas eficientes de llevar a cabo calculos matriciales que usan instrucciones de bajo nivel, lo cual hace el computo mucho mas rapido.



In [1]:
import numpy as np
import sys

In [2]:
a = np.array([1, 2, 3, 4])
b = np.array([0, .5, 1, 1.5, 2])
c = np.arange(5)

El indexado y _slicing_ de los arreglos funciona igual que en las listas, utilizando el operador de indexar (```[]```), y la posicion o posiciones usando ```:```. Los arreglos de ```NumPy``` permiten reAlizar multiindexado, al pasar una lista de elementos, y se devuelve un arreglo.

In [3]:
b[[1, 2, -1]] # Ejemplo de multi-indexado

array([0.5, 1. , 2. ])

Se puede conocer el tipo de cada arreglo usando el atributo ```dtype```:

In [4]:
a.dtype, b.dtype # Regresa una tupla con los tipo de datos almacnados por cada array
np.array([1, 2, 3, 4], dtype=np.float64) # O puedes asignar el tipo de dato de forma manual al declarar el arreglo

array([1., 2., 3., 4.])

El especificar el atributo ```dtype``` es lo que permite mejorar el desempeño en memoria ya que podrian almacenarse enteros de tipo ```int8``` que ocupan menos memoria. 
Tambien se pueden almacenar objetos regulares en arreglos pero no es para lo que se pretende usarlo, sino para alamcenar datos. 

También se pueden crear arreglos multidimensionales con la notación usual de lista:

In [5]:
A = np.array([
  [1, 2, 3], # indice de fila: 0     
  [4, 5, 6]  # indice de fila: 1
])

y se puede obtener las forma (```A.shape```, el cual da una tupla ```(nrows, ncols)```), las dimensiones (```A.ndim```, el cual arroja el número de dimensiones), su tamaño (```A.size```, el número de elementos).

Si las dimensiones no cuadran entonces el arreglo se guarda como un objeto regular de _Python_.

El indiexado se puede hacer de forma regular (_e.g._ ```A[0][2]``` para el elemento de la primera fila y tercera columna) o usando una tupla:

In [6]:
A[0, 2] # Perimte el slicing
A[0:2] # Selecciona todas las filas desde 0 hasta 2 (sin incluir el dos)
A[:, :2] # Selecciona todos las filas de las columnas 0 y 1 

array([[1, 2],
       [4, 5]])

```NumPy``` tiene algunos métodos disponibles para realizar estadística descriptiva: ```sum()```, ```mean()```, ```std()``` y ```var()```.
Estas funcionan tambien en matrices, y se pueden especificar sobre que columnas o filas realizar la operacion pasando el argumento ```axis``` (0 para filas, 1 para columnas, etc.) como en ```A.mean(axis=0)```.

### Operaciones vectorizadas y _broadcasting_.

Las operaciones vectorizadas crean y regresan un arreglo nuevo (el arreglo original no se modifica. Aunque este comportamiento se puede modificar). 
Las versiones reducidas de los operadores escritos de la forma ```op=``` si modifican el arreglo orginal ya que se esta asignando a este la operación ```op```.

La vectorización permite el indexado usando valores booleanos o expresiones lógicas (como ```a > a.mean()```) cocatenadas por operadores logicos de disjunción y conjunción. 
Esto también es llamado filtrado de valores o _query_.

In [7]:
a[a > a.mean()]

array([3, 4])

### Tamaño de objetos y manejo de memoria.

En general se requiere un mayor número de bytes para almacenar objetos regulares de _Python_, que los creados usando ```NumPy```.

In [9]:
# Un entero en Python, un long en Python
sys.getsizeof(1), sys.getsizeof(10 ** 100)

(28, 72)

In [11]:
# En NumPy son mucho mas pequeños
np.dtype(int).itemsize, np.dtype(float).itemsize

(8, 8)

In [12]:
# Lista regular
sys.getsizeof([1])

80

In [13]:
# Y una lista en NumPy
np.array([1]).nbytes

8

También se hace bastante clara la diferencia en desempeño:

In [15]:
l = list(range(1000))
a = np.arange(1000)

In [16]:
# Calculo el perfomrance de la misma operacion sobre ambos objetos.
%time np.sum(a ** 2)

CPU times: user 1.49 ms, sys: 44 µs, total: 1.54 ms
Wall time: 1.54 ms


332833500

In [17]:
 %time sum([x ** 2 for x in l])

CPU times: user 461 µs, sys: 0 ns, total: 461 µs
Wall time: 475 µs


332833500

### Funciones útiles

Entre estas estan las de generar numeros aleatorios, ```arange```, ```reshape```, ```linspace```, ```zeros```, ```ones``` y ```empty```.

* Funciones para generar números aleatorios:

In [18]:
# Genera numeros aleatorios
np.random.random(size=2)

array([0.51826869, 0.54468613])