<a href="https://colab.research.google.com/github/Ryuta2329/course-notes/blob/main/fCC_data_analysis_python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data Analysis with Python Course Notes

Estas son mis notas y ejercicios de codigo en _Python_ para el curso de _Data Analysis with Python_ en [freeCodeCamp](www.freecodecamp.org).

---

## Parte I. Usando ```NumPy```.

* Es una libreria de computo numerico que acelera el procesado de grandes cantidades de datos. ```matplotlib``` y ```pandas``` funcionan implementando ```NumPy```. 

* Optimiza el uso de memoria para llevar a cabo calculos complejos.

Permite procesar arreglos en una forma optimizada que permite hacer un mejor uso de la memoria alocada para esos arreglos y hacer uso de formas eficientes de llevar a cabo calculos matriciales que usan instrucciones de bajo nivel, lo cual hace el computo mucho mas rapido.



In [None]:
import numpy as np
import sys

In [None]:
a = np.array([1, 2, 3, 4])
b = np.array([0, .5, 1, 1.5, 2])
c = np.arange(5)

El indexado y _slicing_ de los arreglos funciona igual que en las listas, utilizando el operador de indexar (```[]```), y la posicion o posiciones usando ```:```. Los arreglos de ```NumPy``` permiten realizar multi-indexado, al pasar una lista de elementos, y se devuelve un arreglo.

In [None]:
b[[1, 2, -1]] # Ejemplo de multi-indexado

array([0.5, 1. , 2. ])

Se puede conocer el tipo de cada arreglo usando el atributo ```dtype```:

In [None]:
a.dtype, b.dtype # Regresa una tupla con los tipo de datos almacnados por cada array
np.array([1, 2, 3, 4], dtype=np.float64) # O puedes asignar el tipo de dato de forma manual al declarar el arreglo

array([1., 2., 3., 4.])

El especificar el atributo ```dtype``` es lo que permite mejorar el desempeño en memoria ya que podrian almacenarse enteros de tipo ```int8``` que ocupan menos memoria. 
Tambien se pueden almacenar objetos regulares en arreglos pero no es para lo que se pretende usarlo, sino para alamcenar datos. 

También se pueden crear arreglos multidimensionales con la notación usual de lista:

In [None]:
A = np.array([
  [1, 2, 3], # indice de fila: 0     
  [4, 5, 6]  # indice de fila: 1
])

y se puede obtener las forma (```A.shape```, el cual da una tupla ```(nrows, ncols)```), las dimensiones (```A.ndim```, el cual arroja el número de dimensiones), su tamaño (```A.size```, el número de elementos).

Si las dimensiones no cuadran entonces el arreglo se guarda como un objeto regular de _Python_.

El indiexado se puede hacer de forma regular (_e.g._ ```A[0][2]``` para el elemento de la primera fila y tercera columna) o usando una tupla:

In [None]:
A[0, 2] # Perimte el slicing
A[0:2] # Selecciona todas las filas desde 0 hasta 2 (sin incluir el dos)
A[:, :2] # Selecciona todos las filas de las columnas 0 y 1 

array([[1, 2],
       [4, 5]])

```NumPy``` tiene algunos métodos disponibles para realizar estadística descriptiva: ```sum()```, ```mean()```, ```std()``` y ```var()```.
Estas funcionan tambien en matrices, y se pueden especificar sobre que columnas o filas realizar la operacion pasando el argumento ```axis``` (0 para filas, 1 para columnas, etc.) como en ```A.mean(axis=0)```.

### Operaciones vectorizadas y _broadcasting_.

Las operaciones vectorizadas crean y regresan un arreglo nuevo (el arreglo original no se modifica. Aunque este comportamiento se puede modificar). 
Las versiones reducidas de los operadores escritos de la forma ```op=``` si modifican el arreglo orginal ya que se esta asignando a este la operación ```op```.

La vectorización permite el indexado usando valores booleanos o expresiones lógicas (como ```a > a.mean()```) cocatenadas por operadores logicos de disjunción y conjunción. 
Esto también es llamado filtrado de valores o _query_.

In [None]:
a[a > a.mean()]

array([3, 4])

### Tamaño de objetos y manejo de memoria.

En general se requiere un mayor número de bytes para almacenar objetos regulares de _Python_, que los creados usando ```NumPy```.

In [None]:
# Un entero en Python, un long en Python
sys.getsizeof(1), sys.getsizeof(10 ** 100)

(28, 72)

In [None]:
# En NumPy son mucho mas pequeños
np.dtype(int).itemsize, np.dtype(float).itemsize

(8, 8)

In [None]:
# Lista regular
sys.getsizeof([1])

80

In [None]:
# Y una lista en NumPy
np.array([1]).nbytes

8

También se hace bastante clara la diferencia en desempeño:

In [None]:
l = list(range(1000))
a = np.arange(1000)

In [None]:
# Calculo el perfomrance de la misma operacion sobre ambos objetos.
%time np.sum(a ** 2)

CPU times: user 1.49 ms, sys: 44 µs, total: 1.54 ms
Wall time: 1.54 ms


332833500

In [None]:
 %time sum([x ** 2 for x in l])

CPU times: user 461 µs, sys: 0 ns, total: 461 µs
Wall time: 475 µs


332833500

### Funciones útiles

Entre estas estan las de generar numeros aleatorios, ```arange```, ```reshape```, ```linspace```, ```zeros```, ```ones``` y ```empty```.

In [None]:
# Genera numeros aleatorios entre 0 y 1
np.random.random(size=2)

array([0.2783611, 0.9553966])

## Parte II. Usando ```pandas```.

Biblioteca que ayuda al análisis de datos (desde obtención de datos, visualización y análisis).

In [None]:
import pandas as pd
import numpy as np

### ```Series```

La primera son las ```Series```, que almacena datos indexados en filas mostrando el tipo de datos,
ya que la representacion interna utiliza un arreglo ```NumPy```.

In [None]:
g7_pop = pd.Series([35.467, 63.951, 80.948])
g7_pop.name = "G7 Population in millions" # Documentacion que describe la Serie

In [None]:
g7_pop

0    35.467
1    63.951
2    80.948
Name: G7 Population in millions, dtype: float64

In [None]:
# Otros atributos de la series son
g7_pop.dtype
g7_pop.values # Deuelve un NumPy Array

array([35.467, 63.951, 80.948])

Al igual que en listas regulares, 
se puede acceder a elementos de la serie usando los índices entre corchetes.
O también se le pueden asignar índices personalizados:

In [None]:
g7_pop.index = ['Canada', 'France', 'Germany']
g7_pop

Canada     35.467
France     63.951
Germany    80.948
Name: G7 Population in millions, dtype: float64

O, durante la creación de la serie puedes asignar índices usando un diccionario:

In [None]:
g7_pop = pd.Series({
  'Canada': 35.467, 
  'France': 63.951, 
  'Germany': 80.948})

Por ejemplo:

In [None]:
g7_pop['Canada'], g7_pop['France']

(35.467, 63.951)

O usando su posición en la serie:

In [None]:
g7_pop.iloc[0], g7_pop.iloc[-1]

(35.467, 80.948)

O seleccionar varios elementos (aqui el resultado es otra ```Series```):

In [None]:
g7_pop[['France', 'Germany']] # o g7_pop.iloc[[0, 1]]

France     63.951
Germany    80.948
dtype: float64

Y además, puedes hacer _slicing_, pero en este caso, el elemento representando el limite superior si es incluido:

In [None]:
g7_pop['Canada':'Germany']

Canada     35.467
France     63.951
Germany    80.948
dtype: float64

Otra forma de acceder a los elementos de una serie es por medio del indexado selectivo usando expresiones booleanas. 

In [None]:
g7_pop > 70

Canada     False
France     False
Germany     True
dtype: bool

In [None]:
g7_pop[g7_pop > 70] # regresa una Series

Germany    80.948
dtype: float64

### ```DataFrame```

Estructura de datos en formato tabular.

In [None]:
df = pd.DataFrame({
   'Population' : [35.467, 63.951, 80.94, 60.065, 127.021, 60.45, 318.23],
   'GDP' : [1785387, 2833687, 3874437, 2167744, 4602367, 2950039, 17348075],
   'Surface Area' : [9984670, 64069, 357114, 301336, 377930, 24245, 9525067],
   'HDI' : [0.913, 0.888, 0.916, 0.873, 0.981, 0.907, 0.915],
    'Continent' : ['America', 'Europe', 'Europe','Europe', 'Asia', 'Europe', 'America']
  }, columns=['Population', 'GDP', 'Surface Area', 'HDI', 'Continent']
)
df

In [None]:
 df.index = [ # Cada columna es una Series
  'Canada', 'France', 'Germany', 'Italy', 'Japan', 'United Kongdom', 'Uniated States']
df

In [None]:
df.columns

Index(['Population', 'GDP', 'Surface Area', 'HDI', 'Continent'], dtype='object')

In [None]:
df.index

Index(['Canada', 'France', 'Germany', 'Italy', 'Japan', 'United Kongdom',
       'Uniated States'],
      dtype='object')

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, Canada to Uniated States
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Population    7 non-null      float64
 1   GDP           7 non-null      int64  
 2   Surface Area  7 non-null      int64  
 3   HDI           7 non-null      float64
 4   Continent     7 non-null      object 
dtypes: float64(2), int64(2), object(1)
memory usage: 336.0+ bytes


In [None]:
df.size

35

In [None]:
df.shape

(7, 5)

In [None]:
df.describe()

Unnamed: 0,Population,GDP,Surface Area,HDI
count,7.0,7.0,7.0,7.0
mean,106.589143,5080248.0,2947776.0,0.913286
std,97.499469,5494020.0,4654043.0,0.033905
min,35.467,1785387.0,24245.0,0.873
25%,60.2575,2500716.0,182702.5,0.8975
50%,63.951,2950039.0,357114.0,0.913
75%,103.9805,4238402.0,4951498.0,0.9155
max,318.23,17348080.0,9984670.0,0.981


In [None]:
df.dtypes.value_counts()

float64    2
int64      2
object     1
dtype: int64

En el caso del indexado, como cada columna es una ```Series```, entonces se puede indexar de la misma forma que para esta clase de objetos.
Se puede usar ```df['Population']```, que devuelve una serie, o  ```df['Population'].to_frame()```, que devuelve una presentacion tabular. 

También es posible indexar una lista de elementos (o multiples columnas) ```df[['Population', 'GDP']]``` o usar _slicing_ ```df[1:3]``` (seleccion de multiples filas). 
Aunque la selección a nivel de filas es mejor (y se recomienda, ya que reduce la ambiguedad) con ``loc`` y ``iloc``.

Para seleccionar multiples filas, en una o mas columnas, se usa algo similar a ```df.loc['Canada':'France', ['Population', 'GDP']]```

In [None]:
df.loc['Canada':'France', ['Population', 'GDP']]

Unnamed: 0,Population,GDP
Canada,35.467,1785387
France,63.951,2833687


Tambien es posible realizar selecciones basadas en expresiones booleanas,
 y modificar el ```DataFrame``` usnado estas selecciones.

In [None]:
df.loc[df["Population"] > 70, ["Population", "GDP"]]

Unnamed: 0,Population,GDP
Germany,80.94,3874437
Japan,127.021,4602367
Uniated States,318.23,17348075


Se pueden eliminar piezas especificas con el metodo ```drop```:

In [None]:
df.drop(["Canada", "Japan"]) # Devuelve todas las netradas menos aquellas para Canada y Japan

Unnamed: 0,Population,GDP,Surface Area,HDI,Continent
France,63.951,2833687,64069,0.888,Europe
Germany,80.94,3874437,357114,0.916,Europe
Italy,60.065,2167744,301336,0.873,Europe
United Kongdom,60.45,2950039,24245,0.907,Europe
Uniated States,318.23,17348075,9525067,0.915,America


o devolver columnas especificas (el argumento ```columns``` funciopna con este proposito auqneu tambien es posible solo dar una lista y especificfar de donde quitar elementos (filas o columnas) usando el argumento ```axis```):

In [None]:
df.drop(columns=["Population", "HDI"]) # o df.drop(["Population", "HDI"], axis=1)

Unnamed: 0,GDP,Surface Area,Continent
Canada,1785387,9984670,America
France,2833687,64069,Europe
Germany,3874437,357114,Europe
Italy,2167744,301336,Europe
Japan,4602367,377930,Asia
United Kongdom,2950039,24245,Europe
Uniated States,17348075,9525067,America


Las operaciones con ```drop``` asi como otras muchas operaciones, son inmutables y no modifican el ```DataFrame``` sobre el que se aplican.

### Operaciones de _broadcasting_.



In [None]:
crisis = pd.Series([-1_000_000, -0.3], index=['GDP', 'HDI'])
df[['GDP', 'HDI']] + crisis

Unnamed: 0,GDP,HDI
Canada,785387.0,0.613
France,1833687.0,0.588
Germany,2874437.0,0.616
Italy,1167744.0,0.573
Japan,3602367.0,0.681
United Kongdom,1950039.0,0.607
Uniated States,16348075.0,0.615


### Modificaciones de un ```DataFrame```.

Se pede modificar un ```DataFrame``` usando operaciones de asignacion de la siguiente forma:

In [None]:
langs = pd.Series(['French', 'German', 'Italian'],
  index=['France', 'Germany', 'Italy'], name='Language')
df['Language'] = langs

In [None]:
df

Se pueden crear columnas ademas a partir de otras columnas, como por ejemplo:


In [None]:
df['GDP per capita'] = df['GDP'] / df['Population']

### Creando un `DataFrame` importando datos de un archivo CSV



## Parte III. Manejando y Limpiando Datos.

