# Primeros pasos en Python

### Instrucciones y pasos a seguir para poder realizar la primer inmersión en Python:

En este jupyter notebook se abordan las asignaciones para los primeros pasos en Python. Se observarán las funciones básicas, familiarización con el sintaxis y práctica necesaria para poder continuar con las asignaciones de futuras clases. Aprender esta herramienta será util para desarrollar distintas aplicaciones de data science y analisis de datos. Te sugerimos fervientemente que sigas el objetivo de este código al ejecutarlo por completo (o hasta donde llegues).

**Objetivo de este codigo:** lo importante es poder ejecutarlo, tratar de leer el codigo e interpretar la sintaxis. Observar detalladamente el paso a paso para ganar nociones de como se escribe codigo en Python. Fijense que dejamos muchas notas para que puedas seguir todas las acciones realizadas :). Asuman esta etapa como "aprender un idioma nuevo". Inicialmente sera un poco confuso, aunque a medida que pase el tiempo lo adoptaran y se sentiran mas comodos. 

**Como ejecutar este archivo:** La manera en que se ejecuta cada celda de Jupyter es mediante "Shift + Enter" o con el boton de "$\blacktriangleright$ Run" que se encuentra en la barra superior. Una vez ejecutado todo el codigo, sientanse libres de modificar algunas variables a su gusto para ir obteniendo distintos resultados. Por ejemplo, crear matrices o vectores de distintas dimensiones, etc.

# Primeros pasos
**Imprimir texto en pantalla (hola mundo)**

In [None]:
print("Hola, Soy Martín y estoy probando un script para el curso de ClusterAI 2021 en UTN FRBA.")

**Operaciones básicas con enteros**
Antes de utilizar cualquier librería, Python ya permite dentro de su sintaxis realizar algunas operaciones matematias con integers (enteros) o floats (reales).

In [None]:
(5+3)*10

A la operación anterior podría guardarla en una variable (llamada "cuenta"), para que quede en memoria y asi poder acceder a su contenido en el futuro.

In [None]:
# guardamos la operacion en la variable "cuenta"
cuenta = (5+3)*10

In [None]:
# accedemos al interior de la variable "cuenta" para asegurarnos que se guardo bien los datos del resultado
cuenta

In [None]:
# el comando "type" nos permite poder saber que tipo de formato de dato esta guardado en la variable en cuestion
type(cuenta)

**Listas y Diccionarios:** Las *listas* son uno de los contenedores de informacion mas basico que podemos encontrar en Python. En ellas se puede guardar, acceder y modificar informacion de manera muy variada y dinamica. Los *diccionarios* encambio son mas estructurados ya que la informacion se encuentra asociada en pares de elementos llamados *keys: values*.

In [None]:
# Las listas se definen con los simbolos "[]"
lista1 = [1,2,3,4,5]

En Python, para acceder a los elementos de la listas utilizamos sus indices, ya sea hacia adelante o hacia atras.
E incluso podemos acceder varios elementos en simultaneo utilizando *slices* o *cortes* utilizando el simbolo *:*.

**ATENCION:** Los slices en Python incluyen el primer elemento, pero NO el ultimo.

In [None]:
print('1° elemento: ', lista1[0])
print('Ultimo elemento: ', lista1[4])
# Podemos acceder a la informacion en la lista de atras hacia adelante utilizando indices negativos.
print('Este tambien es el ultimo elemento: ',lista1[-1])

In [None]:
# Ejemplo de slice
print('Estos son los primeros 3 elementos de la lista1: ',lista1[0:3])

In [None]:
# Las listas pueden ser extendidas utilizando el metodo .append() si solo agregamos un elemento, o extend() si agregamos varios.
lista1.append(6) #Solo agregamos el 6
print('Lista1 luego de agregar el 6: ',lista1)
lista1.extend([7,8,9,10]) # Extendemos la lista pasandole otra lista.
print('Lista1 luego de extenderla: ',lista1)

In [None]:
# Para borrar o modificar elementos lo podemos hacer de la siguiente menera:

lista1[0] = 100 # Modificamos el primer elemento por el valor de la derecha.
print('Lista1 luego de modificar el primer elemento: ',lista1)
del lista1[3] # eliminamos el 4to elemento
print('Lista1 luego eliminar el 4° elemento:',lista1)
del lista1[-3:] # Eliminamos los ultimos 3 elementos
print('Lista1 luego los ultimos 3° elementos: ',lista1)


Los *diccionarios* los creamos con los simbolos ' { } ' y asignando pares *' key ': values* de la siguiente manera


In [None]:
# La variable dicc1 es un diccionario que contiene dos "keys", cada una con una lista.
dicc1 = {
    'key1': [1,2,3,4,5],
    'key2': [6,7,8,9,10]}

In [None]:
dicc1

In [None]:
# Para acceder al diccinario usamos las keys de la siguiente manera
dicc1['key2']
# Y se verifica que el elemento es una lista, y podemos gestionar los datos de la manera que vimos previamente.
print('La clase de datos que hay en la variable dicc1["key2"] es: ',type(dicc1['key2']))

In [None]:
# Agregamos a variable lista1 al diccionario usando la key 'x':
dicc1['x'] = lista1
dicc1

In [None]:
# Se debe tener cuidado si asignamos un elemento a una key previamente utilizada,
# porque se eliminaran de la memoria los datos que estaban previamente.
dicc1['key1'] = ['soy una lista con una unica cadena de string']
dicc1

**Documentacion de Python**: 

Para mas informacion sobre diccionarios y listas se recomiendo consultar la [documentacion oficial de Python](https://docs.python.org/3/tutorial/datastructures.html)

## Librería Numpy

**Importar librerias:**
Python posee ya muchas librerías con funciones específicas según la tarea que querramos realizar. Existen librerías de cálculo, de visulización, de estadística, procesamiento de señales, de algebra lineal y de redes neuronales artificiales (entre muchas mas). Nuestro primer paso será importar **Numpy**, una importante librería que nos permitirá realizar operaciones numéricas con matrices, vectores y escalares.

In [None]:
# importamos la librería Numpy
import numpy as np

**Primeras operaciones con Numpy**:
Con "np. + comando" de numpy podremos realizar muchas operaciones. Como crear una matriz de 2x2 de ceros.

In [None]:
# creamos la matriz de 2x2 llena de ceros con el comando np.zeros()
nula = np.zeros((2,2))

In [None]:
# La visualizamos en pantalla
nula

In [None]:
# con type nos fijamos que tipo de variable es "nula"
# Python permite muchos tipos de variables, en este caso es un numpy array
type(nula)

In [None]:
# con np.shape() podremos saber las dimensiones de la variable en cuestion
np.shape(nula)

Las posiciones en Python comienzan en 0. Entonces si tenemos un elemento de 4 posiciones, la primera sera la posicion 0 y la ultima posicion sera la 3. Cuando tenemos matrices (arrays)

In [None]:
# si quisieramos acceder al elemento 0,0 de nula 
nula[0,0]

Una vez declarada en Python, podemos modificar alguno de los elementos de la matriz (numpy array) nula. 

In [None]:
# por ejemplo el de la posicion 1,0
nula[1,0] = 4

# y tambien modificamos la posicion 0,1
nula[0,1] = 10

In [None]:
# imprimimos la matriz nula en pantalla para observar la modificacion realizada
nula

podriamos realizar operaciones logicas y obtener resultados "booleanos" (True or False). Por ejemplo, preguntamos que elementos son mayores a cero.

In [None]:
nula > 0

Calculamos raiz cuadrada de todos los elementos de la matriz nula con el comando np.sqrt(). SQRT significa square root en ingles.

In [None]:
# podriamos calcular la raiz cuadrada de todos los elementos de nula con "np.sqrt()"
raiz_cuad = np.sqrt(nula)
raiz_cuad

con el comando de Python de doble * se realiza el cuadrado del elemento en cuestion

In [None]:
# observamos que si a raiz_cuad la afectamos por el cuadrado obtenemos nuevamente nula
raiz_cuad**2

Numpy tambien nos permite crear matrices de la dimension que querramos con numeros aleatorios mediante el comando "np.random.rand()".

In [None]:
# creamos un array de 3x3 con todos sus elementos completados nros aleatorios de una distribución uniforme 
array_uniform = np.random.rand(3,3)
array_uniform

Podemos tambien crear vectores, solamente especificando una sola dimension.

In [None]:
# generamos un vector de 10 posiciones completados desde nros. aleatorios de una dist. uniforme
vector_uniform = np.random.rand(10)
vector_uniform

Trasponer un numpy array con ".T" al final

In [None]:
# vamos a transponer la matriz array_uniform
array_uniform_t = array_uniform.T
array_uniform_t

Calcular la inversa de una matriz (en formato numpy array) con el comando np.linalg.inv()

In [None]:
# podemos tambien calcularle la inversa a la matriz array_uniform
array_uniform_inv = np.linalg.inv(array_uniform)
array_uniform_inv

Calcular el producto de dos matrices con np.dot

In [None]:
# podemos calcular el producto punto (dot product) entre array_uniform y array_uniform_inv
array_uniform_dot = np.dot(array_uniform, array_uniform_inv)
array_uniform_dot

Crear una matriz con valores determinados por el usuario

In [None]:
# tambien podriamos crear una nueva matriz con datos ingresados 
a=np.array([ [1  ,-4],[12 , 3]])
a

## Distribuciones de probabilidad con numpy

Generamos un vector cuyas posiciones sean numeros aleatorios provenientes de una distribucion normal con media y desvio standard determinado.

In [None]:
# declaramos las variables numericas "mu" y "sigma"
mu = 0
sigma = 0.1 
# con las variables declaradas generamos un vector de 1000 posiciones
# cada posicion es un numero aleatorio extraido de una distribucion normal
normal_sample = np.random.normal(mu, sigma, 1000)

In [None]:
# si quisieramos ver las dimensiones del vector usamos el comando np.shape
np.shape(normal_sample)

In [None]:
# si quisieramos saber que tipo de variable es "normal_sample" usamos el comando type
type(normal_sample)

In [None]:
# si quisieramos saber el valor de la posicion 50 del vector "normal_sample"
normal_sample[50]

In [None]:
# podemos redondear el valor obtenido en la celda anterior con "np.round()"
# le pedimos 4 decimales
np.round(normal_sample[50],4)

In [None]:
# imprimimos en pantalla el vector correspondiente
normal_sample

## Visualizaciones con librerías Matplotlib y Seaborn
Ambas son para realizar visualizaciones. Existen muchas formas de visualizar datos estructurados en un vector o matriz. Los mas comunes son los histogramas, los mapas de calor, etc.

In [None]:
# importamos las librerias que nos serviran para visualizar
import matplotlib.pyplot as plt
import seaborn as sns

Con "sns.distplot()" seaborn nos permite poder realizar un histograma y una aproximacion a la distribución de los datos en cuestion. En este caso realizaremos el distplot con el vector "normal_sample".

In [None]:
# generamos el distplot
sns.distplot(normal_sample)
plt.title("histograma del vector 'normal_sample' ")
plt.xlabel("valores de la variable aleatoria muestreada")
plt.ylabel("densidad de cada valor muestreado")
plt.show()

Creamos otro vector proveniente de una normal con distinta media y desvio standard

In [None]:
# si generamos otro vector "normal_sample_2" con otra media y otro desvio standard
mu_2 = 0.5
sigma_2 = 0.2
# con las variables declaradas generamos un vector de 1000 posiciones
# cada posicion es un numero aleatorio extraido de una distribucion normal
normal_sample_2 = np.random.normal(mu_2, sigma_2, 1000)

In [None]:
# generamos el distplot
sns.distplot(normal_sample_2)
plt.title("histograma del vector 'normal_sample_2' ")
plt.xlabel("valores de la variable aleatoria muestreada")
plt.ylabel("densidad de cada valor muestreado")
plt.show()

Podriamos realizar en un mismo distplot la visualizacion de la densidad de los 2 vectores en simultáneo

In [None]:
# generamos el distplot, en una misma celda de codigo uno debajo del otro
# plt.show() imprime toda visualizacion que se haya acumulado en esa celda de codigo 
sns.distplot(normal_sample,label = "normal_sample")
sns.distplot(normal_sample_2, label = "normal_sample2")
plt.title("histograma de los dos vectores generados ")
plt.xlabel("valores de la variable aleatoria muestreada")
plt.ylabel("densidad de cada valor muestreado")
plt.legend()
plt.show()

**Scatter plot** 
Si consideramos ambos vectores como coordenadas y cada posicion una muestra (un punto) entonces tenemos 1000 muestras cada una caracterizada por 2 valores (o dimensiones). Dicho esto, podemos entonces visualizar las 1000 muestras caracterizadas por los 2 vectores provenientes cada uno de una distribucion normal con distintos parametros. El scatter plot visualiza nubes de puntos. Seaborn tiene una función para realizar scatter plots.

In [None]:
# utilizamos cada vector como una dimension, uno para el eje x y otro para el eje y.
sns.scatterplot(x= normal_sample, y= normal_sample_2)
plt.title("Ejemplo de scatterplot con seaborn")
plt.xlabel("valores de normal_sample")
plt.ylabel("valores de normal_sample_2")
plt.show()

Matplotlib es otra libreria que tambien tiene funciones similares, como scatter plot

In [None]:
# con el comando plt.scatter() ingresamos los 2 vectores para visualizar las 1000 muestras.
# el parametro "alpha" hace traslucidas las muestras que se solapan una encima de otra.
plt.scatter(normal_sample, normal_sample_2, alpha = 0.5)
plt.title("Ejemplo de scatterplot con matplotlib")
plt.xlabel("valores de normal_sample")
plt.ylabel("valores de normal_sample_2")
plt.show()

# Librería Pandas: Gestion de datos estructurados (tablas)
Pandas es una importante libreria de Python para manipular datos que esten en un formato de tablas (.csv, .txt, .xls). Con Pandas podremos importar datos obtenidos en los formatos mencionados, por ejemplo el portal de datos abiertos de la Ciudad de Buenos Aires. Puntualmente trabajaremos con los datos de Matrimonios del 2018 obtenidos del siguiente enlace https://data.buenosaires.gob.ar/dataset/matrimonios.
Una vez que descargues el dataset de matrimonios 2018 guardalo en alguna carpeta de tu computadora y con click derecho "propiedades" fijate cual es la ruta de carpetas donde esta alojado el archivo .csv que descargaste.

In [None]:
# importamos la libreria pandas
import pandas as pd

El comando de pandas "pd.read_csv" permite importar archivos .csv alojados en la computadora  a jupyter. El archivo sera importado como una tabla con renglones (rows) y columnas (columns). A las tablas generadas desde Pandas las llamamos "DataFrame". Ver que el parametro que solicita el comando "pd.read_csv()" es la ruta de la carpeta donde esta alojado el archivo (la ruta incluye el nombre del archivo). Eso quiere decir que una vez que descarguen el archivo, lo guardaran en alguna carpeta que creas conveniente y luego obtendrás la ruta. 

**Aclaración usuarios windows:** en algunos casos de usuarios con windows, muchas veces se genera un error y es necesario agregar la letra "r" antes de la ruta (algo asi como pd.read_csv(r'Ruta donde el CSV esta guardado\nombre.csv')). Para mas información ver como importar archivos .csv en windows desde este blogpost https://datatofish.com/import-csv-file-python-using-pandas/

In [None]:
# importamos el archivo "matrimonios_2018.csv" y lo guardamos en la variable "matrimonios".
matrimonios = pd.read_csv('matrimonios_2018.csv', header = 0)

In [None]:
# averiguamos que tipo de variable es matrimonios: un DataFrame de Pandas.
type(matrimonios)

In [None]:
# Con np.shape() nos fijamos que dimension tiene el archivo (renglones, columnas)
np.shape(matrimonios)

Al DataFrame "matrimonios" podemos solicitarle información como visualizar los primeros renglones agregando al nombre del dataframe el comando ".head()". Por default aparecen 5 renglones. Observaremos que además del contenido de cada registro de matrimonio, el dataframe se caracteriza por tener un indice (el nombre de cada renglon) y columnas (cada columna tiene un nombre).

In [None]:
# con .head() visualizamos los primeros 5 renglones del dataframe.
matrimonios.head()

In [None]:
# podemos tambien acceder al listado de columnas 
matrimonios.columns

In [None]:
# tambien podemos acceder al vector de indices
matrimonios.index

el vector de indices es impreso en pantalla como un elemento "RangeIndex" con comienzo en 0 y fin en 11732, que equivale a la cantidad de renglones. Python en algunos casos en vez de imprimir literalmente un vector que vaya de 0 a 11732 con incrementos de +1, utiliza el formato "range" indicando el inicio, fin y el "paso" entre cada registro.

**Seleccionar columnas especificas del dataframe de Pandas** 
Supongamos que tenemos interes en la columna "comunas". Nombrando "matrimonios.comuna" o "matrimonios['comuna'] seleccionaremos la columna en cuestion. A esa columna seleccionada podemos guardarla en una variable nueva llamada "comunas". Luego con la variable "comunas" realizaremos una visualización.

In [None]:
# Seleccionamos la columna "comuna" y la guardamos en la variable "comunas".
comunas = matrimonios.comuna

In [None]:
# observamos que "comunas" es tambien un elemento de Pandas. 
# Sin embargo, solo contiene indices (es algo similar a un vector) y su tipo es "Series".
type(comunas)

Seaborn tambien posee el comando "countplot", que cuenta la cantidad de registros con un determinado valor dentro de un dataframe de pandas (mismo en un numpy array). En este caso con "countplot" vamos a contar cuantas veces cada columna aparece dentro de "comunas".

In [None]:
# realizamos un countplot de seaborn de la columna "comunas".
sns.countplot(x='comuna',data=matrimonios)
plt.title("Cantidad de matrimonios por comuna durante 2018")
plt.show()

# Funciones en Python
Supongamos que queremos utilizar muchas veces un mismo segmento de codigo. En vez de repetirlo multiples veces, podemos crear funciones de python. Cada vez que necesitamos realizar dicha acción llamamos a la función. Vamos a crear una función para imprimir el valor de una posición dentro de un pandas dataframe.

In [None]:
# Las funciones deben declararse con "def + nombre de la funcion" y entre (input)
def imprimir_comuna(dato):
    return print("La comuna es " + str(dato))

Podriamos usar la función definida para situaciones puntuales, por ejemplo para el tercer registro del dataframe "comunas". Recordemos que si hablamos del tercer elemento entonces su indice será el 2, ya que en Python los índices comienzan en 0.

In [None]:
imprimir_comuna(comunas[2])

# For loops
Muchas veces vamos a necesitar iterar sobre una matriz o vector para realizar alguna operación particular. Esto se puede lograr mediante los loops "for". El mismo debe definir un elemento iterador que cambiará de valor en cada paso del loop. En el ejemplo el iterador será la variable $i$ y su rango de iteración será desde 0 a 4. El rango va de 0 a 5 indicando el valor de comienzo y el valor final-1 (así es la sintaxis de Python).

In [None]:
for i in range(0,5):
    imprimir_comuna(comunas[i])

De esta manera generamos un loop de 5 iteraciones que imprime el valor de la comuna en la posicion $i$ del vector "comunas"

# While loops

Similar al los loops "for", existen los loops "while". Estos continuarán ejecutando indefinidamente las lineas de codigo contenidas en él mientras su condicion sea verdadera.

Supongamos ahora que vamos a querer guardar en un *diccionario* una *lista* con las primeras $Q$ comunas tal que $comuna_i \neq \alpha$, siendo $Q$ y $\alpha$ variables que podamos cambiar facilmente.

En este caso nuestro indice $i$ sera una variable auxiliar que se deberá ir actualizando para cada registro. La variable $Q$ será la cantidad de elementos que queremos en la lista, y la variable $q$ contará la cantidad de elementos que hayamos agregado a la lista. Vamos a definir todo esto en una funcion.

In [None]:
def diccionario_sin_comuna(alpha,Q):
    # alpha: Numero de comuna que NO queremos
    # Q: Cantidad de elementos que queremos en la lista

    # Inicializamos un contador de indices que vamos a ir evaluando
    i = 0
    # Un acumulador de datos que ya guardamos.
    q = 0
    # y definimos una lista vacia
    lista_comunas_ok = []
    
    # Definimos el While loop y su condicion
    while q < Q:    
        # Evaluamos si la comuna[i] es distinto a 'alpha' (!= --> distinto)
        if comunas[i] != alpha:
            lista_comunas_ok.append(comunas[i]) #agregamos la comuna a la lista
            q = q + 1       # actualizamos el contador q de registros en la lista
        # actualizamos el contador i de registros que vamos evaluando
        i = i + 1
    
    # Creamos el diccionario:
    diccionario ={
        'key1': lista_comunas_ok}

    return diccionario

In [None]:
alpha = 12
Q = 5
diccionario_sin_comuna(alpha,Q)

**Lo lograste!**
Si llegaste a este punto quiere decir que pudiste ejecutar:
- Abrir un Jupyter notebook exitosamente.
- Operaciones básicas en Python como print o suma.
- Crear, leer y modificar elementos en Listas y Diccionarios de Python
- Utilizar Numpy para crear arrays y realizar operaciones con ellos.
- Utilizar Numpy para crear vectores provenientes de distribuciones normales de probabilidad.
- Visualización con matplotlib y seaborn para hacer Scatter, Distplot, Countplot.
- Importar archivos .csv con Pandas
- Filtrar por columnas con Pandas
- Crear funciones de Python
- Generar for y while loops
- Combinar funciones que contengan loops, diccionarios y listas

**Como seguir:** Queda mucho por hacer aunque lograr ejecutar este notebook fue un gran logro. Te invitamos a que trates de comprender el paso a paso, amigarte con la sintaxis y modificar algunas variables clave en cada ejercicio para obtener otros resultados. 