#  <CENTER>INTRODUCCIÓN A PYTHON - CEFIP<CENTER>
   
## <CENTER>OCTUBRE 2023<CENTER>

# <CENTER> Repaso clase anterior

- Anaconda, Jupyter Notebook, GitHub.
- Tipos de datos
- Operaciones con datos
- Variables
- Funciones
- Condicionales
- Módulos


# <CENTER> BUCLES

Existen dos tipos de bucles comunmente usados en python, los `for` loops y los `while` loops. 

## FOR LOOPS

Con los `for` loops se desea iterar sobre una secuencia (como una lista, una tupla, una cadena de texto o un rango numérico). Serán muy similares a los loops que solemos usar en Stata (`foreach`, `forvalues`).

In [None]:
numeros=[7,5,6,15,20]
y=0
for i in numeros: 
    y+=i
print(f"La suma de los números es {y}")    

**Notar:** en el bloque anterior iteramos sobre una **lista** cuyos valores estaban predeterminados. Cualquier tipo de lista puede ser usada para un ciclo `for`.

**Notar 2:** poniendo la f adentro del print pudimos insertar valores de variables u expresiones directamente en una cadena de texto sin tener que concatenar manualmente las partes de la cadena.

In [None]:
for x in range(0,16,2): 
    print(x)
print("Estoy fuera del bucle")

**Recordar**: range(desde, hasta, paso) no incluye el `hasta`. 

Como se ve, puedo iterar usando otras letras, no solo i.


In [None]:
veces = int(input("¿Cuántas veces quiere que le salude? "))
for i in range(veces):
    print("Hola ", end="")
print()
print("Adiós")

**Notar:** la función `input()` permite que tu programa interactúe con el usuario, solicitando información que el usuario debe proporcionar a través del teclado.

**Notar 2:** `input()` siempre devuelve una cadena de caracteres (string), al usar `int(input())`,  estamos convirtiendo esa cadena en un número entero. 

In [None]:
#Nos puede interesar ver la posición además del número sobre el que itera:
for indice, x in enumerate(range(-2,2), start=1):
    print(indice, x)

El índice generado por enumerate() comienza en 0 por defecto.

Con `start` le indicamos un valor inicial  diferente. 

La función `enumerate()` es útil cuando necesitas tanto el valor como el índice de los elementos en una secuencia durante la iteración.

In [None]:
tabla_2 = [x*2 for x in range(1,11)]

print(tabla_2)

El ejemplo anterior nos muestra que podemos crear una lista por ejemplo a partir de un bucle. Con esta sintaxis también podemos crear una tupla, diccionario, etc.

## WHILE LOOPS

Los utilizaremos cuando el número de iteraciones no es conocido al comenzar. Si bien es Stata también existen, no los usamos tan seguido. 

Para comenzar aprovechemos para importar un módulo que puede ser de utilidad `random`. En este caso lo usaremos para partir de un número aleatorio entero. 

In [None]:
import random

In [None]:
n = 0
favorite = int(input("¿Cuál es su número preferido? "))
while n < 100:
    n += 1
    draw = random.randint(1, 49) # e.g. German lottery
    if draw == favorite:
        print("Salió mi número preferido :)")
        break
else:
    print("Mi número preferido no apareció:(")
print(f"¡Probé {n} veces!")


**Break**: Cuando se encuentra una declaración `break` dentro de un bucle, el programa sale  del bucle y continúa ejecutando el código que sigue después del bucle.

# <CENTER>TRABAJAR CON DATOS EN PYTHON
    
# <CENTER> PANDAS
    
pandas es una biblioteca esencial para la manipulación y análisis de datos en Python debido a su facilidad de uso, flexibilidad y potencia. Se integra con otras herramientas de ciencia de datos y machine learning.

In [None]:
!pip install xlwt
!pip install pandas

Lo primero que tenemos que hacer con una librería es instalarla en caso de que no esté (Pandas es una de las librerías que se encuentra preinstalada con Anaconda). No es necesario volverlo a instalar si ya lo tenemos instalado. 

In [None]:
import pandas as pd
import numpy as np

Una vez instalado debemos importar la biblioteca, esto hay que hacerlo  **todas las veces que abrimos el notebook**.

**pd** es la abreviatura (o alias) tradicional para pandas en la literatura. 

# Estructuras de datos de Pandas:
## Series

- Será una columna unidimensional, donde podemos tener todo tipo de datos.

- Se suele mostrar con los índices a la izquierda, que por default van de 0 a N-1. 

In [None]:
#Comencemos por crear una lista en Pandas

proyectos_CEFIP=pd.Series(["impuestos provinciales", "impuestos municipales", "tarifas de servicios", "gasto por jurisdiccion"])

proyectos_CEFIP

La sintaxis de creación de series sigue la estructura: 

`s = pd.Series(datos, index=index)`

En el caso anterior, no asignamos nada al `index`, y le asignó el default.



In [None]:
proyectos_CEFIP2=pd.Series(["impuestos provinciales", "impuestos municipales", "tarifas de servicios"], index=["a", "b", "a"])
proyectos_CEFIP2

In [None]:
unidades_geograficas=pd.Series(["5 provincias argentinas", "135 municipios bonaerenses", "Empresas distribuidoras"])
unidades_geograficas

## DataFrames

Los **DataFrames** son una estructura de datos tabular bidimensional con etiquetas en las línea y columnas. Son la estructura más común en Pandas.


Como las Series, los DataFrames son capaces de almacenar cualquier tipo de datos y cada columna puede tener un tipo distinto. La forma básica de
creación de un DataFrame es:

`df = pd.DataFrame(datos, index=index, columns=columns)`

El argumento datos puede ser por ejemplo un diccionario, una lista, una Series u otro DataFrame.

In [None]:
# Creando un dataframe de autos y colores.
data_proyectos = pd.DataFrame({"Proyecto": proyectos_CEFIP, 
                               "Unidades geográficas": unidades_geograficas})

In [None]:
data_proyectos

### Los diccionarios son parecidos a las listas pero cada elemento implica clave-valor

Notar que cuando los índices no coinciden (sea el default como en este caso o en otro), es decir que no puede matchear las unidades, encontramos un valor missing, que en Pandas la identificaremos con `NaN`

In [None]:
data_municipios = pd.DataFrame({"Proyecto": ["Adolfo Alsina","Alberti", "Arrecifes", "Avellaneda"],
                                "Poblacion": [17460, 12650, 32229, 369556],
                               "Act. Económica": ["Agricultura", "Agricultura", "Agricultura", "Manufactura"]})
data_municipios

En el ejemplo anteriopr creamos el DataFrame a partir de un diccionario de listas. Se asingó el índice por default (como pasaba con la serie). 

## Importar datos

Importar datos es una de las formas de crear un dataframe, a partir de un archivo ya existente (en formato csv, xls, dta, etc.). 

In [None]:
dataset=pd.read_csv(r"C:\Users\USUARIO\Dropbox\CEFIP\python\jupyter-notebooks\Notebooks\Clase 2\db.csv", sep=";")

In [None]:
dataset


## Analizando lo que tenemos/ lo que nos muestra: 
- Primera columna con los índices. 
- Nos muestra las primeras 5 y últimas 5 observaciones.
- Cant de filas (obs), cant de columnas (variables). 
- Punto es separador decimal.
- Tenemos distintos timpos en todas las columnas.

In [None]:
df = pd.read_stata(r"C:\Users\USUARIO\Dropbox\CEFIP\python\CEFIP\Clase 2\datos_bp.dta") 
df

In [None]:
dataset

## Repasando:

- Importar de csv `data=pd.read_csv('archivo.csv')`
- Importar de excel `data = pd.read_excel('archivo.xlsx', sheet_name='hoja1')`
- Importar de stata `data = pd.read_stata('archivo.dta')`
- Importar de una web `data = pd.read_html('link')`


## Tener en cuenta: 
En **windows** los directorios son cadena de texto con barras invertidas (\) como separadores. Las barras invertidas son caracteres de escape en las cadenas de Python, por lo que es necesario utilizar el prefijo "r" antes de la cadena para indicar que es una "cadena cruda" y que los caracteres de escape no deben interpretarse. (En **Mac** no se tiene este problema). 


### Disgresión: caracteres de escape 
Dentro de las cadenas de caracteres `\n` implica un salto de línea, `\t` una tabulación, y si queremos escribir una barra invertida en una cadena hay que poner `\\`

In [None]:
print("Hola \nMundo")
print("Hola \tMundo")
print("Hola \\Mundo")

## Volviendo...

### Importemos desde una web

¿Qué pasa si me quiero importar una tabla desde wikipedia?

In [None]:
tablas = pd.read_html('https://es.wikipedia.org/wiki/Anexo:Partidos_de_la_provincia_de_Buenos_Aires', encoding='utf-8')
tablas

In [None]:
tabla=tablas[1]
tabla

## Exportación de los datos

Supongamos que queremos exportar los datos de la tabla anterior a distintos formatos (stata, excel).


In [None]:
tabla.to_csv("C:\\Users\\USUARIO\\Dropbox\\CEFIP\\python\\jupyter-notebooks\\Notebooks\\Clase 2\\exported-municipios.csv")

In [None]:
tabla.to_excel("C:\\Users\\USUARIO\\Dropbox\\CEFIP\\python\\jupyter-notebooks\\Notebooks\\Clase 2\\exported-municipios.xls")

In [None]:
tabla.to_stata("C:\\Users\\USUARIO\\Dropbox\\CEFIP\\python\\jupyter-notebooks\\Notebooks\\Clase 2\\exported-municipios.dta", version=118)

### Notar:
En stata, si no especifico versión 118, por default python toma stata 10, que no soporta la codificación de nuestro archivo.

## Exploración de los datos

Comencemos por entender qué hay dentro de nuestro dataframe

In [None]:
df.describe()

In [None]:
df

`.describe()` nos da una vista rápida con información estadística de las columnas **numéricas**.

In [None]:
df.info()

`.info` nos da información acerca del dataframe, aclarando qué tipo de datos tenemos (notar que 3 de nuestras columnas son categóricas), si tiene valores missings, cuántas filas y columnas tenemos, etc. 

Cuando una serie de datos se almacena con el tipo de datos `category`, Pandas le asigna un número entero único a cada valor distinto en la serie y mantiene un mapeo entre los valores originales y sus correspondientes números enteros. Esto permite ahorrar memoria. 

In [None]:
# Mostrar las primeros 5 filas de mi dataframe
df.head()

In [None]:
# Mostrar las primeros n filas de mi dataframe
df.head(7)

In [None]:
# Mostrar las ultimas n filas de mi dataframe
df.tail(7)

### Estadísticas descriptivas

Si quiero que encontrar una característica de una columna en particular debo hacer `df['mi_variable'].estadistico()`

In [None]:
df["bp"].mean()

In [None]:
df["patient"].median()

In [None]:
df["bp"].quantile(q = [0.25, 0.5, 0.75])

In [None]:
df["bp"].quantile()

In [None]:
df['bp'].std()

In [None]:
df['bp'].std()

Quizás nos interese agrupar por una variable y comparar entre grupos:

In [None]:
df.groupby(["sex"]).mean()

## Modificando los datos

Hasta ahora sabemos crear datos, importarlos, exportarlos y aprendimos algo sobre describirlos. Pero probablemente tengamos interés en modificarlos u hacer alguna operación con ellos. 

Podemos eliminar duplicados

In [None]:
df.drop_duplicates()

Podemos ordenar según alguna variable:

In [None]:
#Orden ascendente
df.sort_values('bp')

In [None]:
#Orden descendente
df.sort_values('bp', ascending=False)

En nuestra base de datos el id es el paciente que estamos viendo, puede ser buena idea establecer la variable `patient` como índice. (Notar que me desaparece de las columnas)

In [None]:
df = df.set_index('patient')
print(df)

Lo anterior puede interesarnos por ejemplo para poder **encontrar** al paciente n, para el que tenemos más de una observación (en este caso before y after) y ambas tienen el mismo **índice**. Lo haremos con la función `loc`:

In [None]:
df.loc[1]

También nos puede interesar quedarnos con una **posición** en particular

In [None]:
df.iloc[0]

Quizás nos interesa quedarnos con los índices hasta un valor:

In [None]:
df.loc[:3]

Notar que en el ejemplo anterior, me toma los índices **hasta el 3 inclusive**. En el siguiente tomará desde el 117 en adelante.

In [None]:
df.loc[117:]

Si quisiéramos convertir de vuelta a patient en una variable:

In [None]:
df['Pacient'] = df.index
df

Y si quiero volver los índices al default tambvién lo puedo hacer usando `reset_index()` (en nuestro caso sería `df.reset_index()`

Puede interesarnos crear una nueva variable, a partir de una condición de otra variable.

In [None]:

def calcular_riesgo(bp):
    if bp > 170:
        return 1
    else:
        return 0


df['riesgo'] = df['bp'].apply(calcular_riesgo)
print(df)

Quizás nos interese crear variables más sencillas

In [None]:
#Si queremos darle el mismo valor a toda la serie
df["diabetic"]=False 
df

Puede que queramos eliminar una variable

In [None]:
df = df.drop("diabetic", axis=1)
df

Axis=1 implica las columnas, axis=0 son las filas.

In [None]:
# transformamos la columna a minusculas
df["when"] = df["when"].str.lower()
df

Puede que me interese asignar etiquetas a las variables:

Puede interesarnos quedarnos con una parte del dataframe, tomando una **muestra aleatoria**. Para esto usaremos `.sample(frac=0.2)` por ejemplo, para dar cuenta que queremos quedarnos con el 20% de la muestra. 

In [None]:
df_sample=df.sample(frac=0.05)
df_sample.describe

# Valores missing

Como sabemos, muchas veces trabajamos con bases de datos que tienen valores missings. En primer lugar es importante poder saber que los enemos, para luego saber cómo trabajar con ellos. 

In [None]:
dataset.info()

Notar que en la variable kilometraje tenemos 203 valores non-null, contra 258 de las otras columnas. Miremos más en detalle qué sucede utilizando la función `isna()` para identificar los datos ausentes: 

In [None]:
dataset[dataset.Kilometraje.isna()]

La coincidencia es que todos los missings en km son los autos nuevos. Entonces, puede ser buena idea transformar esos valores NaN en 0. Lo haremos utilizando la función `fillna()`

Para [leer más](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html) sobre esta opción

In [None]:
dataset.fillna(value = {'Kilometraje': 0}, inplace = True)
dataset

Notar que Kilometraje no era la única variable con problemas. Veamos qué sucede con la columna Valor.

In [None]:
dataset[dataset.Valor.isna()]

In [None]:
dataset["Valor"].describe()

Como vemos, tenemos valores -999999, lo que muchas veces se usa para especificar missings, y que puede ser buena idea modificar. Primero, convirtámoslos en missings.


In [None]:
dataset["Valor"].replace(-999999, np.nan, inplace = True)
dataset["Valor"].describe()

Puede que ahora queramos eliminar las opciones con missings, eso lo haremos con la función `drop.na()`

In [None]:
dataset.dropna(subset = ['Valor'], inplace = True)
dataset.info()

In [None]:
dataset

# <CENTER> INTRODUCCIÓN A GRÁFICOS
    
 Una de las bibliotecas que usaremos para graficar es `matplotlib`. Debemos importarla.

In [None]:
import matplotlib.pyplot as plt

In [None]:
dir(plt)

In [None]:
dataset["Kilometraje"].hist()

Trabajaremos con gráficos más en profundidad la clase que viene.

# <CENTER> EJERCICIOS 

   ### Para resolver en grupo: 
    
   ### Elijan una de las siguientes tareas: 
    
    
- **Municipios 1:** 
    

    - Importar la base de municipios disponible en la carpeta de clase 2.
    
    - generar la variable de recaudación como la suma de las variables de las tasas (abl, tish, red vial) y multiplicada por un millón. 
    
    - generar la recaudación per cápita.
    

    
- **Municipios 2:** 
    
    
    - Importar la base de municipios disponible en la carpeta de clase 2.
    
    - Calcular cuántas personas tienen internet en el municipio.
    
    - Calcular la media de personas con internet según la actividad económica principal de los municipios. 
    
    
- **Bucles 1:**
    
    Crear un bucle donde el cajero de un comercio tenga que ingresar los valores de las distintas ventas que se hacen en el día. Los montos negativos no son válidos y deben avisarse al usuario. El bucle va acumulando los valores de las ventas del día. 
Al final del día, debe ingresar el valor 0 para cerrar la caja, y el programa devolverá el total recaudado.   
    
    
- **Bucles 2:** 
    
    Sean 2.3, 3.0, 2.5, 2.8, 2.1, 2.9, 3.2, 3.5, 2.7, 3.3 las tasas de crecimiento anuales del PBI de un país cuyo PBI inicial era de 1000 para los próximos 10 años. Calcule el PBI final y la tasa de crecimiento promedio.