# Python para Economistas - Clase 3

**Plan de clase:**  
**(1)** GitHub para entregar tarea \
**(2)** Repaso de `Pandas` \
**(3)** `Pandas`: temas nuevos \
**(4)** `Matplotlib` \
**(5)** Ejercicios

___
## (1) GitHub

A partir de esta clase, **los trabajos prácticos se entregarán a través de GitHub** (ya no a través de Slack).\
Supondremos que ya tienen una cuenta personal de GitHub. Vamos a ver:


 **(a)** Cómo crear un repo privado: https://docs.github.com/en/get-started/quickstart/create-a-repo  
 **(b)** Cómo agregar colaboradores: https://docs.github.com/en/account-and-profile/setting-up-and-managing-your-github-user-account/managing-access-to-your-personal-repositories/inviting-collaborators-to-a-personal-repository  
 **(c)** Clonar repo en computadora  
 **(d)** Comandos nuevos: `status`, `add`, `commit`, `push` y `log`.
 
 _Sólo si es necesario: https://docs.github.com/en/authentication/keeping-your-account-and-data-secure/creating-a-personal-access-token_

Los nombres de usuario de GitHub de los profesores están en el notebook correspondiente al trabajo práctico.

___

**_Recordatorio:_**
Como siempre, para seguir esta clase, pueden ejecutar `git pull` para bajarse este notebook. Recuerden guardar los cambios en los archivos del repositorio que hayan modificado (y que quieran preservar) con "Save as...", luego ejecutar `git reset --hard` para volver los archivos al estado original y así evitar conflictos al hacer el pull.

___
## (2) Repaso de Pandas
Vamos a trabajar sobre un archivo CSV que contiene una serie temporal con la potencia de distintas centrales eléctricas de Argentina.

- abrir archivos
- inspeccionar los datos
- crear columnas
- seleccionar y dropear columnas
- seleccionar segmentos de una base (filtrar, slice, loc)

**(a)** cargar los datos en el archivo `potencia_instalada_mod.csv`. (_Nota: van a tener que definir el parámetro_ `encoding='latin1'`_)_  
**(b)** identificar cuántas columnas y filas hay, cantidades según tipo de dato y si alguna tiene valores faltantes.  
**(c)** inspeccionemos las primeras 5 líneas: ¿qué problema ven?  
**(d)** armar un dataframe llamado `df` que tenga las siguientes columnas: periodo, el agente, la descripcion del agente, la fuente de generación y la potencia instalada.  
**(e)** redondear la columna de potencia instalada al _entero más cercano_.  
**(f)** cambiar el formato de la columna de potencia instalada a `int`. \
**(g)** cortar la base para quedarnos únicamente con las primeras 11497 filas

In [None]:
import pandas as pd

In [None]:
# a)

In [None]:
# b)

In [None]:
# c)

In [None]:
# d)

In [None]:
# e)

In [None]:
# f)

In [None]:
# g)

___
## (3) Pandas: temas nuevos

### Operaciones a nivel de grupos

Si queremos agrupar nuestras filas de acuerdo al valor de alguna columna (o conjunto de columnas), debemos usar el método `.groupby()`.

Usemos esto para calcular:
1) la potencia total instalada en el primer período, para cada tipo de fuente de energía (_ayuda: tener en cuenta que las filas están ordenadas cronológicamente_).
2) la potencia total instalada para cada período, para cada tipo de energía.

In [None]:
# 1.
# primer_periodo_df = ...

In [None]:
# 2.
# todos_los_periodos_df = ...

___

### Unir dataframes

Para unir dataframes, utilizamos los métodos `.concat()` y `.merge()`. 

Hagamos entre todos lo siguientes ejercicios:
 1) Extraer los datos correspondientes al primer período y al último período, en dos Dataframes. Luego, unir los dos Dataframes con `.concat()`.
 2) Agregar como columna, para todas las filas, la potencia instala en el primer período para la fuente de energía correspondiente, `pot_1er_periodo`. Luego, calcular la diferencia entre la potencia instalada y la correspondiente al primer período, y agregarlo como una nueva columna, `diferencia`. 

In [None]:
# 1. 
# primer_periodo_df = ... 
# ultimo_periodo_df = ...

In [None]:
# 2. 
# df_por_fuente = ...

___
## (4) Matplotlib

Para instalar `matplotlib` (no viene con Python por defecto), pueden usar `conda` o `pip`:

     conda install matplotlib -c anaconda

o
    `pip install matplotlib`
    

Ver la [Galería de Matplotlib](https://matplotlib.org/stable/gallery/index.html)

In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
x = np.random.rand(10)
y = np.random.randn(10)

In [None]:
# Para generar una figura con varios ejes:
fig, ax = plt.subplots(2,2, figsize=(6, 6))
ax[0,0].plot(x)
ax[0,1].plot(np.sort(x))
ax[1,0].plot(y)
ax[1,1].plot(np.sort(y))

In [None]:
plt.plot(x, y)
plt.show()

In [None]:
plt.scatter(x, y)
plt.show()

In [None]:
plt.plot(x, y, marker="o", color="k", linestyle="-.")
plt.xlabel("Eje X")
plt.ylabel("Eje Y")
plt.title("Gráfico de ejemplo")
plt.show()

In [None]:
plt.plot(x, y, marker="o", color="k", linestyle="-.")
plt.xticks(ticks=x, labels=range(10))
plt.xlabel("Eje X")
plt.ylabel("Eje Y")
plt.title("Gráfico de ejemplo")
plt.show()

### Preparamos los datos para graficar

In [None]:
import pandas as pd

In [None]:
# Volvemos a correr el código de más arriba
potencia_df = pd.read_csv("potencia_instalada_mod.csv", encoding='latin1', sep="|", index_col="Unnamed: 0")
potencia_df.index.name = "indice"
columnas_deseadas = ["periodo", "agente", "agente_descripcion", "fuente_generacion", "potencia_instalada_mw"]
df = potencia_df[columnas_deseadas]
df.potencia_instalada_mw = round(df["potencia_instalada_mw"]).astype(int)
df = df.head(11497)

In [None]:
# Volvemos a generar el dataframe agrupado por periodo/fuente
df_fuente = df.groupby(by=["periodo", "fuente_generacion"]).agg({'potencia_instalada_mw': 'sum'})
df_fuente = df_fuente.reset_index()
df_fuente.head()

Veamos esta columna de tiempo

In [None]:
df_fuente['periodo']

Para cambiar de `str` a `datetime` podemos usar nuevamente `pd.to_datetime`. Para especificar formato ver: https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior

In [None]:
pd.to_datetime(df_fuente['periodo'], format="%d/%m/%Y %H:%M")

Para transformar y realizar operaciones sobre datos de tiempo podemos usar la librería datetime.

In [None]:
pd.to_datetime(df_fuente['periodo'],format="%d/%m/%Y %H:%M").dt.strftime("%Y-%m")

In [None]:
df_fuente['periodo'] = pd.to_datetime(df_fuente['periodo'],format="%d/%m/%Y %H:%M").dt.strftime("%Y-%m")

In [None]:
df_fuente = df_fuente.sort_values(by='periodo', ascending=True)

In [None]:
# defino vectores de datos para serie 1
y1 = df_fuente.query('fuente_generacion == "Renovable"')["potencia_instalada_mw"]
x1 = df_fuente.query('fuente_generacion == "Renovable"')["periodo"]
# defino vectores de datos para serie 2
y2 = df_fuente.query('fuente_generacion == "Térmica"')["potencia_instalada_mw"]
x2 = df_fuente.query('fuente_generacion == "Térmica"')["periodo"]

Ya está listo para graficar!

___

### Matplotlib: ejercicio

Practiquemos Matplotlib! Usando los vectores que acabamos de definir, construyamos un gráfico de linea con dos series: una graficando la evolución de producción energética de fuente renovable y otra de fuente térmica. El gráfico debe contener:
- serie con datos de fuente renovable
- serie con datos de fuente térmica
- los ejes deben tener títulos
- el gráfico debe tener título
- rotar los ticks del eje x para que estén verticales
- usar distintos colores para cada tipo de fuente, e incluir una leyenda describiendo éstos

In [None]:
# plotear dos lineas, una para la fuente "Renovable" y otra para "Térmica"
plt.figure(figsize=(12 , 5))
# serie 1

# serie 2 sobre mismos ejes

# Modifiquen nombres de ejes y título

# agregamos leyenda
plt.legend()

#show

Acá link a un post que explica algunos comandos simples para mejorar los gráficos:  
https://towardsdatascience.com/simple-ways-to-improve-your-matplotlib-b64eebccfd5