# **Agenda**

- **Apresentação & Introdução**
- **Porque Python? Vantagens e Desvantagens**
- **Uma jornada recorrente em projetos baseados em dados**
- **Exemplo de aplicação prática**
    - Explicação breve da biblioteca Pandas
    - Manipulação de dados
    - Exploração de dados

---

# **Introdução**


Contato:

- <font color="orange">Email</font> - castaldoniro@gmail.com
- <font color="orange">LinkedIn</font> - [linkedin.com/in/rodrigo-cabrera-castaldoni-575630181](linkedin.com/in/rodrigo-cabrera-castaldoni-575630181)



### O que é python? 

É uma linguagem de programação:

- Alto nível.
- Interpretada.
- Multi paradigma.
- Tipada dinâmicamente.

**PYPL: Popularity of Programming Language**: Quão frequentemente tutoriais sobre uma linguagem são buscados?
Ref: https://pypl.github.io/PYPL.html
<center><img src="figures/python2021_index.png"/></center>



- **Pypi**
  - 8.1 TB de código escrito.
  - 312,781 projetos.
  - <font color="orange">**518,479 usuários.**</font> 

---

# **Algumas diferenças entre python e outras linguagens**

Ref: https://www.python.org/doc/essays/comparisons/

Vamos printar na tela de 0 a 5?

**Java:**
```java
for (int i = 0; i < 5; i++) {
    System.out.println(i);
}
```

**Python:**

```python
for i in range(0,6):
    print(i)
```

In [None]:
# Qual posição dos números pares na lista? 
lista = [4, 5, 1, 2, 10, 7]
# R -> 0, 3, 4

In [None]:
# Qual posição dos números pares na lista? 


In [None]:
# Precisamos mesmo de um contador?


In [None]:
# Precisamos inicializar a lista de pares?


---

# **Uma jornada recorrente em projetos baseados em dados**

Cada projeto de ciência de dados é <font color = "orange">único</font>, contendo suas <font color = "orange">particularidades e especificidades</font>.

Mas, de maneira genérica, um projeto de ciência de dados costuma ser dividido nas seguintes etapas:

- 0) Formulação do problema;
- 1) Ingestão dos dados;
- 2) <font color = "orange"> **Preparação dos dados;** </font>
- 3) <font color = "orange"> **Exploração dos dados;** </font>
- 4) Modelagem;
- 5) Apresentação ou deploy;

Depois da etapa 0, as mais <font color="orange">trabalhosas</font> (e que comumente mais tomam tempo) são as etapas <font color="orange">2 e 3</font>.

E há quem diga que estas são as etapas mais importantes! <font color ="red"> **(Garbage in, garabage out!)** </font> 

<center><img src="https://www.xtivia.com/media/Data_Science_Pipeline.png" width=700></center>

# **Exemplo de aplicação prática**

Vamos explorar a relação entre consumo de energia e custo por submercado.

**Datasets** - https://www.ccee.org.br/portal/:
 - consumo.xlsx
 - infopld.xlsx (3 sheets)
 
**Informação auxiliar**:
 - estado2submercado.json (Mapeia estado - submercado)

DESENVOLVER INTELIGENCIA DE MERCADO E FERRAMENTAS COMPUTACIONAIS PARA SE DESCOBRI O VALOR DO PLD, POIS A PLD AJUDA A DEFINIR QUAL VAI SER A VERIAÇÃO NO BOLSA DE ENERGIA.


In [None]:
import numpy as np
import pandas as pd

path = "data/consumo/consumo.xlsx"

# Vamos dar uma olhada em uma tabela


In [None]:
# Vamos resolver o problema das datas?


In [None]:
# O que vemos nem sempre é a verdade


In [None]:
# Sera que a variável consumo está correta? 

# Vamos visualizar esse consumo?


In [3]:
# Para ganhar tempo eu ja limpei uma tabela
clean_path = "data/consumo/consumo_clean.csv"
consumo_df = pd.read_csv(clean_path)
consumo_df["Data"] = pd.to_datetime(consumo_df["Data"],dayfirst=True)

## **Vamos fazer um mini processamento?** 

In [None]:
# Como podemos ler um arquivo excel com várias sheets?
infopld = pd.ExcelFile("data/infopld/infopld_pre_clean.xlsx")
infopld_2018_df = infopld.parse("sheet0")
infopld_2019_df = infopld.parse("sheet1")
infopld_2020_df = infopld.parse("sheet2")

In [None]:
# Eu gostaria de ter média do pld por submercado em um certo mês, essa é uma visão semanal ...


In [None]:
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html


In [None]:
# Vamos fazer uma função?


In [None]:
# Como podemos juntar esses dataframes?
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html

# Algumas manipulações


In [None]:
# Como criar uma coluna submercado sem perder informação
# https://pandas.pydata.org/docs/reference/api/pandas.melt.html


In [None]:
# Essa tabela tem datas tbm


**Como podemos juntar essas tabelas?**

<center><img src="figures/inner_join.png" width=200px/></center>

In [None]:
# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html


## **Análise Qualitativa**

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

sns.set_theme(style="darkgrid")
color1 = "ch:rot=-.25,hue=1,light=.75"
color2 = "colorblind"

fig, axs = plt.subplots(2,1,figsize=(15,10))

sns.lineplot(
    x="Data", y="Consumo (MWm)",hue="submercado",
    data=analysis_merge_df, ax = axs[0],
    palette=color2, marker='o', markersize=3, mec='k', lw=1.5)

axs[0].axvline(x=pd.to_datetime("2018-12-1"), lw=2, ls='--', c='black')
axs[0].axvline(x=pd.to_datetime("2019-04-1"), lw=2, ls='--', c='black')

axs[0].axvline(x=pd.to_datetime("2020-02-1"), lw=2, ls='--', c='black')
axs[0].axvline(x=pd.to_datetime("2020-05-1"), lw=2, ls='--', c='black')


sns.lineplot(
    x="Data", y="pld", hue ="submercado", 
    data=analysis_merge_df, ax = axs[1],
    palette=color2, marker='o', markersize=3, mec='k', lw=1.5)

axs[1].axvline(x=pd.to_datetime("2018-12-1"), lw=2, ls='--', c='black')
axs[1].axvline(x=pd.to_datetime("2019-04-1"), lw=2, ls='--', c='black')

axs[1].axvline(x=pd.to_datetime("2020-02-1"), lw=2, ls='--', c='black')
axs[1].axvline(x=pd.to_datetime("2020-05-1"), lw=2, ls='--', c='black')

plt.show()

---

## **Análise Quantitativa**

In [None]:
cm = sns.light_palette("orange", as_cmap=True)