# Pandas e Plotly

Exemplos de análise de dados dos CSV gerados pelo programa `Heurística_HDB`.

Utilizaremos os recursos avançados de análise de dataframes com pandas e em seguida vamos utilizar a biblioteca Plotly para gerar gráficos interativos.

---


## Importando as bibliotecas e módulos

In [None]:
# importando pandas e plotly
import pandas as pd
import plotly.express as px

## Inserindo caminho para o CSV e termo para salvar o arquivo

In [None]:
# caminho do arquivo csv
csv_path = input("Enter CSV path: ")
# nome do arquivo de saída
output_file = input("Enter output file name: ")
# colocar o nome do arquivo em minúsculo
output_file = output_file.lower()

## Criando o dataframe

A partir do caminho do CSV, vamos utilizar o método `pd.read_csv()` para gerar o dataframe.

In [None]:
# Criar um dataframe com o arquivo csv
df = pd.read_csv(f'{csv_path}', index_col=0, encoding='utf-8')
# Mostrar as 5 primeiras linhas do dataframe
df.head()

In [None]:
# ver as colunas do dataframe
df.columns


In [None]:
# ver os tipos de dados do dataframe
df.dtypes

## Analisar a coluna Eventos

In [None]:
df['Evento'].unique()

In [None]:
# Agrupar por evento e contar
df_evento = df.groupby('Evento').size()
df_evento

In [None]:
df_evento = df.groupby('Evento', sort=False).size()
df_evento

In [None]:
type(df_evento)

>OBS: Importante reparar que nesse caso NÃO criamos um novo dataframe com os dados agrupados e contados (size) pela coluna 'ST', mas sim um objeto Series.

In [None]:
# Podemos usar o método `reset_index()` para transformar o resultado da agregação em um dataframe
df_evento = df_evento.reset_index(name='Total de resumos')
df_evento

#### Plotly

O Plotly é uma biblioteca de visualização de dados interativa. Para utilizá-la, é necessário instalar o pacote `plotly`.

```bash
pip install plotly
```

E importar o módulo `plotly.express` como `px`.

```python
import plotly.express as px
```

Vamos criar um gráfico de barras com o Plotly. Para isso vamos utilizar o método `px.bar()`.

```python
fig = px.bar(dataframe, x='Coluna 1', y='Coluna 2')
```

In [None]:
# gráfico de barras com coluna x = Evento e y = Quantidade
fig = px.bar(df_evento, x='Evento', y='Quantidade') 

fig.show()

In [None]:
# atualizar o layout do gráfico, incluindo título
fig.update_layout(title_text='Quantidade de eventos por ano')
fig.show()

In [None]:
#salvar o gráfico em um arquivo html e png
fig.write_html(f'{output_file}.html')
fig.write_image(f'{output_file}.png')

### Filtrar usando múltiplas colunas

In [None]:
df.columns

In [None]:
df_ano_evento = df.filter(items=['Ano', 'Evento', 'Cidade'])\
    .groupby(['Ano', 'Evento', 'Cidade'])\
    .size()
df_ano_evento

In [None]:
df_ano_evento = df_ano_evento.reset_index()
df_ano_evento.columns = ['Ano', 'Evento', 'Cidade', 'Total de resumos']
df_ano_evento

In [None]:
# gráfico de barras com coluna x = Ano e y = Quantidade
fig2 = px.bar(df_ano_evento, x='Ano', y='Total de resumos', title='Quantidade de Eventos por ano')

fig2.show()

In [None]:
# atualizar traces do eixo x: anos fixos
fig2.update_xaxes(tickvals=[2013, 2015, 2017, 2019, 2021, 2023])
fig2.show()

## gráfico de Pizza


In [None]:
fig3 = px.pie(df_ano_evento, values='Total de resumos', names='Ano', title='Eventos por ano')
fig3.show()

## Analisar a coluna Eventos e ST

In [None]:
df['ST'].unique()


In [None]:
# limpar valores em coluna 'ST': excluir '\r\n\t\t'
df['ST'] = df['ST'].str.replace('\r\n\t\t', '')
df['ST'].unique()

In [None]:
# remover '\t' do final da string na coluna 'ST'
df['ST'] = df['ST'].str.rstrip('\t')
df['ST'].unique()

## Filtrar e analisar por colunas específicas

In [None]:
# agrupar por 'ST' e contar ocorrências e ordenar de forma decrescente
df_st = df.groupby('ST').size().reset_index(name='Total').sort_values(by='Total',ascending=False)
df_st

In [None]:
df_ano_st = df.filter(items=['Ano', 'ST'])\
    .groupby(['Ano', 'ST'])\
    .size()\
    .reset_index(name='Total de resumos')\
    .sort_values(by='Total de resumos', ascending=False, ignore_index=True)
df_ano_st.head()

#### df_ano_st

Esse dataframe contém a quantidade total de resumos por ST em cada ano.

Vamos utilizar esses dados para gerar visualizações com Plotly.

In [None]:
# avaliar os 20 maiores valores de 'ST' e mostrar em um gráfico de barras
fig4 = px.bar(df_ano_st.head(20), x='ST', y='Total de resumos', title='Quantidade de resumos por ST', color='Ano')

fig4.show()

In [None]:
for index, row in df_ano_st.iterrows():
    if len(row['ST']) > 40:
        df_ano_st.at[index, 'ST'] = row['ST'][:40] + '...'

In [None]:
fig4 = px.bar(df_ano_st.head(15), x='ST', y='Total de resumos', title='Quantidade de resumos por ST', color='Ano')

fig4.show()

---

[← Anterior](dia3.ipynb)

[↑ Início](./README.md)