# Pandas e Plotly

Exemplos de análise de dados dos CSV gerados pelo programa `Heurística_HDB`.

Utilizaremos os recursos avançados de análise de dataframes com pandas e em seguida vamos utilizar a biblioteca Plotly para gerar gráficos interativos.

---


## Importando as bibliotecas e módulos

In [1]:
# importando pandas e plotly
import pandas as pd
import plotly.express as px

## Inserindo caminho para o CSV e termo para salvar o arquivo

In [2]:
# caminho do arquivo csv
csv_path = input("Enter CSV path: ")
# nome do arquivo de saída
output_file = input("Enter output file name: ")
# colocar o nome do arquivo em maiúsculo
output_file = output_file.upper()

## Criando o dataframe

A partir do caminho do CSV, vamos utilizar o método `pd.read_csv()` para gerar o dataframe.

In [3]:
# Criar um dataframe com o arquivo csv
df = pd.read_csv(f'{csv_path}')
# Mostrar as 5 primeiras linhas do dataframe
df.head()

Unnamed: 0.1,Unnamed: 0,Ano,Evento,Cidade,ST,Coordenadores,Autor(es)/Instituições,Título,Resumo
0,0,2013,XXVII,Natal,"001. ""De que África estamos falando (I) : per...",ALEXANDRE VIEIRA RIBEIRO (Doutor(a) - Universi...,Letícia Cristina Fonseca Destro,"Cristãos, mouros e gentios: os africanos subsa...",Quando as caravelas portuguesas se encontraram...
1,1,2013,XXVII,Natal,"001. ""De que África estamos falando (I) : per...",ALEXANDRE VIEIRA RIBEIRO (Doutor(a) - Universi...,Ariane Carvalho da Cruz,A africanização da guerra em Angola na segunda...,O presente trabalho analisa as formas de organ...
2,2,2013,XXVII,Natal,"001. ""De que África estamos falando (I) : per...",ALEXANDRE VIEIRA RIBEIRO (Doutor(a) - Universi...,Érika Melek Delgado,A Expedição Vitoriana para a África Ocidental:...,Este artigo tem como objetivo dar espaço para ...
3,3,2013,XXVII,Natal,"001. ""De que África estamos falando (I) : per...",ALEXANDRE VIEIRA RIBEIRO (Doutor(a) - Universi...,VANICLEIA SILVA SANTOS,O colonialismo inquisitorial: O Santo Ofício p...,O objetivo dessa apresentação é mostrar o func...
4,4,2013,XXVII,Natal,"001. ""De que África estamos falando (I) : per...",ALEXANDRE VIEIRA RIBEIRO (Doutor(a) - Universi...,Cristiana Ferreira Lyrio Ximenes,ANGOLA E BAHIA NAS REDES E ROTAS TRANSOCEÂNICA...,O texto apresenta algumas conexões constituída...


In [4]:
# ver as colunas do dataframe
df.columns


Index(['Unnamed: 0', 'Ano', 'Evento', 'Cidade', 'ST', 'Coordenadores',
       'Autor(es)/Instituições', 'Título', 'Resumo'],
      dtype='object')

In [5]:
# ver os tipos de dados do dataframe
df.dtypes

Unnamed: 0                 int64
Ano                        int64
Evento                    object
Cidade                    object
ST                        object
Coordenadores             object
Autor(es)/Instituições    object
Título                    object
Resumo                    object
dtype: object

In [6]:
# remover a coluna Unnamed: 0
df.drop('Unnamed: 0', axis=1, inplace=True)
df.columns

Index(['Ano', 'Evento', 'Cidade', 'ST', 'Coordenadores',
       'Autor(es)/Instituições', 'Título', 'Resumo'],
      dtype='object')

## Analisar a coluna Eventos

In [7]:
df['Evento'].unique()

array(['XXVII', 'XXVIII', 'XXIX', 'XXX', 'XXXI', 'XXXII'], dtype=object)

In [8]:
# Agrupar por evento e contar
df_evento = df.groupby('Evento', sort=False).size()
df_evento

Evento
XXVII     2678
XXVIII    2770
XXIX      2802
XXX       3240
XXXI      2729
XXXII     2372
dtype: int64

In [9]:
type(df_evento)

pandas.core.series.Series

>OBS: Importante reparar que nesse caso NÃO criamos um novo dataframe com os dados agrupados e contados (size) pela coluna 'ST', mas sim um objeto Series.

In [10]:
# Podemos usar o método `reset_index()` para transformar o resultado da agregação em um dataframe
df_evento = df_evento.reset_index() 
df_evento

Unnamed: 0,Evento,0
0,XXVII,2678
1,XXVIII,2770
2,XXIX,2802
3,XXX,3240
4,XXXI,2729
5,XXXII,2372


In [12]:
# renomear as colunas de um jeito mais fácil
df_evento.columns = ['Evento', 'Quantidade']
df_evento

Unnamed: 0,Evento,Quantidade
0,XXVII,2678
1,XXVIII,2770
2,XXIX,2802
3,XXX,3240
4,XXXI,2729
5,XXXII,2372


#### Plotly

O Plotly é uma biblioteca de visualização de dados interativa. Para utilizá-la, é necessário instalar o pacote `plotly`.

```bash
pip install plotly
```

E importar o módulo `plotly.express` como `px`.

```python
import plotly.express as px
```

Vamos criar um gráfico de barras com o Plotly. Para isso vamos utilizar o método `px.bar()`.

```python
fig = px.bar(dataframe, x='Coluna 1', y='Coluna 2')
```

In [14]:
# gráfico de barras com coluna x = Evento e y = Quantidade
fig = px.bar(df_evento, x='Evento', y='Quantidade') 

fig.show()

In [15]:
# atualizar o layout do gráfico, incluindo título
fig.update_layout(title_text='Quantidade de eventos por ano')
fig.show()

In [16]:
#salvar o gráfico em um arquivo html e png
fig.write_html(f'{output_file}.html')
fig.write_image(f'{output_file}.png')

### Filtrar usando duas colunas

In [17]:
df.columns

Index(['Ano', 'Evento', 'Cidade', 'ST', 'Coordenadores',
       'Autor(es)/Instituições', 'Título', 'Resumo'],
      dtype='object')

In [18]:
df_ano_evento = df.filter(items=['Ano', 'Evento', 'Cidade'])\
    .groupby(['Ano', 'Evento', 'Cidade'])\
    .size()
df_ano_evento.head()

Ano   Evento  Cidade        
2013  XXVII   Natal             2678
2015  XXVIII  Florianópolis     2770
2017  XXIX    Brasília          2802
2019  XXX     Recife            3240
2021  XXXI    Rio de Janeiro    2729
dtype: int64

In [19]:
df_ano_evento = df_ano_evento.reset_index()
df_ano_evento.columns = ['Ano', 'Evento', 'Cidade', 'Quantidade']
df_ano_evento

Unnamed: 0,Ano,Evento,Cidade,Quantidade
0,2013,XXVII,Natal,2678
1,2015,XXVIII,Florianópolis,2770
2,2017,XXIX,Brasília,2802
3,2019,XXX,Recife,3240
4,2021,XXXI,Rio de Janeiro,2729
5,2023,XXXII,São Luís,2372


In [20]:
# gráfico de barras com coluna x = Ano e y = Quantidade
fig2 = px.bar(df_ano_evento, x='Ano', y='Quantidade', title='Quantidade de Eventos por ano')

fig2.show()

In [21]:
# atualizar traces do eixo x: anos fixos
fig2.update_xaxes(tickvals=[2013, 2015, 2017, 2019, 2021, 2023])
fig2.show()

## Analisar a coluna Eventos e ST

In [None]:
df['ST'].unique()


In [None]:
# limpar valores em coluna 'ST': excluir '\r\n\t\t'
df['ST'] = df['ST'].str.replace('\r\n\t\t', '')
df['ST'].unique()

In [None]:
# remover '\t' do final da string na coluna 'ST'
df['ST'] = df['ST'].str.rstrip('\t')
df['ST'].unique()

## Filtrar e analisar por colunas específicas

In [None]:
# agrupar por 'ST' e contar ocorrências e ordenar de forma decrescente
df_st = df.groupby('ST').size().sort_values(ascending=False)
type(df_st)

In [None]:
# criar dataframe com os valores de 'ST' e 'count'
df_st = df_st.reset_index()
df_st.head(10)

In [None]:
type(df_st)

### Alterar o nome da coluna de contagem total

In [None]:
# use `.rename()` to rename the column and inplace = True
df_st.rename(columns={'ST': 'Título', 0: 'Total'}, inplace=True)
df_st.head(10)

In [None]:
df_ano_st = df.filter(items=['Ano', 'ST'])\
    .groupby(['Ano', 'ST'])\
    .size()
df_ano_st.head()

In [None]:
# criar um dataframe a partir da série df_ano_st resetando o index
df_ano_st = df_ano_st.reset_index()


In [None]:
df_ano_st.head()

In [None]:
# Renomear as colunas
df_ano_st.rename(columns={0: 'Total'}, inplace=True)
df_ano_st.head()

#### df_ano_st

Esse dataframe contém a quantidade total de resumos por ST em cada ano.

Vamos utilizar esses dados para gerar visualizações com Plotly.

---

## Plotly

O [plotly](https://plotly.com/) é uma biblioteca de visualização de dados interativa.

### df_acervos

Gráfico de barras com `df_acervos`.

In [None]:
# create a bar chart with the df_acervos dataframe
fig = px.bar(df_acervos, x='Acervo', y='Total de Ocorrências', color= 'Acervo', height=800, width=1000,
                 hover_data=[df_acervos['Acervo'], df_acervos['Total de Ocorrências']],
                 title=f'{output_file} - Jornal X Total de ocorrências',
                 )

fig.update_layout(
    autosize=True,
    hovermode="closest",
    legend=dict(orientation="v"),
    showlegend=False,
    xaxis=dict(title="Acervos"),
    yaxis=dict(title="Total de Ocorrências"),
    title_font_size=16,
    title_pad=dict(l=50, r=0, t=0, b=0),
)
# update xaxes
fig.update_xaxes(
        tickangle = 60,
        title_standoff = 25,
        nticks=20, tickfont_size=10,
        ticks="outside", tickwidth=1,
        ticklen=5,
        )
fig.update_yaxes(
        tickfont_size=10,
        ticks="outside", tickwidth=1,
        ticklen=5,
        )

fig.show()
# create a dir called 'figures'
# if it doesn't exist, create it
if not os.path.exists('./figures'):
    os.makedirs('./figures')
fig_path = os.path.join('./figures', f'hdb_{output_file}_acervos_oco_bar.html')
#save the figure as a html file
fig.write_html(fig_path)


In [None]:
# scatter plot with plotly express using the count of the number of times the 'Acervo' was repeated
fig = px.scatter(df_ano_acervo, x= 'Acervo' , y='Ano', color='Ano', height=1000, width=1200,
                 hover_data=[df_ano_acervo['Ano'], df_ano_acervo['Acervo'], df_ano_acervo['quant_oco_ano']],
                 title=f"{output_file} - Ano X Acervo",
                 size='quant_oco_ano',
                 )
# config the layout
fig.update_layout(
    hovermode="closest",
    legend=dict(orientation="h", xanchor="center", yanchor="top"),
    showlegend=True,
    xaxis=dict(title="Jornais"),
    yaxis=dict(title="Anos em que há ao menos uma ocorrência"),
    title_font_size=20,
    title_pad=dict(l=300, r=0, t=0, b=0)
)
# update xaxes
fig.update_xaxes(
        tickangle = 60,
        title_standoff = 25,
        ticks="outside", tickwidth=1,
        ticklen=5,
        )
fig.update_yaxes(
        nticks=20, tickfont_size=10,
        ticks="outside", tickwidth=1,
        ticklen=5,
        )

fig.show()
# create a dir called 'figures'
# if it doesn't exist, create it
if not os.path.exists('./figures'):
    os.makedirs('./figures')
fig_path = os.path.join('./figures', f'hdb_{output_file}_acervo.html')
#save the figure as a html file
fig.write_html(fig_path)

In [None]:
# scatter plot with plotly express using the count of the number of times the 'Acervo' was repeated
fig = px.scatter(df_ano_acervo, x= 'Ano' , y='Acervo', color='Acervo', height=1000, width=1200,
                 hover_data=[df_ano_acervo['Ano'], df_ano_acervo['Acervo'], df_ano_acervo['quant_oco_ano']],
                 title=f"{output_file} - Ano X Acervo",
                 size='quant_oco_ano',
                 )
# config the layout
fig.update_layout(
    autosize=True,
    hovermode="closest",
    legend=dict(orientation="v"),
    showlegend=False,
    xaxis=dict(title="Anos em que há ao menos uma ocorrência"),
    yaxis=dict(title="Jornais"),
    title_font_size=20,
    title_pad=dict(l=600, r=0, t=0, b=0),
)
# update xaxes
fig.update_xaxes(
        tickangle = 60,
        title_standoff = 25,
        nticks=20, tickfont_size=10,
        ticks="outside", tickwidth=1,
        ticklen=5,
        )
fig.update_yaxes(
        tickfont_size=10,
        ticks="outside", tickwidth=1,
        ticklen=5,
        )

fig.show()
# create a dir called 'figures'
# if it doesn't exist, create it
if not os.path.exists('./figures'):
    os.makedirs('./figures')
fig_path = os.path.join('./figures', f'hdb_{output_file}_anos.html')
#save the figure as a html file
fig.write_html(fig_path)

### Quantidade ocorrências de cada jornal por ano

In [None]:
# dataframe with the number of times the 'Acervo' was repeated in each year
df3  = df.filter(items=['Ano', 'Acervo'])\
    .groupby(['Acervo', 'Ano'])\
    .size()
# use reset_index() to change the index to the new column
df3 = df3.reset_index()
# rename column '0' to 'quant_oco_ano'
df3.rename(columns={0: 'quant_oco_ano'}, inplace=True)
print(df3.head())

In [None]:
# filter by 'Ano' between 1901 and 1940 usinf .query()
df4 = df3.query('Ano >=1901 and Ano <=1940')
print(df4.head())


### Gráfico de linha

Vamos utilizar o `df4` ( coluna 'Ano' filtrada entre 1901 e 1940) para testar um gráfico de linha com plotly

In [None]:
#line plot with plotly express using the count of the number of times the 'Acervo' was repeated between 1901 and 1940
fig = px.line(df4, x='Ano', y='quant_oco_ano', color='Acervo', height=1000, width=1200,
                 hover_data=[df4['Ano'], df4['Acervo'], df4['quant_oco_ano']],
                 title=f'{output_file} - Ano X Acervo',
                 markers=True,
                 )
fig.show()
# create a dir called 'figures'
# if it doesn't exist, create it
if not os.path.exists('./figures'):
    os.makedirs('./figures')
fig_path = os.path.join('./figures', f'hdb_{output_file}_acervo_filtered_line.html')
#save the figure as a html file
fig.write_html(fig_path)

### Analisando ocorrências por década

Usar `groupby` e `sum()` para chegar ao total de ocorrências por ano

In [None]:
#sum values of 'quant_oco_ano' in each decade and use reset_index() to change the index to the new column
df5 = df3.groupby(['Ano'])['quant_oco_ano'].sum().reset_index()
print(df5.head())

In [None]:
# get 'quant_oco_ano' column from df5 and put it in a list using .tolist()
lista_valores = df5['quant_oco_ano'].tolist()
print(f'Total de anos com ocorrências: {len(lista_valores)}')
# get the total sum of ints in lista_valores
soma = sum(lista_valores)
print(f'Total de ocorrências: {soma}')

In [None]:
# function to get the sum of 'quant_oco_ano' in each decade
def get_sum_decade(df, ano_inicial, ano_final):
    return df.query(f'Ano >= {ano_inicial} and Ano <= {ano_final}')['quant_oco_ano'].sum()

In [None]:
# Creates a dictionary with beggining and end of each decade
# decades_dic = {'decade_beggining': 'decade_end'}
decades_dic = {1850: 1859, 1860:1869, 1870:1879, 1880:1889, 1890:1899, 1900:1909, 1910:1919, 1920:1929, 1930:1939, 1940:1949, 1950:1959, 1960:1969, 1970:1979, 1980:1989, 1990:1999, 2000:2009}
# iterate over decades_dic passing in the key and value to function get_sum_decade
decades = {key: get_sum_decade(df3, key, value) for key, value in decades_dic.items()}
print(f'Total de ocorrências por década: {decades}')
# create a dataframe from decades dict
df6 = pd.DataFrame.from_dict(decades, orient='index')
df6.reset_index(inplace=True)
df6.columns = ['Década', 'quant_oco_ano']
print(df6.head())

### Gráfico de barras

A partir do `df6` (contagens de ocorrências por década), vamos criar um gráfico de barras com plotly.

In [None]:
# create a bar chart with the df6 dataframe
fig = px.bar(df6, x='Década', y='quant_oco_ano', color= 'Década', height=500, width=500,
                 hover_data=[df6['Década'], df6['quant_oco_ano']],
                 title=f'{output_file} - Década X Quantidade de ocorrências',
                 )

fig.update_layout(
    autosize=True,
    hovermode="closest",
    legend=dict(orientation="v"),
    showlegend=False,
    xaxis=dict(title="Quantidade de ocorrências"),
    yaxis=dict(title="Décadas"),
    title_font_size=16,
    title_pad=dict(l=50, r=0, t=0, b=0),
)
# update xaxes
fig.update_xaxes(
        tickangle = 60,
        title_standoff = 25,
        nticks=20, tickfont_size=10,
        ticks="outside", tickwidth=1,
        ticklen=5,
        )
fig.update_yaxes(
        tickfont_size=10,
        ticks="outside", tickwidth=1,
        ticklen=5,
        )

fig.show()
# create a dir called 'figures'
# if it doesn't exist, create it
if not os.path.exists('./figures'):
    os.makedirs('./figures')
fig_path = os.path.join('./figures', f'hdb_{output_file}_decades_bar.html')
#save the figure as a html file
fig.write_html(fig_path)

## Analisar um único jornal

Vamos selecionar o acervo com maior número de ocorrências no dataframe e analisar

In [None]:
# create a dataframe using df_acervos 
# select the first six rows of dataframe df_acervos
df7 = df_acervos.iloc[:6]
print(df7)
# get the values of 'Acrevo' column from df7 and put it in a list using .tolist()
lista_valores = df7['Acervo'].tolist()
print(f'Acervos: {lista_valores}')

In [None]:
# use itens in `lista_valores` list to new dataframes
# strings must be defined manually
# filter dataframe by value in 'Acervo' column
acervo_1 = df3[df3['Acervo'].str.contains('Correio da Manhã ')]
print(acervo_1.head())
acervo_2 = df3[df3['Acervo'].str.contains('Jornal do Brasil ')]
print(acervo_2.head())
acervo_3 = df3[df3['Acervo'].str.contains('O Paiz ')]
print(acervo_3.head())
acervo_4 = df3[df3['Acervo'].str.contains('A Noite ')]
print(acervo_4.head())
acervo_5 = df3[df3['Acervo'].str.contains('Gazeta de Noticias ')]
print(acervo_5.head())
acervo_6 = df3[df3['Acervo'].str.contains('A Epoca ')]
print(acervo_6.head())
#

In [None]:
# create a scatter plot with plotly express using x = 'Ano' and y = 'quant_oco_ano'
fig = px.scatter(acervo_1, x='Ano', y='quant_oco_ano', color='quant_oco_ano', height=600, width=800,
                 hover_data=[acervo_1['Ano'], acervo_1['Acervo'], acervo_1['quant_oco_ano']],
                 title=f'{output_file} - Correio da Manhã (RJ) - Ano X Acervo', # title must be defined manually
                 size='quant_oco_ano',
                 )
# config the layout
fig.update_layout(
    hovermode="closest",
    legend=dict(orientation="h", xanchor="center", yanchor="top"),
    showlegend=True,
    xaxis=dict(title="Anos"),
    yaxis=dict(title="Quantidade de ocorrências"),
    title_font_size=20,
    title_pad=dict(l=100, r=0, t=0, b=0)
)
# update xaxes
fig.update_xaxes(
        nticks=20, tickfont_size=10,
        tickangle = 60,
        title_standoff = 25,
        ticks="outside", tickwidth=1,
        ticklen=5,
        )
fig.update_yaxes(
        nticks=20, tickfont_size=10,
        ticks="outside", tickwidth=1,
        ticklen=5,
        )

fig.show()
# create a dir called 'figures'
# if it doesn't exist, create it
if not os.path.exists('./figures'):
    os.makedirs('./figures')
fig_path = os.path.join('./figures', f'hdb_{output_file}_acervo_1.html')
#save the figure as a html file
fig.write_html(fig_path)                


### Criar gráfico com várias figuras

In [None]:
# creates a scatter plot with plotly using subplots
from plotly.subplots import make_subplots
import plotly.graph_objects as go

In [None]:
# define subplots and the number of rows and columns
fig = make_subplots(rows=2, cols=3)
# add scatter plots to the subplots
# the name of the scatter plot is the name of the list item and must be defined manually
fig.add_trace(go.Scatter(x=acervo_1['Ano'], y=acervo_1['quant_oco_ano'], name='Correio da Manhã (RJ)', mode='lines+markers'), row=1, col=1)
fig.add_trace(go.Scatter(x=acervo_2['Ano'], y=acervo_2['quant_oco_ano'], name='Jornal do Brasil (RJ)', mode='lines+markers'), row=1, col=2)
fig.add_trace(go.Scatter(x=acervo_3['Ano'], y=acervo_3['quant_oco_ano'], name='O Paiz (RJ)', mode='lines+markers'), row=1, col=3)
fig.add_trace(go.Scatter(x=acervo_4['Ano'], y=acervo_4['quant_oco_ano'], name='A Noite (RJ)', mode='lines+markers'), row=2, col=1)
fig.add_trace(go.Scatter(x=acervo_5['Ano'], y=acervo_5['quant_oco_ano'], name='Gazeta de Noticias (RJ)', mode='lines+markers'), row=2, col=2)
fig.add_trace(go.Scatter(x=acervo_6['Ano'], y=acervo_6['quant_oco_ano'], name='A Epoca (RJ)', mode='lines+markers'), row=2, col=3)
fig.update_layout(
    #insert title
    title=f'{output_file} - Ano X Quantidade de ocorrências',
    height=600,
    width=800,
    showlegend=True,
    legend=dict(orientation="v", xanchor="center", yanchor="top"),
    title_font_size=20,
    title_pad=dict(l=100, r=0, t=0, b=0),
)
fig.update_xaxes(
        tickangle = 60,
        title_standoff = 25,
        ticks="outside", tickwidth=1,
        ticklen=5,
        nticks=10, tickfont_size=10,
        )
fig.update_yaxes(
        nticks=10, tickfont_size=10,
        ticks="outside", tickwidth=1,
        ticklen=5,
        )
fig.show()

# create a dir called 'figures'
# if it doesn't exist, create it
if not os.path.exists('./figures'):
    os.makedirs('./figures')
fig_path = os.path.join('./figures', f'hdb_{output_file}_mult_acervos.html')
#save the figure as a html file
fig.write_html(fig_path)


---

[← Anterior](dia3.ipynb)

[↑ Início](./README.md)