# Disciplina de Mineração de Dados

## Plotando Gráficos

Universidade Federal de Sergipe, Campus Prof. Alberto Carvalho - Itabaiana

Professores:

- Raphael Silva Fontes

- Prof. Dr. Methanias Colaço Rodrigues Júnior

In [102]:
import pandas as pd
import plotly.graph_objects as go

Lendo o arquivo brazil_covid19_cities.csv e atribuimos-o a um DataFrame

In [103]:
df = pd.read_csv('/content/brazil_covid19_cities.csv')

Apresentamos o cabeçalho do nosso DataFrame

In [104]:
df.head()

Unnamed: 0,date,state,name,code,cases,deaths
0,2020-03-27,AC,Acrelândia,120001.0,0,0
1,2020-03-27,AC,Assis Brasil,120005.0,0,0
2,2020-03-27,AC,Brasiléia,120010.0,0,0
3,2020-03-27,AC,Bujari,120013.0,0,0
4,2020-03-27,AC,Capixaba,120017.0,0,0


Verificamos quantidade de linhas, colunas, tipos dos dados nas colunas e se há algum dado falando

In [105]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1297810 entries, 0 to 1297809
Data columns (total 6 columns):
 #   Column  Non-Null Count    Dtype  
---  ------  --------------    -----  
 0   date    1297810 non-null  object 
 1   state   1297810 non-null  object 
 2   name    1297810 non-null  object 
 3   code    1297810 non-null  float64
 4   cases   1297810 non-null  int64  
 5   deaths  1297810 non-null  int64  
dtypes: float64(1), int64(2), object(3)
memory usage: 59.4+ MB


In [106]:
df.isnull().sum()

date      0
state     0
name      0
code      0
cases     0
deaths    0
dtype: int64

Selecionamos um estado para explorarmos os seus dados

In [107]:
df['state'].unique()

array(['AC', 'AL', 'AM', 'AP', 'BA', 'CE', 'DF', 'ES', 'GO', 'MA', 'MG',
       'MS', 'MT', 'PA', 'PB', 'PE', 'PI', 'PR', 'RJ', 'RN', 'RO', 'RR',
       'RS', 'SC', 'SE', 'SP', 'TO'], dtype=object)

In [108]:
df_sergipe = df.loc[df['state'] == 'SE']

In [109]:
df_sergipe.head()

Unnamed: 0,date,state,name,code,cases,deaths
4711,2020-03-27,SE,Amparo de São Francisco,280010.0,0,0
4712,2020-03-27,SE,Aquidabã,280020.0,0,0
4713,2020-03-27,SE,Aracaju,280030.0,0,0
4714,2020-03-27,SE,Arauá,280040.0,0,0
4715,2020-03-27,SE,Areia Branca,280050.0,0,0


In [110]:
df_sergipe['name'].unique()

array(['Amparo de São Francisco', 'Aquidabã', 'Aracaju', 'Arauá',
       'Areia Branca', 'Barra dos Coqueiros', 'Boquim', 'Brejo Grande',
       'Campo do Brito', 'Canhoba', 'Canindé de São Francisco', 'Capela',
       'Carira', 'Carmópolis', 'Cedro de São João', 'Cristinápolis',
       'Cumbe', 'Divina Pastora', 'Estância', 'Feira Nova', 'Frei Paulo',
       'Gararu', 'General Maynard', 'Gracho Cardoso', 'Ilha das Flores',
       'Indiaroba', 'Itabaiana', 'Itabaianinha', 'Itabi',
       "Itaporanga d'Ajuda", 'Japaratuba', 'Japoatã', 'Lagarto',
       'Laranjeiras', 'Macambira', 'Malhada dos Bois', 'Malhador',
       'Maruim', 'Moita Bonita', 'Monte Alegre de Sergipe', 'Muribeca',
       'Neópolis', 'Nossa Senhora Aparecida', 'Nossa Senhora da Glória',
       'Nossa Senhora das Dores', 'Nossa Senhora de Lourdes',
       'Nossa Senhora do Socorro', 'Pacatuba', 'Pedra Mole', 'Pedrinhas',
       'Pinhão', 'Pirambu', 'Poço Redondo', 'Poço Verde',
       'Porto da Folha', 'Propriá', 'Riachã

Vamos observar como foi o crescimento de casos no estado por mês.

In [111]:
df_sergipe['mes'] = df_sergipe['date'].apply(lambda row: int(row.split('-')[1]))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [112]:
df_sergipe

Unnamed: 0,date,state,name,code,cases,deaths,mes
4711,2020-03-27,SE,Amparo de São Francisco,280010.0,0,0,3
4712,2020-03-27,SE,Aquidabã,280020.0,0,0,3
4713,2020-03-27,SE,Aracaju,280030.0,0,0,3
4714,2020-03-27,SE,Arauá,280040.0,0,0,3
4715,2020-03-27,SE,Areia Branca,280050.0,0,0,3
...,...,...,...,...,...,...,...
1297021,2020-11-14,SE,Siriri,280720.0,398,6,11
1297022,2020-11-14,SE,Telha,280730.0,230,2,11
1297023,2020-11-14,SE,Tobias Barreto,280740.0,1668,41,11
1297024,2020-11-14,SE,Tomar do Geru,280750.0,250,10,11


In [113]:
casos_mes = []
ultimos_relatorios = df_sergipe.groupby('mes', as_index=False).max()['date']
for relatorio in ultimos_relatorios:
    cidades = df_sergipe.loc[df_sergipe['date'] == relatorio]
    casos_mes.append([relatorio.split('-')[1], cidades['cases'].sum(), cidades['deaths'].sum()])
    
df_sergipe_mes = pd.DataFrame(data=casos_mes, columns=['mes', 'casos', 'obitos'])

In [114]:
df_sergipe_mes

Unnamed: 0,mes,casos,obitos
0,3,19,0
1,4,447,12
2,5,6999,158
3,6,25411,676
4,7,58713,1434
5,8,72528,1857
6,9,77440,2036
7,10,84326,2206
8,11,85980,2257


### Plotando Gráficos - Linha e pontos (_Scatter_)

Link para documentação do [Plotly Scatter](https://plotly.com/python/line-charts/).

mode='markers'

mode='lines'

mode='markers+lines'


In [119]:
fig = go.Figure()

fig.add_trace(go.Scatter(x=df_sergipe_mes['mes'], y=df_sergipe_mes['casos'],
                    mode='lines',
                    name='Casos'))
fig.add_trace(go.Scatter(x=df_sergipe_mes['mes'], y=df_sergipe_mes['obitos'],
                    mode='lines+markers',
                    name='Óbitos'))
fig.add_trace(go.Scatter(x=df_sergipe_mes['mes'], y=df_sergipe_mes['casos'],
                    mode='markers', name='Casos'))

fig.show()

In [123]:
fig = go.Figure()

fig.add_trace(go.Bar(x=df_sergipe_mes['mes'], y=df_sergipe_mes['casos'], name='Casos', text=df_sergipe_mes['casos'], textposition='auto'))
fig.add_trace(go.Bar(x=df_sergipe_mes['mes'], y=df_sergipe_mes['obitos'], name='Óbitos', text=df_sergipe_mes['obitos'], textposition='auto'))

fig.update_layout(title='Casos de Coronavírus em Sergipe por mês', barmode='stack')

fig.show()

### Plotando Gráficos - Barras (_Bar_)

Link para documentação do [Plotly Bar](https://plotly.com/python/bar-charts/).

Vamos dar uma olhada nos casos na cidade de Itabaiana

In [127]:
df_itabaiana = df_sergipe.loc[df_sergipe['name'] == 'Itabaiana']

In [128]:
df_itabaiana

Unnamed: 0,date,state,name,code,cases,deaths,mes
4737,2020-03-27,SE,Itabaiana,280290.0,0,0,3
10307,2020-03-28,SE,Itabaiana,280290.0,0,0,3
15877,2020-03-29,SE,Itabaiana,280290.0,0,0,3
21447,2020-03-30,SE,Itabaiana,280290.0,0,0,3
27017,2020-03-31,SE,Itabaiana,280290.0,0,0,3
...,...,...,...,...,...,...,...
1274697,2020-11-10,SE,Itabaiana,280290.0,4820,97,11
1280267,2020-11-11,SE,Itabaiana,280290.0,4824,97,11
1285837,2020-11-12,SE,Itabaiana,280290.0,4830,97,11
1291407,2020-11-13,SE,Itabaiana,280290.0,4830,97,11


In [142]:
fig = go.Figure()

fig.add_trace(go.Bar(x=df_itabaiana['mes'], y=df_itabaiana['cases'], name='Casos', ))
fig.add_trace(go.Bar(x=df_itabaiana['mes'], y=df_itabaiana['deaths'], name='Óbitos', ))

fig.update_layout(title='Casos de Coronavírus em Sergipe por mês')

fig.show()

In [138]:
fig = go.Figure()
fig.add_trace(go.Scatter(x=df_itabaiana['mes'], y=df_itabaiana['cases'],
                    mode='lines',
                    name='Casos'))
fig.add_trace(go.Scatter(x=df_itabaiana['mes'], y=df_itabaiana['deaths'],
                    mode='lines+markers',
                    name='Óbitos'))

fig.show()

In [135]:
def plot_covid_cidade(cidades, df):
    fig = go.Figure()
    
    for cidade in cidades:
        temp = df.loc[(df['name'] == cidade) & (df['cases'] > 0)]
        fig.add_trace(go.Scatter(x=temp['date'], y=temp['cases'], name=cidade))

    fig.update_layout(title=f'Casos de Coronavírus em algumas cidades de Sergipe')

    fig.show()
    

plot_covid_cidade(['Ribeirópolis', 'Lagarto', 'Propriá', 'Itabaiana', 
                   'Nossa Senhora da Glória', 'Nossa Senhora do Socorro', 'Pirambu', 'Barra dos Coqueiros'], df_sergipe)

### Plotando Gráficos - Pizza (_Pie_)

Link para documentação do [Plotly Pie](https://plotly.com/python/pie-charts/).