<img src="https://suspicious-wescoff-e06084.netlify.app/banner_notebook.png"/>

# Exercício de análise de dados com Python
> *Uma grande jornada começa com um pequeno passo*

* **Links Úteis**:
    * [Livro **Introdução à Análise de Dados**](https://dataat.github.io/introducao-analise-de-dados/)
    * [Exemplo de Análise de Dados em R](https://www.kaggle.com/oldlipe/intro-ds-r-worcap2020)

Este documento apresenta uma lista de exercícios para a fixação dos conceitos introdutórios vistos no minicurso de introdução à Data Science utilizando R e Python. A ideia é que você veja como essas ferramentas podem ser utilizadas com conjuntos de dados reais.

**Nota sobre a forma de solução dos exercícios**: Os exercícios apresentados abaixo seguem uma estrutura de `TODO List`, nessa você tem algumas tarefas que precisa ir cumprindo para ver o resultado completo da análise e ir interpretando seus resultados. Em cada exercício já fica disponível um trecho do código que você precisa para solucionar o problema, sendo necessário você completar os comandos. Por exemplo:

Quando houver `dados.head(n = ...)`, é tido que os `...` precisam ser substituidos pelo valor que faz o comando funcionar corretamente. Assim, para esse exemplo, uma forma de solução pode ser `dados.head(n = 3)`.

> `...` podem representar **métodos**, **nomes de atributos** e outros elementos no código. Será necessário avaliar o contexto para a substituição e geração dos resultados.

## Fogo nas florestas do Brasil

Incêndios florestais representam um grande problema na batalha pela preservação das Florestas Tropicais. Assim, compreender os locais desses incêndios pode ajudar na tomada de decisão e criação de políticas públicas que ajudam na preservação das florestas. O carater temporal deste conjunto de dados o torna especialmente interessante por permitir o acompanhamento da evolução deste tipo de ocorrência nos estados do Brasil.

> O conjunto de dados foi retirado diretamente do Kaggle, disponível na página [Forest Fires in Brazil](https://www.kaggle.com/gustavomodelli/forest-fires-in-brazil). No conjunto de dados estão presente informações sobre o número de incêndios florestais no Brasil dividido por estado. A parte temporal tem uma extensão que vai de 1998 à 2017.


## Carregando e entendendo os dados

Nesta primeira parte da atividade, o objetivo é carregar e entender os atributos do conjunto de dados.

<hr>

In [None]:
import pandas as pd

Uma vez que o pandas está carregado, ele pode ser utilizado para carregar os dados no formato `pandas.DataFrame`

In [None]:
# ToDo: Carregar o conjunto de dados
# dados_queimadas = pd.read_csv(..., encoding = 'latin')

Com os dados carregados, vamos olhar a estrutura deles.

In [None]:
# ToDo: Listar as 5 primeiras linhas da tabela carregada
# dados_queimadas.head(n = ...)

Agora, vamos olhar para cada um dos atributos que está disponível nessa tabela, para cada um deles, vamos verificar os valores possíveis. Essa abordagem pode ser útil para nos ajudar a começar a fazer perguntas aos dados.

> O método [pandas.Series.unique](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.unique.html) devolve os valores sem nenhuma repetição.

In [None]:
dados_queimadas["year"].unique()

In [None]:
# ToDo: Visualizar os valores únicos do atributo `state`
# dados_queimadas[...].unique()

In [None]:
# ToDo: Visualizar os valores únicos do atributo `month`
# dados_queimadas[...].unique()

In [None]:
# ToDo: Visualizar os valores únicos do atributo `date`
# dados_queimadas[...].unique()

**Nota**: Os valores do atributo `number`, diferente dos demais, tem uma variação contínua, o que torna mais difícil do método `pandas.Series.unique` gerar uma lista resumida dos valores, já que é mais difícil haver repetições neste domínio de dados.

In [None]:
# ToDo: Visualizar os valores únicos do atributo `number`
# dados_queimadas[...].unique()

Pronto! Isso já nos ajudou a identificar diversos dos valores possíveis. Além disso, enquanto fomos fazendo a visualização desses dados, diversas perguntas foram surgindo. Por exemplo, enquanto eu criava este material, pensei nas seguintes perguntas:

- Qual ano teve a maior quantidade de identificações de incêndios florestas ?
- Qual dos estados tem mais identificações acumuladas ao longo dos anos ?
- Em qual dos meses, mais ocorrem as identificações ?
- Como foi a variação das identificações no estado `X` ?
- Dentro da [Amazônia legal](https://www.ibge.gov.br/geociencias/cartas-e-mapas/mapas-regionais/15819-amazonia-legal.html?=&t=o-que-e), qual estado apresenta a maior quantidade de incêndios florestas ?

Além dessas, várias outras perguntas poderiam ser feitas, acho que aqui o limite é realmente a intepretação e necessidade de quem está fazendo a análise dos dados. 

> Neste exercício, vamos buscar responder algumas dessas perguntas. Se você achar legal, sinta-se livre para fazer as demais análises e até mesmo adicionar outras informações e ideias que não foram apresentadas aqui.

### Como foi a variação anual das identificações no estado do Amazonas ?

O que acha de começarmos a olhar para alguns estados ? Primeiro vamos começar pelo `Amazonas`.

<ht>

In [None]:
# ToDo: Filtre o conjunto de dados pelo atributo `state` e recupere somente os dados do Amazonas.
# dados_queimadas_amazonas = dados_queimadas.loc[dados_queimadas["..."] == ...]

In [None]:
# ToDo: Liste os 5 primeiros itens
# dados_queimadas_amazonas.[...]()

Além da indexação booleana, a busca poderia ser feita através do método [pandas.DataFrame.query](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html)

```python
dados_queimadas_amazonas = dados_queimadas.query("state == 'Amazonas'")
dados_queimadas_amazonas.head()
```


Agora que temos os dados do `Amazonas` separados, vamos olhar como foi a variação da quantidade de identificações ao longo dos anos.

In [None]:
# ToDo: Agrupe os dados utilizando o atributo `year`
# dados_queimadas_amazonas_por_ano = dados_queimadas_amazonas.[ ... ]("year")

In [None]:
# ToDo: Agregue os dados agrupados com a operação de somatório (`sum`)
# dados_queimadas_amazonas_por_ano = dados_queimadas_amazonas_por_ano.[ ... ]

In [None]:
# ToDo: Veja o conteúdo do atributo `number`
# dados_queimadas_amazonas_por_ano["..."]

Acho que a visualização desses dados deixa tudo mais interessante! Agora, o [plotnine](https://plotnine.readthedocs.io/en/stable/) pode nos ajudar!

In [None]:
from plotnine import *

In [None]:
# ToDo: Faça o plot da variação da identificação de incêndio florestais no Amazonas utilizando plotnine
# Lembre-se de que, o atributo `number` (y) representa a quantidade de identificações e o 
# índice do pandas.DataFrame representa os anos.

# (
#     ggplot(dados_queimadas_amazonas_por_ano, aes(x = "dados_queimadas_amazonas_por_ano.index", y = "..."))
#         + geom_line()
#         + ggtitle("Variação da identificação de incêndios florestais no Amazonas (1998 à 2017)")
#         + xlab("Ano")
#         + ylab("Quantidade de identificações")
# )

Apenas para lembrar, o Python possui diversas bibliotecas para a visualização de dados, aqui estou mostrando o `plotnine`, mas muitas outras poderia ser aplicadas, como o próprio [matplotlib](https://matplotlib.org/), além de outras como:

- [HoloViews](http://holoviews.org/index.html): Visualização simplificada de dados;
- [GeoViews](https://geoviews.org/): Criada com base na HoloViews, facilita a visualização de dados geoespaciais;
- [Datashader](https://datashader.org/): Biblioteca focada na visualização de grandes conjuntos de dados;
- [Seaborn](https://seaborn.pydata.org/): Criada para simplificar a visualização de dados. Usa como base o matplotlib.

O matplotlib, citado anteriormente, poderia ser utilizado através do próprio `pandas.DataFrame`.

In [None]:
# ToDo: Faça o plot do atributo `number`
# dados_queimadas_amazonas_por_ano["..."].plot(figsize = (8, 8))

Olhando essa figura me veio a curiosidade de saber em qual ano, no estado do `Amazonas`, houveram mais identificações. Vamos tentar extrair essa informação:

In [None]:
# ToDo: Aplicar um filtro booleano para identificar o ano que 
# possui a maior quantidade de identificações

# dados_queimadas_amazonas_por_ano.loc[dados_queimadas_amazonas_por_ano["..."] == dados_queimadas_amazonas_por_ano["..."].max()]

Aqui utilizamos o processo de filtro booleano para fazer essa identificação, mas poderiamos utilizar o `pandas.DataFrame.query` também!

```python
dados_queimadas_amazonas_por_ano.query("number == number.max()")
```

**Dentro deste ano, qual foi o mês em que mais ocorreram identificações de incêndios florestais ?**

In [None]:
# ToDo: Com filtro lógico, selecione os dados do Amazonas para encontrar as identificações de incêndios no ano de 2002
# dados_queimadas_amazonas_2002 = dados_queimadas_amazonas.loc[ ... ]
# dados_queimadas_amazonas_2002

Visualmente sabemos podemos até encontrar o mês, mas e se essa tabela fosse maior ? O que poderiamos fazer ? `Filtrar`!

In [None]:
# ToDo: Filtre para encontrar o mês com a maior quantidade de identificações em 2002, no Amazonas.
# dados_queimadas_amazonas_2002.loc[dados_queimadas_amazonas_2002["number"] == dados_queimadas_amazonas_2002["number"].[ ... ]]

### Verificando o contexto geral dos estados

Saindo um pouco do contexto específico de um estado (`Amazonas`), vamos olhar para o contexto geral, considerando todos os estados.

<hr>

Nessa parte, vamos começar analisando quais estados mais tem identificações desde que elas começaram a ser registradas

In [None]:
# ToDo: Agrupar pelos atributos `year` e `state`
# dados_queimadas_soma_dos_anos = dados_queimadas.groupby([..., ...])

In [None]:
# ToDo: Faça a agregação de soma dos dados agrupados 
# dados_queimadas_soma_dos_anos = dados_queimadas_soma_dos_anos.[ ... ]
# dados_queimadas_soma_dos_anos

Primeiro, vamos pegar os valores que estão no índice e passar eles para atributos. Isso vai facilitar o uso dessas informações.

In [None]:
# Veja que a tabela acima para entender a diferença com a tabela gerada
dados_queimadas_soma_dos_anos.reset_index(inplace = True)
dados_queimadas_soma_dos_anos

**Fazendo a visualização desses dados com plotnine**

In [None]:
(
    ggplot(dados_queimadas_soma_dos_anos, aes(x = "year", y = "number", color = "factor(state)"))
        + geom_line()
        + facet_wrap("~state")  # separando os dados por estado.
        + ggtitle("Variação temporal das identificações de incêndios florestais (1998 à 2017)")
        + xlab("Ano")
        + ylab("Quantidade de identificações")
        + theme(axis_text_x = element_text(angle = 45))
)

Olha a quantidade de informação que conseguimos obter! Tem bastante coisa que pode ser feita. Deste ponto, técnicas para fazer análises temporais nesses dados poderiam ser aplicadas. Tais técnicas não serão abordadas neste exemplo.

> Espero que esta parte da análise tenha dispertado em você uma curiosidade para continuar a "cavar" nesses dados.

<img src="https://suspicious-wescoff-e06084.netlify.app/amazonia-legal.png" align="left" width="180" />

### Amazônia Legal

Uma parte que é interessante de ser explorada neste conjunto de dados são as características dos estados que fazem parte da Amazônia Legal.

> A região da Amazônia Legal representa uma divisão sociopolítica, se extendendo completamente pelos estados Acre, Amapá, Amazonas, Mato Grosso, Pará, Rondônia, Roraima, Tocantins. Contém também uma parte do estado do Maranhão. Informações retiradas do [oeco.org](https://www.oeco.org.br/dicionario-ambiental/28783-o-que-e-a-amazonia-legal/)

Nosso objetivo nessa parte da análise é verificar a quantidade de identificações dentro e fora da Amazônia Legal e a representatividade desses resultados com o resultado nacional.

### Quantidade de identificações dentro da Amazônia Legal X Demais estados

Vamos criar a lista de estados que pertencem à Amazônia Legal

In [None]:
estados_amazonia_legal = [
    "Acre", "Amapa", "Amazonas", "Mato Grosso", "Pará", "Rondonia", "Roraima", "Tocantins", "Maranhao"
]

Agora, vamos filtrar os dados com essa lista.

> Dica: Consulte a documentação do método [isin](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isin.html). Ele ajuda a realizar filtros verificando se os valores estão contidos em uma determinada lista. Caso esteja contido é retornado **True**, caso contrário **False**.


In [None]:
# ToDo: Filtre os dados para somente aqueles que estão dentro dos estados da Amazônia Legal
# dados_queimadas_amazonia_legal = dados_queimadas.loc[dados_queimadas[ ... ].isin(estados_amazonia_legal)]
# dados_queimadas_amazonia_legal.head(10)

Vamos gerar a quatidade de identificações que foram feitas nesses dados

In [None]:
# ToDo: Aplique a agregação de soma no atributo `number`
# dados_queimadas_amazonia_legal_somageral = dados_queimadas_amazonia_legal["number"].[ ... ]
# dados_queimadas_amazonia_legal_somageral

Façamos o mesmo para os dados dos estados que não são da `Amazônia Legal`

In [None]:
# ToDo: Filtre os dados em que o atributo `state` NÃO pertenca a Amazônia Legal
# Note o ~ dentro do comando, ele é vital para o funcionamento dessa operação

# dados_queimadas_naoamazonia_legal = dados_queimadas.loc[~dados_queimadas[ ... ].isin( ... )]
# dados_queimadas_naoamazonia_legal.head(10)

Calculamos o somatório e então vamos gerar uma figura para entendermos a dimensão das diferenças

In [None]:
# ToDo: Aplique uma agregação de soma
# dados_queimadas_naoamazonia_legalsomageral = dados_queimadas_naoamazonia_legal[ ... ].[]
# dados_queimadas_naoamazonia_legalsomageral

In [None]:
# ToDo: Crie um pandas.DataFrame com os atributos `local` e `quantidade`, onde:
#  - local: Você vai inserir nessa coluna os locais ("Amazônia legal", "Demais estados")
#  - quantidade: Você vai inserir nessa coluna as quantidade de identificações em cada local (dados_queimadas_amazonia_legal_somageral e dados_queimadas_naoamazonia_legalsomageral)

# diferencas = pd.DataFrame({
#     ...: ...,
#     ...: ...
# })
# diferencas

In [None]:
# ToDo: Crie um gráfico de barra com o dataframe que você gerou anteriormente
#  - Dica: Consulte a documentação do `geom_bar` para verificar o motivo de geom_bar utilizar a opção "identity".
#          Link da documentação: https://www.rdocumentation.org/packages/ggplot2/versions/2.0.0/topics/geom_bar

# ggplot(diferencas, aes(x = "...", y = "...")) + geom_bar(stat = "identity")