<img src="https://suspicious-wescoff-e06084.netlify.app/banner_notebook.png"/>

# Exercício de análise de dados com Python
> *Uma grande jornada começa com um pequeno passo*

* Sumário:
    * [Livro **Introdução à Análise de Dados**](https://dataat.github.io/introducao-analise-de-dados/)
    * [Exemplo de Análise de Dados em R](https://www.kaggle.com/oldlipe/intro-ds-r-worcap2020)

Este documento apresenta uma lista de exercícios para a fixação dos conceitos introdutórios vistos no minicurso de introdução à Data Science utilizando R e Python. A ideia é que você veja como essas ferramentas podem ser utilizadas com conjuntos de dados reais.

## Fogo nas florestas do Brasil

Incêndios florestais representam um grande problema na batalha pela preservação das Florestas Tropicais. Assim, compreender os locais em que esses incêndios, pode ajudar a tomada de decisão e criação de políticas públicas que ajudem na preservação. O carater temporal deste conjunto de dados o torna especialmente interessante por permitir o acompanhamento da evolução deste tipo de ocorrência nos estados do Brasil.

> O conjunto de dados foi retirado diretamente do Kaggle, disponível na página [Forest Fires in Brazil](https://www.kaggle.com/gustavomodelli/forest-fires-in-brazil). No conjunto de dados estão presente informações sobre o número de incêndios florestais no Brasil dividido por estado. A parte temporal tem uma extensão que vai de 1998 à 2017.


## Carregando e entendendo os dados

Nesta primeira parte da atividade, o objetivo é carregar e entender qual é a disposição dos atributos dos dados.

<hr>

In [None]:
import pandas as pd

Uma vez que o pandas está carregado, ele pode ser utilizado para carregar os dados no formato `pandas.DataFrame`

In [None]:
# ToDo: Carregar o conjunto de dados
# dados_queimadas = pd.read_csv(..., encoding = 'latin')

Com os dados carregados, vamos olhar a estrutura deles.

In [None]:
# ToDo: Listas os 5 primeiros elementos da tabela carregada
# dados_queimadas.head(n = ...)

Agora, vamos olhar para cada um dos atributos que está disponível nessa tabela, para cada um deles, vamos verificar os valores possíveis. Essa abordagem pode ser útil para nos ajudar a começar a fazer perguntas aos dados.

> O método [pandas.Series.unique](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.unique.html) devolve os valores sem nenhuma repetição.

In [None]:
dados_queimadas["year"].unique()

In [None]:
# ToDo: Visualizar os valores únicos do atributo `state`
# dados_queimadas[...].unique()

In [None]:
# ToDo: Visualizar os valores únicos do atributo `month`
# dados_queimadas[...].unique()

In [None]:
# ToDo: Visualizar os valores únicos do atributo `date`
# dados_queimadas[...].unique()

**Nota**: Os valores do atributo `number`, diferente dos demais, tem uma variação contínua, o que torna mais difícil do método `pandas.Series.unique` gerar uma lista resumida dos valores, já que é mais difícil haver repetições neste domínio de dados.

In [None]:
# ToDo: Visualizar os valores únicos do atributo `number`
# dados_queimadas[...].unique()

Pronto! Isso já nos ajudou a identificar diversos dos valores possíveis e ainda, enquanto fomos fazendo a visualização dessas informações iniciais perguntas para fazer a esses dados forma surgindo. Enquanto estava gerando pensei em diversas coisas, sendo algumas delas:

- Qual ano teve a maior quantidade de identificações de fogos em florestas ?
- Qual dos estados tem mais identificações acumulada ao longo dos anos ?
- Em qual dos meses, de maneira geral, mais ocorrem as identificações ?
- Como foi a variação das identificações no estado `X` ?
- Dentro da [Amazônia legal](https://www.ibge.gov.br/geociencias/cartas-e-mapas/mapas-regionais/15819-amazonia-legal.html?=&t=o-que-e), qual estado apresenta a maior quantidade de identificações ?

Além dessas, várias outras perguntas poderiam ser feitas, acho que aqui o limite é realmente a intepretação e necessidade de quem está fazendo a análise dos dados. 

> Neste exercício, vamos buscar responder algumas dessas perguntas. Se você achar legal, sinta-se livre para fazer as demais análises e até mesmo adicionar outras informações e ideias que não foram apresentadas aqui

### Como foi a variação das identificações no estado do Amazonas ?

O que acha de começarmos a olhar para alguns estados ? Primeiro vamos começar pelo Amazonas.

<ht>

In [None]:
# ToDo: Filtrar os dados utilizando índice lógico
# dados_queimadas_amazonas = dados_queimadas[dados_queimadas["..."] == ...]

In [None]:
# ToDo: Liste os 3 primeiros itens
# dados_queimadas_amazonas.head(n = ...)

Além do fíltro de índice lógico, a busca poderia ser feita através do comando [pandas.DataFrame.query](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html)

```python
dados_queimadas_amazonas = dados_queimadas_amazonas.query("state == 'Amazonas'")
dados_queimadas_amazonas.head()
```

> Nota: Esse comando não pode ser utilizado no `ToDo` apresentado anteriormente


Agora que temos os dados do `Amazonas` separados, vamos olhar como foi a variação da quantidade de identificações ao longo do ano.

In [None]:
# ToDo: Agrupe os dados utilizando o atributo `year`
# dados_queimadas_amazonas_por_ano = dados_queimadas_amazonas.[ ... ]("year")

In [None]:
# ToDo: Aplique uma agregação de soma nos dados que foram agrupados pelo atributo `year`
# dados_queimadas_amazonas_por_ano = dados_queimadas_amazonas_por_ano.[ ... ]

In [None]:
# ToDo: Veja o conteúdo do atributo `number`
# dados_queimadas_amazonas_por_ano["..."]

Acho que a visualização desses dados deixa tudo mais interessante! Agora o [plotnine](https://plotnine.readthedocs.io/en/stable/) pode nos ajudar!

In [None]:
from plotnine import *

In [None]:
# ToDo: Faça o plot da variação da identificação de fogos no Amazonas utilizando plotnine
# Lembre-se de que, o atributo `number` (y) representa a quantidade de identificações e o índice do pandas.DataFrame representa os anos
# assim, há uma relação ano -> number no pandas.DataFrame

# (
#     ggplot(dados_queimadas_amazonas_por_ano, aes(x = "dados_queimadas_amazonas_por_ano.index", y = "..."))
#         + geom_line()
#         + ggtitle("Variação da identificação de fogos na floresta no Amazonas (1998 à 2017)")
#         + xlab("Ano")
#         + ylab("Quantidade de identificações")
# )

Apenas para lembrar, o Python possui diversas bibliotecas para a visualização de dados, aqui estou mostrando o `plotnine`, mas muitas outras poderia ser aplicadas, como o próprio [matplotlib](https://matplotlib.org/), além de outras como:

- [HoloViews](http://holoviews.org/index.html): Visualização simplificada de dados;
- [GeoViews](https://geoviews.org/): Criada com base na HoloViews, facilita a visualização de dados geoespaciais;
- [Datashader](https://datashader.org/): Biblioteca focada na visualização de grandes conjuntos de dados;
- [Seaborn](https://seaborn.pydata.org/): Criada para simplificar a visualização de dados. Usa como base o matplotlib.

O matplotlib, citado anteriormente, poderia ser utilizado através do próprio `pandas.DataFrame`.

In [None]:
# ToDo: Faça o plot do atributo `number`
# dados_queimadas_amazonas_por_ano["..."].plot(figsize = (8, 8))

Olhando essa figura me veio a curiosidade de saber em qual ano, no estado do Amazonas, houveram mais identificações. Vamos tentar extrair essa informação

In [None]:
# ToDo: Aplicar um filtro lógico para identificar o ano que possui o valor máximo
# dados_queimadas_amazonas_por_ano[dados_queimadas_amazonas_por_ano["..."] == dados_queimadas_amazonas_por_ano["..."].max()]

Aqui utilizamos o processo de filtro booleano para fazer essa identificação, mas poderiamos utilizar o `pandas.DataFrame.query` também!

```python
dados_queimadas_amazonas_por_ano.query("number == number.max()")
```

> Nota: Este método não pode ser utilizado para a solução do exercício apresentado imediatamente acima


Certo, identificamos o ano de 2002. Dentro deste ano, qual foi o mês em que mais ocorreram identificações de fogo na floresta ?

In [None]:
# ToDo: Com filtro lógico, selecione os dados do Amazonas para encontrar as identificações de incêndios no ano de 2002
# dados_queimadas_amazonas_2002 = dados_queimadas_amazonas[ ... ]
# dados_queimadas_amazonas_2002

Visualmente sabemos que é o mês de Setembro, mas e se essa tabela fosse maior ? O que poderiamos fazer ? `Filtrar`!

In [None]:
# ToDo: Filtre para encontrar o mês com a maior quantidade de identificações em 2002, no Amazonas.
# dados_queimadas_amazonas_2002[dados_queimadas_amazonas_2002["number"] == dados_queimadas_amazonas_2002["number"].[ ... ]]

### Verificando o contexto geral dos estados

Saindo um pouco de um contexto mais específico, vamos olhar para o contexto geral, considerando todos os estados.

<hr>

Nessa parte, vamos começar analisando quais estados mais tem identificações desde que elas começaram a ser registradas

In [None]:
# ToDo: Agrupar pelos atributos `year` e `state`
# dados_queimadas_soma_dos_anos = dados_queimadas.groupby([..., ...])

In [None]:
# ToDo: Faça a agregação de soma dos dados agrupados 
# dados_queimadas_soma_dos_anos = dados_queimadas_soma_dos_anos.[ ... ]
# dados_queimadas_soma_dos_anos

Primeiro vamos pegar os valores que estão no índice e passar eles para atributos. Isso vai facilitar o consumo dessas informações.

In [None]:
# Veja que a tabela acima para entender a diferença com a tabela gerada
dados_queimadas_soma_dos_anos.reset_index(inplace = True)
dados_queimadas_soma_dos_anos

**Fazendo a visualização desses dados com plotnine**

In [None]:
(
    ggplot(dados_queimadas_soma_dos_anos, aes(x = "year", y = "number", color = "factor(state)"))
        + geom_line()
        + facet_wrap("~state")
        + ggtitle("Variação temporal das identificações de fogo em floresta (1998 à 2017)")
        + xlab("Ano")
        + ylab("Quantidade de identificações")
        + theme(axis_text_x = element_text(angle = 45))
)

Olha a quantidade de informação que conseguimos obter! Tem bastante coisa que pode ser feita. Deste ponto, técnicas para fazer análises temporais nesses dados poderiam ser aplicadas. Tais técnicas não serão abordadas neste exemplo.

Espero que esta parte da análise tenha dispertado em você uma curiosidade para continuar a "cavar" nesses dados. Analisando o gráfico é possível perceber que Mato Grosso tem uma quantidade enorme de identificações. Será que ele tem a maior quantidade de identificações registradas em um único ano ? Se sim, qual será que foi esse ano ?

In [None]:
# ToDo: Encontrar a maior quantidade de identificações já feitas
# dados_queimadas_soma_dos_anos[ ... ]

Sabe de uma coisa, acho que saber só o que mais tem fogos em florestas não basta. Vamos criar um *ranking* de quem são aqueles que mais tem identificações dentro dessa série, por ano.

Para isso, foi criada a função auxiliar `ranking_by_year`, essa vai ajudar a criar um gráfico de barra que facilita a visualização.

> A função auxiliar utiliza o tipo de dados [pandas.Categorical](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Categorical.html), este representa um tipo categótico nas estatísticas, com a diferença de que essa pode ser definida seguindo alguma ordem. O critério para ordenação pode ser definido pelos utilizadores desta classe. Para fazer uma comparação direta, essa classe é equivalente ao [factor](https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/factor) do R.

In [None]:
def ranking_by_year(dataframe, year):
    """Gera um gráfico de barra utilizando a ordem crescente dos dados
    
    Args:
        dataframe (pandas.DataFrame): Conjunto de dados de fogos na floresta
        year (int): ano que se deseja visualizar
    Returns:
        plotnine.ggplot.ggplot: Figura gerada
    """
    
    _df = dataframe[dataframe["year"] == year].sort_values(by = "number")
    _df["state"] = pd.Categorical(_df["state"], categories=_df["state"].unique()[::-1])
    
    return (
        ggplot(_df.sort_values(by = "number"), aes(x = "state", y = "number", color = "state")) 
            + geom_bar(stat = "identity")
            + ylab("Ano")
            + xlab("Quantidade de identificações")
            + ggtitle(f"Ranking das maiores identificações ({year})")
            + coord_flip()
    )

In [None]:
# ToDo: Visualizar o ranking de identificações para os anos de 1999, 2005, 2010 e 2015
# Dica: Consulte a docstring (Texto abaixo da criação da função) para entender seus parâmetros
# ranking_by_year(dados_queimadas_soma_dos_anos, ...)

<img src="https://suspicious-wescoff-e06084.netlify.app/amazonia-legal.png" align="left" width="180" />

### Amazônia Legal

Uma parte que é interessante de ser explorada neste conjunto de dados são as características dos estados que fazem parte da Amazônia Legal.

> A região da Amazônia Legal representa uma divisão sociopolítica, se extendendo completamente pelos estados Acre, Amapá, Amazonas, Mato Grosso, Pará, Rondônia, Roraima, Tocantins. Contém também uma parte do estado do Maranhão. Informações retiradas do [oeco.org](https://www.oeco.org.br/dicionario-ambiental/28783-o-que-e-a-amazonia-legal/)

Nosso objetivo nessa parte da análise é verificar a quantidade de identificações dentro e fora da Amazônia Legal e a representatividade desses resultados com o resultado nacional.

### Quantidade de identificações dentro da Amazônia Legal X Demais estados

Vamos criar a lista de estados que pertencem à Amazônia Legal

In [None]:
estados_amazonia_legal = [
    "Acre", "Amapa", "Amazonas", "Mato Grosso", "Pará", "Rondonia", "Roraima", "Tocantins", "Maranhao"
]

Agora, vamos filtrar os dados com essa lista

In [None]:
# ToDo: Filtre os dados para somente aqueles que estão dentro dos estados da Amazônia Legal
# dados_queimadas_amazonia_legal = dados_queimadas[dados_queimadas[ ... ].isin(estados_amazonia_legal)]
# dados_queimadas_amazonia_legal.head(10)

Vamos gerar a quatidade de identificações que foram feitas nesses dados

In [None]:
# ToDo: Aplique a agregação de soma no atributo `number`
# dados_queimadas_amazonia_legal_somageral = dados_queimadas_amazonia_legal["number"].[ ... ]
# dados_queimadas_amazonia_legal_somageral

Façamos o mesmo para os dados dos estados que não são da `Amazônia Legal`

In [None]:
# ToDo: Filtre os dados em que o atributo `state` NÃO pertenca a Amazônia Legal
# Note o ~ dentro do comando, ele é vital para o funcionamento dessa operação

# dados_queimadas_naoamazonia_legal = dados_queimadas[~dados_queimadas[ ... ].isin( ... )]
# dados_queimadas_naoamazonia_legal.head(10)

Calculamos o somatório e então vamos gerar uma figura para entendermos a dimensão das diferenças

In [None]:
# ToDo: Aplique uma agregação de soma
# dados_queimadas_naoamazonia_legalsomageral = dados_queimadas_naoamazonia_legalsomageral[ ... ].[]
# dados_queimadas_naoamazonia_legalsomageral

In [None]:
# ToDo: Crie um pandas.DataFrame com os atributos `local` e `quantidade`, onde:
#  - local: Você vai inserir nessa coluna os locais ("Amazônia legal", "Demais estados")
#  - quantidade: Você vai inserir nessa coluna as quantidade de identificações em cada local (dados_queimadas_amazonia_legal_somageral e dados_queimadas_naoamazonia_legalsomageral)

# diferencas = pd.DataFrame({
#     ...: ...,
#     ...: ...
# })
# diferencas

In [None]:
# ToDo: Crie um gráfico de barra com o dataframe que você gerou anteriormente
# ggplot(diferencas, aes(x = "...", y = "...")) + geom_bar(stat = "identity")