# [Prof. Isabel H. Manssour](mailto:isabel.manssour@pucrs.br)

## Disciplina: Visualização de Dados - Turma 30

## Descrição: **Exercícios de visualização de dados geoespaciais**

**Fazer *imports* necessários**

Inicialmente faremos todos os imports necessários para realizar estes exercícios.

In [1]:
import plotly.express as px
import pandas as pd

**Carregar dados**

Vamos usar um conjunto de dados *gapminder* disponível no *plotly.express.data package* (https://plotly.com/python-api-reference/generated/plotly.express.data.html). Este pacote disponibiliza conjuntos de dados integrados para fins de demonstração, educacionais e de teste.

O conjunto de dados *gapminder* contém informações sobre indicadores socioeconômicos para países de todo o mundo ao longo do tempo. Ele inclui as seguintes colunas:


*   ***country***: Nome do país;
*   ***continent***: Continente ao qual o país pertence;
*   ***year***: Ano do registro;
*   ***lifeExp***: Expectativa de vida no nascimento;
*   ***pop***: População total;
*   ***gdpPercap***: PIB per capita em dólares americanos;
*   ***iso_alpha***: códigos ISO 3166-1 alfa-3, que são as três letras que representam os países.




In [2]:
# Carrega dos dados do arquivo em um DataFrame
df = px.data.gapminder()

# Comando para exibir as 20 primeiras linhas do DataFrame
df.head(20)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
0,Afghanistan,Asia,1952,28.801,8425333,779.445314,AFG,4
1,Afghanistan,Asia,1957,30.332,9240934,820.85303,AFG,4
2,Afghanistan,Asia,1962,31.997,10267083,853.10071,AFG,4
3,Afghanistan,Asia,1967,34.02,11537966,836.197138,AFG,4
4,Afghanistan,Asia,1972,36.088,13079460,739.981106,AFG,4
5,Afghanistan,Asia,1977,38.438,14880372,786.11336,AFG,4
6,Afghanistan,Asia,1982,39.854,12881816,978.011439,AFG,4
7,Afghanistan,Asia,1987,40.822,13867957,852.395945,AFG,4
8,Afghanistan,Asia,1992,41.674,16317921,649.341395,AFG,4
9,Afghanistan,Asia,1997,41.763,22227415,635.341351,AFG,4


▶ ***Bubble Map***

Um *bubble map* exibe círculos sobre uma região geográfica, sendo que o tamanho do círculo é proporcional ao seu valor no conjunto de dados.

Representações visuais feitas com função *px.scatter_geo* da *Plotly Express* têm um objeto *go.layout.Geo* que pode ser usado para controlar a aparência do mapa no qual os dados são plotados. Com *px.scatter_geo*, cada linha do DataFrame é representada como um ponto. A coluna definida como argumento de tamanho fornece o tamanho dos marcadores.

No exemplo abaixo, primeiro é criado um DataFrame apenas com dados de 2007 e depois é exibido um *bubble map* em que o tamanho dos pontos é definido de acordo com a informação de população no ano de 2007.

Informações este tipo de gráfico estão disponíveis em:
*   https://plotly.com/python/bubble-maps/
*   https://plotly.com/python-api-reference/generated/plotly.express.scatter_geo.html

In [3]:
# Cria um novo DataFrame (df2007) que contém apenas as linhas do DataFrame
# original (df) nas quais o valor da coluna "year" é igual a "2007".
df2007 = df.loc[df['year'] == 2007].copy()

# Comando para exibir as 10 primeiras linhas do DataFrame criado
df2007.head(10)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
11,Afghanistan,Asia,2007,43.828,31889923,974.580338,AFG,4
23,Albania,Europe,2007,76.423,3600523,5937.029526,ALB,8
35,Algeria,Africa,2007,72.301,33333216,6223.367465,DZA,12
47,Angola,Africa,2007,42.731,12420476,4797.231267,AGO,24
59,Argentina,Americas,2007,75.32,40301927,12779.37964,ARG,32
71,Australia,Oceania,2007,81.235,20434176,34435.36744,AUS,36
83,Austria,Europe,2007,79.829,8199783,36126.4927,AUT,40
95,Bahrain,Asia,2007,75.635,708573,29796.04834,BHR,48
107,Bangladesh,Asia,2007,64.062,150448339,1391.253792,BGD,50
119,Belgium,Europe,2007,79.441,10392226,33692.60508,BEL,56


In [4]:
# A localização dos pontos é definida pelo parâmetro locations, que está
# recebendo o valor da coluna "iso_alpha" do DataFrame.
fig = px.scatter_geo(df2007, locations="iso_alpha", color="continent",
                     hover_name="country", size="pop", projection="natural earth",
                     title="População por país em 2007")

fig.show()

**Exercício 1)**

Inicialmente interaja com o gráfico acima com *zoom* e *pan* e use a funcionalidade de *mouse over* para ver as informações dos países.

Depois, crie uma célula de código abaixo e experimente exibir um *bubble map* com o tamanho dos pontos representando o PIB per capita em 2007.

Faça com que apareçam também as informações sobre ano, população e expectativa de vida incluindo o seguinte parâmetro:

```
hover_data=["continent", "year", "lifeExp", "pop"]
```

Por fim, antes de exibir o mapa (*fig.show()*), experimente customizá-lo com o comando a seguir.

```
fig.update_layout(geo=dict(showcountries=True, countrycolor="Black",
                 showcoastlines=True,showocean=True, oceancolor="LightBlue"))
```


In [7]:
# Bubble map com PIB per capita em 2007 e informações adicionais
fig = px.scatter_geo(df2007, locations="iso_alpha", color="continent",
                     hover_name="country", size="gdpPercap", projection="natural earth",
                     title="PIB Per Capita e Informações Adicionais (2007)",
                     hover_data=["continent", "year", "lifeExp", "pop"])

# Customizações do mapa
fig.update_layout(geo=dict(showcountries=True, countrycolor="Black",
                            showcoastlines=True, showocean=True, oceancolor="LightBlue"))

# Exibir o mapa
fig.show()

**Exercício 2)**

A função função *px.scatter_geo* possibilita fazer algumas customizações no mapa, como trocar o tipo de projeção, exibir linhas de latitude e longitude ou fazer uma animação.

Para testar estas customizações, altere o tipo de projeção na célula de código abaixo. Experimente trocar "*natural earth*" por "*orthographic*", "*mercator*" e "*sinusoidal*". A cada alteração, execute a célula novamente para ver o que acontece.

Para exibir as linhas de latitude e longitude, acrescente o comando abaixo antes de *fig.show()*.

```
fig.update_geos(lataxis_showgrid=True, lonaxis_showgrid=True)
```

In [8]:
fig = px.scatter_geo(df2007, locations="iso_alpha", color="continent",
                     hover_name="country", size="pop", projection="orthographic",
                     title="População por país em 2007")
fig.update_layout(geo=dict(showcountries=True, showocean=True, oceancolor="LightBlue"))
fig.update_geos(lataxis_showgrid=True, lonaxis_showgrid=True)
fig.show()

In [None]:
fig = px.scatter_geo(df2007, locations="iso_alpha", color="continent",
                     hover_name="country", size="pop", projection="natural earth",
                     title="População por país em 2007")
fig.update_layout(geo=dict(showcountries=True, showocean=True, oceancolor="LightBlue"))
fig.show()

**Exercício 3)**

Veja como foi mudando o PIB per capita ao longo dos anos através de uma animação. Para isso, coloque o comando para exibir um *bubble map* conforme os exemplos acima, mas **use o DataFrame que contém dados de todos os anos (df)**. Depois, inclua o seguinte parâmetro antes de executar a célula:
```
animation_frame="year"
```
Clique no botão de *play* e veja o que acontece.
Experimente fazer um zoom para observar uma região de interesse.
Verifique também a variação da população ao longo dos anos alterando o parâmetro *size*.

In [9]:
fig = px.choropleth(df, locations="iso_alpha",
                           color="gdpPercap",
                           hover_name="country", animation_frame="year",
                           title="PIB per Capita"
                          )
fig.update_geos(projection_type="natural earth")
fig.show()

▶ **Mapa *Choropleth***

Um mapa *Choropleth* é usado para representar valores quantitativos em áreas geográficas. Neste caso, as áreas geográficas (por exemplo, estado ou país) são coloridas ou sombreadas de acordo com um determinado valor numérico ou categoria associada a cada área.

O exemplo abaixo disponibiliza uma animação da variação do PIB per capita dos países ao longo dos anos. Neste caso, cada país é colorido de acordo com o valor do PIB.

Informações este tipo de gráfico estão disponíveis em:
*   https://plotly.com/python/choropleth-maps/
*   https://plotly.com/python-api-reference/generated/plotly.express.choropleth.html

In [None]:
fig = px.choropleth(df, locations="iso_alpha",
                           color="gdpPercap",
                           hover_name="country", animation_frame="year",
                           title="PIB per Capita"
                          )
fig.update_geos(projection_type="natural earth")
fig.show()

**Exercício 4)**

Clique no botão de play e observe como foi a alteração do PIB per capita ao longo dos anos e compare com o resultado do exercício 3.

Experimente trocar a escala de cores. Para isso, acrescente o seguinte parâmetro na função *px.choropleth*:

```
color_continuous_scale="viridis"
```

Substitua "viridis" por "hot" ou "picnic" ou explore outras possibilidades de cores em https://plotly.com/python/builtin-colorscales/.

Aumente o tamanho do mapa acrescentando os comandos abaixo para permitir uma melhor visualização.

```
width=1200, height=800
```




                           

In [10]:
data_url = "https://tinyurl.com/2xtmthm5"
df_acidentes = pd.read_csv(data_url)

# Criar um gráfico de densidade com Plotly
fig = px.density_mapbox(df_acidentes, lat='latitude', lon='longitude', z='num_vitimas', radius=10,
                         center=dict(lat=-30.0346, lon=-51.2177), zoom=10,
                         mapbox_style="stamen-terrain", title='Densidade de Acidentes de Trânsito em Porto Alegre')

# Ajustar a escala de cores para "viridis"
fig.update_traces(colorbar=dict(title='Número de Vítimas'), colorscale="viridis")

# Aumentar o tamanho do mapa
fig.update_layout(width=1200, height=800)

# Exibir o gráfico
fig.show()

ParserError: Error tokenizing data. C error: Expected 1 fields in line 3, saw 1268


▶ ***Density Heatmap***

O *density heatmap* do Plotly é uma representação visual que utiliza cores para indicar a densidade de ocorrências em uma área de um mapa, destacando, assim, regiões com maior concentração de ocorrências.

Para exemplificar o uso deste mapa, vamos usar um conjunto de dados de acidentes de trânsito da cidade de Porto Alegre/RS que pode ser baixado de https://tinyurl.com/2xtmthm5 e foi obtido de https://dadosabertos.poa.br/dataset/acidentes-de-transito-acidentes.

Este arquivo contém dados como tipo de acidente, data, hora, veículos envolvidos, latitude, longitude, endereço, etc.

Informações este tipo de gráfico estão disponíveis em:
*   https://plotly.com/python/mapbox-density-heatmaps/
*   https://plotly.com/python-api-reference/generated/plotly.express.density_mapbox.html


**Exercício 5)**

Baixe o arquivo do link acima e execute a célula de código abaixo para fazer o upload do arquivo. Como o arquivo é grande,  pode demorar um pouco para ser carregado.

In [None]:
from google.colab import files

# Carregar o arquivo
uploaded = files.upload()

# Ler o arquivo
porto_alegre = pd.read_csv('cat_acidentes2.csv', sep=";")

Através dos comandos abaixo é exibido um mapa com a densidade de todos os dados de acidentes de trânsito da cidade de Porto Alegre.

In [None]:
fig = px.density_mapbox(porto_alegre, lat=porto_alegre.latitude, lon=porto_alegre.longitude, radius=10,
                        center=dict(lat=-30.033056, lon=-51.230000), zoom=9,
                        mapbox_style="open-street-map")
fig.show()

**Exercício 6)**

Explore o mapa gerado, faça *zoom in* e verifique quais são as ruas em que mais ocorrem acidentes de transito na cidade de Porto Alegre.

Depois, faça *zoom out* até que seja possível ver outros continentes.
Observe que existem pontos exibidos fora dos limites da cidade. Isto ocorre porque alguns registros estão com os valores de latitude e longitude incorretos ou faltando.

Os limites aproximados da cidade de Porto Alegre são:

*   Latitude mínima: -30.1864
*   Latitude máxima: -29.9442
*   Longitude mínima: -51.3096
*   Longitude máxima: -50.9867

Portanto, acrescente na primeira linha da célula de código acima os comandos abaixo, que vão eliminar os registros cujas latitude e longitude estejam fora destes limites.

```
dados_filtrados = porto_alegre.loc[porto_alegre['latitude'] >= -29].index
porto_alegre = porto_alegre.drop(dados_filtrados)

dados_filtrados = porto_alegre.loc[porto_alegre['latitude'] <= -30.2].index
porto_alegre = porto_alegre.drop(dados_filtrados)
```

Depois altere o primeiro parâmetro do *px.density_mapbox* de *porto_alegre* para *dados_filtrados* e execute a célula novamente. Faça *zoom out* e verifique se ainda existem pontos fora dos limites da cidade.


**Exercício 7)**

Na célula de código acima, tente trocar o valor de opacidade (valores válidos entre 0 e 1) e incluir um *hover_name* para o tipo de acidente. Experimente também trocar a escala de cores utilizada.

▶ ***scatter_mapbox***

É possível criar um gráfico semelhante ao *scatter_geo* usando o *scatter_mapbox*, como mostra o exemplo abaixo. Ele permite a criação de mapas interativos usando a plataforma *Mapbox*.

Neste exemplo, cada ponto representa um acidente que teve o envolvimento de pelo menos uma moto.

Informações deste tipo de gráfico estão disponíveis em:
*   https://plotly.com/python/scattermapbox/
*   https://plotly.com/python-api-reference/generated/plotly.express.scatter_mapbox.html

In [None]:
fig = px.scatter_mapbox(porto_alegre, lat=porto_alegre.latitude, lon=porto_alegre.longitude,
                        center=dict(lat=-30.033056, lon=-51.230000), size="moto",
                        size_max=15, zoom=9, mapbox_style="open-street-map")
fig.show()

**Exercício 8)**

Na célula de código acima, tente trocar o valor de *size* para verificar *a* quantidade de acidentes envolvendo "*taxi*", "*caminhao*" ou "*onibus_met*", por exemplo. Coloque um título para o mapa.