# Introdução ao Geopandas

Geopandas torna possível o trabalho de dados geoespacial com python relativamente fácil. Geopandas combina as capacidades de análise de dados de pandas com outros pacotes, como shapely e fiona para manipulação dos dados.

As estruturas principais no geopandas são; GeoSeries e GeoDataFrame que extendem as capacidades das Series e DataFrame do padas. Isso significa que podemos aplicar nossas habilidades de pandas em estrturas geopandas.

A principal diferença entre geodataframes e dataframes do pandas é que o geodataframe possui uma coluna para geometria (por padrão, o nome dessa coluna é 'geometry'). A coluna geometria é um geoseries que contem as geometrias (pontos, linhas, polígonos, multipolígonos etc.) para cada linha dos dados.


In [23]:
# Importando geopandas
import geopandas as gpd

## Lendo um Shapefile

Tipicamente, ler dados no Python é o primeiro passo para a análise do pipeline. Aqui estão vários formatos GIS diferentes disponíveis. Shapefile, GeoJSON, e GPKG são os mais comuns formatos de dados usados. Geopandas é capaz de ler dados em todos esses formatos (e mais).

Com geopandas, nós usamos a função genérica .from_file() para ler diferentes formatos. Por trás dos panos, Geopandas usa a função fiona.open() para ler os dados.

* Quando queremos ler um Shapefile, basta passar o caminho do arquivo que queremos ler:

In [24]:
# Lendo os dados do shapefile
dados = gpd.read_file("dados/NLS/L4132R.shp/m_L4132R_p.shp")

In [25]:
type(dados)

geopandas.geodataframe.GeoDataFrame

Como podeos ver, o arquivo dados é uma variável GeoDataFrame. Um GeoDataFrame extende funcionalidades de pandas.DataFrame, isso permite uma usabilidade aproximada a estrutura do pandas.

* Visualizando os dados e mostrando as primeiras linhas.

In [26]:
dados.head()

Unnamed: 0,TEKSTI,RYHMA,LUOKKA,TASTAR,KORTAR,KORARV,KULKUTAPA,KOHDEOSO,AINLAHDE,SYNTYHETKI,...,KARTOGLK,ALUEJAKOON,VERSUH,SUUNTA,SIIRT_DX,SIIRT_DY,KORKEUS,ATTR2,ATTR3,geometry
0,,64,32421,5000,0,0.0,0,1812247077,1,20180125,...,0,0,0,0,0,0,0.0,0,0,"POLYGON ((379394.248 6689991.936, 379389.790 6..."
1,,64,32421,5000,0,0.0,0,1718796908,1,20180120,...,0,0,0,0,0,0,0.0,0,0,"POLYGON ((378980.811 6689359.377, 378983.401 6..."
2,,64,32421,20000,0,0.0,0,411167695,1,20180120,...,0,0,0,0,0,0,0.0,0,0,"POLYGON ((378804.766 6689256.471, 378817.107 6..."
3,,64,32421,20000,0,0.0,0,411173768,1,20180120,...,0,0,0,0,0,0,0.0,0,0,"POLYGON ((379229.695 6685025.111, 379233.366 6..."
4,,64,32421,20000,0,0.0,0,411173698,1,20180120,...,0,0,0,0,0,0,0.0,0,0,"POLYGON ((379825.199 6685096.247, 379829.651 6..."


Checando o nome das colunas:

In [27]:
dados.columns

Index(['TEKSTI', 'RYHMA', 'LUOKKA', 'TASTAR', 'KORTAR', 'KORARV', 'KULKUTAPA',
       'KOHDEOSO', 'AINLAHDE', 'SYNTYHETKI', 'KUOLHETKI', 'KARTOGLK',
       'ALUEJAKOON', 'VERSUH', 'SUUNTA', 'SIIRT_DX', 'SIIRT_DY', 'KORKEUS',
       'ATTR2', 'ATTR3', 'geometry'],
      dtype='object')

* Selecionando somente as colunas e renomeando em inglês

In [29]:
dados = dados[['RYHMA', 'LUOKKA', 'geometry']]

* Renomeando as colunas para idioma inglês em um dicionário.

In [31]:
nome_colunas = {'RYHMA': 'GROUP', 'LUOKKA': 'CLASS'}

* Renomeando as colunas:

In [32]:
 dados.rename(columns = nome_colunas, inplace = True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,


In [33]:
dados.head()

Unnamed: 0,GROUP,CLASS,geometry
0,64,32421,"POLYGON ((379394.248 6689991.936, 379389.790 6..."
1,64,32421,"POLYGON ((378980.811 6689359.377, 378983.401 6..."
2,64,32421,"POLYGON ((378804.766 6689256.471, 378817.107 6..."
3,64,32421,"POLYGON ((379229.695 6685025.111, 379233.366 6..."
4,64,32421,"POLYGON ((379825.199 6685096.247, 379829.651 6..."


### Tarefa

* Verificar o número de linhas
* Verificar o número de classes
* Verificar o número de grupos

In [35]:
print("Número de linhas:", len(dados))
print("Número de classes:", dados["CLASS"].nunique()) # nunique() -> número de classes únicas
print("Número de grupos:", dados["GROUP"].nunique()) # número de grupos únicos.

Número de linhas: 4311
Número de classes: 20
Número de grupos: 1


É sempre bom checar nossos dados em um mapa. Criar um mapa simples com um GeoDataFrame é bem simples. Podemos usar a função .plot() do geopandas que cria um mapa baseado nos dados geométricos. Geopandas usa a biblioteca matplotlib para plotar seus mapas.

* Vamos plotar o GeoDataFrame:

In [36]:
%matplotlib inline

ModuleNotFoundError: No module named 'matplotlib'