# Oficina de espacialização de dados

* Conjunto de dados com diversas dimensões
* Entre elas, pelo menos uma dimenção que possibilite a sua localização Geo-espacial


## Espacializando o IPTU 2020

* SQL&C (Setor, Quadra, Lote e Condomínio)
* Geometria dos lotes (SF)
* Potencialidades e possibilidades
* https://github.com/geoinfo-smdu/georeferenciamento-do-iptu

### Carregando o conjunto de dados de IPTU

In [1]:
# Importando a bliblioteca pandas

import pandas as pd

In [2]:
# Carrengando um complemento para visualizar quanto tempo demoram as tarefas

%load_ext autotime

In [3]:
# Carregando o conjunto de dados para uma variável em memória

df_iptu = pd.read_csv('IPTU/IPTU_2020.zip', compression='zip', encoding='iso-8859-9', sep=';', decimal=',')

ParserError: Error tokenizing data. C error: Calling read(nbytes) on source failed. Try engine='python'.

In [None]:
# Precisamos determinar o Setor, a Quadra, o Lote e eventualmente o condomínio para
# determinar qual geometria pertence a cada registro de IPTU

df_iptu[['NUMERO DO CONTRIBUINTE', 'NUMERO DO CONDOMINIO']]

In [None]:
# Os 3 primeiros dígitos do 'NUMERO DO CONTRIBUINTE' representam o Setor
# os 3 próximos, a Quadra
# e os 4 seguintes, o Lote

df_iptu['setor'] = df_iptu['NUMERO DO CONTRIBUINTE'].str[0:3]
df_iptu['quadra'] = df_iptu['NUMERO DO CONTRIBUINTE'].str[3:6]
df_iptu['lote'] = df_iptu['NUMERO DO CONTRIBUINTE'].str[6:10]

In [None]:
df_iptu[['NUMERO DO CONTRIBUINTE', 'setor', 'quadra', 'lote']]

In [None]:
# e o NUMERO DO CONDOMINIO

df_iptu['condominio'] = df_iptu['NUMERO DO CONDOMINIO'].str[0:2]

In [None]:
df_iptu['condominio']

In [None]:
# Agora podemos gerar uma 'chave estrangeira' para linkar o arquivo de lootes
# Mas antes vamos ver o arquivos de lotes

## Carregando informações de lotes

In [None]:
# Importando a biblioteca GeoPandas
# Bem documentada https://geopandas.org/

import geopandas as gpd

### Arquivos de lote

* Lembrando que temos 96 arquivos de lotes, um para cada distrito
* https://github.com/geoinfo-smdu/downloads-multiplos

In [None]:
# Carregando arquivo de lotes da Vila Mariana

gdf_vila_mariana = gpd.GeoDataFrame.from_file(f'zip://GIS/SIRGAS_SHP_LOTES_90_VILA_MARIANA.zip!SIRGAS_SHP_LOTES_90_VILA_MARIANA')

In [None]:
gdf_vila_mariana

In [None]:
gdf_vila_mariana.plot()

In [None]:
# Ainda é possível gerar um ponto dentro de cada lote para reduzir o tamanho
# Na verdade um ponto representativo que é um centroide 'melhorado'

gdf_vila_mariana.representative_point()

In [None]:
ax = gdf_vila_mariana.representative_point().plot()
ax.set_xlim([332500, 333000])
ax.set_ylim([7390500, 7391000])

In [None]:
gdf_vila_mariana

## Agora precisamos "juntar" os conjuntos de dados

* alguns nomes são utilizados: join, union, merge, concat, relacionar ...
* precisamos de uma chave que seja coincidente nos dois conjuntos de dados

In [None]:
# SQL&C é o ideal, no entanto, no caso de condomínios que o lote se sempre '0000'

df_iptu.loc[df_iptu['condominio'] != '00', 'lote'] = '0000'

In [None]:
# Pois a mesma lógica existe para os lotes

gdf_vila_mariana.loc[gdf_vila_mariana.lo_condomi != '00']

In [None]:
# Então agora é necessário criar uma chave para os lotes

gdf_vila_mariana['sqlc'] = \
gdf_vila_mariana['lo_setor'] + \
gdf_vila_mariana['lo_quadra'] + \
gdf_vila_mariana['lo_lote'] + \
gdf_vila_mariana['lo_condomi']

In [None]:
# E para o IPTU também

df_iptu['sqlc'] = \
df_iptu['setor'] + \
df_iptu['quadra'] + \
df_iptu['lote'] + \
df_iptu['condominio']

### Mas faz sentido que vários pontos coincidam na mesma posição?

> Que tal agrupar por lote?

In [None]:
df_iptu.columns

In [None]:
df_iptu[['FRACAO IDEAL', 'AREA CONSTRUIDA', 'AREA DO TERRENO', ]]

In [None]:
df_iptu_agg = df_iptu.groupby(['sqlc']).agg({
    'NUMERO DO CONTRIBUINTE': 'count',
    'AREA CONSTRUIDA': 'sum',
    'AREA DO TERRENO': 'max',
    'AREA OCUPADA': 'max',
    'QUANTIDADE DE ESQUINAS/FRENTES': 'max',
    'VALOR DO M2 DO TERRENO': 'max',
    'VALOR DO M2 DE CONSTRUCAO': 'max',
    'ANO DA CONSTRUCAO CORRIGIDO': 'max',
    'TIPO DE USO DO IMOVEL': 'max', #'unique',
    'TIPO DE PADRAO DA CONSTRUCAO': 'max',
    'TIPO DE TERRENO': 'max',
    'TESTADA PARA CALCULO': 'max',
    'QUANTIDADE DE PAVIMENTOS': 'max',
    'FATOR DE OBSOLESCENCIA': 'max'
}).rename(columns = {
    'NUMERO DO CONTRIBUINTE': 'total_unidades',
    'AREA CONSTRUIDA': 'area_construida_total',
    'AREA DO TERRENO': 'area_do_terreno',
    'AREA OCUPADA': 'area_ocupada',
    'QUANTIDADE DE ESQUINAS/FRENTES': 'quantidade_de_frentes',
    'VALOR DO M2 DO TERRENO': 'valor_metro_quadrado_terreno',
    'VALOR DO M2 DE CONSTRUCAO': 'valor_metro_quadrado_construcao',
    'ANO DA CONSTRUCAO CORRIGIDO': 'ano_construcao',
    'TIPO DE USO DO IMOVEL': 'uso_imovel', #'unique',
    'TIPO DE PADRAO DA CONSTRUCAO': 'padrao_imovel',
    'TIPO DE TERRENO': 'tipo_terreno',
    'TESTADA PARA CALCULO': 'testada',
    'QUANTIDADE DE PAVIMENTOS': 'quantidade_de_pavimentos',
    'FATOR DE OBSOLESCENCIA': 'fator_de_obsolecencia'
})



In [None]:
df_iptu_agg

In [None]:
gdf_iptu_vila_mariana = gdf_vila_mariana[['sqlc', 'geometry']].merge(df_iptu_agg, on='sqlc', how='left')

In [None]:
gdf_iptu_vila_mariana

In [None]:
# Agora podemos salvar o arquivo

gdf_iptu_vila_mariana.to_file('resultados/iptu_vila_mariana.shp')

### ... e fazer análises

> Mas que que estamos com a mão na massa por que não processar para todos os distritos e aproveitar a oportunidade para aprender mais alguns conceitos de programação

In [None]:
# Lendo todos os arquivos de Lotes

In [None]:
from pathlib import Path

In [None]:
# Listando todos os arquivos da pasta 'GIS'

for path in Path('GIS').rglob('*.zip'):
    print(path)

### Agora ficou simples, basta criar um 'laço' de repetição:

> Pode ser que já tenha escutado falar em Loop

Para cada um dos arquivos de lote:

1. Abro o arquivo
2. Crio a chave do SLQC
3. 'Junto' (relaciono) com o conjunto de dados do IPTU
4. Salvo um arquivo


In [None]:
import shutil
import os

for path in Path('GIS').rglob('*.zip'):

    # 1. Abro o arquivo
    gdf_temp = gpd.GeoDataFrame.from_file(f'zip://{path}!{path.name[:-4]}')
    
    # 2. Crio a chave do SLQC
    gdf_temp['sqlc'] = \
    gdf_temp['lo_setor'] + \
    gdf_temp['lo_quadra'] + \
    gdf_temp['lo_lote'] + \
    gdf_temp['lo_condomi']
    
    # Atribuindo o SRS para SIRGAS 2000
    gdf_temp.crs = 'EPSG:31983'

    # 3. 'Junto' (relaciono) com o conjunto de dados do IPTU
    gdf_iptu_temp = gdf_temp[['sqlc', 'geometry']].merge(df_iptu_agg, \
                                                                 on='sqlc', \
                                                                 how='left')
    
    # 4. Salvo um arquivo
    gdf_iptu_temp.to_file(f'resultados/{path.name[:-4]}-IPTU.gpkg', driver='GPKG')


## A espacialização dos atendimentos do SP156

## Pensando indicadores do ObservaSampa pela lógica espacial