# Preparando os dados do IPTU de 2022

Para o primeiro experimento vamos preparar os dados do IPTU de 2022, e posteriormente validar com as informações apresentadas no DashBoard

In [1]:
import vaex
import geopandas as gpd
from shapely.validation import make_valid
from difflib import SequenceMatcher
import numpy as np
import pandas as pd
# import pygeos

In [2]:
gdf_distritos = gpd.read_file('data/SIRGAS_GPKG_distrito.gpkg')

gdf_quadras = gpd.read_file('zip://data/SIRGAS_SHP_quadraMDSF.zip!SIRGAS_SHP_quadraMDSF/SIRGAS_SHP_quadraMDSF.shp')
gdf_quadras = gdf_quadras.set_crs(epsg=31983)
gdf_quadras = gdf_quadras[gdf_quadras.qd_tipo == 'F']
gdf_quadras = gdf_quadras.dissolve(['qd_setor', 'qd_fiscal']).reset_index()
gdf_quadras_centroid = gdf_quadras.copy()
gdf_quadras_centroid.geometry = gdf_quadras_centroid.representative_point()

In [3]:
gdf_quadras.shape, gdf_quadras_centroid.shape

((45655, 10), (45655, 10))

In [4]:
gdf_quadras_distritos = gdf_quadras_centroid.sjoin(gdf_distritos, how='left', predicate='intersects')
gdf_quadras_distritos.drop('index_right', axis=1, inplace=True)

In [5]:
gdf_quadras.shape, gdf_quadras_distritos.shape

((45655, 10), (45655, 15))

In [6]:
gdf_quadras_distritos['sq'] = gdf_quadras_distritos.qd_setor + gdf_quadras_distritos.qd_fiscal

In [7]:
gpd.GeoDataFrame(gdf_quadras_distritos[['sq', 'ds_codigo', 'ds_nome']], geometry=gdf_quadras.geometry,
                crs='EPSG:31983').to_file('data/quadras.gpkg')

In [8]:
gdf_od = gpd.read_file('zip://data/SIRGAS_SHP_origemdestino_2017.zip!SIRGAS_SHP_origemdestino_2017')
gdf_od_sp = gdf_od[gdf_od.od_municip == '36']
gdf_od_sp.set_crs(epsg=31983, inplace=True)
gdf_quadras_distritos_od = gdf_quadras_distritos.sjoin(gdf_od_sp, how='left', predicate='intersects')

df_quadras_distritos_od = gdf_quadras_distritos_od.loc[:, ['qd_setor', 'qd_fiscal', 'ds_codigo', 'ds_nome', 'ds_cd_sub', 'ds_subpref', 'od_id', 'od_nome']]
df_quadras_distritos_od.loc[:, ['sq']] = df_quadras_distritos_od.qd_setor + df_quadras_distritos_od.qd_fiscal
# df_quadras_distritos_od.drop_duplicates(keep='first', inplace=True, ignore_index=True)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  super().__setitem__(key, value)


In [9]:
gdf_distritos.sort_values('ds_nome')

Unnamed: 0,ds_codigo,ds_subpref,ds_cd_sub,ds_sigla,ds_nome,geometry
38,1,MOOCA,25,ARA,AGUA RASA,"POLYGON ((341093.380 7391912.491, 341093.329 7..."
55,2,PINHEIROS,11,API,ALTO DE PINHEIROS,"POLYGON ((326739.457 7395585.840, 326741.473 7..."
70,3,PERUS,01,ANH,ANHANGUERA,"POLYGON ((318695.858 7403032.323, 318677.730 7..."
43,4,ARICANDUVA-FORMOSA-CARRAO,26,ARI,ARICANDUVA,"POLYGON ((344068.781 7390960.855, 344068.149 7..."
11,5,PENHA,21,AAL,ARTUR ALVIM,"POLYGON ((349416.226 7397718.808, 349416.884 7..."
...,...,...,...,...,...,...
77,90,VILA MARIANA,12,VMN,VILA MARIANA,"POLYGON ((332359.740 7389124.109, 332309.630 7..."
14,91,PENHA,21,VMT,VILA MATILDE,"POLYGON ((341949.933 7396395.900, 341934.334 7..."
10,92,VILA MARIA-VILA GUILHERME,07,VMD,VILA MEDEIROS,"POLYGON ((340579.417 7401672.553, 340579.493 7..."
47,93,VILA PRUDENTE,29,VPR,VILA PRUDENTE,"POLYGON ((341731.295 7388459.495, 341723.755 7..."


In [10]:
gdf_quadras.shape, df_quadras_distritos_od.shape

((45655, 10), (45655, 9))

In [11]:
gdf_ponderacao_censo = gpd.read_file('data/areas-ponderacao-censo.gpkg', layer='areas-ponderacao-censo-2010')
df_quadras_censo =  gdf_quadras_centroid.sjoin(gdf_ponderacao_censo, how='left', predicate='intersects')

In [12]:
df_quadras_distritos_od.shape, df_quadras_censo[['COD_AED', 'COD_AED_S']].shape

((45655, 9), (45655, 2))

In [13]:
df_quadras_distritos_od = pd.concat(
    [df_quadras_distritos_od,
    df_quadras_censo[['COD_AED', 'COD_AED_S']]],
    axis=1
)

In [14]:
df_quadras_distritos_od.columns

Index(['qd_setor', 'qd_fiscal', 'ds_codigo', 'ds_nome', 'ds_cd_sub',
       'ds_subpref', 'od_id', 'od_nome', 'sq', 'COD_AED', 'COD_AED_S'],
      dtype='object')

In [15]:
gdf_od_sp = gdf_od_sp.to_file('data/OD-sp.gpkg', driver='GPKG')

In [16]:
df_quadras_distritos_od

Unnamed: 0,qd_setor,qd_fiscal,ds_codigo,ds_nome,ds_cd_sub,ds_subpref,od_id,od_nome,sq,COD_AED,COD_AED_S
0,001,003,9,BOM RETIRO,09,SE,7,Luz,001003,3550308005004,4
1,001,004,9,BOM RETIRO,09,SE,7,Luz,001004,3550308005004,4
2,001,005,9,BOM RETIRO,09,SE,7,Luz,001005,3550308005004,4
3,001,006,9,BOM RETIRO,09,SE,7,Luz,001006,3550308005004,4
4,001,007,9,BOM RETIRO,09,SE,7,Luz,001007,3550308005004,4
...,...,...,...,...,...,...,...,...,...,...,...
45650,310,116,38,JABAQUARA,15,JABAQUARA,274,Jabaquara,310116,3550308005095,95
45651,310,117,38,JABAQUARA,15,JABAQUARA,275,Cidade Vargas,310117,3550308005093,93
45652,310,118,38,JABAQUARA,15,JABAQUARA,275,Cidade Vargas,310118,3550308005093,93
45653,310,119,38,JABAQUARA,15,JABAQUARA,275,Cidade Vargas,310119,3550308005093,93


In [17]:
## TODO
# Verificar essa inconsistencia
gdf_quadras_distritos[gdf_quadras_distritos.ds_codigo.isna()]

Unnamed: 0,qd_setor,qd_fiscal,geometry,qd_id_orig,qd_tipo,qd_subqua,qd_area,qd_situac,qd_id,qd_tx_tipo,ds_codigo,ds_subpref,ds_cd_sub,ds_sigla,ds_nome,sq
27467,133,127,POINT (357031.736 7402052.859),10122413,F,1,65776.7480405944,1,179963,FISCAL,,,,,,133127
33243,156,135,POINT (343167.543 7387776.019),8985852,F,1,2484.92461758186,1,148338,FISCAL,,,,,,156135
37127,173,160,POINT (333525.605 7378933.173),9704470,F,1,1348.82739798853,1,182464,FISCAL,,,,,,173160
37132,173,165,POINT (333590.700 7378465.176),9704234,F,1,2641.57734002054,1,186397,FISCAL,,,,,,173165


In [None]:
dfs = []

for i in range(1995,2023):

    print(f'Processando {i}')
    
    # df = vaex.open(f'data/IPTU_{i}/IPTU_{i}.hdf5')
    df = vaex.open(f'data//IPTU-HDF5/IPTU_{i}/IPTU_{i}.hdf5')

    df.setor = df['NUMERO DO CONTRIBUINTE'].str.slice(0,3)
    df.quadra = df['NUMERO DO CONTRIBUINTE'].str.slice(3,6)
    df.fillna(value='00-0', column_names=['NUMERO DO CONDOMINIO'], inplace=True)
    df.fillna(value=1., column_names=['FRACAO IDEAL'], inplace=True)
    df.fillna(value=0., column_names=['AREA CONSTRUIDA', 'AREA OCUPADA', 'AREA DO TERRENO'], inplace=True)
    df.sqlc = df.func.where(df['NUMERO DO CONDOMINIO'] == '00-0',
                                    df['NUMERO DO CONTRIBUINTE'].str.slice(0, 10) + '00',
                                    df['NUMERO DO CONTRIBUINTE'].str.slice(0, 6) + '0000' + df['NUMERO DO CONDOMINIO'].str.slice(0, 2))
    df['sq'] = df.setor + df.quadra
    df['sqlc'] = df.sqlc
    df_sqlc_ac = df.groupby('sqlc', agg={'area_contruida_total': vaex.agg.sum('AREA CONSTRUIDA')})
    df = df.join(df_sqlc_ac, on='sqlc')
    df['fracao_ideal'] = df.func.where(df['FRACAO IDEAL'] == 0.,  
                                                df['AREA CONSTRUIDA'] / df['area_contruida_total'],
                                                df['FRACAO IDEAL'])
    df['ca'] = (df['AREA CONSTRUIDA'] / df['fracao_ideal']) / df['AREA DO TERRENO']
    df['to'] = df['AREA OCUPADA'] / df['AREA DO TERRENO']

    df['valor_terreno'] = df['fracao_ideal'] * df['VALOR DO M2 DO TERRENO'] * df['AREA DO TERRENO']
    df['valor_construcao'] = df['VALOR DO M2 DE CONSTRUCAO'] * df['AREA CONSTRUIDA']

    dfs.append(df)
    # break


Processando 1995
Processando 1996
Processando 1997
Processando 1998
Processando 1999
Processando 2000
Processando 2001
Processando 2002
Processando 2003
Processando 2004
Processando 2005
Processando 2006
Processando 2007
Processando 2008
Processando 2009
Processando 2010
Processando 2011
Processando 2012
Processando 2013
Processando 2014
Processando 2015
Processando 2016
Processando 2017
Processando 2018
Processando 2019
Processando 2020
Processando 2021
Processando 2022


In [None]:
df_iptu = vaex.concat(dfs)

In [None]:
df_iptu.shape

In [None]:
columns_to_drop = [
    'NUMERO DO CONTRIBUINTE',
    'NUMERO DA NL',
    'DATA DO CADASTRAMENTO',
    'NOME DE LOGRADOURO DO IMOVEL', 
    'NUMERO DO IMOVEL', 
    'COMPLEMENTO DO IMOVEL',
    'BAIRRO DO IMOVEL', 
    'REFERENCIA DO IMOVEL',
    'CEP DO IMOVEL',
    'QUANTIDADE DE ESQUINAS FRENTES',
    'VALOR DO M2 DO TERRENO',
    'VALOR DO M2 DE CONSTRUCAO' , 
    'TIPO DE TERRENO', 
    'ANO DE INICIO DA VIDA DO CONTRIBUINTE',
    'MES DE INICIO DA VIDA DO CONTRIBUINTE', 
    'FASE DO CONTRIBUINTE', 
    'FRACAO IDEAL'
]

In [None]:
df_iptu.drop(columns=columns_to_drop, inplace=True)

In [None]:
df_iptu.shape

In [None]:
## Parece que para alguns lotes condominiais o terreno está proporcional à fracao ideal
df_iptu[df_iptu.ca > 60]['ca', 'AREA CONSTRUIDA', 'fracao_ideal', 'AREA DO TERRENO', 'area_contruida_total', 'ANO DO EXERCICIO']

In [None]:
df_iptu[df_iptu['NUMERO DO CONDOMINIO'] == '00-0'].shape

In [None]:
df_iptu.shape

In [None]:
df_quadras_distritos_od['sqod'] = df_quadras_distritos_od.sq + df_quadras_distritos_od.od_id.str.pad(width=3, side='left', fillchar='0')

In [None]:
df_quadras_distritos_od.shape

In [None]:
df_quadras_distritos_od

In [None]:
df_quadras_distritos_od = df_quadras_distritos_od.drop_duplicates(subset=['sq'])

In [None]:
df_quadras_distritos_od.shape, df_iptu.shape

In [None]:
df_iptu = df_iptu.join(vaex.from_pandas(df_quadras_distritos_od), on='sq', how='left',  
            allow_duplication=False, inplace=False)

In [None]:
df_quadras_distritos_od.shape, df_iptu.shape

## Adicionando informações de Uso

In [None]:
df_usos_2022 = df_iptu[df_iptu['ANO DO EXERCICIO'] == 2022].groupby('TIPO DE USO DO IMOVEL').agg('count').to_pandas_df()
df_usos_2022

In [None]:
df_usos = df_iptu.groupby('TIPO DE USO DO IMOVEL').agg('count').to_pandas_df()

In [None]:
df_usos.fillna('', inplace=True)

In [None]:
results, ratios = [], []

for i, row in df_usos.iterrows():

    similaridade = df_usos_2022['TIPO DE USO DO IMOVEL'].apply(lambda x: SequenceMatcher(None, row['TIPO DE USO DO IMOVEL'], x).ratio())
    
    results.append(df_usos_2022.iloc[similaridade.idxmax()]['TIPO DE USO DO IMOVEL'])

    ratios.append(similaridade.max())

df_usos['titulo_padronizado'] = results # Os títulos costumam variar, portanto esse campo será referência para os agrupamentos
df_usos['relacao_de_assertividade_com_titulo_padronizado'] = ratios

In [None]:
df_usos

In [None]:
residencial = ['residencial', 'residência', 'apartamento', 'cortiço']
comercial = ['comércio', 'comercial', 'posto', 'loja']
servicos =  ['hotel', 'radioemissora', 'flat', 'serviço', 'clube', 'oficina', 'hospital', 'templo', 'escritórios', 'consultórios', 'escritório', 'consultório', 'asilo', 'creche', 'prédio de garagens', 'escola']
industrial = ['Indústria', 'armazéns']

In [None]:
class_residencial = df_usos.loc[:, 'titulo_padronizado'].str.contains(r'\b(?:{})\b'.format('|'.join(residencial)), case=False)
class_comercial = df_usos.loc[:, 'titulo_padronizado'].str.contains(r'\b(?:{})\b'.format('|'.join(comercial)), case=False)
class_servicos = df_usos.loc[:, 'titulo_padronizado'].str.contains(r'\b(?:{})\b'.format('|'.join(servicos)), case=False)
class_industrial = df_usos.loc[:, 'titulo_padronizado'].str.contains(r'\b(?:{})\b'.format('|'.join(industrial)), case=False)

df_usos.loc[class_residencial, ['classificacao_abrangente']] = 'Residencial'
df_usos.loc[class_comercial, ['classificacao_abrangente']] = 'Comercial'
df_usos.loc[class_servicos, ['classificacao_abrangente']] = 'Serviços'
df_usos.loc[class_industrial, ['classificacao_abrangente']] = 'Industrial'

df_usos.loc[df_usos.classificacao_abrangente.isna(), ['classificacao_abrangente']] = 'Outros'

In [None]:
df_iptu['TIPO DE USO DO IMOVEL'].isna().value_counts()

In [None]:
# df_iptu['TIPO DE USO DO IMOVEL']
df_usos = vaex.from_pandas(df_usos.loc[df_usos['TIPO DE USO DO IMOVEL'] != '', ['TIPO DE USO DO IMOVEL', 'classificacao_abrangente']])
df_iptu = df_iptu.join(df_usos, on='TIPO DE USO DO IMOVEL')

In [None]:
df_iptu[['classificacao_abrangente']]

In [None]:
df_iptu.shape

In [None]:
df_padroes_usos_2022 = df_iptu[df_iptu['ANO DO EXERCICIO'] == 2022].groupby('TIPO DE PADRAO DA CONSTRUCAO').agg('count').to_pandas_df()
df_padroes_usos_2022.loc[df_padroes_usos_2022['TIPO DE PADRAO DA CONSTRUCAO'] == 'TERRENO', 'TIPO DE PADRAO DA CONSTRUCAO'] = 'Terreno'
df_padroes_usos_2022['TIPO DE PADRAO DA CONSTRUCAO'] = df_padroes_usos_2022['TIPO DE PADRAO DA CONSTRUCAO'].str.replace('/', ',')
df_padroes_usos_2022

In [None]:
df_padroes_usos = df_iptu.groupby('TIPO DE PADRAO DA CONSTRUCAO').agg('count').to_pandas_df()
df_padroes_usos.fillna('', inplace=True)
df_padroes_usos['TIPO DE PADRAO DA CONSTRUCAO'] = df_padroes_usos['TIPO DE PADRAO DA CONSTRUCAO'].str.replace('/', ',')
df_padroes_usos

In [None]:
results, ratios = [], []

for i, row in df_padroes_usos.iterrows():

    similaridade = df_padroes_usos_2022['TIPO DE PADRAO DA CONSTRUCAO'].apply(lambda x: SequenceMatcher(None, row['TIPO DE PADRAO DA CONSTRUCAO'], x).ratio())
    
    results.append(df_padroes_usos_2022.iloc[similaridade.idxmax()]['TIPO DE PADRAO DA CONSTRUCAO'])

    ratios.append(similaridade.max())

df_padroes_usos['titulo_padronizado'] = results # Os títulos costumam variar, portanto esse campo será referência para os agrupamentos
df_padroes_usos['relacao_de_assertividade_com_titulo_padronizado'] = ratios

In [None]:
# df_padroes_usos
df_padroes_usos['tipo_de_uso'] = df_padroes_usos['titulo_padronizado'].str.split("-").apply(lambda x: x[0] if x[0][-1] != ' ' else x[0][:-1])
df_padroes_usos['padrao_de_uso'] = df_padroes_usos['titulo_padronizado'].str.split("-").apply(lambda x: x[-1][-1] if x[-1][-3] == 'o' else '')

df_padroes_usos.loc[(df_padroes_usos.padrao_de_uso == 'A') |
                    (df_padroes_usos.padrao_de_uso == 'B'),
                    'classe_de_uso'] = 'Baixo'

df_padroes_usos.loc[df_padroes_usos.padrao_de_uso == 'C',
                    'classe_de_uso'] = 'Médio'

df_padroes_usos.loc[(df_padroes_usos.padrao_de_uso == 'D') |
                    (df_padroes_usos.padrao_de_uso == 'E') |
                    (df_padroes_usos.padrao_de_uso == 'F'),
                    'classe_de_uso'] = 'Alto'

df_padroes_usos.fillna('', inplace=True)


In [None]:
df_padroes_usos

In [None]:
outros_tipos = df_padroes_usos.tipo_de_uso.str.contains('Residencial') | df_padroes_usos.tipo_de_uso.str.contains('Comercial') | df_padroes_usos.tipo_de_uso.str.contains('Terreno')

In [None]:
df_padroes_usos.loc[~outros_tipos, 'tipo_de_uso'] = 'Outros Usos'
df_padroes_usos.loc[~outros_tipos, 'classe_de_uso'] = ''

In [None]:
df_padroes_usos.rename(columns={'titulo_padronizado':'padrao_construcao'}, inplace=True)

In [None]:
df_padroes_usos[['tipo_de_uso', 'padrao_de_uso', 'classe_de_uso']]

In [None]:
df_padroes_usos['tipo_e_classe_de_uso'] = (df_padroes_usos['tipo_de_uso'] + ' ' + df_padroes_usos['classe_de_uso']).str.rstrip()

In [None]:
# df_iptu = df_iptu[~df_iptu['TIPO DE PADRAO DA CONSTRUCAO'].isna()] 

In [None]:
df_iptu.fillna(value='Terreno', column_names=['TIPO DE PADRAO DA CONSTRUCAO'], inplace=True)

In [None]:
df_padroes_usos = vaex.from_pandas(df_padroes_usos.loc[df_padroes_usos['TIPO DE PADRAO DA CONSTRUCAO'] != '', ['TIPO DE PADRAO DA CONSTRUCAO',  'tipo_de_uso', 'padrao_de_uso', 'classe_de_uso', 'tipo_e_classe_de_uso']])
df_iptu = df_iptu.join(df_padroes_usos, on='TIPO DE PADRAO DA CONSTRUCAO')

In [None]:
df_iptu.fillna(value='', column_names=['tipo_de_uso', 'padrao_de_uso', 'classe_de_uso', 'tipo_e_classe_de_uso'], inplace=True)

In [None]:
df_iptu.head(3)

In [None]:
df_iptu[df_iptu['tipo_de_uso'] == 'Comercial vertical']

In [None]:
df_iptu.shape

In [None]:
# df_iptu['tipo_e_classe_de_uso'] = df_iptu['tipo_de_uso'] + ' ' + df_iptu['classe_de_uso']

## Processando as totalizacoes

In [None]:
gdf_distritos['area'] = gdf_distritos.area
gdf_distritos.to_crs(epsg=4674, inplace=True)

In [None]:
df_iptu['sq'] = df_iptu.qd_setor + df_iptu.qd_fiscal

In [None]:
# df_iptu.sq

In [None]:
# df_iptu.fillna(value='0', column_names=['sq'], inplace=True)
# df_iptu['sq'] = df_iptu['sq'].astype('int')
# df_iptu.categorize('sq', inplace=True)

In [None]:
# df_iptu.head(1)
df_iptu.fillna(value='0', column_names=['ds_codigo'], inplace=True)
df_iptu['distrito'] = df_iptu['ds_codigo'].astype('int')
df_iptu.categorize('distrito', inplace=True)
# df_iptu.head(1)

In [None]:
# df_iptu['distrito'] = df_iptu['ds_codigo'].astype('int')
df_iptu['ano'] = df_iptu['ANO DO EXERCICIO'].astype('int')
df_iptu.categorize('ano', inplace=True)

In [None]:
df_iptu.fillna(value='0', column_names=['od_id'], inplace=True)
df_iptu['od'] = df_iptu['od_id'].astype('int')
df_iptu.categorize('od', inplace=True)

In [None]:
df_iptu.shape

In [None]:
df_iptu.fillna(value='0', column_names=['ds_cd_sub'], inplace=True)
df_iptu['subprefeitura'] = df_iptu['ds_cd_sub'].astype('int')
df_iptu.categorize('subprefeitura', inplace=True)

In [None]:
df_iptu.fillna(value='0', column_names=['COD_AED_S'], inplace=True)
df_iptu['censo'] = df_iptu['COD_AED_S'].astype('int')
df_iptu.categorize('censo', inplace=True)

In [None]:
# seila = df_iptu['classe_de_uso'] == 'Residencial vertical Baixo'
# df_iptu[seila]
df_iptu.drop(columns=['TIPO DE PADRAO DA CONSTRUCAO'], inplace=True)

In [None]:
padroes_usos = df_padroes_usos['tipo_e_classe_de_uso'].unique()

In [None]:
# for p in padroes_usos:
#     print(p)

padroes = [
    'Residencial vertical Baixo',
    'Residencial vertical Médio',
    'Residencial vertical Alto',
    'Residencial horizontal Baixo',
    'Residencial horizontal Médio',
    'Residencial horizontal Alto',
    'Comercial vertical Baixo',
    'Comercial vertical Médio',
    'Comercial vertical Alto',
    'Comercial horizontal Baixo',
    'Comercial horizontal Alto',
    'Comercial horizontal Médio',
    'Terreno',
    'Outros Usos',
]

In [None]:
df = df_iptu

In [None]:
agg = {
    'Quantidade de Unidades': 'count', 
    'Quantidade de Unidades Condominiais': vaex.agg.count('sqlc',
                                                    selection=df['NUMERO DO CONDOMINIO'] != '00-0'),
    'Tamanho Médio da Unidade Condominial': vaex.agg.mean('AREA CONSTRUIDA', 
                                                    selection=df['NUMERO DO CONDOMINIO'] != '00-0'),
    'Tamanho médio dos Terrenos': vaex.agg.mean('AREA DO TERRENO'),
    'Área Total dos terrenos-lotes': vaex.agg.sum('AREA DO TERRENO'),
    'Área Total Ocupada': vaex.agg.sum('AREA OCUPADA'),
    'Área Total Construída':vaex.agg.sum('AREA CONSTRUIDA'),
    'Valor Total dos Terrenos': vaex.agg.sum('valor_terreno'),
    'Valor Total das Construções': vaex.agg.sum('valor_construcao'),
    'CA médio': vaex.agg.mean('ca'),
    'TO médio': vaex.agg.mean('to'),
    'CA médio em lotes condominiais': vaex.agg.mean('ca',
                                                    selection=df['NUMERO DO CONDOMINIO'] != '00-0'),
    'TO médio em lotes condominiais': vaex.agg.mean('to',
                                                    selection=df['NUMERO DO CONDOMINIO'] != '00-0'),
    'CA médio em lotes não condominiais': vaex.agg.mean('ca',
                                                    selection=df['NUMERO DO CONDOMINIO'] == '00-0'),
    'TO médio em lotes não condominiais': vaex.agg.mean('to',
                                                    selection=df['NUMERO DO CONDOMINIO'] == '00-0'),
    'Comprimento Médio da Testada': vaex.agg.mean('TESTADA PARA CALCULO'),
    'Número médio de Pavimentos': vaex.agg.mean('QUANTIDADE DE PAVIMENTOS'),
    'Fator de obsolecência médio': vaex.agg.mean('FATOR DE OBSOLESCENCIA'),
}

In [None]:
# df_iptu['tipo_e_classe_de_uso'].isna().value_counts()
df_iptu.fillna(value='Outros Usos', column_names=['tipo_e_classe_de_uso'], inplace=True)

In [None]:
df_iptu.head(3)

In [None]:
agg_padroes_m2 = {}
agg_padroes_qt = {}

for p in padroes:
    agg_padroes_m2[f"{p} (m2)"] = vaex.agg.sum('AREA CONSTRUIDA', selection=df['tipo_e_classe_de_uso'] == p)
    agg_padroes_qt[f"{p} (qt)"] = vaex.agg.count('AREA CONSTRUIDA', selection=df['tipo_e_classe_de_uso'] == p)

In [None]:
agg.update(agg_padroes_m2)
agg.update(agg_padroes_qt)

In [None]:
agg['Terreno (m2)'] = vaex.agg.sum('AREA DO TERRENO', selection=df['tipo_e_classe_de_uso'] == p)
agg['Terreno (qt)'] = vaex.agg.count('AREA DO TERRENO', selection=df['tipo_e_classe_de_uso'] == p)

In [None]:
list(agg.keys())

In [None]:
# df_iptu_grouped_distrito = \
def agrupamento(df, campo):
    return df.groupby([campo, 'ano'],agg=agg)

In [None]:
# campos = ['distrito', 'subprefeitura', 'od', 'censo', 'sq']
campos = ['distrito', 'subprefeitura', 'od', 'censo', 'sq']

In [None]:
dfs = []

for campo in campos:
    print(campo)
    df = agrupamento(df_iptu, campo)
    # for u in ['Residencial', 'Comercial', 'Serviços', 'Industrial', 'Outros']:
    #     df[f'Percentual de Uso {u}'] = df[u] / df['Área Total Construída']
    df.export_hdf5(f'data/IPTU-1995-2022-agrupados-por-{campo}.hdf5')
    dfs.append(df)

In [None]:
# for i, dist in gdf_distritos.iterrows():
#     print(dist.ds_codigo, dist.ds_nome.lower().replace(' ', '-'))
#     df_iptu_distrito = df_iptu[df_iptu.distrito == int(dist.ds_codigo)]
#     df = agrupamento(df_iptu_distrito, 'sqlc')
#     for u in ['Residencial', 'Comercial', 'Serviços', 'Industrial', 'Outros']:
#         df[f'Percentual de Uso {u}'] = df[u] / df['Área Total Construída']
#     df.export_hdf5(f"data/por_distritos/IPTU-1995-2022-agrupados-por-sqlc-{dist.ds_codigo}-{dist.ds_nome.lower().replace(' ', '-')}.hdf5")
#     # break    

In [102]:
dfs[0]

#,distrito,ano,Quantidade de Unidades,Quantidade de Unidades Condominiais,Tamanho Médio da Unidade Condominial,Tamanho médio dos Terrenos,Área Total dos terrenos-lotes,Área Total Ocupada,Área Total Construída,Valor Total dos Terrenos,Valor Total das Construções,CA médio,TO médio,CA médio em lotes condominiais,TO médio em lotes condominiais,CA médio em lotes não condominiais,TO médio em lotes não condominiais,Comprimento Médio da Testada,Número médio de Pavimentos,Fator de obsolecência médio
0,0,1995,10912,1923,91.49141965678628,3730.6820931085044,40709203,6330766,1474148,403508190.57777524,342587818.0,0.5707595655441189,0.24455748209426265,1.7500919321624053,0.24412733431471892,0.3213535327327567,0.24464950280625053,48.34549120234604,1.6637646627565983,0.6513929618768328
1,0,1996,11179,2100,93.53904761904762,3995.613561141426,44666964,7943388,1578791,625570366.1666627,476590870.0,0.6076953108929819,0.26897854370771995,1.7490463618827914,0.25562280800901827,0.34658878672667376,0.2720677655347149,47.67546292154933,1.7459522318633152,0.675284014670364
2,0,1997,10317,2100,93.54,4285.8205873800525,44216811,8028760,1728144,668074640.2555504,584468408.0,0.6828669415181395,0.306726648074299,1.7490600027904148,0.25562280800901577,0.4133667603982093,0.31978714024140564,50.33546573616361,1.933023165648929,0.7295725501599302
3,0,1998,10301,2117,95.93103448275862,4094.1958062324047,42174311,8054073,1753029,605675740.799998,623670460.0,0.6958907594303442,0.31032130080948217,1.7772406242050165,0.25947965834813735,0.41907893554191694,0.3234727862799904,50.5297543927774,1.957382778371032,0.734880108727308
4,0,1999,10351,2232,95.99417562724014,4217.388658100666,43654190,8787774,1809696,609712731.844445,647722993.0,0.7137974981137403,0.31964847223499193,1.743794717411117,0.2742871372307171,0.4335580773195567,0.33211878874312845,50.88957588638779,1.9767172253888514,0.7425369529514056
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2711,96,2018,26075,5980,64.00234113712375,2581.7282070949186,67318563,16440323,2587707,1799507442.954893,1953839708.0,0.7589980713770961,0.37406251155768555,1.5742614129138586,0.26877648344094,0.5163867361002142,0.40539420840457385,34.445599232981785,2.170316395014382,0.7076126558005753
2712,96,2019,26150,5980,64.00234113712375,2571.682638623327,67249501,16464363,2625663,1842252253.5361295,2057240156.0,0.764183364339965,0.3772573172237717,1.574261412913811,0.2687764834409361,0.5240114887587943,0.40941970621838947,34.34669216061185,2.1737667304015296,0.7035181644359465
2713,96,2020,26820,6527,64.18124712731729,2631.619649515287,70580039,17682504,2711063,1928467784.591637,2199811922.0,0.8042789406924671,0.3784871040173368,1.6563464593448145,0.2749135133815406,0.53022164535691,0.4118003068991058,34.83456375838926,2.2585756897837435,0.6990678598061149
2714,96,2021,26662,6546,64.13290559120074,2643.3273197809617,70476393,17674362,2703063,1891702204.1111307,2194178695.0,0.8101383276516214,0.379756519865763,1.6568096339320415,0.27564942747446225,0.5346208107043696,0.41363428019553466,34.94572515949673,2.271134948616008,0.5613888673505004


In [None]:
# df_iptu_distrito = vaex.open('data/IPTU-1995-2022-agrupados-por-distrito.hdf5')
# df_iptu_subprefeitura = vaex.open('data/IPTU-1995-2022-agrupados-por-subprefeitura.hdf5')
# df_iptu_od = vaex.open('data/IPTU-1995-2022-agrupados-por-od.hdf5')

df_iptu_distrito, df_iptu_subprefeitura, df_iptu_od, df_iptu_censo, df_iptu_sq, df_iptu_sqlc = dfs

In [None]:
f"{format(df_iptu_distrito['Quantidade de Unidades'].sum(), ',d').replace(',', '.')} seila"

In [None]:
df_iptu_sqlc.shape

In [None]:
df_iptu_subprefeitura["CA médio"].max()

In [None]:
df_iptu_od["CA médio"].max()

In [None]:
df_iptu.sqlc