In [124]:
import pandas as pd
import numpy as np

# Importação e tratamento de dados

In [None]:
features = [
    "Situação do registro",
    "Tipologia",
    "UF do registro",
    "Município do registro",
    "Média de Avaliações (cadastrador e CAU Cidadão) 1 a 5",
    "Área verde demarcada (m²)",
    "Quantidade de nascentes",
    "Somatório de Área a ser recuperada (poligonias vermelhas - m²)",
    "Área com vegetação perturbada, escassa ou ausente > 50%",
    "Ausência de fauna nativa",
    "Espaço para eventos culturais e feiras",
    "Manutenção Periódica",
    "Acessibilidade para PcD",
    "Esporte e lazer (Outros)",
    "Mitigação de ilhas de calor",
    "Regulação da permeabilidade do solo"
]

colnames = [  # transformação para uma forma mais facil de manipular
    "situacao_registro",
    "tipologia",
    "uf_registro",
    "municipio_registro",
    "media_avaliacoes",
    "area_verde_demarcada",
    "quantidade_nascente",
    "somatorio_area_recuperar",
    "area_vegetacao_perturbada_escassa_ou_ausente_maior_que_50",
    "ausencia_fauna_nativa",
    "espaco_eventos_culturais_e_feiras",
    "manutencao_periodica",
    "acessibilidade_para_pcd",
    "esporte_e_lazer_outros",
    "mitigacao_ilhas_de_calor",
    "regulacao_permeabilidade_solo"
]

In [136]:
def converter(x):
    if x == "n/d":
        return np.nan
    else:
        return float(x.removesuffix("m2").replace(".", "").replace(",", ".")) #função para converter de forma apropriada as colunas de metro quadrado


df = pd.read_csv( #leitura de dados
    "../infra/relatorio-areas-verdes-cadastradas.csv",
    sep=";",
    encoding="latin1",
    usecols=features,
    converters={
        "Área verde demarcada (m²)": converter,
        "Somatório de Área a ser recuperada (poligonias vermelhas - m²)": converter,
    },
    true_values=["Sim"],
    false_values=["Não"],
)

df.columns = colnames #renomeação das colunas

df.head()

Unnamed: 0,situacao_registro,tipologia,uf_registro,municipio_registro,media_avaliacoes,area_verde_demarcada,quantidade_nascente,somatorio_area_recuperar,area_vegetacao_perturbada_escassa_ou_ausente_maior_que_50,ausencia_fauna_nativa,espaco_eventos_culturais_e_feiras,manutencao_periodica,acessibilidade_para_pcd,esporte_e_lazer_outros,mitigacao_ilhas_de_calor,regulacao_permeabilidade_solo
0,Publicada,Praça,Roraima,Caracaraí,2.5,51258.15,0,,False,False,False,False,False,False,False,False
1,Rascunho,-,São Paulo,Caraguatatuba,1.5,4014107.25,0,,False,False,False,False,False,False,False,False
2,Rascunho,Praça,São Paulo,Olímpia,3.5,8255.68,0,,True,True,True,False,True,True,False,True
3,Publicada,Parque,Rio Grande do Sul,Passo Fundo,5.0,17048.24,0,,False,False,True,False,True,True,True,True
4,Publicada,Parque,Rio Grande do Sul,Passo Fundo,5.0,49796.2,0,,False,False,True,False,True,True,True,True


# Descritivas

In [None]:
print(f"Total de linhas: {df.shape[0]}\nTotal de colunas: {df.shape[1]}") #contagem de linhas e colunas

Total de linhas: 11051
Total de colunas: 16


In [None]:
df.isna().sum() # verificando se existem valores nulos nas colunas

situacao_registro                                                0
tipologia                                                        0
uf_registro                                                      0
municipio_registro                                               0
media_avaliacoes                                                 0
area_verde_demarcada                                          2253
quantidade_nascente                                              0
somatorio_area_recuperar                                     10965
area_vegetacao_perturbada_escassa_ou_ausente_maior_que_50        0
ausencia_fauna_nativa                                            0
espaco_eventos_culturais_e_feiras                                0
manutencao_periodica                                             0
acessibilidade_para_pcd                                          0
esporte_e_lazer_outros                                           0
mitigacao_ilhas_de_calor                                      

In [None]:
df.dtypes # verificando os tipos de dados das colunas

situacao_registro                                             object
tipologia                                                     object
uf_registro                                                   object
municipio_registro                                            object
media_avaliacoes                                              object
area_verde_demarcada                                         float64
quantidade_nascente                                            int64
somatorio_area_recuperar                                     float64
area_vegetacao_perturbada_escassa_ou_ausente_maior_que_50       bool
ausencia_fauna_nativa                                           bool
espaco_eventos_culturais_e_feiras                               bool
manutencao_periodica                                            bool
acessibilidade_para_pcd                                         bool
esporte_e_lazer_outros                                          bool
mitigacao_ilhas_de_calor          

In [None]:
df.describe() # verificando as estatísticas descritivas das colunas numéricas

Unnamed: 0,area_verde_demarcada,quantidade_nascente,somatorio_area_recuperar
count,8798.0,11051.0,86.0
mean,52176.15,0.018279,25656.734884
std,934176.7,0.160966,63562.946997
min,0.25,0.0,70.63
25%,529.68,0.0,1210.1675
50%,1861.415,0.0,2901.015
75%,6457.55,0.0,20343.0725
max,64193760.0,6.0,466021.53


In [143]:
df.select_dtypes(include=["object"]).nunique() #verificando o número de valores únicos em cada coluna do dataframe

situacao_registro       6
tipologia              15
uf_registro            26
municipio_registro    441
media_avaliacoes       59
dtype: int64

In [147]:
df.select_dtypes(include=[pd.BooleanDtype()]).mean() #percentual das variáveis booleanas

area_vegetacao_perturbada_escassa_ou_ausente_maior_que_50    0.226676
ausencia_fauna_nativa                                        0.193919
espaco_eventos_culturais_e_feiras                            0.081712
manutencao_periodica                                         0.032124
acessibilidade_para_pcd                                      0.157633
esporte_e_lazer_outros                                       0.195186
mitigacao_ilhas_de_calor                                     0.340874
regulacao_permeabilidade_solo                                0.452357
dtype: float64