# Notebook de transformação e análise de dados

Código em Python para análise de dados.


Este notebook foi desenvolvido para o ambiente GOOGLE COLAB ([colab.research.google.com](https://colab.research.google.com)).



# Inicialização da plataforma

A célula a seguir inicializa a plataforma, carregando as bibliotecas utilizadas nessa transformação.

## Bibliotecas



```numpy``` -- usada para processamento numérico.

```pandas``` -- usada para manipulação de bases de dados.

```pyplot``` -- usada para visualização de dados.

```seaborn``` -- usada para visualização de dados.

```matplotlib``` -- usada paracriação de diagramas e gráficos bidimensionais

```sklearn``` -  usada para execuçãos de aprendizado de máquina e mineração de dados



In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import seaborn as sn
import seaborn
from sklearn.model_selection        import train_test_split
from sklearn                        import preprocessing
from sklearn                        import metrics
from sklearn                        import metrics, svm
from sklearn.linear_model           import LinearRegression
from sklearn.linear_model           import LogisticRegression
from sklearn.tree                   import DecisionTreeClassifier
from sklearn.linear_model           import Ridge
from sklearn.linear_model           import Lasso
from sklearn.linear_model           import ElasticNet
from sklearn.ensemble               import RandomForestRegressor


#Parâmetros de dimencionamento para exibição de dados

In [2]:
np.set_printoptions(threshold=None, precision=2)
pd.set_option('display.max_columns', 80)
pd.set_option('display.max_rows', 80)


#Importar base de dados: Microdados do Censo

## Base de dados do Censo Escolar 2022

Essa base de dados pode ser obtida em: https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2022.zip


In [None]:
from google.colab import files

uploaded = files.upload()

#Criação do Dataframe CENSO
Dataframe baseado nos microdados do Censco Escolar 2022.

Conterá apenas os parâmetros definidos para a análise nesse projeto.

In [3]:
#Criando Dataframe CENSO
CENSO = pd.read_csv('/content/microdados_ed_basica_2022.csv',  header = 0, sep=';',encoding='ISO-8859-1',usecols=['NO_UF', 'SG_UF', 'CO_MUNICIPIO', 'CO_ENTIDADE', 'IN_BIBLIOTECA', 'IN_BIBLIOTECA_SALA_LEITURA', 'IN_LABORATORIO_CIENCIAS', 'IN_LABORATORIO_INFORMATICA', 'IN_SALA_ATELIE_ARTES', 'IN_SALA_MUSICA_CORAL', 'IN_SALA_ESTUDIO_DANCA', 'IN_SALA_MULTIUSO', 'IN_SALA_LEITURA', 'IN_SALA_REPOUSO_ALUNO', 'IN_SALA_ATENDIMENTO_ESPECIAL', 'IN_DESKTOP_ALUNO', 'IN_COMP_PORTATIL_ALUNO', 'IN_TABLET_ALUNO', 'IN_PROF_BIBLIOTECARIO', 'IN_PROF_SAUDE', 'IN_PROF_COORDENADOR', 'IN_PROF_FONAUDIOLOGO', 'IN_PROF_NUTRICIONISTA', 'IN_PROF_PSICOLOGO', 'IN_PROF_PEDAGOGIA', 'IN_PROF_MONITORES','IN_PROF_ASSIST_SOCIAL'])


#Dimensões, campos e tipo de dados do Dataframe CENSO

In [None]:
#Avaliando dimensões
print("\nDimensões de CENSO:\n{0}\n".format(CENSO.shape))
print("\nCampos de CENSO:\n{0}\n".format(list(CENSO.keys())))
print("\nTipos dos CENSO:\n{0}\n".format(CENSO.dtypes))

## Análise do Dataframe CENSO

Verificação da existencia de dados faltantes.



In [None]:
#Exibe as colunas com elementos faltantes
colunas_faltantes = CENSO.columns[CENSO.isna().any()].tolist()
print("Colunas que contêm valores faltantes:",colunas_faltantes)

#Exibe o número de linhas que restariam caso excluídsemos as faltantes
print("Número de linhas com valores faltantes:",CENSO.shape[0]-CENSO.dropna().shape[0],"\n")


#Saneamento de dados faltantes no Dataframe CENSO

---



In [6]:
#Substitui valores nulos por 0 (zero)
CENSO.fillna(0, inplace = True)


#Agrupamento do Dataframe CENSO
###Agrupamento das variáveis independentes por UF e Municipio num novo Dataframe chamado CENSOGRP

Apesar dos valores numéricos '''0''' e '''1''' das variáveis independentes significar a existência ou não do recurso que representa (o que significa que são essencialmente são vairáveis categóricas),  utilizaremos as variáveis como quantitativas.
Então, ao somar as variáveis podemos identificar a proporção de escolas que possuem tal recurso, em relação ao município.



In [7]:
#Agrupamento das variáveis por UF e Município
CENSOGRP = CENSO.groupby(['NO_UF', 'SG_UF', 'CO_MUNICIPIO']).aggregate({'CO_ENTIDADE':'count' , 'IN_BIBLIOTECA':'sum', 'IN_BIBLIOTECA_SALA_LEITURA':'sum', 'IN_LABORATORIO_CIENCIAS':'sum', 'IN_LABORATORIO_INFORMATICA':'sum', 'IN_SALA_ATELIE_ARTES':'sum' , 'IN_SALA_MUSICA_CORAL':'sum', 'IN_SALA_ESTUDIO_DANCA':'sum', 'IN_SALA_MULTIUSO':'sum', 'IN_SALA_LEITURA':'sum', 'IN_SALA_REPOUSO_ALUNO':'sum', 'IN_SALA_ATENDIMENTO_ESPECIAL':'sum' , 'IN_DESKTOP_ALUNO':'sum', 'IN_COMP_PORTATIL_ALUNO':'sum', 'IN_TABLET_ALUNO':'sum', 'IN_PROF_BIBLIOTECARIO':'sum', 'IN_PROF_SAUDE':'sum', 'IN_PROF_COORDENADOR':'sum' , 'IN_PROF_FONAUDIOLOGO':'sum', 'IN_PROF_NUTRICIONISTA':'sum', 'IN_PROF_PSICOLOGO':'sum', 'IN_PROF_PEDAGOGIA':'sum', 'IN_PROF_MONITORES':'sum','IN_PROF_ASSIST_SOCIAL':'sum'}).reset_index()


#Exibição do Dataframe CENSOGRP


In [None]:
#Foto do dataframe
CENSOGRP

#Sumário estatístico das colunas do Dataframe CENSOGRP


In [None]:
CENSOGRP.describe()

#Transformação dos valores das variáveis independentes em Percentual

In [None]:
#Transformação dos dados em Percentual

CENSOGRP['IN_BIBLIOTECA'] =                 CENSOGRP['IN_BIBLIOTECA'] /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_BIBLIOTECA_SALA_LEITURA'] =    CENSOGRP['IN_BIBLIOTECA_SALA_LEITURA'] /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_LABORATORIO_CIENCIAS'] =       CENSOGRP['IN_LABORATORIO_CIENCIAS'] /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_LABORATORIO_INFORMATICA']  =   CENSOGRP['IN_LABORATORIO_INFORMATICA']  /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_SALA_ATELIE_ARTES'] =          CENSOGRP['IN_SALA_ATELIE_ARTES'] /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_SALA_MUSICA_CORAL'] =          CENSOGRP['IN_SALA_MUSICA_CORAL'] /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_SALA_ESTUDIO_DANCA'] =         CENSOGRP['IN_SALA_ESTUDIO_DANCA'] /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_SALA_MULTIUSO'] =              CENSOGRP['IN_SALA_MULTIUSO'] /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_SALA_LEITURA'] =               CENSOGRP['IN_SALA_LEITURA'] /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_SALA_REPOUSO_ALUNO']=          CENSOGRP['IN_SALA_REPOUSO_ALUNO']  /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_SALA_ATENDIMENTO_ESPECIAL']=   CENSOGRP['IN_SALA_ATENDIMENTO_ESPECIAL']  /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_DESKTOP_ALUNO'] =              CENSOGRP['IN_DESKTOP_ALUNO'] /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_COMP_PORTATIL_ALUNO'] =        CENSOGRP['IN_COMP_PORTATIL_ALUNO'] /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_TABLET_ALUNO'] =               CENSOGRP['IN_TABLET_ALUNO'] /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_PROF_BIBLIOTECARIO'] =         CENSOGRP['IN_PROF_BIBLIOTECARIO'] /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_PROF_SAUDE'] =                 CENSOGRP['IN_PROF_SAUDE'] /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_PROF_COORDENADOR'] =           CENSOGRP['IN_PROF_COORDENADOR'] /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_PROF_FONAUDIOLOGO'] =          CENSOGRP['IN_PROF_FONAUDIOLOGO'] /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_PROF_NUTRICIONISTA'] =         CENSOGRP['IN_PROF_NUTRICIONISTA'] /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_PROF_PSICOLOGO'] =             CENSOGRP['IN_PROF_PSICOLOGO'] /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_PROF_MONITORES'] =             CENSOGRP['IN_PROF_MONITORES'] /CENSOGRP['CO_ENTIDADE']*100
CENSOGRP['IN_PROF_ASSIST_SOCIAL'] =         CENSOGRP['IN_PROF_ASSIST_SOCIAL'] /CENSOGRP['CO_ENTIDADE']*100



## Análise do Dataframe CENSOGRP

Verificação da existência de chaves duplicadas.

In [None]:
print('Valores únicos',pd.Series(CENSO['CO_MUNICIPIO']).unique().shape)
# Veremos que não há duplicidades.

#Histograma das variáveis do Dataframe CENSOGRP

In [None]:
#Histograma das variáveis
CENSOGRP.hist( figsize=(20,20),   # Tamanho do gráfico
                   bins=20)

#Matriz de correlação de atributos inteiros do Dataframe CENSOGRP

In [None]:
#Matriz de correlação de atributos inteiros
int_fields = CENSOGRP.dtypes[CENSOGRP.dtypes == ("float64")].index
corr = np.corrcoef(CENSOGRP[int_fields].transpose())
correlacao = pd.DataFrame(data=corr, index=int_fields, columns=int_fields)

print("\nMatriz de correlação dos atributos inteiros:\n{0}".format(correlacao))

In [None]:
#histograma das correlações
plt.hist(correlacao)
plt.show()

#Importar base de dados: Sinopse Estatística da Educação Básica 2022

## Sinopse Estatística da Educação Básica 2022

Essa base de dados pode ser obtida em: https://download.inep.gov.br/dados_abertos/sinopses_estatisticas/sinopses_estatisticas_censo_escolar_2022.zip


In [None]:
from google.colab import files

uploaded = files.upload()

#Criação do Dataframe SINOPSE

Documento baseado no CENSO 2022, com dados sumarizados por municípios, mas que possuem no entando o detalhamento de alguns valores que foram omitidos nos microdados do CENSO, por questões de privacidade, para a não identificação dos indivíduos.

Conterá apenas os parâmetros definidos para a análise nesse projeto, incluindo nossa variável dependente: Altas Habilidades / Superdotação

In [15]:
#Criando Dataframe SINOPSE
SINOPSE = pd.read_excel('/content/Sinopse_Estatistica_da_Educação_Basica_2022.xlsx',sheet_name = '1.43',header = 0,usecols=['Código do Município','Altas Habilidades / Superdotação'])


#Dimensões, campos e tipo de dados do Dataframe SINOPSE




In [None]:
#Avaliando dimensões
print("\nDimensões de SINOPSE:\n{0}\n".format(SINOPSE.shape))
print("\nCampos de SINOPSE:\n{0}\n".format(list(SINOPSE.keys())))
print("\nTipos dos SINOPSE:\n{0}\n".format(SINOPSE.dtypes))

#Alteração de coluna no Dataframe SINOPSE

###Alteração nome da coluna Altas Habilidades / Superdotação para AH/SD
Por ser um nome muito extenso e para facilitar a utilização dessa coluna que será muito utilizada por se tratar da nossa variável dependente.

In [17]:
#Altera nome da coluna Altas Habilidades / Superdotação para AH/SD
SINOPSE.columns = ['Código do Município' , 'AH/SD']


## Análise do Dataframe SINOPSE

Verificação da existencia de dados faltantes.

In [None]:
#Exibe as colunas com elementos faltantes
colunas_faltantes = SINOPSE.columns[SINOPSE.isna().any()].tolist()
print("Colunas que contêm valores faltantes:",colunas_faltantes)

#Exibe o número de linhas que restariam caso excluídsemos as faltantes
print("Número de linhas com valores faltantes:",SINOPSE.shape[0]-SINOPSE.dropna().shape[0],"\n")

#Saneamento de dados faltantes no Dataframe SINOPSE

In [19]:
#Substitui valores nulos por 0 (zero)
SINOPSE.fillna(0, inplace = True)


## Análise do Dataframe SINOPSE

Verificação da existência de chaves duplicadas.
* Não houve nenhum tratamento especícico para a ocorrência das chaves duplicadas pois o saneamento dessa ocorrência se deu naturalmente pelo Merge realizado entre os Dataframes CENSOGRO e SINOPSE, que ocorre na sequencia desse notebook.

In [None]:
print('Valores únicos',pd.Series(SINOPSE['Código do Município']).unique().shape)


#Comparativo entre os Dataframes CENSOGRP e SINOPSE


In [None]:
print("\nDimensões de CENSOGRP:\n{0}\n".format(CENSOGRP.shape))
print("\nDimensões de SINOP:\n{0}\n".format(SINOPSE.shape))

#Merge entre os Dataframes CENSOGRP + SINOPSE

Junção dos Dataframes CENSOGRP e SINOPSE num novo Dataframe chamado CENSOMRG


In [22]:
CENSOMRG = CENSOGRP.merge(SINOPSE, left_on='CO_MUNICIPIO', right_on='Código do Município')


#Dimensões, campos e tipo de dados do Dataframe CENSOMRG


In [None]:
print('Shape',CENSOMRG.shape)
print("\nCampos de CENSOMRG:\n{0}\n".format(list(CENSOMRG.keys())))
print("\nTipos dos CENSOMRG:\n{0}\n".format(CENSOMRG.dtypes))

In [None]:
print("Município com menor valor para AH/SD:","\n", \
CENSOMRG[['CO_MUNICIPIO','AH/SD']][CENSOMRG['AH/SD']\
==max(CENSOMRG['AH/SD'])])
print("Município com menor valor para AH/SD:","\n", \
CENSOMRG[['CO_MUNICIPIO','AH/SD']][CENSOMRG['AH/SD']\
==min(CENSOMRG['AH/SD'])])

#Análise do Dataframe CENSOMRG
###Análise da variável dependente AH/SD

* Sumário estatístico da vaiável AH/SD
* Distribuição das ocorrências da variável AH/SD
* Histograma da variável AH/SD

In [None]:
plt.rc('axes', labelsize=12)
plt.rc('xtick', labelsize=8)
plt.rc('ytick', labelsize=8)

## Preparação para impressão dos dois gráficos sobrepostos
fig, ax = plt.subplots(2, 1, figsize = (12,8))

## Primeiro o boxplot
CENSOMRG.boxplot('AH/SD', ax = ax[0], vert=False,return_type='dict',rot=0, fontsize=12)

## Agora o histograma
temp = CENSOMRG['AH/SD'].values
ax[1].hist(temp, bins = 30, alpha = 0.7)
plt.ylabel('Número de Cidades')
plt.xlabel('AH/SD')

CENSOMRG['AH/SD'].describe().round(2).astype(str)


#Análise do Dataframe CENSOMRG
###Análise de ocorrência variável dependente AH/SD por estado

In [None]:
#Cria a coluna 'indice_ordenado'
CENSOMRG.sort_values(by='AH/SD', ascending=True, inplace = True)
CENSOMRG['indice_ordenado']=np.arange(0,CENSOMRG.shape[0])
CENSOMRG.sort_index(ascending=True, inplace = True)
# Imprime o gráfico
plt.rc('axes', labelsize=30)
plt.rc('xtick', labelsize=30)
plt.rc('ytick', labelsize=30)
fig, ax = plt.subplots(2, 1, figsize = (36,36))
ax[0].scatter(CENSOMRG['SG_UF'],CENSOMRG['AH/SD'])
ax[0].set_xlabel('Municípios (não ordenados)')
ax[0].set_ylabel('AH/SD')
ax[1].scatter(CENSOMRG['indice_ordenado'],CENSOMRG['AH/SD'])
ax[1].set_xlabel('Municípios (em ordem crescente de AH/SD)')
ax[1].set_ylabel('AH/SD')
plt.show()

#Imprime as variáveis do Dataframe CENSOGRP



In [None]:
print(len(CENSOMRG.columns.tolist()))
print(CENSOMRG.columns.tolist())


#Matriz de correlação do Dataframe CENSOGRP
Matriz de correlação entre a variável dependente e as variáveis independentes

In [None]:
colunas = ['NO_UF', 'SG_UF', 'CO_MUNICIPIO', 'CO_ENTIDADE', 'IN_BIBLIOTECA', 'IN_BIBLIOTECA_SALA_LEITURA', 'IN_LABORATORIO_CIENCIAS', 'IN_LABORATORIO_INFORMATICA', 'IN_SALA_ATELIE_ARTES', 'IN_SALA_MUSICA_CORAL', 'IN_SALA_ESTUDIO_DANCA', 'IN_SALA_MULTIUSO', 'IN_SALA_LEITURA', 'IN_SALA_REPOUSO_ALUNO', 'IN_SALA_ATENDIMENTO_ESPECIAL', 'IN_DESKTOP_ALUNO', 'IN_COMP_PORTATIL_ALUNO', 'IN_TABLET_ALUNO', 'IN_PROF_BIBLIOTECARIO', 'IN_PROF_SAUDE', 'IN_PROF_COORDENADOR', 'IN_PROF_FONAUDIOLOGO', 'IN_PROF_NUTRICIONISTA', 'IN_PROF_PSICOLOGO', 'IN_PROF_PEDAGOGIA', 'IN_PROF_MONITORES', 'IN_PROF_ASSIST_SOCIAL', 'Código do Município', 'AH/SD', 'indice_ordenado']

correlacoes=CENSOMRG[colunas].corr().abs()
print (CENSOMRG[colunas].shape)
correlacoes=correlacoes['AH/SD'].sort_values(ascending=False)
print("Correlações com 'AH/SD'")
df_correlacoes = pd.DataFrame(correlacoes)
print(df_correlacoes)



#Treinamento do Dataframe CENSOMRG

Utilizando 75% da base para treinamento e 25% para teste


In [34]:
#Definindo y
y=CENSOMRG['AH/SD']
#Removendo 'y' e demais parâmetros categoricos
X=CENSOMRG.drop(['AH/SD','NO_UF','CO_MUNICIPIO','SG_UF','CO_ENTIDADE'],axis=1)

# Recupera os nomes dos atributos
atributos = list(CENSOMRG)[1:(CENSOMRG.shape[1] - 1)]
rotulo = list(CENSOMRG)[(CENSOMRG.shape[1] - 1)]

# Amostragem de dados
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)



#Demonstração de erros do treinamento


In [None]:
seaborn.set(style='whitegrid')
seaborn.scatterplot( x=y_test, y=y_prev  )

# Calcula o erro absoluto e o erro percentual da regressao linear
errolnr = np.abs(y_test - y_prev)
erroperc = errolnr / list(y_test)

print('Erro percentual:\n Média: {0:.2f}  Max: {1:.2f}   Min: {2:.2f}'
      .format(np.mean(erroperc), np.max(erroperc), np.min(erroperc)))

plt.figure(figsize=(6, 4))
plt.errorbar(np.arange(y_test.size), list(y_test), yerr=errolnr,
             fmt='.', ecolor='r', capsize=3)
plt.title("Valores reais (barras de erro de predição)")
plt.grid()

print("Base de treinamento:{0}".format(X_train.shape))
print("Base de teste:{0}".format(X_test.shape))


In [None]:

fig, ax = plt.subplots(1, 2, figsize=(7, 4))
plt.suptitle("Erros de previsão")
ax[0].plot(errolnr,'.')
ax[0].set_xlabel("Erro absoluto")
ax[0].grid()
ax[1].plot(erroperc,'.')
ax[1].set_xlabel("Erro percentual")
ax[1].grid()


# Modelo: REGRESSÃO LINEAR



In [None]:
lnr = LinearRegression().fit(X_train, y_train)

y_prev = lnr.predict(X_test)

print("Acurácia da base de treinamento: {:.2f}".format(lnr.score(X_train, y_train)))
print("Acurácia da base de testes: {:.2f}".format(lnr.score(X_test, y_test)))
print("Descrição do modelo: LinearRegression")
s = ["{0}: {1:0.2f}".format(a, v) for a, v in zip(atributos, lnr.coef_)]
print("w: {}  b: {:.2f}".format(s, lnr.intercept_))
print("Número de atributos usados: {}".format(np.sum(lnr.coef_ != 0)))


#imprime_scatter_plot(np.log(y_test),np.log(y_pred))
plt.scatter(y_test, y_pred)
range = [y_test.min(), y_pred.max()]
plt.plot(range, range, 'red')
plt.xlabel('AH/SD REAL')
plt.ylabel('AH/SD predita')
plt.show()

# Modelo: REGRESSÃO LOGÍSTICA


In [None]:
lgr = LogisticRegression(solver='lbfgs', max_iter=1000).fit(X_train,y_train)


y_pred=lgr.predict(X_test)

print("Acurácia da base de treinamento: {:.2f}".format(lgr.score(X_train, y_train)))
print("Acurácia da base de testes: {:.2f}".format(lgr.score(X_test, y_test)))
print("Descrição do modelo: LogisticRegression")

#imprime_scatter_plot(np.log(y_test),np.log(y_pred))
plt.scatter(y_test, y_pred)
range = [y_test.min(), y_pred.max()]
plt.plot(range, range, 'red')
plt.xlabel('AH/SD REAL')
plt.ylabel('AH/SD predita')
plt.show()



#Modelo: RIDGE

In [None]:
Ridge = Ridge.fit(X_train, y_train)
Ridge.predict(X_test)

print("Ridge")
print(Ridge.predict(X_test))
print("Acurácia da base de treinamento: {:.2f}".format(Ridge.score(X_train, y_train)))
print("Acurácia da base de testes: {:.2f}".format(Ridge.score(X_test, y_test)))
print("Descrição do modelo: Ridge")
y_pred=Ridge.predict(X_test)

#imprime_scatter_plot(np.log(y_test),np.log(y_pred))
plt.scatter(y_test, y_pred)
range = [y_test.min(), y_pred.max()]
plt.plot(range, range, 'red')
plt.xlabel('AH/SD REAL')
plt.ylabel('AH/SD predita')
plt.show()


#Modelo: ÁRVORE DE DECISÃO

In [None]:
dtc = DecisionTreeClassifier()
dtc.fit(X_train, y_train)
print("DecisionTreeClassifier")
print(dtc.predict(X_test))

print(dtc.predict(X_test))
print("Acurácia da base de treinamento: {:.2f}".format(dtc.score(X_train, y_train)))
print("Acurácia da base de testes: {:.2f}".format(dtc.score(X_test, y_test)))
print("Descrição do modelo: DecisionTreeClassifier")

y_pred=dtc.predict(X_test)

#imprime_scatter_plot(np.log(y_test),np.log(y_pred))
plt.scatter(y_test, y_pred)
range = [y_test.min(), y_pred.max()]
plt.plot(range, range, 'red')
plt.xlabel('AH/SD REAL')
plt.ylabel('AH/SD predita')
plt.show()


#Modelo: LASSO

In [None]:
Lasso = Lasso.fit(X_train, y_train)
print("Lasso")
print(Lasso.predict(X_test))

print("Acurácia da base de treinamento: {:.2f}".format(Lasso.score(X_train, y_train)))
print("Acurácia da base de testes: {:.2f}".format(Lasso.score(X_test, y_test)))
print("Descrição do modelo: Lasso")

y_pred=Lasso.predict(X_test)

#imprime_scatter_plot(np.log(y_test),np.log(y_pred))
plt.scatter(y_test, y_pred)
range = [y_test.min(), y_pred.max()]
plt.plot(range, range, 'red')
plt.xlabel('AH/SD REAL')
plt.ylabel('AH/SD predita')
plt.show()

#Modelo: ELASTICNET

Modelo: FLORESTA ALEATÓRIA

In [None]:
RandomForestRegressor = RandomForestRegressor.fit(X_train, y_train
print("RandomForestRegressor")
print(RandomForestRegressor.predict(X_test))

print("Acurácia da base de treinamento: {:.2f}".format(RandomForestRegressor.score(X_train, y_train)))
print("Acurácia da base de testes: {:.2f}".format(RandomForestRegressor.score(X_test, y_test)))
print("Descrição do modelo: RandomForestRegressor")

y_pred=RandomForestRegressor.predict(X_test)

#imprime_scatter_plot(np.log(y_test),np.log(y_pred))
plt.scatter(y_test, y_pred)
range = [y_test.min(), y_pred.max()]
plt.plot(range, range, 'red')
plt.xlabel('AH/SD REAL')
plt.ylabel('AH/SD predita')
plt.show()

##Importar base de dados: Municípios

## Municipios brasileiros

Essa base de dados pode ser obtida em: raw.githubusercontent.com/kelvins/Municipios-Brasileiros/main/csv/municipios.csv




In [None]:
from google.colab import files

uploaded = files.upload()


#Criação do Dataframe GEOLOC


Conterá apenas os parâmetros: codigo_ibge, latitude e longitude




In [46]:
GEOLOC = pd.read_csv('/content/Municipios-Brasileiros.csv',  header = 0, sep=',',encoding='ISO-8859-1',usecols=['codigo_ibge','latitude','longitude' ])


#Dimensões, campos e tipo de dados do Dataframe GEOLOC


In [None]:
#Avaliando dimensões
print("\nDimensões de GEOLOC:\n{0}\n".format(GEOLOC.shape))
print("\nCampos de GEOLOC:\n{0}\n".format(list(GEOLOC.keys())))
print("\nTipos dos GEOLOC:\n{0}\n".format(GEOLOC.dtypes))

#Comparativo entre os Dataframes CENSOGRP e GEOLOC


In [None]:
print("\nDimensões de CENSOGRP:\n{0}\n".format(CENSOGRP.shape))
print("\nDimensões de GEOLOC:\n{0}\n".format(GEOLOC.shape))

#Merge entre os Dataframes CENSOMRG + GEOLOC
Junção dos Dataframes CENSOMRG e GEOLOC num novo Dataframe chamado CENSOGEO



In [50]:
CENSOGEO = CENSOMRG.merge(GEOLOC, left_on='Código do Município', right_on='codigo_ibge')


#Dimensões, campos e tipo de dados do Dataframe CENSOGEO

In [None]:
#Avaliando dimensões
print("\nDimensões de CENSOGEO:\n{0}\n".format(CENSOGEO.shape))
print("\nCampos de CENSOGEO:\n{0}\n".format(list(CENSOGEO.keys())))
print("\nTipos dos CENSOGEO:\n{0}\n".format(CENSOGEO.dtypes))

## Análise do Dataframe CENSOGEO

Verificação da existencia de dados faltantes.

In [54]:
#Exibe as colunas com elementos faltantes
colunas_faltantes = CENSOGEO.columns[CENSOGEO.isna().any()].tolist()
print("Colunas que contêm valores faltantes:",colunas_faltantes)

#Exibe o número de linhas que restariam caso excluídsemos as faltantes
print("Número de linhas com valores faltantes:",CENSOGEO.shape[0]-CENSOGEO.dropna().shape[0],"\n")

Colunas que contêm valores faltantes: []
Número de linhas com valores faltantes: 0 



#Mapa AH/SD

In [None]:
CENSOGEO.plot.scatter( y='latitude', x='longitude',
c = CENSOGEO['AH/SD'],
cmap = 'RdYlGn',
figsize =(10,8), title='AH/SD')