# Tratamento e à análise de dados relacionada ao tema empreendedorismo em Santa Catarina

**Projeto elaborado para programa SCTEC**

Tema: Análise Exploratória de Dados (AED)
O documento a seguir tende a identificar as Melhores Cidades para Empreender no estado de Santa Catarina.

Apresento uma Análise Exploratória de Dados (AED) utilizando um conjunto de dados contendo o ranking das melhores cidades de Santa Catarina para empreender.

Contemplando:
**Carregamento dos dados**
**Tratamento de valores inconsistentes ou ausentes**
**Organização das informações**
**Análise ou processamento conforme a abordagem escolhida**
**Apresentação de resultados por meio de tabelas, gráficos, métricas ou interpretações textuais.**


Para realizar o trabalho Cruzei 3 planilhas para análise:

A primeira foi elaborada pelo Sebrae SC, contendo as melhores cidades para inovação e criação de Start Ups em SC: BestSCCities4Startups.

Outra planilha busca trazer as atividades, setor econômico e subclasse que mais prevalece no estado, com maior chance de obter um ecossistema. Essa planilha contém dados de setor econômico que mais são beneficiados por estarem em um bolsão (pool) de fornecedores do estado: setor_economico.

A terceira planilha refere-se a impostos, essa planilha contém dados de setor econômico que mais são beneficiados tributariamente pelo estado: renuncia_balanco_geral_do_estado.


**O Dataset contém:**
• 21 municípios
• Média do Quantity Score: 17,36
• Desvio padrão: 1,94
• Valor mínimo: 15,64
• Valor máximo: 23,61


As cidades mais bem posicionadas possuem vantagem significativa em indicadores relacionados à quantidade de empreendimentos ou estrutura de apoio.

**Score:**
O histograma mostrou que a maior parte das cidades está concentrada entre 16 e 17,5 pontos.

Percebe-se que Existe concentração de desempenho intermediário e possível presença de outlier na faixa acima de 23 pontos.

Quanto menor a posição (mais próxima de 1º lugar), maior o score.

Conclui-se com esta análise que:
• O ambiente empreendedor em Santa Catarina é relativamente equilibrado entre os municípios analisados.
• Poucas cidades concentram vantagem competitiva expressiva.
• A diferença entre os primeiros colocados e os demais pode indicar maior infraestrutura, políticas públicas mais eficientes ou maior densidade empresarial.


**Análise preditiva das prestações de contas**

*   Classificar e identificar as prestações de contas com maior risco de não serem aprovadas
*   Propor ações preventivas, já no início da execução do convênio, buscando mitigar os riscos identificados
*   Entender as variáveis com maior impacto sobre a não aprovação das contas
*   Garantir maior efetividade na aplicação dos recursos públicos e na execução dos projetos


**Coleta dos dados e limitações encontradas**

*   Dados coletados a partir do Painel de Transferências no endereço: https://www.dados.sc.gov.br/gl/dataset?res_format=HTML&groups=economia-trabalho&_res_format_limit=0&_groups_limit=0
*   e também obtidos no Portal de Dados Abertos do Estado de Santa Catarina: http://www.transparencia.sc.gov.br/documentos
*   Identificamos 06 tipos de despesa, que geraram 08 arquivos para exportação.
*   Concatenamos todos os arquivos exportados em um único DataFrame, para iniciar o nosso trabalho de análise e predição.
*   Tipos de dados:
    * UF
    * Município
    * Modalidade
    * Objeto
    * Concedente
    * Duração
    * Valor Liberado 
    * Saldo em conta 
    * Movimentação Financeira
   


**Abordagem de Classificação utilizada**

Empregamos seis diferentes algoritmos de classificação e selecionamos o modelo gerado com maior acurácia:
*   KNN Classifier
*   Regressão Logística
*   Árvore de Decisão
*   Random Forest
*   Support Vector Machine (SVM)
*   Permutation importance
Geramos até 05 modelos com cada Algoritmo, com diferentes estratégias.


# 2) Carregar dataset

O dados foram importados do portal das tranferencias abertas - Painel de Dados Abertos
(https://www.dados.sc.gov.br/gl/)


In [1]:
# Carregar bibliotecas
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.metrics import plot_confusion_matrix
from sklearn.metrics import classification_report
from sklearn.model_selection import cross_val_score
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.model_selection import KFold
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.preprocessing import OrdinalEncoder
from sklearn.inspection import permutation_importance
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import Ridge
import gc # Garbage collector, para recuperar memória após carregar o dataset inicial
from sklearn import svm
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
#from dtreeviz.trees import dtreeviz
from sklearn.pipeline import make_pipeline
from sklearn.datasets import *
#from dtreeviz.trees import *
from IPython.display import Image, display_svg, SVG

ModuleNotFoundError: No module named 'dtreeviz'

**2.1) Criar DataFrames a partir de arquivos .xlsx**

In [None]:

df = pd.read_csv("BestSCCities4Startups.csv")

df = df[['position', 'city', 'quatity score']]


In [None]:

# Estatísticas
print(df.describe())


In [None]:
# Criar variável df_obras
obras_file = df_obras_excel.to_csv('./BestSCCities4Startups.csv', encoding='utf-8', decimal=',', index = None, header=True)
df_obras = pd.read_csv('./BestSCCities4Startups.csv', encoding='utf-8', decimal=',')
df_obras.head()

In [None]:
path_bem_sconcluida = '../input/renuncia_balanco_geral_do_estado.csv'
df_bem_sconcluida = pd.read_excel(path_bem_sconcluida, skipfooter=1)
df_bem_sconcluida['despesa'] = 'bem'
path_bem_concluida = '../input/renuncia_balanco_geral_do_estado.csv'
df_bem_concluida = pd.read_excel(path_bem_concluida, skipfooter=1)
df_bem_concluida['despesa'] = 'bem'
df_bem_excel = pd.concat([ df_bem_sconcluida, df_bem_concluida ])
df_bem_excel.head()

In [None]:
# Criar variável setor_economico
bem_file = df_bem_excel.to_csv('./setor_economico.csv', encoding='utf-8', decimal=',', index = None, header=True)
df_bem = pd.read_csv('./setor_economico.csv', encoding='utf-8', decimal=',')
df_bem.head()

In [None]:

# Correlação
print(df['position'].corr(df['quatity score']))


In [None]:
path_adm = '../input/setor_economico.csv'
df_adm_excel = pd.read_excel(path_bem_sconcluida,skipfooter=1)
df_adm_excel['despesa'] = 'administrativa'
df_adm_excel.shape

In [None]:
# Criar variável df_adm
adm_file = df_adm_excel.to_csv('./adm.csv', encoding='utf-8', decimal=',', index = None, header=True)
df_adm = pd.read_csv('./adm.csv', encoding='utf-8', decimal=',')
df_adm.head()

In [None]:
path_servico = '../input/dataconvenios/servico.xlsx'
df_servico_excel = pd.read_excel(path_servico, skipfooter=1)
df_servico_excel['despesa'] = 'servico'
df_servico_excel.shape

In [None]:
# Gráfico Top 10
df_sorted = df.sort_values(by='position')
top10 = df_sorted.head(10)

plt.figure()
plt.bar(top10['city'], top10['quatity score'])
plt.xticks(rotation=45)
plt.show()


In [None]:
# Criar variável df_servico
servico_file = df_servico_excel.to_csv('./servico.csv', encoding='utf-8', decimal=',', index = None, header=True)
df_servico = pd.read_csv('./servico.csv', encoding='utf-8', decimal=',')
df_servico.head()

In [None]:
path_tributo = '../input/dataconvenios/tributo.xlsx'
df_tributo_excel = pd.read_excel(path_tributo, skipfooter=1)
df_tributo_excel['despesa'] = 'tributo'
df_tributo_excel.shape

In [None]:
# Criar variável df_tributo
tributo_file = df_tributo_excel.to_csv('./tributo.csv', encoding='utf-8', decimal=',', index = None, header=True)
df_tributo = pd.read_csv('./tributo.csv', encoding='utf-8', decimal=',')
df_tributo.head()

In [None]:
path_outro = '../input/dataconvenios/outros.xlsx'
df_outro_excel = pd.read_excel(path_outro, skipfooter=1)
df_outro_excel['despesa'] = 'outras'
df_outro_excel.shape

In [None]:
# Criar variável df_outro
outro_file = df_outro_excel.to_csv('./outro.csv', encoding='utf-8', decimal=',', index = None, header=True)
df_outro = pd.read_csv('./outro.csv', encoding='utf-8', decimal=',')
df_outro.head()

In [None]:

# Histograma
plt.figure()
plt.hist(df['quatity score'], bins=10)
plt.show()


**2.2) Concatenar DataFrames**


In [None]:
print(df_obras.shape)
print(df_adm.shape)
print(df_bem.shape)
print(df_outro.shape)
print(df_servico.shape)
print(df_tributo.shape)

In [None]:
type(df_concat)

In [None]:
# Scatter plot
plt.figure()
plt.scatter(df['position'], df['quatity score'])
plt.gca().invert_xaxis()
plt.show()

**2.3) Gerar arquivo .csv**

In [None]:
df_concat_file = df_concat.to_csv('./agrupado.csv', encoding='utf-8', decimal=',', index = None, header=True)


In [None]:
path = './agrupado.csv'
col_names = ['numero', 'link','uf', 'municipio', 'cnpj', 'proponente', 'modalidade', 'emenda', 'objeto', 'situacao', 'concedente', 'nat_juridica', 'inicio', 'fim', 'qtd_instrumentos', 'valor_global', 'valor_liberado', 'movimentacao_financeira', 'saldo_conta', 'valor_devolvido', 'despesa']

df = pd.read_csv(path, 
                 encoding='utf-8', 
                 decimal=',',               
                 names = col_names,
                 engine = 'python',
                 index_col=False,
                 dtype = {'valor_global': float, 'valor_liberado': float, 'movimentacao_financeira': float },
                 skiprows=1
                 )
df['inicio'] = pd.to_datetime(df['inicio'])
df['fim'] = pd.to_datetime(df['fim'])
df.info()
df.head()

# 3) Análise exploratória de dados


**3.1) Descrição básica das variáveis contínuas**

In [None]:
df.describe()

In [None]:
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sum.html
n1 = len(df)
print('Quantidade de convênios: ', "{:,}".format(n1).replace(",", "."))
n2 = len(df['municipio'].unique())
print('Municípios beneficiados: ', "{:,}".format(n2).replace(",", "."))
n3 = len(df['proponente'].unique())
print('Proponentes: ', "{:,}".format(n3).replace(",", "."))
n4 = len(df['concedente'].unique())
print('Órgãos concedentes: ', "{:,}".format(n4).replace(",", "."))
n5 = df['valor_global'].sum(axis=0)
print('Valor global: ', "{:,}".format(n5).replace(",", "."))
n6 = df['valor_liberado'].sum(axis=0)
print('Valor liberado: ', "{:,}".format(n6).replace(",", "."))
n7 = df['movimentacao_financeira'].sum(axis=0)
print('Valor de movimentação financeira: ', "{:,}".format(n7).replace(",", "."))
n8 = df['saldo_conta'].sum(axis=0)
print('Saldo da conta: ', "{:,}".format(n8).replace(",", "."))
n9 = df['valor_devolvido'].sum(axis=0)
print('Valor devolvido: ', "{:,}".format(n9).replace(",", "."))


**3.2) Verificar a correlação entre as variáveis contínuas**

In [None]:
# Seleção de colunas para análise visual dos dados

df_filtered = df[['valor_global', 'valor_liberado', 'movimentacao_financeira', 'saldo_conta', 'valor_devolvido']]
df_filtered

In [None]:
sns.pairplot(df_filtered)

In [None]:
sns.set()
sns.pairplot(df_filtered, height= 3.5, kind='reg', plot_kws={'line_kws':{'color':'red'}, 'scatter_kws': {'alpha': 0.2}})
# defino um alpha muito baixo devido ao grande número de pontos, para limitar o efeito de saturação
plt.show()

#4) Pré-Processamento

In [None]:
df_conv = df[['situacao', 'uf', 'modalidade', 'emenda', 'concedente',
              'nat_juridica',  'inicio', 'valor_global', 'valor_liberado',
              'movimentacao_financeira', 'saldo_conta', 'valor_devolvido',
              'despesa', 'objeto']]
df_conv.head()

In [None]:
print(df_conv.shape)

In [None]:
df_conv['situacao'].unique()

In [None]:
df_conv['despesa'].unique()

In [None]:
# Incluir ano de início do convênio

df_conv['ano'] = df_conv['inicio'].dt.year.astype(float)
df_conv.drop(columns=['inicio'], inplace=True)
df_conv

**4.1) Verificação de ocorrência de dados nulos**

In [None]:
df.isnull().sum()

In [None]:
df['despesa'].unique()

**4.2) Embaralhamento de linhas dos dados com sample**

In [None]:
df_conv_sample = df_conv.sample(frac=1, random_state=42, replace=False)
df_conv_sample

In [None]:
X_sample0 = df_conv_sample[['uf', 'modalidade', 'emenda', 'concedente',
                            'nat_juridica', 'valor_global', 'valor_liberado',
                            'movimentacao_financeira', 'saldo_conta', 
                            'valor_devolvido', 'ano']]
y_sample0 = df_conv_sample.situacao

**4.3) Codificação de variáveis categóricas nominais com Pandas**

In [None]:
print(df_conv_sample.shape)

In [None]:
X_sample = pd.get_dummies(df_conv_sample[['uf', 'modalidade', 'emenda', 'concedente',
                            'nat_juridica', 'valor_global', 'valor_liberado',
                            'movimentacao_financeira', 'saldo_conta', 
                            'valor_devolvido', 'ano']])
y_sample = df_conv_sample.situacao

In [None]:
print(X_sample.shape)
print(y_sample.shape)

In [None]:
# Scatter plot
plt.figure()
plt.scatter(df['position'], df['quatity score'])
plt.gca().invert_xaxis()
plt.show()

In [None]:
print(df_conv_balanced.shape)

In [None]:
X_balanced = pd.get_dummies(df_conv_balanced[['uf', 'modalidade', 'emenda', 'concedente',
                            'nat_juridica', 'valor_global', 'valor_liberado',
                            'movimentacao_financeira', 'saldo_conta', 
                            'valor_devolvido', 'ano']])
y_balanced = df_conv_balanced.situacao

In [None]:
print(df_balanced_token.shape)
print(df_tokens.shape)

In [None]:
df_balanced_token.reset_index()
df_tokens.reset_index()

In [None]:
df_balanced_token = pd.concat([df_balanced_token.reset_index(),df_tokens], axis=1)

In [None]:
df_balanced_token.drop(columns='index', inplace=True)