**Projeto MODELO**


*This notebook contains an inicial example code used to look at datasets given by Modelo dataset*

# Setup

First, let's import a few common modules, ensure MatplotLib plots figures inline and prepare a function to save the figures. We also check that Python 3.5 or later is installed (although Python 2.x may work, it is deprecated so we strongly recommend you use Python 3 instead), as well as Scikit-Learn ≥0.20.

In [1]:
# Python ≥3.5 is required
import sys
assert sys.version_info >= (3, 5)

# Scikit-Learn ≥0.20 is required
import sklearn
assert sklearn.__version__ >= "0.20"

# Common imports
import numpy as np
import os

# To plot pretty figures
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

# Where to save the figures
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "AnaliseExploratoria"
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)
os.makedirs(IMAGES_PATH, exist_ok=True)

def save_fig(fig_id, tight_layout=True, fig_extension="png", resolution=300):
    path = os.path.join(IMAGES_PATH, fig_id + "." + fig_extension)
    print("Saving figure", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

# Get the Data

In [2]:
import os
import tarfile

DATA_PATH = os.path.join("datasets", "Modelo")

def fetch_data(data_path=DATA_PATH):
    if not os.path.isdir(data_path):
        os.makedirs(data_path)
    tgz_path = os.path.join(data_path, "Modelo_2023_Ver01.csv.tar.gz")
    data_tgz = tarfile.open(tgz_path)
    data_tgz.extractall(path=data_path)
    data_tgz.close()
    

In [3]:
fetch_data()

In [4]:
import pandas as pd

def load_data(data_path=DATA_PATH):
    ### The csv was extracted from a tar.gz by function fetch_data() ### main choise
    csv_path = os.path.join(data_path, "Modelo_2023_Ver01.csv")
    return pd.read_csv(csv_path)
    
    ### if we want load from the original xlsx file ### slower than main choise
    #xlsx_path = os.path.join(data_path, "ModBD_2021_Ver01.xlsx")
    #wb = pd.read_excel(xlsx_path)
    #return wb     
    ### if we want generate a csv from the original xlsx file ### 
    #df = pd.DataFrame(wb)
    #csv_path = os.path.join(data_path, "ModBD_2021_Ver01.csv")
    #df.to_csv(csv_path,sep=',',index=False, encoding='utf-8')
   


## Take a Quick Look at the Data Structure

In [5]:
ModBD = load_data()
ModBD.head()

Unnamed: 0,NOMEEMPRESA,PORTE,MEI,CNPJ,DS_LOGRADOURO,DS_NUMERO,DS_COMPLEMENTO,NO_BAIRRO,NR_CEP,NO_MUNICIPIO,DS_ATIVIDADE
0,NAME00000001,ME,S,36408656000100,RUA PIRACICABA,65,,JARDIM MARILANDIA,29111480.0,VILA VELHA,COMÉRCIO VAREJISTA DE FERRAGENS E FERRAMENTAS
1,NAME00000002,ME,,36408656000200,RUA EXPEDICIONARIO OSWALDO SAUDINO,149,ANDAR: 2°; BOX: 60,SANTA TEREZINHA II,29240000.0,ALFREDO CHAVES,REPRESENTANTES COMERCIAIS E AGENTES DO COMÉRCI...
2,NAME00000003,ME,,36408656000300,RUA DR. ARLINDO SODRE,832,,CENTRO,29930000.0,SÃO MATEUS,COMÉRCIO VAREJISTA DE TECIDOS
3,NAME00000004,ME,,36408656000400,RUA PINHEIRO,36,QUADRA B8,NOVA VALVERDE,29156970.0,CARIACICA,COMÉRCIO VAREJISTA DE MATERIAIS DE CONSTRUÇÃO ...
4,NAME00000005,ME,,36408656000500,RUA JERUZALEM,14,CX 3,CAMPO GRANDE,29146390.0,CARIACICA,COMÉRCIO ATACADISTA ESPECIALIZADO EM OUTROS PR...


In [6]:
print(ModBD.shape)

(10000, 11)


In [7]:
ModBD.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   NOMEEMPRESA     10000 non-null  object 
 1   PORTE           10000 non-null  object 
 2   MEI             3434 non-null   object 
 3   CNPJ            10000 non-null  int64  
 4   DS_LOGRADOURO   10000 non-null  object 
 5   DS_NUMERO       9911 non-null   object 
 6   DS_COMPLEMENTO  5088 non-null   object 
 7   NO_BAIRRO       9987 non-null   object 
 8   NR_CEP          9934 non-null   float64
 9   NO_MUNICIPIO    10000 non-null  object 
 10  DS_ATIVIDADE    10000 non-null  object 
dtypes: float64(1), int64(1), object(9)
memory usage: 859.5+ KB


In [8]:
ModBD["CNPJ"] = ModBD["CNPJ"].astype(str)
ModBD["NR_CEP"] = ModBD["NR_CEP"].astype(str)

In [9]:
ModBD.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   NOMEEMPRESA     10000 non-null  object
 1   PORTE           10000 non-null  object
 2   MEI             3434 non-null   object
 3   CNPJ            10000 non-null  object
 4   DS_LOGRADOURO   10000 non-null  object
 5   DS_NUMERO       9911 non-null   object
 6   DS_COMPLEMENTO  5088 non-null   object
 7   NO_BAIRRO       9987 non-null   object
 8   NR_CEP          10000 non-null  object
 9   NO_MUNICIPIO    10000 non-null  object
 10  DS_ATIVIDADE    10000 non-null  object
dtypes: object(11)
memory usage: 859.5+ KB


In [10]:
#Contando dados ausentes
num_rows = ModBD.shape[0]
num_missing = num_rows - ModBD.count()
print(num_missing)
print("\nTotal de valore ausentes nos dados:")
print(np.count_nonzero(ModBD.isnull()))

NOMEEMPRESA          0
PORTE                0
MEI               6566
CNPJ                 0
DS_LOGRADOURO        0
DS_NUMERO           89
DS_COMPLEMENTO    4912
NO_BAIRRO           13
NR_CEP               0
NO_MUNICIPIO         0
DS_ATIVIDADE         0
dtype: int64

Total de valore ausentes nos dados:
11580


# Encontro de 24/03/2023

## Preparação

### Pergunta (1): Quero abrir uma atividade *x*, qual a localidade *y* mais promissora?

### Pergunta (2): Quero abrir uma atividade na localidade *y*, qual a atividade *x* mais promissora?

Considerando que o propósito original da implantação do conceito de MEI foi formalizar profissionais informais.
Considerando que atualmente o propósito formal foi desvirtuado pelo mercado que, ao invés de assinar a carteira do trabalhador, prefere contratá-lo como MEI. Ou seja, um profissional que sempre foi formalizado, torna-se MEI por imposição do mercado (mais barato para o contratante, menos benefícios para o contratado):
### Pergunta (3): Quero identificar MEIs que não atendem ao propósito original.


#### Outras perguntas motivadoras: 
- Vale a pena construir padaria? Onde?
- Montar fornecedor? Onde? Fornecedor de quê?
- Atividades mais relevantes de uma região? Porque é mais relevante?
- Porque mais pousadas em uma região?
- Porque muitas lojas de móveis em Marechal Campos?
- Por exemplo, novo hospital perto da Ceasa São Mateus. Posso mostrar potencial para empreendedor?
- Oportunidades para negócios?

## Dicussão

O que aconteceu com um MEI após aberto. MEI abriu e fechou. Por quê?

### Distribuição de atividades por bairro. Caracterizar bairros. Ver perfil de bairros em função das atividades (quantidade, densidade, proporcionalidade)
Hierárquia de atividades.

## Encaminhamentos

(1) Fazer a disctribuição de atividades por bairro.

(2) Criar classes de atividades (agrupar correlatas) diminuir quantidade de atividades

(3) Agrupamento, bairros similares

(4) Características sócio-econômicas de bairros


In [12]:
# Enviar para arquivo csv
counts = ModBD["DS_ATIVIDADE"].value_counts()
print(counts)
counts_path = os.path.join(DATA_PATH, "Atividades.csv")
print(counts_path)
counts.to_csv(counts_path, index=True, header=True, index_label = "DS_ATIVIDADE")

COMÉRCIO VAREJISTA DE ARTIGOS DO VESTUÁRIO E ACESSÓRIOS                                                                         691
COMÉRCIO VAREJISTA DE MERCADORIAS EM GERAL, COM PREDOMINÂNCIA DE PRODUTOS ALIMENTÍCIOS - MINIMERCADOS, MERCEARIAS E ARMAZÉNS    399
LANCHONETES, CASAS DE CHÁ, DE SUCOS E SIMILARES                                                                                 318
RESTAURANTES E SIMILARES                                                                                                        317
COMÉRCIO VAREJISTA DE MATERIAIS DE CONSTRUÇÃO EM GERAL                                                                          302
                                                                                                                               ... 
PRODUÇÃO DE ARTEFATOS ESTAMPADOS DE METAL                                                                                         1
COMÉRCIO ATACADISTA DE LIVROS, JORNAIS E OUTRAS PUBLICAÇÕES                 

In [None]:
Ativ_Bairro = ModBD[["NO_MUNICIPIO","NO_BAIRRO","DS_ATIVIDADE"]]


### Somatorio das atividades em um bairro de um municipio
# parameter <as_index=False> change the result of groupby from series (array) to dataframe (matrix)
Group_Ativ_Bairro_SUM = Ativ_Bairro.groupby(["NO_MUNICIPIO","NO_BAIRRO"],as_index=False)["DS_ATIVIDADE"].nunique()
# Enviar para arquivo csv
Ativ_Bairro_SUM_path = os.path.join(DATA_PATH, "Atividade_por_Bairro_Somatorio.csv")
Group_Ativ_Bairro_SUM.to_csv(Ativ_Bairro_SUM_path, index=True, header=True)

### Somatorio de cada atividade em um bairro de um municipio
Group_Ativ_Bairro = Ativ_Bairro.groupby(["NO_MUNICIPIO","NO_BAIRRO"],as_index=False)["DS_ATIVIDADE"].value_counts()
Ativ_Bairro_path = os.path.join(DATA_PATH, "Atividade_por_Bairro.csv")
Group_Ativ_Bairro.to_csv(Ativ_Bairro_path, index=True, header=True)#, index_label = ["NO_MUNICIPIO","NO_BAIRRO"])
#print(type(ModBD))
#print(ModBD.shape)
#print(type(Group_Ativ_Bairro))
#print(Group_Ativ_Bairro.shape)
#print(Group_Ativ_Bairro.index)
#print(Group_Ativ_Bairro.values)
#print(type(Group_Ativ_Bairro["NO_MUNICIPIO"]))
#print(Group_Ativ_Bairro)
#print(Group_Ativ_Bairro["NO_MUNICIPIO"])
#print(Ativ_Bairro_path)

# Fazendo conteudo linhas como index
Group_Ativ_Bairro_pivot = Group_Ativ_Bairro.pivot(index = ["NO_MUNICIPIO","NO_BAIRRO"] , columns="DS_ATIVIDADE", values="count")
print(Group_Ativ_Bairro_pivot)
Ativ_Bairro_pivot_path = os.path.join(DATA_PATH, "Atividade_por_Bairro_pivot.csv")
Group_Ativ_Bairro_pivot.to_csv(Ativ_Bairro_pivot_path, index=True, header=True)#, index_label = ["NO_MUNICIPIO","NO_BAIRRO"])

# Encontro de 30/03/2023


## Preparação


# Encaminhamentos em aberto

(1) Fazer a distribuição de atividades por bairro.
Apresentar arquivos 'csv'

(2) Criar classes de atividades (agrupar correlatas) diminuir quantidade de atividades
Não realizado.
Base de dados precisa ser normalizada, ou seja, verificar e alterar nomes de atividades definidas com strings diferentes (por exemplo, maiuscula/miniscula ou com/sem acentuação, etc)

(3) Agrupamento, bairros similares
Não realizado.
Base de dados precisa ser normalizada, ou seja, verificar e alterar nomes de atividades definidas com strings diferentes (por exemplo, maiuscula/miniscula ou com/sem acentuação, etc)

(4) Características sócio-econômicas de bairrosNão realizado.
Não realizado.
Preciso fazer busca internet.


 

## Dicussão

Após apresentação dos arquivos 'csv' foi notada e necessidade de normalizar a base. Usar distancia de strings para ientificar equivalências.

## Encaminhamentos

### Novos
(1) Normalizar base.

### Antigos

(1) Criar classes de atividades (agrupar correlatas) diminuir quantidade de atividades

(2) Agrupamento, bairros similares

(3) Características sócio-econômicas de bairros


