### Imports

In [1]:
import pandas as pd
import numpy as np
from nltk.tokenize import sent_tokenize , word_tokenize
import matplotlib.pyplot as plt


%matplotlib inline

<h1>Carregando Dados</h1>
<p>Dados de hospedagens cadastradas pelo ministerio do turismo</p>

In [2]:
##Carregando dados
hospedagens_trimestre01 = pd.read_csv('Datasets/MeiodeHospedagem201601TrimestreCadasturPJ.csv',encoding='latin-1',sep=';')
hospedagens_trimestre02 = pd.read_csv('Datasets/MeiodeHospedagem201602TrimestreCadasturPJ.csv',encoding='latin-1',sep=';')
hospedagens_trimestre03 = pd.read_csv('Datasets/MeiodeHospedagem201603TrimestreCadasturPJ.csv',encoding='latin-1',sep=';')
hospedagens_trimestre04 = pd.read_csv('Datasets/MeiodeHospedagem201604TrimestreCadasturPJ.csv',encoding='latin-1',sep=';')

In [3]:
## Colunas dos Dados
print(hospedagens_trimestre01.columns)
print(hospedagens_trimestre02.columns)
print(hospedagens_trimestre03.columns)
print(hospedagens_trimestre04.columns)

Index(['RAZÃO SOCIAL', 'NOME FANTASIA', 'CNPJ', 'NATUREZA JURIDICA',
       'DATA INICIO OPERAÇÃO', 'PORTE', 'SITUAÇÃO', 'TIPO ATIVIDADE',
       'SUBTIPO ATIVIDADE', 'CEP', 'UF', 'LOCALIDADE', 'BAIRRO', 'LOGRADOURO',
       'TELEFONE', 'FAX', 'E-MAIL2', 'E-MAIL3', 'SITE',
       'DATA GERAÇÃO CERTIFICADO', 'DATA VALIDADE CERTIFICADO',
       'CÓDIGO CERTIFICADO', 'CÓDIGO E DESCRIÇÃO CNAE', 'UH', 'UHs ACESSÍVEIS',
       'UHs PARA CAO GUIA', 'UHs TPS', 'TOTAL DE LEITOS', 'LINGUAS',
       'SEGMENTOS TURISTICOS', 'SERVIÇOS', 'EQUIPAMENTOS'],
      dtype='object')
Index(['RAZÃO SOCIAL', 'NOME FANTASIA', 'CNPJ', 'NATUREZA JURIDICA',
       'DATA INICIO OPERAÇÃO', 'PORTE', 'SITUAÇÃO', 'TIPO ATIVIDADE',
       'SUBTIPO ATIVIDADE', 'CEP', 'UF', 'LOCALIDADE', 'BAIRRO', 'LOGRADOURO',
       'TELEFONE', 'FAX', 'E-MAIL2', 'E-MAIL3', 'SITE',
       'DATA GERAÇÃO CERTIFICADO', 'DATA VALIDADE CERTIFICADO',
       'CÓDIGO CERTIFICADO', 'CÓDIGO E DESCRIÇÃO CNAE', 'UH', 'UHs ACESSÍVEIS',
       'UHs P

## Função Análise de Hospedagens
<p>Esta função <strong>análisa/filtra</strong> os dados oriundos dos CSV's,dentro da pasta <strong>Datasets</strong>, correspondentes dos <strong>meios de hospedagens</strong></p>

In [4]:
def AnaliseDadosHospedagens(dataFrame_Hospedagens):
    ##Escolhendo colunas
    dados = pd.DataFrame(dataFrame_Hospedagens,columns = ['UF','NOME FANTASIA','SITUAÇÃO', 'LINGUAS']) 

    ## Hospedagens que estão funcionando
    dados = dados[dados.SITUAÇÃO.str.contains('Em Operação')]

    ## Eliminando dados inválidos
    dados = dados.dropna()
    
    ## Pegando todos os idiomas oferecidos pelas hospedagens deixando de lado aqueles que não tem nenhum idioma
    allIdiomas = []
    for valor in dados.LINGUAS:
        valor_tokenize = word_tokenize(valor)
        for palavra in valor_tokenize:
            if (len(palavra) > 4) and (palavra != 'Nenhuma') and (palavra != 'Opções'):
                allIdiomas.append(palavra)

    linguas = []
    for idioma in allIdiomas:
        if idioma not in linguas:
            linguas.append(idioma)
    # Idiomas oferecidos pelas hospedagens
    print(linguas)

    # Adcionando Novas colunas
    for lingua in linguas:
        dados[lingua] = 0
    
    # Adicionando valores as coluncas de idiomas oferecidos
    for lingua in linguas:
        dados.loc[dados['LINGUAS'].str.contains(lingua),lingua] = 1
    
    return dados

## 1 Trimestre
<p>Análise dos <strong>dados</strong> das hospedagens nos meses de <strong>Janeiro</strong>,<strong>Fevereiro</strong> e <strong>Março</strong><p>

In [5]:
dadosHospedagens_Trimestre01 = AnaliseDadosHospedagens(hospedagens_trimestre01)
dadosHospedagens_Trimestre01.head()

['Francês', 'Inglês', 'Italiano', 'Espanhol', 'Alemão', 'Japonês', 'Hebraico', 'Russo', 'Mandarim']


Unnamed: 0,UF,NOME FANTASIA,SITUAÇÃO,LINGUAS,Francês,Inglês,Italiano,Espanhol,Alemão,Japonês,Hebraico,Russo,Mandarim
0,MA,POUSADA CAJUEIRO ATINS,Em Operação,"(""Francês,Inglês,Italiano"")",1,1,1,0,0,0,0,0,0
1,RS,SITIO AGUA DA RAINHA,Em Operação,"(""Nenhuma das Opções"")",0,0,0,0,0,0,0,0,0
2,SP,2.0 HOTEIS ARAÇATUBA LTDA.,Em Operação,"(""Inglês,Espanhol"")",0,1,0,1,0,0,0,0,0
3,SP,2.0 HOTEIS ARARAQUARA LTDA,Em Operação,"(""Inglês,Espanhol"")",0,1,0,1,0,0,0,0,0
4,SP,2.0 HOTEIS BAURU LTDA,Em Operação,"(""Inglês,Espanhol"")",0,1,0,1,0,0,0,0,0


## 2 Trimestre
<p>Análise dos <strong>dados</strong> das hospedagens nos meses de <strong>Abril</strong>,<strong>Maio</strong> e <strong>Junho</strong><p>

In [6]:
dadosHospedagens_Trimestre02 = AnaliseDadosHospedagens(hospedagens_trimestre02)
dadosHospedagens_Trimestre02.head()

['Francês', 'Inglês', 'Italiano', 'Espanhol', 'Alemão', 'Japonês', 'Hebraico', 'Russo', 'Mandarim']


Unnamed: 0,UF,NOME FANTASIA,SITUAÇÃO,LINGUAS,Francês,Inglês,Italiano,Espanhol,Alemão,Japonês,Hebraico,Russo,Mandarim
0,MA,POUSADA CAJUEIRO ATINS,Em Operação,"(""Francês,Inglês,Italiano"")",1,1,1,0,0,0,0,0,0
1,RS,SITIO AGUA DA RAINHA,Em Operação,"(""Nenhuma das Opções"")",0,0,0,0,0,0,0,0,0
2,SP,2.0 HOTEIS ARAÇATUBA LTDA.,Em Operação,"(""Inglês,Espanhol"")",0,1,0,1,0,0,0,0,0
3,SP,2.0 HOTEIS ARARAQUARA LTDA,Em Operação,"(""Inglês,Espanhol"")",0,1,0,1,0,0,0,0,0
4,SP,2.0 HOTEIS BAURU LTDA,Em Operação,"(""Inglês,Espanhol"")",0,1,0,1,0,0,0,0,0


## 3 Trimestre
<p>Análise dos <strong>dados</strong> das hospedagens nos meses de <strong>Julho</strong>,<strong>Agosto</strong> e <strong>Setembro</strong><p>

In [7]:
dadosHospedagens_Trimestre03 = AnaliseDadosHospedagens(hospedagens_trimestre03)
dadosHospedagens_Trimestre03.head()

['Italiano', 'Francês', 'Inglês', 'Espanhol', 'Alemão', 'Japonês', 'Hebraico', 'Russo', 'Mandarim', 'Eslovaco']


Unnamed: 0,UF,NOME FANTASIA,SITUAÇÃO,LINGUAS,Italiano,Francês,Inglês,Espanhol,Alemão,Japonês,Hebraico,Russo,Mandarim,Eslovaco
0,MA,POUSADA CAJUEIRO ATINS,Em Operação,"Italiano ,Francês ,Inglês",1,1,1,0,0,0,0,0,0,0
1,SP,2.0 HOTEIS ARAÇATUBA LTDA.,Em Operação,"Espanhol ,Inglês",0,0,1,1,0,0,0,0,0,0
2,SP,2.0 HOTEIS ARARAQUARA LTDA,Em Operação,"Espanhol ,Inglês",0,0,1,1,0,0,0,0,0,0
3,SP,2.0 HOTEIS BAURU LTDA,Em Operação,"Espanhol ,Inglês",0,0,1,1,0,0,0,0,0,0
4,SP,2.0 HOTEIS BIRIGUI LTDA,Em Operação,Nenhuma das Opções,0,0,0,0,0,0,0,0,0,0


## 4 Trimestre
<p>Análise dos <strong>dados</strong> das hospedagens nos meses de <strong>Outubro</strong>,<strong>Novembro</strong> e <strong>Dezembro</strong><p>

In [8]:
dadosHospedagens_Trimestre04 = AnaliseDadosHospedagens(hospedagens_trimestre04)
dadosHospedagens_Trimestre04.head()

['Italiano', 'Francês', 'Inglês', 'Espanhol', 'Alemão', 'Japonês', 'Hebraico', 'Russo', 'Mandarim', 'Eslovaco', 'Catalão']


Unnamed: 0,UF,NOME FANTASIA,SITUAÇÃO,LINGUAS,Italiano,Francês,Inglês,Espanhol,Alemão,Japonês,Hebraico,Russo,Mandarim,Eslovaco,Catalão
0,MA,POUSADA CAJUEIRO ATINS,Em Operação,"Italiano ,Francês ,Inglês",1,1,1,0,0,0,0,0,0,0,0
1,SP,2.0 HOTEIS ARAÇATUBA LTDA.,Em Operação,"Espanhol ,Inglês",0,0,1,1,0,0,0,0,0,0,0
2,SP,2.0 HOTEIS ARARAQUARA LTDA,Em Operação,"Espanhol ,Inglês",0,0,1,1,0,0,0,0,0,0,0
3,SP,2.0 HOTEIS BAURU LTDA,Em Operação,"Espanhol ,Inglês",0,0,1,1,0,0,0,0,0,0,0
4,SP,2.0 HOTEIS BIRIGUI LTDA,Em Operação,Nenhuma das Opções,0,0,0,0,0,0,0,0,0,0,0


# Funções - Regiões
<p><strong>Filtrando</strong> os dados por <strong>região</strong></p>

### Região Norte

In [9]:
def RegiaoNorte(data_frame):
    # Lista de estados da região norte
    regiaoNorte = ['AM','RR','AP','PA','TO','RO','AC']  
    
    dadosNorte = data_frame[data_frame.UF.isin(regiaoNorte)]
   
    return dadosNorte

### Região Nordeste

In [10]:
def RegiaoNordeste(data_frame):
    # Lista de estados da região nordeste
    regiaoNordeste = ['MA','PI','CE','RN','PE','PB','SE','AL','BA']  
    
    dadosNordeste = data_frame[data_frame.UF.isin(regiaoNordeste)]
   
    return dadosNorte

### Região Sul

In [11]:
def RegiaoSul(data_frame):
    # Lista de estados da região Sul
    regiaoSul = ['PR','RS','SC']  
    
    dadosSul = data_frame[data_frame.UF.isin(regiaoSul)]
   
    return dadosSul

### Região Sudeste

In [12]:
def RegiaoSudeste(data_frame):
    # Lista de estados da região sudeste
    regiaoSudeste = ['SP','RJ','ES','MG']  
    
    dadosSudeste = data_frame[data_frame.UF.isin(regiaoSudeste)]
   
    return dadosSudeste

### Região Centro-Oeste

In [13]:
def RegiaoCentroOeste(data_frame):
    # Lista de estados por região centro-oeste
    regiaoCentroOeste = ['MT','MS','GO','DF']
    
    dadosCentroOeste = data_frame[data_frame.UF.isin(regiaoCentroOeste)]
    
    return dadosCentroOeste

# Função - Estados

### EstadoUF
<p>Função que <strong>filtra</strong> os dados para um dataframe, que contem dados de<strong> um estado</strong></p>

In [14]:
def EstadoUF(data_Frame,UF):
    dadosEstado = data_Frame[data_Frame.UF == UF]
    return dadosEstado

<p>Exemplo da função <strong>EstadoUF</strong>, mostrando os dados de <strong>Pernambuco</strong> do <strong>1 trimestre</strong></p>

In [15]:
# Exemplo da função EstadoUF - com estado de pernambuco - trimestre 1
dadosPE_trimestre1 = EstadoUF(dadosHospedagens_Trimestre01,'PE')
dadosPE_trimestre1.head()

Unnamed: 0,UF,NOME FANTASIA,SITUAÇÃO,LINGUAS,Francês,Inglês,Italiano,Espanhol,Alemão,Japonês,Hebraico,Russo,Mandarim
21,PE,POUSADA TABAPITANGA,Em Operação,(Inglês),0,1,0,0,0,0,0,0,0
145,PE,POUSADA MAR ABERTO,Em Operação,"(""Inglês,Italiano,Espanhol"")",0,1,1,1,0,0,0,0,0
157,PE,COURTYARD BY MARRIOTT RECIFE BOA VIAGEM,Em Operação,"(""Inglês,Espanhol"")",0,1,0,1,0,0,0,0,0
173,PE,POUSADA VILA MARINHA,Em Operação,(Inglês),0,1,0,0,0,0,0,0,0
196,PE,POUSADA TOPASIO,Em Operação,"(""Nenhuma das Opções"")",0,0,0,0,0,0,0,0,0


### ListaDadosEstados
<p>Função que <strong>filtra</strong> os dados para uma <strong>lista de dataframes</strong>, cada df contem dados de <strong> um estado</strong></p>

In [16]:
def ListaDadosEstados(data_frame):
    # lista de UF do data_frame
    Estados = []
    for estado in data_frame.UF:
        if estado not in Estados:
            Estados.append(estado)
    
    # Ordem alfabetica
    Estados.sort()
    
    # Lista de dataframes, cada df represnta os dados de um estado
    dadosEstados = []
    for uf in Estados:
        dados = data_frame[data_frame.UF == uf]
        dadosEstados.append(dados)
        
    return dadosEstados

<p>Exemplo da função <strong>ListaDadosEstados</strong>, mostrando os dados de <strong>Pernambuco</strong> do <strong>1 trimestre</strong></p>

In [23]:
listaDados_trimestre1 = ListaDadosEstados(dadosHospedagens_Trimestre01)
# codigo 15 - index de Pernamubco
dadosPE_trimestre1 = listaDados_trimestre1[15]
dadosPE_trimestre1.head()

Unnamed: 0,UF,NOME FANTASIA,SITUAÇÃO,LINGUAS,Francês,Inglês,Italiano,Espanhol,Alemão,Japonês,Hebraico,Russo,Mandarim
21,PE,POUSADA TABAPITANGA,Em Operação,(Inglês),0,1,0,0,0,0,0,0,0
145,PE,POUSADA MAR ABERTO,Em Operação,"(""Inglês,Italiano,Espanhol"")",0,1,1,1,0,0,0,0,0
157,PE,COURTYARD BY MARRIOTT RECIFE BOA VIAGEM,Em Operação,"(""Inglês,Espanhol"")",0,1,0,1,0,0,0,0,0
173,PE,POUSADA VILA MARINHA,Em Operação,(Inglês),0,1,0,0,0,0,0,0,0
196,PE,POUSADA TOPASIO,Em Operação,"(""Nenhuma das Opções"")",0,0,0,0,0,0,0,0,0


### Função Contador
<p>Funções <strong>Contador</strong> retornam dicionarios com a <strong>quantidade de hospedagens</strong> que <strong>oferecem x idioma</strong></p>

In [63]:
#1/2 trimestre ['Francês', 'Inglês', 'Italiano', 'Espanhol', 'Alemão', 'Japonês', 'Hebraico', 'Russo', 'Mandarim']
#3 trimestre ['Italiano', 'Francês', 'Inglês', 'Espanhol', 'Alemão', 'Japonês', 'Hebraico', 'Russo', 'Mandarim', 'Eslovaco']
#4 trimestre ['Italiano', 'Francês', 'Inglês', 'Espanhol', 'Alemão', 'Japonês', 'Hebraico', 'Russo', 'Mandarim', 'Eslovaco', 'Catalão']

# função 1/2 trimestre
def contador12(data_frame):
    linguas_1_2 = ['Francês', 'Inglês', 'Italiano', 'Espanhol', 'Alemão', 'Japonês', 'Hebraico', 'Russo', 'Mandarim'] 
    dicionario = {} 
    for lingua in linguas:
        qtd = data_frame[lingua].sum()
        dicionario[lingua] = qtd
    return dicionario

def contador3(data_frame):
    linguas = ['Italiano', 'Francês', 'Inglês', 'Espanhol', 'Alemão', 'Japonês', 'Hebraico', 'Russo', 'Mandarim', 'Eslovaco'] 
    dicionario = {} 
    for lingua in linguas:
        qtd = data_frame[lingua].sum()
        dicionario[lingua] = qtd
    return dicionario

def contador4(data_frame):
    linguas = ['Italiano', 'Francês', 'Inglês', 'Espanhol', 'Alemão', 'Japonês', 'Hebraico', 'Russo', 'Mandarim', 'Eslovaco', 'Catalão']
    dicionario = {} 
    for lingua in linguas:
        qtd = data_frame[lingua].sum()
        dicionario[lingua] = qtd
    return dicionario

### Exemplo- Dados de Pernambuco

In [64]:
print('Dados PE 1 Trimestre ',contador12(dadosPE_trimestre1),'\n')
print('Dados PE 2 Trimestre ',contador12(EstadoUF(dadosHospedagens_Trimestre02,'PE')),'\n')
print('Dados PE 3 Trimestre ',contador3(EstadoUF(dadosHospedagens_Trimestre03,'PE')),'\n')
print('Dados PE 4 Trimestre',contador4(EstadoUF(dadosHospedagens_Trimestre04,'PE')),'\n')

Dados PE 1 Trimestre  {'Francês': 32, 'Inglês': 160, 'Italiano': 25, 'Espanhol': 113, 'Alemão': 20, 'Japonês': 2, 'Hebraico': 0, 'Russo': 1, 'Mandarim': 0} 

Dados PE 2 Trimestre  {'Francês': 31, 'Inglês': 160, 'Italiano': 25, 'Espanhol': 114, 'Alemão': 20, 'Japonês': 2, 'Hebraico': 0, 'Russo': 1, 'Mandarim': 0} 

Dados PE 3 Trimestre  {'Italiano': 26, 'Francês': 31, 'Inglês': 168, 'Espanhol': 118, 'Alemão': 19, 'Japonês': 2, 'Hebraico': 0, 'Russo': 2, 'Mandarim': 0, 'Eslovaco': 0} 

Dados PE 4 Trimestre {'Italiano': 25, 'Francês': 28, 'Inglês': 175, 'Espanhol': 129, 'Alemão': 18, 'Japonês': 2, 'Hebraico': 0, 'Russo': 2, 'Mandarim': 0, 'Eslovaco': 0, 'Catalão': 0} 



In [65]:
df = pd.DataFrame([qtd_HosLin12(dadosPE_trimestre1),
                   qtd_HosLin12(EstadoUF(dadosHospedagens_Trimestre02,'PE')),
                   qtd_HosLin3(EstadoUF(dadosHospedagens_Trimestre03,'PE')),
                   qtd_HosLin4(EstadoUF(dadosHospedagens_Trimestre04,'PE'))
                  ])
df.rename(index={0:'1 Trimestre',1:'2 Trimestre', 2:'3 Trimestre',3:'4 Trimestre'},inplace=True)
df

Unnamed: 0,Alemão,Catalão,Eslovaco,Espanhol,Francês,Hebraico,Inglês,Italiano,Japonês,Mandarim,Russo
1 Trimestre,20,,,113,32,0,160,25,2,0,1
2 Trimestre,20,,,114,31,0,160,25,2,0,1
3 Trimestre,19,,0.0,118,31,0,168,26,2,0,2
4 Trimestre,18,0.0,0.0,129,28,0,175,25,2,0,2
