In [2]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt
from sklearn.utils import resample


# Substitua 'nome_do_arquivo.xlsx' pelo nome do seu arquivo XLSX
caminho_arquivo_xlsx = 'Resposta_Questionário_TCC.xlsx'

# Use a função read_excel do pandas para ler o arquivo XLSX
dados_xlsx = pd.read_excel(caminho_arquivo_xlsx)

# Especifique o nome ou o índice da planilha que você deseja ler
nomes_planilhas = ['PRIMEIRO_ANO', 'SEGUNDO_ANO', 'TERCEIRO_ANO', 'QUARTO_ANO']  

# Use a função read_excel do pandas para ler as planilhas específicas
dados_planilhas = pd.read_excel(caminho_arquivo_xlsx, sheet_name=nomes_planilhas)

# Salvar cada DataFrame como um arquivo CSV e visualizar
for nome_planilha, dados_planilha in dados_planilhas.items():
    nome_arquivo_csv = f'{nome_planilha}.csv'
    dados_planilha.to_csv(nome_arquivo_csv, index=False)
    print(f"DataFrame da planilha '{nome_planilha}' salvo como '{nome_arquivo_csv}'")

    # Ler o arquivo CSV recém-salvo e exibir as primeiras linhas do DataFrame
    dados_csv = pd.read_csv(nome_arquivo_csv)
    print(f"\nConteúdo das primeiras linhas do arquivo '{nome_arquivo_csv}':\n")
    print(dados_csv.head())

DataFrame da planilha 'PRIMEIRO_ANO' salvo como 'PRIMEIRO_ANO.csv'

Conteúdo das primeiras linhas do arquivo 'PRIMEIRO_ANO.csv':

   LOCALIDADE     CIDADE MOTIVO FALTA DE INTERNET PRIMEIRO TRIMESTRE  \
0      Cidade        Ubá                   Falta de energia no local   
1      Cidade  Rio Pomba                Cabo de internet arrebentado   
2      Cidade        Ubá                     Roteador desconfigurado   
3  Área Rural  Rio Pomba                     Roteador desconfigurado   
4      Cidade  Rio Pomba                   Falta de energia no local   

  MOTIVO FALTA DE INTERNET SEGUNDO TRIMESTRE  \
0                    Roteador desconfigurado   
1                    Roteador desconfigurado   
2               Cabo de internet arrebentado   
3                    Roteador desconfigurado   
4                    Roteador desconfigurado   

  MOTIVO FALTA DE INTERNET TERCEIRO TRIMESTRE  \
0           Falta de pagamento da mensalidade   
1                   Falta de energia no local   
2

REALIZANDO O TRATAMENTO DOS DADOS DO DATAFRAME:

1 - VERIFICANDO OS ELEMENTOS FALTANTES      
2 - TRANSFORMAÇÕES DE VARIAVEIS CATEGÓRICAS     
3 - NORMALIZAÇÃO DE DADOS

1 - VERIFICANDO OS ELEMENTOS FALTANTES

In [3]:
# Dicionário para armazenar os DataFrames de cada planilha
dados_planilhas_ausentes = {}

# Iterar sobre os DataFrames de cada planilha
for nome_planilha, dados_planilha in dados_planilhas.items():
    # Verificar valores ausentes por coluna
    valores_ausentes = dados_planilha.isnull().sum()
    
    # Armazenar os valores ausentes em um dicionário
    dados_planilhas_ausentes[nome_planilha] = valores_ausentes

# Exibir os valores ausentes para cada planilha
for nome_planilha, valores_ausentes in dados_planilhas_ausentes.items():
    print(f"\nValores ausentes na planilha '{nome_planilha}':")
    print(valores_ausentes)


Valores ausentes na planilha 'PRIMEIRO_ANO':
LOCALIDADE                                               0
CIDADE                                                   0
MOTIVO FALTA DE INTERNET PRIMEIRO TRIMESTRE              0
MOTIVO FALTA DE INTERNET SEGUNDO TRIMESTRE               0
MOTIVO FALTA DE INTERNET TERCEIRO TRIMESTRE              0
MOTIVO FALTA DE INTERNET QUARTO TRIMESTRE                0
QUANTIDADE DE SUPORTES PRIMEIRO TRIMESTRE                0
QUANTIDADE DE SUPORTES SEGUNDO TRIMESTRE                 0
QUANTIDADE DE SUPORTES TERCEIRO TRIMESTRE                0
QUANTIDADE DE SUPORTES QUARTO TRIMESTRE                  0
MOTIVO PARA CONTRATAR INTERNET PRIMEIRO TRIMESTRE        0
MOTIVO PARA CONTRATAR INTERNET SEGUNDO TRIMESTRE         0
MOTIVO PARA CONTRATAR INTERNET TERCEIRO TRIMESTRE        0
MOTIVO PARA CONTRATAR INTERNET QUARTO TRIMESTRE          0
QUANTIDADE DE INSTALAÇÕES INTERNET PRIMEIRO TRIMESTRE    0
QUANTIDADE DE INSTALAÇÕES INTERNET SEGUNDO TRIMESTRE     0
QUANTIDADE

2 - TRANSFORMAÇÕES DE VARIÁVEIS CATEGÓRICAS 

In [4]:
# Dicionário para armazenar as variáveis categóricas por planilha
variaveis_categoricas_por_planilha = {}

# Iterar sobre os DataFrames de cada planilha
for nome_planilha, dados_planilha in dados_planilhas.items():
    # Filtrar apenas as colunas que possuem tipos de dados categóricos
    colunas_categoricas = dados_planilha.select_dtypes(include=['object']).columns
    
    # Armazenar as colunas categóricas em um dicionário
    variaveis_categoricas_por_planilha[nome_planilha] = colunas_categoricas

# Exibir as variáveis categóricas para cada planilha
for nome_planilha, variaveis_categoricas in variaveis_categoricas_por_planilha.items():
    print(f"\nVariáveis categóricas na planilha '{nome_planilha}':")
    print(variaveis_categoricas)


# Aplicar codificação one-hot para cada planilha
for nome_planilha, dados_planilha in dados_planilhas.items():
    # Criar dataframes codificados one-hot
    dados_codificados = pd.get_dummies(dados_planilha, columns=variaveis_categoricas_por_planilha[nome_planilha])
    
    # Salvar o DataFrame codificado de volta ao dicionário de dados
    dados_planilhas[nome_planilha] = dados_codificados


# Verificar tipos de dados após a codificação
print("Tipos de dados após a codificação one-hot:")
print(dados_planilhas['PRIMEIRO_ANO'].dtypes)
print(dados_planilhas['SEGUNDO_ANO'].dtypes)
print(dados_planilhas['TERCEIRO_ANO'].dtypes)
print(dados_planilhas['QUARTO_ANO'].dtypes)

# Examinar as primeiras linhas do DataFrame após a codificação
print("\nPrimeiras linhas do DataFrame após a codificação one-hot:")
print(dados_planilhas['PRIMEIRO_ANO'].head())
print(dados_planilhas['SEGUNDO_ANO'].head())
print(dados_planilhas['TERCEIRO_ANO'].head())
print(dados_planilhas['QUARTO_ANO'].head())



Variáveis categóricas na planilha 'PRIMEIRO_ANO':
Index(['LOCALIDADE', 'CIDADE', 'MOTIVO FALTA DE INTERNET PRIMEIRO TRIMESTRE',
       'MOTIVO FALTA DE INTERNET SEGUNDO TRIMESTRE',
       'MOTIVO FALTA DE INTERNET TERCEIRO TRIMESTRE',
       'MOTIVO FALTA DE INTERNET QUARTO TRIMESTRE',
       'MOTIVO PARA CONTRATAR INTERNET PRIMEIRO TRIMESTRE',
       'MOTIVO PARA CONTRATAR INTERNET SEGUNDO TRIMESTRE',
       'MOTIVO PARA CONTRATAR INTERNET TERCEIRO TRIMESTRE',
       'MOTIVO PARA CONTRATAR INTERNET QUARTO TRIMESTRE'],
      dtype='object')

Variáveis categóricas na planilha 'SEGUNDO_ANO':
Index(['LOCALIDADE', 'CIDADE', 'MOTIVO FALTA DE INTERNET PRIMEIRO TRIMESTRE',
       'MOTIVO FALTA DE INTERNET SEGUNDO TRIMESTRE',
       'MOTIVO FALTA DE INTERNET TERCEIRO TRIMESTRE',
       'MOTIVO FALTA DE INTERNET QUARTO TRIMESTRE',
       'MOTIVO PARA CONTRATAR INTERNET PRIMEIRO TRIMESTRE',
       'MOTIVO PARA CONTRATAR INTERNET SEGUNDO TRIMESTRE',
       'MOTIVO PARA CONTRATAR INTERNET TERCEIR

In [5]:
# Converter valores booleanos para 0 ou 1 em todas as planilhas
for nome_planilha, dados_planilha in dados_planilhas.items():
    for coluna in dados_planilha.columns:
        # Verificar se a coluna contém valores booleanos
        if dados_planilha[coluna].dtype == bool:
            # Converter 'True' para 1 e 'False' para 0
            dados_planilha[coluna] = dados_planilha[coluna].astype(int)

3 - NORMALIZAÇÃO DOS DADOS

In [6]:
# Dicionário para armazenar os DataFrames normalizados
dados_planilhas_normalizados = {}

# Iterar sobre os DataFrames de cada planilha
for nome_planilha, dados_planilha in dados_planilhas.items():
    # Selecionar apenas as colunas numéricas para normalização
    colunas_numericas = dados_planilha.select_dtypes(include=['int64', 'float64']).columns.tolist()

    # Normalizar os dados
    scaler = MinMaxScaler()
    dados_normalizados = dados_planilha.copy()
    dados_normalizados[colunas_numericas] = scaler.fit_transform(dados_normalizados[colunas_numericas])
    
    # Adicionar o DataFrame normalizado ao dicionário de DataFrames normalizados
    dados_planilhas_normalizados[nome_planilha] = dados_normalizados

# Exibir as primeiras linhas do DataFrame normalizado de cada planilha
for nome_planilha, dados_normalizados in dados_planilhas_normalizados.items():
    print(f"\nConteúdo das primeiras linhas da planilha '{nome_planilha}' após normalização:\n")
    print(dados_normalizados.head())

# Salvar cada DataFrame normalizado em um novo arquivo CSV
for nome_planilha, dados_normalizados in dados_planilhas_normalizados.items():
    nome_arquivo_csv = f'{nome_planilha}_normalizado.csv'
    dados_normalizados.to_csv(nome_arquivo_csv, index=False)
    print(f"Dados normalizados da planilha '{nome_planilha}' salvos como '{nome_arquivo_csv}'")


Conteúdo das primeiras linhas da planilha 'PRIMEIRO_ANO' após normalização:

   QUANTIDADE DE SUPORTES PRIMEIRO TRIMESTRE  \
0                                        0.0   
1                                        0.5   
2                                        0.5   
3                                        0.0   
4                                        0.0   

   QUANTIDADE DE SUPORTES SEGUNDO TRIMESTRE  \
0                                       0.4   
1                                       0.0   
2                                       0.4   
3                                       0.0   
4                                       0.4   

   QUANTIDADE DE SUPORTES TERCEIRO TRIMESTRE  \
0                                   0.333333   
1                                   1.000000   
2                                   0.333333   
3                                   0.000000   
4                                   0.333333   

   QUANTIDADE DE SUPORTES QUARTO TRIMESTRE  \
0              

4 - GERAÇÃO DE DADOS SINTETICOS ATRAVÉS DA TÉCNICA BOOTSTRAP

In [None]:
# Diretório onde estão localizadas as planilhas normalizadas
diretorio_planilhas = 'Planilhas Normalizadas/'


# Carregando cada planilha separadamente
PRIMEIRO_ANO_normalizado = pd.read_csv(diretorio_planilhas + 'PRIMEIRO_ANO_normalizado.csv')
SEGUNDO_ANO_normalizado = pd.read_csv(diretorio_planilhas + 'SEGUNDO_ANO_normalizado.csv')
TERCEIRO_ANO_normalizado = pd.read_csv(diretorio_planilhas + 'TERCEIRO_ANO_normalizado.csv')
QUARTO_ANO_normalizado = pd.read_csv(diretorio_planilhas + 'QUARTO_ANO_normalizado.csv')


# Definindo o número de amostras bootstrap 
numero_bootstrap_samples = 10

# Bootstrap para a primeira planilha de dados
bootstrapped_primeiro_ano = [resample(PRIMEIRO_ANO_normalizado) for _ in range(numero_bootstrap_samples)]

# Bootstrap para a segunda planilha de dados
bootstrapped_segundo_ano = [resample(SEGUNDO_ANO_normalizado) for _ in range(numero_bootstrap_samples)]

# Bootstrap para a terceira planilha de dados
bootstrapped_terceiro_ano = [resample(TERCEIRO_ANO_normalizado) for _ in range(numero_bootstrap_samples)]

# Bootstrap para a quarta planilha de dados
bootstrapped_quarto_ano = [resample(QUARTO_ANO_normalizado) for _ in range(numero_bootstrap_samples)]


# Salvando as amostras bootstrapped em arquivos CSV

"""for i, bootstrap_sample in enumerate(bootstrapped_primeiro_ano):
    bootstrap_sample.to_csv(f'bootstrap_PRIMEIRO_ANO_sample_{i+1}.csv', index=False)

for i, bootstrap_sample in enumerate(bootstrapped_segundo_ano):
    bootstrap_sample.to_csv(f'bootstrap_SEGUNDO_ANO_sample_{i+1}.csv', index=False)

for i, bootstrap_sample in enumerate(bootstrapped_terceiro_ano):
    bootstrap_sample.to_csv(f'bootstrap_TERCEIRO_ANO_sample_{i+1}.csv', index=False)

for i, bootstrap_sample in enumerate(bootstrapped_quarto_ano):
    bootstrap_sample.to_csv(f'bootstrap_QUARTO_ANO_sample_{i+1}.csv', index=False)"""