In [1]:
import pandas as pd
import json
pd.set_option('display.max_columns', None)

## raw

In [2]:
df = pd.read_csv("dataset/raw.tsv", sep='\t')

# removing dirt
df = df[df.columns[:-4]] 

## data catalog

In [3]:
# Opening JSON file
with open('catalogo.json') as arquivo:
    catalogo = json.load(arquivo)["schema"]

## processing

In [4]:
nomes = dict()

for item in catalogo:
    # creating new boolean columns based on string contains  
    if "apply_contains" in item:
        if "qt" not in item["column"]:
            df.loc[df[item["survey_question"]].str.contains(item["apply_contains"], na=False), item["column"]] = 1
    
    # creating dict for renaming columns
    elif "qt" not in item["column"]:
        nomes |= {item["survey_question"]:item["column"]}

# drop unecessary columns or the ones which is already processed
df.drop('Marque quais metodologias ágeis foram utilizadas no projeto de desenvolvimento da solução de Data Lake na nuvem em sua empresa', axis=1, inplace=True)
df.drop('Houve alteração de escopo no projeto?', axis=1, inplace=True)
df.drop('Quais foram os tipos de dados solicitados para ingestão?', axis=1, inplace=True)
df.drop('Indique abaixo quais foram as principais falhas que ocorreram no desenvolvimento da solução de Data Lake na nuvem em sua empresa', axis=1, inplace=True)
df.drop('Comentários', axis=1, inplace=True)
df.drop('Qual é o tamanho aproximado do projeto em armazenamento? (Ex resposta: 130GB)',   axis=1, inplace=True)
df.drop('Houve ingestão de streaming de dados?', axis=1, inplace=True)
df.drop('Se você respondeu SIM para a questão anterior, por gentileza, indique abaixo quais alterações ocorreram no escopo do projeto.', axis=1, inplace=True)
df.drop('Carimbo de data/hora', axis=1, inplace=True)

# saying again... renaming
nomes |= {'Projetos de big data possuem 3 desafios principais: Volume, Velocidade, Variedade. Para demonstrar que você está respondendo esse questionário com atenção, por favor, selecione apenas a opção “Velocidade” dentre as opções abaixo: ':'teste_atencao'}
nomes |= {'A empresa que você trabalha está ou esteve envolvida em um projeto para desenvolver uma solução de DATA LAKE?':'trabalhou_com_dl'}
df = df.rename(columns=nomes)

  df.loc[df[item["survey_question"]].str.contains(item["apply_contains"], na=False), item["column"]] = 1


In [5]:
df.loc[df['maior_desafio'].str.contains('Segurança', na=False),'maior_desafio'] = 'Variedade'
df.loc[df['maior_desafio'].str.contains('Complexidade', na=False),'maior_desafio'] = 'Velocidade'
df.loc[df['maior_desafio'].str.contains('Disponibilidade', na=False),'maior_desafio'] = 'Velocidade'
df.loc[df['maior_desafio'].str.contains('Recorrência', na=False),'maior_desafio'] = 'Velocidade'

#### simplifying values

In [6]:
## Cloud provider
df.replace(
    to_replace={
        "Amazon Web Services":"AWS",
        "Microsoft Azure":"Azure",
        "Google Cloud Plataform":"GCP"
    }, 
    inplace=True
)


## Porte da empresa
df.replace(
    to_replace={
    "Empresa de Grande Porte (500 funcionários ou mais)":"]500,+∞]",
    "Empresa de Pequeno Porte (até 100 funcionários)":"]100,500]",
    "Empresa de Médio Porte (até 500 funcionários)":"]20,50]",
    "Microempresa (até 20 funcionários)":"[0,20]"
    },
    inplace=True
)

## tamanho do investimento 
df.replace(
    to_replace={
        "Acima de R$ 100.000,01":"]100,+∞]",
        "Não sei responder essa informação":"N/A",
        "Entre R$ 50.000,01 e R$ 100.000,00":"]50,100]",
        "Entre R$ 20.000,01 e R$ 30.000,00":"]20,30]",
        "Entre R$ 10.000,01 e R$ 20.000,00":"]10,20]",
        "Entre R$ 30.000,01 e R$ 50.000,00":"]30,50]",
        "Abaixo de R$ 10.000,00":"[0,10]"
    },
    inplace=True
)

## Tempo do projeto
df.replace(
    to_replace={
        "3 a 6 meses":"]3,6]",
        "6 a 12 meses":"]6,12]",
        "Até 3 meses":"[0,3]",
        "12 a 18 meses":"]12,18]",
        "18 meses ou mais":"]18,+∞]"
    },
    inplace=True
)

# Tamanho da equipe
df.replace(
    to_replace={
        "35 pessoas ou mais":"]35,+∞]",
        "5 a 10 pessoas":"]5,10]",
        "11 a 20 pessoas":"]10,20]",
        "Até 5 pessoas":"[0,5]",
        "21 a 35 pessoas":"]20,35]"
    },
    inplace=True
)

# Segmento
df.replace(
    to_replace={
        "Ambos":"B2ALL",
        "B2B (Empresas negociam com outras empresas)":"B2B",
        "B2C (Empresas negociam com consumidores finais)":"B2C"
    },
    inplace=True
)

# Posição
df.replace(
    to_replace={
        "Colaborador Interno":"Interno",
        "Consultor Terceirizado":"Terceiro"
    },
    inplace=True
)

# Posição
df.replace(
    to_replace={
        "Desenvolvimento":"Dev"
    },
    inplace=True
)

# to int
df["avaliacao"] = df["avaliacao"].fillna(0).astype('int64')

# to int 0 + 1
df["bool_experiencia"] = df["bool_experiencia"].apply(lambda x: 1 if x == "Sim" else 0)
df["bool_cert"] = df["bool_cert"].apply(lambda x: 1 if x == "Sim" else 0)

bools = [col for col in df.columns if "bool" in col]
for b in bools:
    df[b] = df[b].fillna(0).astype('int64')

### add calculated columns

In [7]:
df["qt_alteracoes"] = df["bool_alt_eqp"] + df["bool_alt_bd"] + df["bool_alt_sol"] + df["bool_alt_custo"] + df["bool_alt_tec"]
df["qt_falhas"] = df["bool_falha_gov"] + df["bool_falha_dev"] + df["bool_falha_aus_info"] + df["bool_falha_pln_custo"] + df["bool_falha_gst_lid"] + df["bool_falha_usu"] 

In [8]:
df

Unnamed: 0,trabalhou_com_dl,atua_como,bool_cert,provedor,maior_desafio,tam_equipe,avaliacao,porte,tam_investimento,posicao,segmentacao,bool_experiencia,tempo,teste_atencao,bool_mtd_scrum,bool_mtd_kanban,bool_mtd_okr,bool_mtd_safe,bool_mtd_classica,bool_src_sql,bool_src_api,bool_src_nosql,bool_src_outros,bool_alt_eqp,bool_alt_bd,bool_alt_sol,bool_alt_custo,bool_alt_tec,bool_falha_gov,bool_falha_dev,bool_falha_aus_info,bool_falha_pln_custo,bool_falha_gst_lid,bool_falha_usu,qt_alteracoes,qt_falhas
0,Sim,Terceiro,1,AWS,Variedade,"[0,5]",5,"]500,+∞]","[0,10]",Dev,B2B,1,"[0,3]",Velocidade,1,1,0,0,0,1,1,0,0,1,1,0,0,0,0,0,0,0,0,0,2,0
1,Sim,Terceiro,1,AWS,Velocidade,"]10,20]",4,"]100,500]",,Gestão,B2B,1,"]3,6]",Velocidade,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,1,0,0,0,2
2,Sim,Interno,1,Azure,Variedade,"]10,20]",3,"]20,50]","]20,30]",Dev,B2ALL,1,"]6,12]",Velocidade,0,0,0,1,0,1,0,1,0,0,1,0,1,0,1,0,0,1,1,0,2,3
3,Sim,Terceiro,0,AWS,Volume,"]5,10]",5,"[0,20]","]10,20]",Dev,B2B,1,"]3,6]",Velocidade,1,0,0,0,0,1,1,0,0,1,0,0,0,1,0,0,0,0,0,0,2,0
4,Sim,Interno,1,Azure,Velocidade,"[0,5]",4,"]100,500]","]50,100]",Gestão,B2B,1,"]6,12]",Velocidade,0,0,0,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
136,Sim,Interno,1,GCP,Variedade,"]35,+∞]",4,"]500,+∞]","]50,100]",Gestão,B2ALL,0,"]3,6]",Velocidade,1,1,1,0,0,1,1,0,1,0,1,0,1,1,0,0,0,1,0,1,3,2
137,Sim,Terceiro,0,AWS,Volume,"]10,20]",4,"]500,+∞]","]100,+∞]",Dev,B2B,1,"]6,12]",Velocidade,1,0,1,0,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
138,Sim,Interno,1,AWS,Velocidade,"]5,10]",5,"]500,+∞]","]100,+∞]",Gestão,B2ALL,1,"[0,3]",Velocidade,1,0,0,0,0,1,1,0,1,0,0,0,0,1,0,0,0,0,0,0,1,0
139,Sim,Interno,1,AWS,Velocidade,"]5,10]",3,"]100,500]","]100,+∞]",Dev,B2B,0,"[0,3]",Velocidade,1,1,0,0,0,1,1,0,1,0,0,0,0,1,0,1,0,0,0,0,1,1


In [11]:
df.to_csv("dataset/refined.tsv", sep="\t", index=False)