In [2]:
import numpy as np
import pandas as pd

------
## Simplificando as perguntas
--------

In [33]:
nov = pd.read_csv('NOVATOS.csv')\
    .dropna(axis=1, how='all')\
    .dropna(axis=0, how='all')\
    .drop('Você é ou já foi aluno do curso de Ciência da Computação ou Engenharia da Computação?', 1)\
    .fillna('')

In [34]:
map_col_nov={'Qual é a sua idade?': 'idade', \
             'Qual é o seu gênero?': 'gênero', \
             'De qual curso você é aluno?': 'curso', \
             'Em que instituição você cursa?': 'instituição', \
             'Em qual ano e semestre você entrou no curso?': 'semestre entrada', \
             'Qual foi a sua motivação ao entrar no curso?': 'motivação para entrar', \
             'Quais são as suas expectativas em relação ao curso?': 'expectativas', \
             'Quais são as suas perspectivas em relação ao mercado de trabalho e à atuação profissional?': 'mercado de trabalho', \
             'O quanto você considera que o uso de métodos de ensino mais lúdicos durante as disciplinas do curso (como jogos, por exemplo) pode impactar sua visão sobre o curso?':'Quanto jogos Impactam na sua visão do curso?'
            }

# renaming questions to simplified names

nov = nov.rename(columns=map_col_nov)


------
## Funções Utilizadas
--------

Neste notebook, foram utilizadas as seguintes funções para a contagem das categorias e suas cross-relações:
- cross table
- cross table com dados relativos (%)

Abaixo estão outras funções auxiliares

#### IMPORTANTE: por favor, inicialize as variáveis antes de usar as funções

In [35]:
# df.corr(method ='pearson')  # correlação de pearson para variaveis quantitativas
# pd.crosstab(df['col1'], df['col2']) # matriz de confusão do python

# the same as split
def separate(s, sep):
    return str(s).split(sep)



# stacks two lists in vertical - must have the same columns size
def append(list1, list2):
    res = list1.copy()
    for l in list2:
        res.append(l)
    return res



# stacks two pandas DataFrame in vertical - must have the same columns size. The columns names are passed by argument
def appendDataFrames(df1, df2, columns):
    l1 = df1.values.tolist()
    l2 = df2.values.tolist()
    
    return pd.DataFrame(append(l1,l2), columns=columns)



# splits categories jointed by ''/''
def disjoint(df, col):
    res = []
    indexes = ["/" not in i for i in df[col]]
    newDF = df.loc[indexes]
    
    for index, row in df.iterrows():
        if("/" in row[col]):
            [c1, c2] = row[col].split(" / ")
            
            newRow1 = row.copy()
            newRow1[col] = c1
            
            newRow2 = row.copy()
            newRow2[col] = c2            
            
            res.append(newRow1)
            res.append(newRow2)
            
    return appendDataFrames(newDF, pd.DataFrame(res, columns=newDF.columns, index=[len(df.values.tolist()) + i for i in range(0, len(res))]), columns=df.columns)





# returns cross table - yet this already exists in python
def countCols(table, col1, col2):
    # create dictionary
    df = pd.DataFrame(table)
    
    # the counter dictionary
    counts = {}
    
    for index, row in df.iterrows():
        # separating, if needed
        rowContents1 = separate(row[col1], " / ")
        rowContents2 = separate(row[col2], " / ")
        
        for r1 in rowContents1:
            for r2 in rowContents2:
                # making the key
                k = r1 + "_" + r2
                
                # test if the key already exists
                if k not in counts:
                    counts[k] = 0
                counts[k] = int(counts[k] + 1)
        
    # count #rows and #cols
    rows = []
    cols = []
    for key in counts.keys():
        #separating row and col
        [rowIndex, colIndex] = separate(key, "_")
        
        # testing if the indexes is not included yet
        if(not np.isin([rowIndex], rows)[0]):
            rows.append(rowIndex)
        if(not np.isin([colIndex], cols)[0]):
            cols.append(colIndex)
    
    # create new table
    a = np.zeros(shape=(len(rows), len(cols)), dtype=int)
    finalTable = pd.DataFrame(a,columns=cols, index=rows)
    
    # inserting into the final table
    for key in counts.keys():
        [rowIndex, colIndex] = separate(key, "_")
        finalTable[colIndex][rowIndex] = int(counts[rowIndex + "_" + colIndex])
        
    return finalTable


# replaces the category codes by their category names 
def switchBack(df, col):
    # using the variable codesByCat defined below
    res = []
    for index, row in df.iterrows():
        newRow1 = row.copy()
        
        # separating the categories, if so
        if ("/" in row[col]):
            [cat1, cat2] = row[col].split(" / ")
            
            # removing possible whitespaces
            cat1 = cat1.strip()
            cat2 = cat2.strip()
            
            # testing if this is a valid code
            if(cat1 not in codesByCat[col].keys() or cat2 not in codesByCat[col].keys()):
                print("Removendo outlier:", index, row[col], "++++++++")
                continue
            newRow1[col] = codesByCat[col][cat1] + " / " + codesByCat[col][cat2]
        elif(row[col] != ""):
            # testing if this is a valid code
            if(row[col] not in codesByCat[col].keys()):
                print("Removendo outlier:", index, row[col], "++++++++")
                continue

            newRow1[col] = codesByCat[col][row[col].strip()]
        
        # putting the new row on the bottom of matrix
        res.append(newRow1)
    
    return pd.DataFrame(res, columns=df.columns)



-------
## Tabela dos Novatos - Dados Brutos
-------

Aqui, estão apresentados os dados com as categorias codificadas, tendo como base a análise de conteúdo realizada. 

In [20]:
nov

Unnamed: 0,idade,gênero,curso,instituição,semestre entrada,motivação para entrar,expectativas,mercado de trabalho,Quanto jogos Impactam na sua visão do curso?
0,16 a 19,Masculino,Ciência da Computação,UFC,2019.1,IntAC,NS,TrabAI,4
1,16 a 19,Masculino,Ciência da Computação,UFC,2019.1,IntAC,CapAp,TrabAI,5
2,16 a 19,Masculino,Engenharia da Computação,UFC,2019.1,IntAC,EP,EP,5
3,16 a 19,Masculino,Ciência da Computação,UFC,2019.1,IntAC,EP,MercTA,5
4,16 a 19,Masculino,Engenharia da Computação,UFC,2019.1,IntAC,PartAC,,5
5,16 a 19,Masculino,Ciência da Computação,UFC,2019.1,IntAC,CapAp,TrabAI,5
6,16 a 19,Masculino,Engenharia da Computação,UFC,2019.1,IntAC,PesqDev,EP,5
7,16 a 19,Masculino,Engenharia da Computação,UFC,2019.1,IntAC,CapAp,EmpRR,3
8,16 a 19,Masculino,Engenharia da Computação,UFC,2019.1,IntAC,CapAp,TrabAI,3
9,20 a 23,Masculino,Ciência da Computação,UECE,2018.2,IntAC,EP,EmpRR,5


---------
## Tabela de Veteranos - Categorias por extenso
--------

Neste trecho, os códigos das categorias são trocadas pelos nomes completos, a fim de melhorar a compreensão das mesmas.

In [22]:


# trocando os codigos pela categoria por extenso

nov_extenso = switchBack(nov, "motivação para entrar")
nov_extenso = switchBack(nov_extenso, "expectativas")
nov_extenso = switchBack(nov_extenso, "mercado de trabalho")

nov_extenso.replace("", "Não Sabe / Não Respondeu")
    

Unnamed: 0,idade,gênero,curso,instituição,semestre entrada,motivação para entrar,expectativas,mercado de trabalho,Quanto jogos Impactam na sua visão do curso?
0,16 a 19,Masculino,Ciência da Computação,UFC,2019.1,Interesse por áreas do curso,Não Sabe,Trabalhar na área de interesse,4
1,16 a 19,Masculino,Ciência da Computação,UFC,2019.1,Interesse por áreas do curso,Capacitação e aprendizado,Trabalhar na área de interesse,5
2,16 a 19,Masculino,Engenharia da Computação,UFC,2019.1,Interesse por áreas do curso,Expectativas positivas,Expectativas positivas,5
3,16 a 19,Masculino,Ciência da Computação,UFC,2019.1,Interesse por áreas do curso,Expectativas positivas,Mercado de trabalho amplo,5
4,16 a 19,Masculino,Engenharia da Computação,UFC,2019.1,Interesse por áreas do curso,Participação nas atividades do curso,Não Sabe / Não Respondeu,5
5,16 a 19,Masculino,Ciência da Computação,UFC,2019.1,Interesse por áreas do curso,Capacitação e aprendizado,Trabalhar na área de interesse,5
6,16 a 19,Masculino,Engenharia da Computação,UFC,2019.1,Interesse por áreas do curso,Pesquisa e Desenvolvimento,Expectativas positivas,5
7,16 a 19,Masculino,Engenharia da Computação,UFC,2019.1,Interesse por áreas do curso,Capacitação e aprendizado,Empregabilidade regional ruim,3
8,16 a 19,Masculino,Engenharia da Computação,UFC,2019.1,Interesse por áreas do curso,Capacitação e aprendizado,Trabalhar na área de interesse,3
9,20 a 23,Masculino,Ciência da Computação,UECE,2018.2,Interesse por áreas do curso,Expectativas positivas,Empregabilidade regional ruim,5


----------
## Tabela dos Veteranos - categorias separadas
#### Não há respostas compostas - revisar para saber se as categorias estão muito juntas (e.g., pesquisa e desenvolvimento são bem distintos)
----------

Aqui, nos deparamos com o seguinte problema: quando realizamos a contagem das categorias, algumas respostas apresentavam mais de uma delas. 
\Com isso, o script entendia que a resposta composta era uma nova categoria e a contabilizava individualmente e isto é indesejado

Logo, precisamos dividí-las, colocando-as em linhas separadas (onde cada linha representa uma resposta) e replicando o resto da linha.

Daí, vem a preocupação de estarmos replicando dados de forma artificial, mas contornamos da seguinte forma:
- Se a coluna teve respostas compostas (i.e., que tiveram que ser separadas), então a contagem dela só pode acontecer individualmente ou relacionada a outra coluna de mesmo tipo (e.g., motivação e dificuldade)
- Caso contrário, a contagem acontece na tabela original, sem separação.

As perguntas que tiveram respostas compostas foram:
* Motivação para entrar no curso
* expectativas para com o curso
* dificuldades enfrentadas
* expectativas sobre o mercado de trabalho

Abaixo é mostrado o código, utilizando a função disjoint, e a tabela corrigida.

In [18]:
#vet_separados = disjoint(vet_extenso, "quais?")

#vet_separados = disjoint(vet_separados, "motivação para entrar")

#vet_separados = disjoint(vet_separados, "expectativas")

#vet_separados = disjoint(vet_separados, "dificuldades")

#vet_separados = disjoint(vet_separados, "mercado de trabalho")

#vet_separados


--------
## Contagens
--------

#### IMPORTANTE
Sempre que a função lidar com a tabela "vet_extenso", significa que os dados são da tabela original, sem separação de respostas compostas.

Já quando utiliza a tabela "vet_separados", os dados foram tratados com relação a respostas compostas (i.e., a resposta ocupa mais de uma categoria da análise de conteúdo)

### Curso

In [24]:
nov_extenso['curso'].value_counts()

Ciência da Computação       6
Engenharia da Computação    6
Name: curso, dtype: int64

----------
### Faixa Etária

In [25]:
nov_extenso['idade'].value_counts()

16 a 19    11
20 a 23     1
Name: idade, dtype: int64

----------
### Gênero

In [26]:
nov_extenso['gênero'].value_counts()

Masculino    12
Name: gênero, dtype: int64

----------
### Motivação para entrar


In [28]:
nov_extenso['motivação para entrar'].value_counts()

Interesse por áreas do curso    12
Name: motivação para entrar, dtype: int64

--------
### Expectativas

In [29]:
nov_extenso['expectativas'].value_counts()

Capacitação e aprendizado               4
Expectativas positivas                  4
Pesquisa e Desenvolvimento              2
Participação nas atividades do curso    1
Não Sabe                                1
Name: expectativas, dtype: int64

--------
### Mercado de Trabalho

In [32]:
nov_extenso['mercado de trabalho'].replace("", "Não sabem / Não opinaram").value_counts()

Trabalhar na área de interesse    4
Não sabem / Não opinaram          3
Empregabilidade regional ruim     2
Expectativas positivas            2
Mercado de trabalho amplo         1
Name: mercado de trabalho, dtype: int64

## Gênero x curso

* ### contagem absoluta

In [36]:

tab_conting_nov = pd.crosstab(nov_extenso['gênero'], nov_extenso['curso'])
tab_conting_nov

curso,Ciência da Computação,Engenharia da Computação
gênero,Unnamed: 1_level_1,Unnamed: 2_level_1
Masculino,6,6


----------
* ### contagem relativa (%)

In [37]:
tab_conting_nov.apply(lambda r: (r)/r.sum(), axis=1).style.format("{:.2%}") # formats 2 digits percentage

curso,Ciência da Computação,Engenharia da Computação
gênero,Unnamed: 1_level_1,Unnamed: 2_level_1
Masculino,50.00%,50.00%


----------
## Curso x Motivação para entrar

----------
* ### contagem absoluta

In [38]:
tab_cross_motiv = pd.crosstab(nov_extenso['curso'], nov_extenso['motivação para entrar'])
tab_cross_motiv

motivação para entrar,Interesse por áreas do curso
curso,Unnamed: 1_level_1
Ciência da Computação,6
Engenharia da Computação,6


----------
* ### contagem relativa (%)

In [39]:
tab_cross_motiv.apply(lambda r: r/r.sum(), axis=1).style.format("{:.2%}")

motivação para entrar,Interesse por áreas do curso
curso,Unnamed: 1_level_1
Ciência da Computação,100.00%
Engenharia da Computação,100.00%


## Curso x Expectativas

----------
* ### contagem absoluta

In [40]:
tab_cross_expec = pd.crosstab(nov_extenso['curso'], nov_extenso['expectativas'])
tab_cross_expec

expectativas,Capacitação e aprendizado,Expectativas positivas,Não Sabe,Participação nas atividades do curso,Pesquisa e Desenvolvimento
curso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ciência da Computação,2,3,1,0,0
Engenharia da Computação,2,1,0,1,2


----------
* ### contagem relativa (%)

In [41]:
tab_cross_expec.apply(lambda r: r/r.sum(), axis=1).style.format("{:.2%}")

expectativas,Capacitação e aprendizado,Expectativas positivas,Não Sabe,Participação nas atividades do curso,Pesquisa e Desenvolvimento
curso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ciência da Computação,33.33%,50.00%,16.67%,0.00%,0.00%
Engenharia da Computação,33.33%,16.67%,0.00%,16.67%,33.33%


---------------
## Curso x uso de jogos impacta na visão sobre o curso?

----------
* ### contagem absoluta

In [42]:
tab_cross_dif_jogos = pd.crosstab(nov_extenso['curso'], nov_extenso['Quanto jogos Impactam na sua visão do curso?'])
tab_cross_dif_jogos

Quanto jogos Impactam na sua visão do curso?,3,4,5
curso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ciência da Computação,0,2,4
Engenharia da Computação,2,1,3


----------
* ### contagem relativa (%)

In [43]:
tab_cross_dif_jogos.apply(lambda r: r/r.sum(), axis=1).style.format("{:.2%}")

Quanto jogos Impactam na sua visão do curso?,3,4,5
curso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ciência da Computação,0.00%,33.33%,66.67%
Engenharia da Computação,33.33%,16.67%,50.00%


---------------
## Motivação x Expectativas

----------
* ### contagem absoluta

In [45]:
tab_cross_motiv_exp = pd.crosstab(nov_extenso['motivação para entrar'], nov_extenso['expectativas'])
tab_cross_motiv_exp

expectativas,Capacitação e aprendizado,Expectativas positivas,Não Sabe,Participação nas atividades do curso,Pesquisa e Desenvolvimento
motivação para entrar,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Interesse por áreas do curso,4,4,1,1,2


----------
* ### contagem relativa (%)

In [46]:
tab_cross_motiv_exp.apply(lambda r: r/r.sum(), axis=1).style.format("{:.2%}")

expectativas,Capacitação e aprendizado,Expectativas positivas,Não Sabe,Participação nas atividades do curso,Pesquisa e Desenvolvimento
motivação para entrar,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Interesse por áreas do curso,33.33%,33.33%,8.33%,8.33%,16.67%


---------------
## Motivação x Mercado de Trabalho

----------
* ### contagem absoluta

In [47]:
tab_cross_motiv_merc = pd.crosstab(nov_extenso['motivação para entrar'], nov_extenso['mercado de trabalho'])
tab_cross_motiv_merc

mercado de trabalho,Unnamed: 1_level_0,Empregabilidade regional ruim,Expectativas positivas,Mercado de trabalho amplo,Trabalhar na área de interesse
motivação para entrar,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Interesse por áreas do curso,3,2,2,1,4


----------
* ### contagem relativa (%)

In [48]:
tab_cross_motiv_merc.apply(lambda r: r/r.sum(), axis=1).style.format("{:.2%}")

mercado de trabalho,Unnamed: 1_level_0,Empregabilidade regional ruim,Expectativas positivas,Mercado de trabalho amplo,Trabalhar na área de interesse
motivação para entrar,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Interesse por áreas do curso,25.00%,16.67%,16.67%,8.33%,33.33%


---------------
## Motivação x uso de jogos impacta na visão sobre o curso?

----------
* ### contagem absoluta

In [58]:
tab_cross_motiv_jogos = pd.crosstab(vet_separados['motivação para entrar'], vet_separados['Quanto jogos Impactam na sua visão do curso?'])
tab_cross_motiv_jogos

uso de jogos impacta na visão sobre o curso?,1,2,3,4,5
motivação para entrar,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Empregabilidade,4,0,3,4,0
Influência de Terceiros,0,2,1,0,1
Interesse por áreas do curso,2,4,12,13,14


----------
* ### contagem relativa (%)

In [59]:
tab_cross_motiv_jogos.apply(lambda r: r/r.sum(), axis=1).style.format("{:.2%}")

uso de jogos impacta na visão sobre o curso?,1,2,3,4,5
motivação para entrar,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Empregabilidade,36.36%,0.00%,27.27%,36.36%,0.00%
Influência de Terceiros,0.00%,50.00%,25.00%,0.00%,25.00%
Interesse por áreas do curso,4.44%,8.89%,26.67%,28.89%,31.11%


---------------
## Expectativas x uso de jogos impacta na visão sobre o curso?

----------
* ### contagem absoluta

In [69]:
tab_cross_expec_jogos = pd.crosstab(vet_separados['expectativas'], vet_separados['uso de jogos impacta na visão sobre o curso?'])
tab_cross_expec_jogos

uso de jogos impacta na visão sobre o curso?,1,2,3,4,5
expectativas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Atividades extracurriculares,0,0,0,2,0
Bom networking,0,0,0,0,2
Capacitação e aprendizado,6,5,8,7,4
Curso com caráter acadêmico,0,0,0,0,1
Curso com caráter difícil,0,1,0,0,2
Curso com caráter matemático,0,0,0,2,0
Curso com caráter menos matemático,0,0,1,0,0
Curso com caráter mercadológico,0,0,4,0,0
Curso com caráter prático,0,0,0,0,3
Curso com caráter voltador para programação,0,0,0,1,0


----------
* ### contagem relativa (%)

In [70]:
tab_cross_expec_jogos.apply(lambda r: r/r.sum(), axis=1).style.format("{:.2%}")

uso de jogos impacta na visão sobre o curso?,1,2,3,4,5
expectativas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Atividades extracurriculares,0.00%,0.00%,0.00%,100.00%,0.00%
Bom networking,0.00%,0.00%,0.00%,0.00%,100.00%
Capacitação e aprendizado,20.00%,16.67%,26.67%,23.33%,13.33%
Curso com caráter acadêmico,0.00%,0.00%,0.00%,0.00%,100.00%
Curso com caráter difícil,0.00%,33.33%,0.00%,0.00%,66.67%
Curso com caráter matemático,0.00%,0.00%,0.00%,100.00%,0.00%
Curso com caráter menos matemático,0.00%,0.00%,100.00%,0.00%,0.00%
Curso com caráter mercadológico,0.00%,0.00%,100.00%,0.00%,0.00%
Curso com caráter prático,0.00%,0.00%,0.00%,0.00%,100.00%
Curso com caráter voltador para programação,0.00%,0.00%,0.00%,100.00%,0.00%


----------
## Variáveis auxiliares
----------

In [17]:
# replacing the codes by the categorie names
codesByCat = {
    "motivação para entrar" : {"IntAC":"Interesse por áreas do curso",\
             "Emp": "Empregabilidade",\
             "IntTer":"Influência de Terceiros"\
            },

    "expectativas" : {
        "CCMat": "Curso com caráter matemático", \
        "PAMasc": "Perfil majoritariamente masculino", \
        "CCDif":"Curso com caráter difícil", \
        "PAEnt":"Perfil de alunos entusiasmados",\
        "CCPrat": "Curso com caráter prático", \
        "CapAp": "Capacitação e aprendizado", \
        "EP": "Expectativas positivas", \
        "CCProg": "Curso com caráter voltador para programação",\
        "AtivExtCur": "Atividades extracurriculares",\
        "AtivEC": "Atividades extracurriculares",\
        "CCMerc":"Curso com caráter mercadológico",\
        "CCAcad": "Curso com caráter acadêmico", \
        "CCMenMat": "Curso com caráter menos matemático",\
        "Netw": "Bom networking",\
        "ProjPrat":"Projetos práticos",\
        "NS":"Não Sabe",\
        "PartAC":"Participação nas atividades do curso",\
        "PesqDev":"Pesquisa e Desenvolvimento",\
        "EM": "Expectativas medianas"\
        },

    "mercado de trabalho" : {
        "BEmp": "Boa empregabilidade", \
        "TrabAI": "Trabalhar na área de interesse", \
        "EP":"Expectativas positivas", \
        "N":"Nenhuma",\
        "DivOp": "Diversidade de oportunidades", \
        "EmpRR": "Empregabilidade regional ruim", \
        "SocRel": "Socialmente Relevante", \
        "MercC": "Mercado concorrido",\
        "EN": "Expectativas negativas",\
        "MercTA": "Mercado de trabalho amplo",\
        "DiscAM": "Discrepância entre academia e mercado"\
        }
}
