# Análise de Dados referente a Meninas.Comp

Foi disponibilizada pelo professor Vinícius [Sobrenome] uma planilha de dados de uma pesquisa realizada de 2011 a 2014 na Semana Nacional de Ciência e Tecnologia (SNCT) em Brasília e tal pesquisa buscava descobrir um pouco mais sobre as meninas do ensino médio de Brasília e por que o baixo nível de interesse nas áreas de Computação.

O trabalho consistirá em transformar e carregar os dados (o processo de extração foi previamente feito). A partir das informações, espera-se obter um insight sobre a atual situação das mulheres na computação.

In [9]:
import pandas as pd
import numpy as np
import csv
import os

In [10]:
meninas_df = pd.read_csv('dados_meninas_comp.csv', sep=';')
meninas_df.head()

Unnamed: 0,Year,Gender,Educational.Stage,Field.Of.Interest,Would.Enroll.In.CS,Q1,Q2,CS.Only.Teaches.To.Use.Software,CS.Uses.Little.Math,Most.CS.Students.Are.Male,...,Has.Used.Image.Editor,Has.Used.Spreadsheet,Has.Used.Database,Has.Used.Internet,Has.Used.Social.Network,Has.Used.Email,Has.Used.Games,Has.Used.For.Creating.Web.Pages,Has.Used.For.Development,Has.Used.Other.Softwares
0,2014,F,Middle School,Human Sciences,No,10100,100000,No,Yes,No,...,No,No,No,No,Yes,No,No,No,No,No
1,2014,F,Middle School,Human Sciences,No,10000000,100000,Yes,No,Maybe,...,No,No,No,No,Yes,No,No,No,No,No
2,2014,F,Middle School,Biology-Health Sciences,Maybe,10000000,100000,No,No,No,...,No,No,No,No,Yes,No,No,No,No,No
3,2014,F,High School (11th Grade),Human Sciences,No,11000000,100000,Yes,No,Yes,...,No,No,No,No,Yes,No,No,No,No,No
4,2014,F,Middle School,Biology-Health Sciences,Maybe,11100000,100000,,,,...,No,No,No,No,Yes,No,No,No,No,No


In [11]:
sem_interesse = ['Q1','Q2']
for collumn in meninas_df:
    if collumn not in sem_interesse:
        print(collumn)
        print(pd.value_counts(meninas_df[collumn].values, dropna=False), "\n")

Year
2011    1821
2012     944
2013     517
2014     425
dtype: int64 

Gender
F      3680
NaN      14
M        13
dtype: int64 

Educational.Stage
Middle School               1096
High School (10th Grade)     819
High School (11th Grade)     685
High School (12th Grade)     638
College                      391
NaN                           58
Adult Education Program       20
dtype: int64 

Field.Of.Interest
Biology-Health Sciences    1485
Human Sciences             1257
Exact Sciences              810
NaN                         155
dtype: int64 

Would.Enroll.In.CS
Maybe    1358
Yes      1301
No        953
NaN        95
dtype: int64 

CS.Only.Teaches.To.Use.Software
No       2797
Maybe     499
Yes       321
NaN        90
dtype: int64 

CS.Uses.Little.Math
No       2177
Maybe     839
Yes       570
NaN       121
dtype: int64 

Most.CS.Students.Are.Male
Yes      1912
No        898
Maybe     768
NaN       129
dtype: int64 

CS.Requires.Knowledge.In.Computers
Yes      1707
No       1116
M

Como é possível notar, há a presença de 13 meninos e 14 pessoas não informaram o sexo, portanto, essas 27 pessoas devem ser removidas da análise.

In [12]:
meninas_df = meninas_df[meninas_df["Gender"] == 'F']

Atualmente os dados encontram-se em sua maioria em formato de string, tendo como respostas "Yes", "No" e "Maybe". Para que se torne mais fácil de manipular, iremos transformar tais strings em zeros ("No"), uns ("Yes") e dois ("Maybe").

In [13]:
mudancas = {'No':0, 'Yes':1, 'Maybe':2}
meninas_df = meninas_df.replace(mudancas)

In [14]:
meninas_df.head()

Unnamed: 0,Year,Gender,Educational.Stage,Field.Of.Interest,Would.Enroll.In.CS,Q1,Q2,CS.Only.Teaches.To.Use.Software,CS.Uses.Little.Math,Most.CS.Students.Are.Male,...,Has.Used.Image.Editor,Has.Used.Spreadsheet,Has.Used.Database,Has.Used.Internet,Has.Used.Social.Network,Has.Used.Email,Has.Used.Games,Has.Used.For.Creating.Web.Pages,Has.Used.For.Development,Has.Used.Other.Softwares
0,2014,F,Middle School,Human Sciences,0.0,10100,100000,0.0,1.0,0.0,...,0,0,0,0,1,0,0,0,0,0
1,2014,F,Middle School,Human Sciences,0.0,10000000,100000,1.0,0.0,2.0,...,0,0,0,0,1,0,0,0,0,0
2,2014,F,Middle School,Biology-Health Sciences,2.0,10000000,100000,0.0,0.0,0.0,...,0,0,0,0,1,0,0,0,0,0
3,2014,F,High School (11th Grade),Human Sciences,0.0,11000000,100000,1.0,0.0,1.0,...,0,0,0,0,1,0,0,0,0,0
4,2014,F,Middle School,Biology-Health Sciences,2.0,11100000,100000,,,,...,0,0,0,0,1,0,0,0,0,0


Para o próximo passo, tentaremos prever a área de interesse usando as respostas dadas às ultimas perguntas, além de verificar qual pergunta é mais pertinente à previsão da área de interesse. 

Para tanto, é preciso transformar o campo de interesse em inteiros. Desta forma, (uma vez definido se vamos usar somente Middle School ou não) seguiremos o seguinte modelo:

0 - Middle School<br>
1 - High School (10th Grade)<br>
2 - High School (11th Grade)<br>
3 - High School (12th Grade)<br>
4 - College<br>