## Exploração de dados

In [21]:
import pandas as pd
from IPython.display import display, HTML

Essa linha usa o **pandas** para carregar o arquivo CSV em um DataFrame chamado `microdados`, definindo o separador `|` e a codificação `utf-8` para ler corretamente os dados.

In [2]:
microdados=pd.read_csv("../dados/relatorio_chamada_regular_SISU_2010_1.csv", sep="|", encoding="utf-8")

Esse comando retorna os nomes das colunas do DataFrame `microdados`.

In [3]:
microdados.columns.values

array(['nu_ano', 'nu_edicao', 'ds_etapa', 'cod_ies', 'ies', 'sigla_ies',
       'uf_ies', 'cod_campus', 'campus', 'uf_campus', 'municipio_campus',
       'codigo_curso', 'nome_curso', 'grau', 'turno', 'tp_modalidade',
       'ds_modalidade', 'qt_bonus_perc', 'nu_peso_l', 'nu_peso_ch',
       'nu_peso_cn', 'nu_peso_m', 'nu_peso_r', 'nota_minima_l',
       'nota_minima_ch', 'nota_minima_cn', 'nota_minima_m',
       'nota_minima_r', 'media_minima', 'cpf', 'co_inscricao_enem',
       'no_inscrito', 'tp_sexo', 'dt_nascimento', 'uf_origem',
       'municipio_candidato', 'st_opcao', 'nu_nota_l', 'nu_nota_ch',
       'nu_nota_cn', 'nu_nota_m', 'nu_nota_r', 'nota_l_com_peso',
       'nota_ch_com_peso', 'nota_cn_com_peso', 'nota_m_com_peso',
       'nota_r_com_peso', 'nota_concorrencia', 'nu_notacorte',
       'nu_classificacao', 'st_aprovado', 'st_matricula', 'ds_matricula'],
      dtype=object)

Aqui é criada a lista `colunasSelecionadas` com os nomes de interesse e, em seguida, o `read_csv` do **pandas** lê o arquivo importando apenas essas colunas, que são salvas no DataFrame `microdados`.

In [4]:
colunasSelecionadas=['nu_ano', 'co_inscricao_enem','ds_etapa','cod_ies', 'ies','uf_ies', 'campus','uf_campus', 'municipio_campus', 'nome_curso','grau','turno','tp_modalidade',
                      'tp_sexo', 'uf_origem','municipio_candidato','st_opcao','nota_concorrencia','nu_notacorte',
                      'st_aprovado','st_matricula', 'nu_peso_l', 'nu_peso_ch',
                    'nu_peso_cn', 'nu_peso_m', 'nu_peso_r', 'nota_minima_l',
                    'nota_minima_ch', 'nota_minima_cn', 'nota_minima_m', 'dt_nascimento',
                    'nota_minima_r', 'media_minima']
microdados= pd.read_csv("../dados/relatorio_chamada_regular_SISU_2010_1.csv", sep="|", encoding="utf-8" ,  usecols= colunasSelecionadas , decimal=',')

O comando `microdados.head()` mostra as primeiras 5 linhas do DataFrame, facilitando a visualização inicial dos dados.

In [38]:
microdados.head()

Unnamed: 0,nu_ano,ds_etapa,cod_ies,ies,uf_ies,campus,uf_campus,municipio_campus,nome_curso,grau,...,co_inscricao_enem,tp_sexo,dt_nascimento,uf_origem,municipio_candidato,st_opcao,nota_concorrencia,nu_notacorte,st_aprovado,st_matricula
0,2010,1ª CHAMADA,587,UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO,PE,"Recife-PE, Rua Dom Manoel de Medeiros, Dois Ir...",PE,Recife,Zootecnia,Bacharelado,...,200XXXXXX001,M,1991,PE,PAULISTA,1,607.18,671.75,N,N
1,2010,2ª CHAMADA,587,UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO,PE,"Recife-PE, Rua Dom Manoel de Medeiros, Dois Ir...",PE,Recife,Ciências Biológicas,Licenciatura,...,200XXXXXX001,M,1991,PE,PAULISTA,1,607.18,669.95,N,N
2,2010,3ª CHAMADA,587,UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO,PE,"Recife-PE, Rua Dom Manoel de Medeiros, Dois Ir...",PE,Recife,Ciências Biológicas,Bacharelado,...,200XXXXXX001,M,1991,PE,PAULISTA,1,613.42,669.16,N,N
3,2010,1ª CHAMADA,1303,"INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNO...",GO,"Morrinhos-GO, BR 153 KM 633, ZONA RURAL",GO,Morrinhos,Sistemas para Internet,Tecnológico,...,200XXXXXX004,M,1988,GO,GOIATUBA,1,680.7,659.92,S,S
4,2010,1ª CHAMADA,5322,FUNDAÇÃO UNIVERSIDADE FEDERAL DO PAMPA - UNIPAMPA,RS,"Dom Pedrito-RS, Rua Borges de Medeiros, Centro",RS,Dom Pedrito,Zootecnia,Bacharelado,...,200XXXXXX006,M,1990,TO,TAGUATINGA,1,602.46,620.62,N,N


## Selecionando cursos da área de Tecnologia da Informação (TI)

Nesta etapa, filtramos a base de dados para manter apenas os cursos relacionados à área de Tecnologia da Informação (TI).  
O critério de seleção foi definido a partir de palavras-chave comuns em nomes de cursos da área, tais como:

- **Informática**
- **Computação**
- **Software**
- **Tecnologia da Informação**
- **Engenharia de Computação**
- **Ciência da Computação**


O filtro foi implementado com expressões regulares, garantindo a captura de diferentes variações de nomenclatura presentes no campo `nome_curso`.

In [19]:
padrao_ti = "Informática|Engenharia de Software|Tecnologia da Informação|Engenharia da Computação|Ciência da Computação| Sistemas para Internet| Desenvolvimento de Sistemas"

microdados = microdados[
    microdados["nome_curso"].str.contains(
        padrao_ti,
        case=False,
        na=False
    )
]

<div class="flourish-embed flourish-chart" data-src="visualisation/25845441"><script src="https://public.flourish.studio/resources/embed.js"></script><noscript><img src="https://public.flourish.studio/visualisation/25845441/thumbnail" width="100%" alt="chart visualization" /></noscript></div>

In [None]:
microdados.head()

Unnamed: 0,nu_ano,ds_etapa,cod_ies,ies,uf_ies,campus,uf_campus,municipio_campus,nome_curso,grau,...,co_inscricao_enem,tp_sexo,dt_nascimento,uf_origem,municipio_candidato,st_opcao,nota_concorrencia,nu_notacorte,st_aprovado,st_matricula
34,2010,3ª CHAMADA,634,UNIVERSIDADE FEDERAL DE PELOTAS,RS,"Capão do Leão-RS, Campus Capão do Leão, Não",RS,Capão do Leão,Ciência da Computação,Bacharelado,...,200XXXXXX033,M,1991,SP,SAO CARLOS,1,632.7,630.62,S,N
48,2010,3ª CHAMADA,574,UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO,RJ,"Nova Iguaçu-RJ, Rua Professor Paris, Centro",RJ,Nova Iguaçu,Ciência da Computação,Bacharelado,...,200XXXXXX046,M,1984,RJ,RIO DE JANEIRO,1,445.3,741.68,N,N
70,2010,3ª CHAMADA,588,UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ,PR,"Ponta Grossa-PR, Avenida Monteiro Lobato, Jard...",PR,Ponta Grossa,Ciência da Computação,Bacharelado,...,200XXXXXX078,M,1982,PR,IMBITUVA,1,634.32,629.96,S,S
81,2010,1ª CHAMADA,599,"INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNO...",BA,"Salvador-BA, Rua Emídio dos Santos, Barbalho",BA,Salvador,Análise e Desenvolvimento de Sistemas,Tecnológico,...,200XXXXXX092,F,1989,BA,SALVADOR,1,397.12,702.54,N,N
113,2010,1ª CHAMADA,588,UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ,PR,"Curitiba-PR, AVENIDA SETE DE SETEMBRO, REBOUÇAS",PR,Curitiba,Engenharia da Computação,Bacharelado,...,200XXXXXX144,F,1990,SC,CURITIBA,1,749.74,754.42,N,N


Para analisar apenas os candidatos que tiveram sucesso completo, ou seja, foram aprovados na Chamada Regular e conseguiram efetivar sua matrícula na primeira chamada, utilizamos a filtragem booleana do Pandas 

In [None]:
microdados = microdados[
    (microdados['st_aprovado'] == 'S') & 
    (microdados['st_matricula'] == 'S') &
    (microdados['ds_etapa'] == '1ª CHAMADA') 

]


Esse trecho cria um dicionário chamado `modalidade`, onde cada código (A, V, L, B) é associado à sua descrição completa.


In [None]:
modalidade={
    "A": "Ampla concorrência",
    "V": "Escola pública",
    'L': 'PPI + Escola pública',
    'B': 'Integralmente em escola pública',
    


}

In [None]:
microdados['tp_modalidade'] = microdados['tp_modalidade'].map(modalidade)

In [None]:
embed_code = """
<div class="flourish-embed flourish-chart" data-src="visualisation/25846515"><script src="https://public.flourish.studio/resources/embed.js"></script><noscript><img src="https://public.flourish.studio/visualisation/25846515/thumbnail" width="100%" alt="chart visualization" /></noscript></div>"""
display(HTML(embed_code))

# Idade dos candidatos 

In [10]:
microdados["dt_nascimento"] = pd.to_numeric(
    microdados["dt_nascimento"],
    errors="coerce"
)


microdados.loc[
    (microdados["dt_nascimento"] >= 1900) & (microdados["dt_nascimento"] <= 2025),
    "idade"
] = 2010 - microdados["dt_nascimento"]

microdados['idade'] = microdados['idade'].astype('Int64')

In [14]:
embed_code = """
<div class="flourish-embed flourish-chart" data-src="visualisation/25846658"><script src="https://public.flourish.studio/resources/embed.js"></script><noscript><img src="https://public.flourish.studio/visualisation/25846658/thumbnail" width="100%" alt="chart visualization" /></noscript></div>
"""
display(HTML(embed_code))

In [11]:
microdados.head()

Unnamed: 0,nu_ano,ds_etapa,cod_ies,ies,uf_ies,campus,uf_campus,municipio_campus,nome_curso,grau,...,tp_sexo,dt_nascimento,uf_origem,municipio_candidato,st_opcao,nota_concorrencia,nu_notacorte,st_aprovado,st_matricula,idade
4638,2010,1ª CHAMADA,595,UNIVERSIDADE FEDERAL DE ALFENAS,MG,"Alfenas-MG, RUA GABRIEL MONTEIRO DA SILVA, CENTRO",MG,Alfenas,Ciência da Computação,Bacharelado,...,M,1992,SP,FRANCA,1,758.75,715.66,S,S,18
5231,2010,1ª CHAMADA,1811,"INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNO...",GO,"Inhumas-GO, Avenida Universitária, Setor Vale ...",GO,Inhumas,Informática,Bacharelado,...,M,1984,GO,GOIANIA,1,723.26,645.11,S,S,26
6628,2010,1ª CHAMADA,588,UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ,PR,"Pato Branco-PR, VIA DO CONHECIMENTO, FRARON",PR,Pato Branco,Engenharia da Computação,Bacharelado,...,M,1988,ES,VILA VELHA,1,704.22,699.04,S,S,22
7226,2010,1ª CHAMADA,5,UNIVERSIDADE FEDERAL DO PIAUÍ,PI,"Teresina-PI, Campus Universitário Ministro Pet...",PI,Teresina,Ciência da Computação,Bacharelado,...,M,1989,PI,TERESINA,1,761.61,689.41,S,S,21
7614,2010,1ª CHAMADA,1166,"INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNO...",PB,"Cajazeiras-PB, Rua José Antonio da Silva, Jard...",PB,Cajazeiras,Análise e Desenvolvimento de Sistemas,Tecnológico,...,F,1990,PB,SOUSA,1,667.7,633.92,S,S,20


# Contagem por estado

In [12]:
matriculas_por_uf = microdados['uf_ies'].value_counts().reset_index()
matriculas_por_uf.columns = ['UF', 'Quantidade']
matriculas_por_uf.head()


Unnamed: 0,UF,Quantidade
0,PR,105
1,RS,80
2,PI,45
3,SP,43
4,MT,42


# Contagem por município

In [13]:
matriculas_por_municipio = microdados['municipio_campus'].value_counts().reset_index()
matriculas_por_municipio.columns = ['Município', 'Quantidade']
matriculas_por_municipio.head(10)


Unnamed: 0,Município,Quantidade
0,Nova Iguaçu,34
1,Cornélio Procópio,32
2,São Luís,31
3,Teresina,29
4,Capão do Leão,29
5,Alegrete,28
6,Cuiabá,25
7,Belém,24
8,Ponta Grossa,24
9,Cajazeiras,23


In [None]:
colunas_numericas = ['nota_concorrencia', 'nu_notacorte', 
                     'nota_minima_l', 'nota_minima_ch', 
                     'nota_minima_cn', 'nota_minima_m', 
                     'nota_minima_r', 'media_minima']


microdados[colunas_numericas] = microdados[colunas_numericas] \
    .astype(str) \
    .replace(",", ".", regex=True) \
    .apply(pd.to_numeric, errors='coerce')


In [15]:
embed_code = """
<div class="flourish-embed flourish-chart" data-src="visualisation/25877410"><script src="https://public.flourish.studio/resources/embed.js"></script><noscript><img src="https://public.flourish.studio/visualisation/25877410/thumbnail" width="100%" alt="chart visualization" /></noscript></div> 
"""

In [16]:
microdados

Unnamed: 0,nu_ano,ds_etapa,cod_ies,ies,uf_ies,campus,uf_campus,municipio_campus,nome_curso,grau,...,tp_sexo,dt_nascimento,uf_origem,municipio_candidato,st_opcao,nota_concorrencia,nu_notacorte,st_aprovado,st_matricula,idade
4638,2010,1ª CHAMADA,595,UNIVERSIDADE FEDERAL DE ALFENAS,MG,"Alfenas-MG, RUA GABRIEL MONTEIRO DA SILVA, CENTRO",MG,Alfenas,Ciência da Computação,Bacharelado,...,M,1992,SP,FRANCA,1,758.75,715.66,S,S,18
5231,2010,1ª CHAMADA,1811,"INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNO...",GO,"Inhumas-GO, Avenida Universitária, Setor Vale ...",GO,Inhumas,Informática,Bacharelado,...,M,1984,GO,GOIANIA,1,723.26,645.11,S,S,26
6628,2010,1ª CHAMADA,588,UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ,PR,"Pato Branco-PR, VIA DO CONHECIMENTO, FRARON",PR,Pato Branco,Engenharia da Computação,Bacharelado,...,M,1988,ES,VILA VELHA,1,704.22,699.04,S,S,22
7226,2010,1ª CHAMADA,5,UNIVERSIDADE FEDERAL DO PIAUÍ,PI,"Teresina-PI, Campus Universitário Ministro Pet...",PI,Teresina,Ciência da Computação,Bacharelado,...,M,1989,PI,TERESINA,1,761.61,689.41,S,S,21
7614,2010,1ª CHAMADA,1166,"INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNO...",PB,"Cajazeiras-PB, Rua José Antonio da Silva, Jard...",PB,Cajazeiras,Análise e Desenvolvimento de Sistemas,Tecnológico,...,F,1990,PB,SOUSA,1,667.70,633.92,S,S,20
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1651788,2010,1ª CHAMADA,599,"INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNO...",BA,"Salvador-BA, Rua Emídio dos Santos, Barbalho",BA,Salvador,Análise e Desenvolvimento de Sistemas,Tecnológico,...,M,1982,SP,SAO PAULO,1,750.70,702.54,S,S,28
1655904,2010,1ª CHAMADA,1810,"INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNO...",SP,"São Carlos-SP, Rodovia Washington Luís, São Ca...",SP,São Carlos,Análise e Desenvolvimento de Sistemas,Tecnológico,...,F,1991,SP,ARARAQUARA,1,716.94,714.18,S,S,19
1662881,2010,1ª CHAMADA,5322,FUNDAÇÃO UNIVERSIDADE FEDERAL DO PAMPA - UNIPAMPA,RS,"Bagé-RS, Rua Carlos Barbosa , Getúlio Vargas",RS,Bagé,Engenharia da Computação,Bacharelado,...,M,1986,RS,CACHOEIRA DO SUL,1,681.16,676.54,S,S,24
1663012,2010,1ª CHAMADA,599,"INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNO...",BA,"Salvador-BA, Rua Emídio dos Santos, Barbalho",BA,Salvador,Análise e Desenvolvimento de Sistemas,Tecnológico,...,M,1991,BA,SALVADOR,1,699.35,699.35,S,S,19


In [17]:
microdados['nu_notacorte'].describe()


count    605.000000
mean     681.506992
std       40.221029
min      509.940000
25%      657.360000
50%      680.880000
75%      707.360000
max      762.180000
Name: nu_notacorte, dtype: float64

Gráfico de barras horizontais mostrando a nota média de corte por curso.

Eixo X: nota média

Eixo Y: nome do curso

Cor: intensidade da nota

# gênero × curso

In [18]:
genero_curso = microdados.groupby(['nome_curso', 'tp_sexo']).size().reset_index(name='Quantidade')
genero_curso

Unnamed: 0,nome_curso,tp_sexo,Quantidade
0,Engenharia de Software,M,12
1,Análise e Desenvolvimento de Sistemas,F,61
2,Análise e Desenvolvimento de Sistemas,M,180
3,Ciência da Computação,F,42
4,Ciência da Computação,M,195
5,Engenharia da Computação,F,12
6,Engenharia da Computação,M,81
7,Gestão da Tecnologia da Informação,F,3
8,Gestão da Tecnologia da Informação,M,4
9,Informática,F,3


# Exporta o DataFrame 'microdados' para um arquivo CSV

In [19]:
microdados.to_csv(
    '1_chamada2010_limpos.csv',  
    index=False,                         
    encoding='utf-8'                     
)
