## 📁 Criando a Base de Dados que possui apenas os cursos de Computação 

#### (APENAS PARA VISUALIZAÇÕES DE DADOS)

### 1️⃣ Visão Geral dos Dados

In [1]:
import pandas as pd

# Lê o arquivo Excel
df = pd.read_excel('dados_UFV_Geral_Limpo.xlsx', engine='openpyxl')

# Visualiza as primeiras linhas
df.head()

Unnamed: 0,Identificador,Ano_Nascimento,Sexo,Campus,Curso_Identificador,Curso,UF_Nascimento,Municipio_Nascimento,Admissao,Saida,...,End_Municipio,End_UF,Intervalo_ENEM,Intervalo_CRA,Regiao_Nascimento,Regiao_End,Intervalo_Ano_Nascimento,Ano_Admissao,Ano_Saida,entrada_pandemia
0,71447,1989.0,M,CAV,1110,CAV - Bacharelado em Educação Física,MG,Ervália,2009/1,2013/2,...,Ervalia,MG,,80.0-90.0,Sudeste,Sudeste,1980-1989,2009,2013.0,Nao
1,137734,1998.0,M,CAV,1123,CAV - Física,SP,Sorocaba,2017/1,2023/2,...,Votorantim,SP,600.0-700.0,70.0-80.0,Sudeste,Sudeste,1990-1999,2017,2023.0,Nao
2,71124,1989.0,M,CAV,1108,CAV - Ciências Econômicas,MG,Sete Lagoas,2009/1,2009/1,...,Ouro Branco,MG,,0-10,Sudeste,Sudeste,1980-1989,2009,2009.0,Nao
3,77401,1991.0,M,CAV,1143,CAV - Licenciatura em Física,MG,Viçosa,2010/1,2010/2,...,Paula Cândido,MG,600.0-700.0,10.0-20.0,Sudeste,Sudeste,1990-1999,2010,2010.0,Nao
4,90844,1992.0,F,CAV,1139,CAV - Engenharia Química,MG,Belo Horizonte,2012/1,2017/1,...,Belo Horizonte,MG,,80.0-90.0,Sudeste,Sudeste,1990-1999,2012,2017.0,Nao


In [2]:
# Quantidade e porcentagem de nulos por coluna
nulos = df.isnull().sum()
porcentagem = (nulos / len(df)) * 100

# Junta tudo em um DataFrame bonitinho
pd.DataFrame({'Nulos': nulos, 'Porcentagem (%)': porcentagem.round(2)})

Unnamed: 0,Nulos,Porcentagem (%)
Identificador,0,0.0
Ano_Nascimento,19,0.02
Sexo,1,0.0
Campus,0,0.0
Curso_Identificador,0,0.0
Curso,0,0.0
UF_Nascimento,445,0.59
Municipio_Nascimento,114,0.15
Admissao,0,0.0
Saida,0,0.0


In [3]:
# Mostra os valores únicos de cada coluna
for col in df.columns:
    print(f"Coluna: {col}")
    print(df[col].unique())
    print("-" * 40)

Coluna: Identificador
[   71447   137734    71124 ... 30011449 30011462 30011463]
----------------------------------------
Coluna: Ano_Nascimento
[1989. 1998. 1991. 1992. 1996. 1993. 2002. 2000. 1984. 1999. 1983. 1987.
 2003. 2001. 1994. 1986. 1982. 1997. 1978. 2004. 1972. 1985. 1967. 1990.
 1974. 1960. 1988. 1981. 1980. 1995. 1948. 1979. 1957. 1969. 1956. 1973.
 2005. 1961. 1971. 1976. 1950. 1970. 1965. 1955. 1977. 1959. 1968. 1962.
 1966. 1953. 1975. 1964. 1963. 1947. 1952. 1958. 1946. 1954. 1951.   nan
 1949. 1942. 1941. 1944. 1940. 1945. 1938. 1900. 1943.]
----------------------------------------
Coluna: Sexo
['M' 'F' nan]
----------------------------------------
Coluna: Campus
['CAV' 'CAF' 'CRP']
----------------------------------------
Coluna: Curso_Identificador
[1110 1123 1108 1143 1139 1103 1150 1117 1102 1132 1142 1127 1113 1144
 1128 1125 1106 1141 1112 1131 1146 1109 1121 1134 1101 1116 1122 1424
 1137 1120 1111 1419 1129 1107 1135 1145 1140 1124 1126 1151 1152 1104
 1118 1

### 2️⃣ Criação da nova Base de Dados

In [4]:
# Lista dos cursos desejados
cursos_TI = [
    'CAF - Ciência da Computação',
    'CRP - Sistemas de Informação - Integral',
    'CRP - Sistemas de Informação - Noturno',
    'CAV - Ciência da Computação'
]

# Filtra as linhas em que o valor da coluna 'Curso' está na lista
df_comp = df[df['Curso'].isin(cursos_TI)]

# Salva em um novo arquivo Excel
df_comp.to_excel('dados_UFV_comp_VD.xlsx', index=False)

In [5]:
df_comp.head()

Unnamed: 0,Identificador,Ano_Nascimento,Sexo,Campus,Curso_Identificador,Curso,UF_Nascimento,Municipio_Nascimento,Admissao,Saida,...,End_Municipio,End_UF,Intervalo_ENEM,Intervalo_CRA,Regiao_Nascimento,Regiao_End,Intervalo_Ano_Nascimento,Ano_Admissao,Ano_Saida,entrada_pandemia
19,112343,1996.0,M,CAV,1141,CAV - Ciência da Computação,MG,Coronel Fabriciano,2015/1,2023/2,...,Belo Oriente,MG,600.0-700.0,50.0-60.0,Sudeste,Sudeste,1990-1999,2015,2023.0,Nao
25,128409,1996.0,F,CAV,1141,CAV - Ciência da Computação,MG,Ipatinga,2016/1,2022/2,...,Ipatinga,MG,600.0-700.0,60.0-70.0,Sudeste,Sudeste,1990-1999,2016,2022.0,Nao
27,139167,1982.0,M,CAV,1141,CAV - Ciência da Computação,MG,Coronel Fabriciano,2017/1,2017/1,...,Timoteo,MG,700.0-800.0,0-10,Sudeste,Sudeste,1980-1989,2017,2017.0,Nao
55,82002,1993.0,M,CAV,1141,CAV - Ciência da Computação,BA,Cruz das Almas,2011/1,2011/1,...,Cruz das Almas,BA,,60.0-70.0,Nordeste,Nordeste,1990-1999,2011,2011.0,Nao
127,112368,1996.0,M,CAV,1141,CAV - Ciência da Computação,MG,Viçosa,2015/1,2021/2,...,Viçosa,MG,,50.0-60.0,Sudeste,Sudeste,1990-1999,2015,2021.0,Nao


In [6]:
# Cria um DataFrame com as contagens
contagem_cursos = df_comp['Curso'].value_counts().reset_index()
contagem_cursos.columns = ['Curso', 'Quantidade']
contagem_cursos

Unnamed: 0,Curso,Quantidade
0,CAV - Ciência da Computação,1111
1,CRP - Sistemas de Informação - Noturno,798
2,CRP - Sistemas de Informação - Integral,730
3,CAF - Ciência da Computação,627
