
# Medicina no Brasil


%md
No Brasil, os cursos de medicina são extremamente concorridos e exigentes, com uma carga horária intensa e duração média de seis anos. As faculdades de medicina no país oferecem formação em diversas áreas, como cirurgia, pediatria, ginecologia e obstetrícia, entre outras especialidades médicas.

Existem opções de bolsas para estudantes que desejam cursar medicina no país. Uma das principais opções é o Programa Universidade para Todos (PROUNI), que oferece bolsas de estudos parciais e integrais em universidades particulares para estudantes de baixa renda que tenham obtido boas notas no Enem.

Além disso, há também a possibilidade de ingressar em universidades públicas, que são gratuitas e oferecem um ensino de qualidade reconhecido mundialmente. No entanto, o processo seletivo para ingresso em universidades públicas é bastante concorrido e exige um alto desempenho dos candidatos.

Nas próximas seções, iremos disponibilizar alguns resultados com base em dados modificados do PROUNI e de universidades públicas, a fim de fornecer informações mais detalhadas sobre as opções de bolsas e ingresso nessas instituições de ensino.


Esse conjunto de dados apresenta informações sobre cursos de graduação na área de saúde em universidades brasileiras. As colunas incluem informações sobre o grau do curso, turno, mensalidade, tipos de bolsa integral e parcial (cotas e ampla concorrência), cidade e universidade. Além disso, há informações sobre as notas de corte para acesso às vagas com bolsa e sem bolsa.

Algumas informações que podem ser interessantes avaliar nesse conjunto de dados são: quais universidades oferecem bolsas de estudos e qual é a porcentagem de bolsas concedidas para cada curso; quais são as notas de corte para acesso às vagas com bolsa e sem bolsa; quais são as universidades e cidades com os cursos mais caros e mais baratos em relação à mensalidade; quais são as opções de cursos em diferentes cidades e estados do país.


In [0]:
import pyspark.pandas as ps

In [0]:
# dbutils.fs.mv('FileStore/tables/cursos_prouni.csv', '/FileStore/tables/ProUni/cursos_prouni.csv')
# dbutils.fs.mv('FileStore/tables/reajuste.csv', '/FileStore/tables/ProUni/reajuste.csv')

In [0]:
display(dbutils.fs.ls('/FileStore/tables/ProUni/'))

path,name,size,modificationTime
dbfs:/FileStore/tables/ProUni/cursos_prouni.csv,cursos_prouni.csv,9225477,1707595482000
dbfs:/FileStore/tables/ProUni/reajuste.csv,reajuste.csv,124990,1707595483000



# Importando arquivo com pandas 

In [0]:
cursos_prouni = '/FileStore/tables/ProUni/cursos_prouni.csv'
reajuste_prouni = '/FileStore/tables/ProUni/reajuste.csv'


Passando como index id a coluna de ID


A partir dessa tabela, podemos inferir algumas informações sobre as bolsas de estudo oferecidas nos cursos de graduação do conjunto de dados. A média de bolsas integrais concedidas por curso por meio de cotas é de 2.80, enquanto a média de bolsas integrais concedidas por ampla concorrência é de 2.27. Já a média de bolsas parciais concedidas por cotas é de 4.47, enquanto a média de bolsas parciais concedidas por ampla concorrência é de 3.87.

Além disso, podemos observar a variação desses números, representados pelo desvio padrão, e verificar que há uma grande variabilidade nas concessões de bolsas pelos cursos. Podemos também observar os valores mínimo e máximo e verificar que o número de bolsas concedidas pode variar de 1 a 8 para bolsas integrais por cotas, de 1 a 5 para bolsas integrais por ampla concorrência, de 1 a 9 para bolsas parciais por cotas e de 1 a 10 para bolsas parciais por ampla concorrência.


In [0]:
df = ps.read_csv(cursos_prouni, index_col= 'curso_id')
df.head()

Unnamed: 0_level_0,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,curso_busca,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
curso_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
706710394154,Bacharelado,Integral,9999.99,15,14.0,,,Medicina,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
104191210567043,Bacharelado,Noturno,9836.4,1,,,,Enfermagem,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
1002328574024,Bacharelado,Integral,9715.61,2,5.0,6.0,10.0,Medicina,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
104191212798093,Bacharelado,Noturno,9689.34,3,2.0,,,Psicologia,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Psicologia,651.0,652.22,,
65899611932754,Bacharelado,Integral,9674.34,4,1.0,5.0,2.0,Medicina,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26



## Verificando se há colunas duplicadas

In [0]:
df.shape

Out[85]: (41447, 19)


Verificando se as colunas são iguais para poder retirá-las

In [0]:
df['curso_busca'].equals(df['nome']).sum()

Out[86]: 41447


Retirando colunas duplicadas

In [0]:
df = df.drop(['curso_busca'], axis = 1) 

In [0]:
df.head()

Unnamed: 0_level_0,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
curso_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
706710394154,Bacharelado,Integral,9999.99,15,14.0,,,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
104191210567043,Bacharelado,Noturno,9836.4,1,,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
1002328574024,Bacharelado,Integral,9715.61,2,5.0,6.0,10.0,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
104191212798093,Bacharelado,Noturno,9689.34,3,2.0,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Psicologia,651.0,652.22,,
65899611932754,Bacharelado,Integral,9674.34,4,1.0,5.0,2.0,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26


In [0]:
df.rename(columns={'nome': 'nome_curso'}, inplace=True)
df.head()

Unnamed: 0_level_0,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
curso_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
706710394154,Bacharelado,Integral,9999.99,15,14.0,,,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
104191210567043,Bacharelado,Noturno,9836.4,1,,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
1002328574024,Bacharelado,Integral,9715.61,2,5.0,6.0,10.0,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
104191212798093,Bacharelado,Noturno,9689.34,3,2.0,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Psicologia,651.0,652.22,,
65899611932754,Bacharelado,Integral,9674.34,4,1.0,5.0,2.0,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26



# Retirando valores nulos 

In [0]:
df.dropna(inplace=True)


# Perguntas


## Quantos cursos de medicina o ProUni Oferece? 

In [0]:
df[df['nome_curso'] == 'Medicina']['nome_curso'].count()

Out[91]: 15


## Quais opções de turnos? 

In [0]:
df['turno'].unique()

Out[92]: 0             Matutino
1    Curso a Distância
2           Vespertino
3             Integral
4              Noturno
Name: turno, dtype: object


## Quais os turnos para o curso de medicina? 

In [0]:
df[(df['turno'] == 'Integral') & (df['nome_curso'] == 'Medicina')]['nome_curso'].count()

Out[93]: 15

In [0]:
df[(df['turno'] == 'Matutino') & (df['nome_curso'] == 'Medicina')]['nome_curso'].count()

Out[94]: 0

In [0]:
df[
    (df['turno']=='Integral') & (df['nome_curso']=='Medicina') 
    | 
    (df['turno']=='Matutino') & (df['nome_curso']=='Medicina') 
    ]['nome_curso'].count()

Out[95]: 15


## Quais as mensalidades dos cursos de medicina? 


Importando reajuste

In [0]:
df_mensalidade = ps.read_csv(reajuste_prouni) 

In [0]:
df_mensalidade.head()

Unnamed: 0,reajuste
0,100
1,50
2,100
3,50
4,100


In [0]:
df_mensalidade.shape

Out[98]: (41447, 1)


Setando como True para usar calculos entre diferentes df

In [0]:
ps.set_option('compute.ops_on_diff_frames', True)


Aplicando reajuste

In [0]:
df.reset_index(inplace=True)

In [0]:
df['mensalidade'] = df['mensalidade'] + df_mensalidade['reajuste']

In [0]:
medicina_df = df[df['nome_curso'] == 'Medicina']
total_mensalidade = medicina_df['mensalidade'].sum()

qtd_medicina = df[
    (df['turno']=='Integral') & (df['nome_curso']=='Medicina') 
    | 
    (df['turno']=='Matutino') & (df['nome_curso']=='Medicina') 
    ]['nome_curso'].count()

media_mensalidade = round(total_mensalidade / qtd_medicina,2)

print(f'O valor médio do curso de médicina é {media_mensalidade}')

O valor médio do curso de médicina é 7994.02



# Resumo do DataFrame

In [0]:
drop_columns = ['curso_id', 'campus_id', 'nota_integral_ampla', 'nota_integral_cotas', 'nota_parcial_ampla', 'nota_parcial_cotas']

In [0]:
descricao_geral = df.describe()
descricao_geral_limpo = descricao_geral.drop(drop_columns,axis=1)
descricao_geral_limpo_ = descricao_geral_limpo.drop(['count'], axis=0)
descricao_geral_limpo_

Unnamed: 0,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla
mean,890.34364,1.891058,2.082161,3.387199,7.190649
std,741.695607,1.969321,2.105756,4.020312,13.897084
min,194.0,1.0,1.0,1.0,1.0
25%,501.1,1.0,1.0,1.0,2.0
50%,780.07,1.0,1.0,2.0,3.0
75%,1080.0,2.0,2.0,4.0,6.0
max,9815.61,34.0,50.0,74.0,179.0



## Resumo dos cursos de medicina

In [0]:
df_descricao = df[df['nome_curso'] == 'Medicina'].describe()
df_descricao_limpo = df_descricao.drop(drop_columns,axis=1)
df_descricao_limpo_ = df_descricao_limpo.drop(['count'], axis=0)
df_descricao_limpo_

Unnamed: 0,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla
mean,7994.021333,2.8,2.266667,4.466667,3.866667
std,1097.726273,1.859339,1.533747,2.587516,2.669047
min,6063.0,1.0,1.0,1.0,1.0
25%,7080.0,1.0,1.0,1.0,2.0
50%,8295.0,2.0,1.0,5.0,3.0
75%,8558.54,4.0,3.0,6.0,5.0
max,9815.61,8.0,5.0,9.0,10.0


In [0]:
df_descricao_limpo_.style.format('{:,.2f}').background_gradient(axis=1)

Unnamed: 0,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla
mean,7994.02,2.8,2.27,4.47,3.87
std,1097.73,1.86,1.53,2.59,2.67
min,6063.0,1.0,1.0,1.0,1.0
25%,7080.0,1.0,1.0,1.0,2.0
50%,8295.0,2.0,1.0,5.0,3.0
75%,8558.54,4.0,3.0,6.0,5.0
max,9815.61,8.0,5.0,9.0,10.0



# Média do curso de medicina por estado

In [0]:
df_medicina = df.query("nome_curso == 'Medicina'")
df_medicina.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
0,1002328574024,Bacharelado,Integral,9815.61,2,5,6,10,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
1,65899611932754,Bacharelado,Integral,9724.34,4,1,5,2,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26
2,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Itaperuna,RJ,MzMwMTAwMTAyMjA1,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82
3,104123711716094,Bacharelado,Integral,8558.54,2,1,7,2,Belem,PA,MTUwMzAwNzAxNDAy,Faculdade Metropolitana da Amazônia - FAMAZ,FACULDADE METROPOLITANA DA AMAZÔNIA - FAMAZ - ...,1041237,Medicina,741.36,739.9,760.8,715.1
4,105887911921884,Bacharelado,Integral,8381.38,3,1,6,2,Imperatriz,MA,MjEwMjAwOTA1MzAy,Universidade do Ceuma - Uniceuma - UNICEUMA,UNIVERSIDADE DO CEUMA - UNICEUMA - CAMPUS IMPE...,1058879,Medicina,756.46,737.88,747.14,717.6


In [0]:
df_medicina['mensalidade'].mean()

Out[108]: 7994.021333333333

In [0]:
df_medicina.query("turno == 'Integral' AND cidade_busca == 'Sao Paulo'")

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
0,1002328574024,Bacharelado,Integral,9815.61,2,5,6,10,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
6,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28


In [0]:
agrupado = df_medicina.query("turno == 'Integral' OR turno == 'Matutino'").groupby('uf_busca')['mensalidade'].mean()
df_agrupado = ps.DataFrame(agrupado)
df_agrupado

Unnamed: 0_level_0,mensalidade
uf_busca,Unnamed: 1_level_1
RO,7009.97
SP,8477.466667
PB,7512.7
ES,6063.0
MG,7687.5
PA,8558.54
RJ,9123.07
MA,8381.375
AC,9724.34
PR,7174.275


In [0]:
df_agrupado.sort_values(by='mensalidade', inplace = True, ascending = False)
df_agrupado

Unnamed: 0_level_0,mensalidade
uf_busca,Unnamed: 1_level_1
AC,9724.34
RJ,9123.07
PA,8558.54
SP,8477.466667
MA,8381.375
MG,7687.5
PB,7512.7
PR,7174.275
RO,7009.97
ES,6063.0


In [0]:
df_agrupado = df_agrupado.reset_index()


#### Visão gráfica

Qual é a média da mensalidade dos cursos de medicina por estado?


Podemos ver que o Estado com maior média de mensalidades é o Acre e o menor é o Espírito Santo.


In [0]:
df_agrupado.plot.bar(x='uf_busca', y='mensalidade')


# Qual numero total de bolsas por estado

In [0]:
ps.sql('''
       SELECT bolsa_integral_cotas, uf_busca FROM {DF}
       where nome_curso = 'Medicina'
       limit 5
       ''', DF=df)

Unnamed: 0,bolsa_integral_cotas,uf_busca
0,2,SP
1,4,AC
2,4,RJ
3,2,PA
4,3,MA



Total de cotas por estado:

In [0]:
cotas_ordenadas = ps.sql('''
       select uf_busca, sum(bolsa_integral_cotas) as total_cotas
       from {DF} 
       where nome_curso = 'Medicina'
       group by
       uf_busca
       order by total_cotas desc
       ''', DF=df)

cotas_ordenadas

Unnamed: 0,uf_busca,total_cotas
0,PB,8
1,MA,7
2,SP,6
3,RO,4
4,RJ,4
5,AC,4
6,ES,3
7,MG,2
8,PA,2
9,PR,2



Quais estados possuem um número maior de cotas?



Em relação às cotas é o que possui mais cotas e o Espírito Santo é o sétimo.

In [0]:
cotas_ordenadas.plot.bar(x='uf_busca', y='total_cotas')


# Temos mais cotas em capitais de estado ou em outros municípios?

In [0]:
df_medicina['cidade_busca'].unique()

Out[117]: 0          Sao Luis
1       Joao Pessoa
2             Belem
3         Itaperuna
4           Vitoria
5            Franca
6         Sao Paulo
7      Campo Mourao
8        Guarapuava
9     Montes Claros
10       Rio Branco
11       Imperatriz
12       Vespasiano
13      Porto Velho
Name: cidade_busca, dtype: object

In [0]:
nomes_cidades = {
"Sao Luis": "Capital",
"Joao Pessoa":"Capital",
"Belem":"Capital",
"Itaperuna":"Município",
"Vitoria":"Município",
"Franca":"Município",
"Sao Paulo":"Capital",
"Guarapuava":"Município",
"Campo Mourao":"Município",
"Montes Claros":"Município",
"Rio Branco":"Município",
"Imperatriz":"Município",
"Vespasiano":"Município",
"Porto Velho": "Município"
}

capitais = df_medicina['cidade_busca'].map(nomes_cidades)

df_medicina.insert(loc=8, column = 'titulo_cidade', value=capitais)

In [0]:
df_medicina.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,titulo_cidade,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
0,1002328574024,Bacharelado,Integral,9815.61,2,5,6,10,Capital,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
1,65899611932754,Bacharelado,Integral,9724.34,4,1,5,2,Município,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26
2,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Município,Itaperuna,RJ,MzMwMTAwMTAyMjA1,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82
3,104123711716094,Bacharelado,Integral,8558.54,2,1,7,2,Capital,Belem,PA,MTUwMzAwNzAxNDAy,Faculdade Metropolitana da Amazônia - FAMAZ,FACULDADE METROPOLITANA DA AMAZÔNIA - FAMAZ - ...,1041237,Medicina,741.36,739.9,760.8,715.1
4,105887911921884,Bacharelado,Integral,8381.38,3,1,6,2,Município,Imperatriz,MA,MjEwMjAwOTA1MzAy,Universidade do Ceuma - Uniceuma - UNICEUMA,UNIVERSIDADE DO CEUMA - UNICEUMA - CAMPUS IMPE...,1058879,Medicina,756.46,737.88,747.14,717.6



Já para quem prefere estudar nas grandes capitais temos 10 cursos em capitais de estados.


In [0]:
cotas_ordenadas = ps.sql('''
    select 
        titulo_cidade, 
        sum(bolsa_integral_cotas) as total_cotas
    from {DF}
    group by 
        titulo_cidade
    order by
        total_cotas desc
                         ''', DF = df_medicina)

cotas_ordenadas.plot.bar(x='titulo_cidade', y='total_cotas')


#  Como a mensalidade do curso se relaciona com a quantidade de bolsas?



Gerando a matriz de correlação

In [0]:
aux = df_medicina[['mensalidade',
                   'bolsa_integral_cotas',
                   'bolsa_integral_ampla',
                   'bolsa_parcial_cotas',
                   'bolsa_parcial_ampla',
                   'nota_integral_ampla', 
                   'nota_integral_cotas', 
                   'nota_parcial_ampla','nota_parcial_cotas'
                   ]]


É fundamental entender como a mensalidade de um curso se relaciona com a quantidade de bolsas oferecidas, pois isso pode influenciar significativamente a acessibilidade e a viabilidade financeira da educação superior para muitos estudantes. Então vamos responder a pergunta.



Como a mensalidade do curso se relaciona com a quantidade de bolsas?

In [0]:
aux.corr().style.background_gradient(cmap='Reds', vmin=-1, vmax=1)


toPandas attempted Arrow optimization because 'spark.sql.execution.arrow.pyspark.enabled' is set to true; however, failed by the reason below:
  Unable to convert the field pearson(__correlation_output__). If this column is not necessary, you may consider dropping it or converting to primitive type before the conversion.
Direct cause: Unsupported type in conversion to Arrow: MatrixUDT()
Attempting non-optimization as 'spark.sql.execution.arrow.pyspark.fallback.enabled' is set to true.



Unnamed: 0,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
mensalidade,1.0,0.08211,0.092299,0.467046,0.292648,-0.441189,-0.042447,-0.503252,-0.563851
bolsa_integral_cotas,0.08211,1.0,0.520982,0.45134,-0.120903,-0.155176,-0.360329,-0.247502,-0.064
bolsa_integral_ampla,0.092299,0.520982,1.0,0.182384,0.620009,-0.489539,-0.293681,-0.218251,0.084619
bolsa_parcial_cotas,0.467046,0.45134,0.182384,1.0,0.195821,-0.468888,-0.253827,-0.546129,-0.469743
bolsa_parcial_ampla,0.292648,-0.120903,0.620009,0.195821,1.0,-0.549894,-0.270162,-0.534464,-0.266389
nota_integral_ampla,-0.441189,-0.155176,-0.489539,-0.468888,-0.549894,1.0,0.420823,0.409216,0.563932
nota_integral_cotas,-0.042447,-0.360329,-0.293681,-0.253827,-0.270162,0.420823,1.0,0.402048,0.237963
nota_parcial_ampla,-0.503252,-0.247502,-0.218251,-0.546129,-0.534464,0.409216,0.402048,1.0,0.702974
nota_parcial_cotas,-0.563851,-0.064,0.084619,-0.469743,-0.266389,0.563932,0.237963,0.702974,1.0


In [0]:
df_medicina.plot.scatter(x='mensalidade', y='bolsa_parcial_cotas', trendline='ols', trendline_color_override='Red')


Não pode se dizer que há correlação relevante entre a mensalidade e a quantidade de bolsas ofertadas

In [0]:
df_medicina.plot.scatter(x='nota_parcial_ampla', y='nota_parcial_cotas', trendline='ols', trendline_color_override='Red')


Existem outras relações que podem ser obversadas como as notas de quem tem cotas e de quem não possui.

In [0]:
df_medicina.plot.scatter(x='nota_parcial_ampla', y='bolsa_parcial_cotas', trendline='ols', trendline_color_override='Red')


# Como o turno do curso afeta a mensalidade?


Media geral

In [0]:
df['mensalidade'].plot.box()

In [0]:
df[df['turno']=='Integral']['mensalidade'].plot.box()

In [0]:
df[df['turno']=='Matutino']['mensalidade'].plot.box() 


Se vê que a media e mediana de cursos em periodos integral são elevadamente maior do que a média geral


Comparando os cursos de enfermagem com os de medicina vemos que os cursos de medicina são muito mais caros mesmo sendo de uma área correlata.

In [0]:
df[df['nome_curso']=='Medicina']['mensalidade'].plot.box() 

In [0]:
df[df['nome_curso']=='Enfermagem']['mensalidade'].plot.box(fillcolor='red') 


# Quais faculdades são universidades?

In [0]:
selecao = df_medicina[df_medicina['universidade_nome'].str.contains('Universidade')]['universidade_nome']
selecao

Out[127]: 0       Universidade Cidade de São Paulo - UNICID
5     Universidade do Ceuma - Uniceuma - UNICEUMA
10               Universidade de Franca - UNIFRAN
4     Universidade do Ceuma - Uniceuma - UNICEUMA
Name: universidade_nome, dtype: object

In [0]:
df_medicina['universidade_nome'].loc[8]  = 'Centro Universitário Integrado de Campo Mourão - CUICM'
df_medicina['universidade_nome'].loc[8]

Out[128]: 'Centro Universitário Integrado de Campo Mourão - CUICM'

In [0]:
separado = df_medicina['universidade_nome'].str.split(' - ',n=1, expand=True)
separado

Unnamed: 0,0,1
0,Universidade Cidade de São Paulo,UNICID
1,Faculdade Barão do Rio Branco,FAB
2,Faculdade Redentor,FACREDENTOR
3,Faculdade Metropolitana da Amazônia,FAMAZ
4,Universidade do Ceuma,Uniceuma - UNICEUMA
5,Universidade do Ceuma,Uniceuma - UNICEUMA
6,Faculdade das Américas,FAM
7,Faculdade da Saúde e Ecologia Humana,FASEH
8,Centro Universitário Integrado de Campo Mourão,CUICM
9,Faculdade de Ciências Médicas da Paraíba,FCM-PB


In [0]:
df_medicina.insert(loc=12, column='sigla', value=separado[1])

In [0]:
df_medicina.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,titulo_cidade,cidade_busca,uf_busca,cidade_filtro,sigla,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
0,1002328574024,Bacharelado,Integral,9815.61,2,5,6,10,Capital,Sao Paulo,SP,MzUxNTA2MTUwMzA4,UNICID,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
1,65899611932754,Bacharelado,Integral,9724.34,4,1,5,2,Município,Rio Branco,AC,MTIwMjAwNDAwNDAx,FAB,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26
2,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Município,Itaperuna,RJ,MzMwMTAwMTAyMjA1,FACREDENTOR,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82
3,104123711716094,Bacharelado,Integral,8558.54,2,1,7,2,Capital,Belem,PA,MTUwMzAwNzAxNDAy,FAMAZ,Faculdade Metropolitana da Amazônia - FAMAZ,FACULDADE METROPOLITANA DA AMAZÔNIA - FAMAZ - ...,1041237,Medicina,741.36,739.9,760.8,715.1
4,105887911921884,Bacharelado,Integral,8381.38,3,1,6,2,Município,Imperatriz,MA,MjEwMjAwOTA1MzAy,Uniceuma - UNICEUMA,Universidade do Ceuma - Uniceuma - UNICEUMA,UNIVERSIDADE DO CEUMA - UNICEUMA - CAMPUS IMPE...,1058879,Medicina,756.46,737.88,747.14,717.6


In [0]:
notas_ordenadas = ps.sql('''
        select
            sigla, 
            mean(nota_integral_ampla) as nota_media
        from {DF}
        group by
            sigla
        order by 
            nota_media desc
                         ''', DF=df_medicina)

notas_ordenadas.head()

Unnamed: 0,sigla,nota_media
0,CAMPO REAL,781.2
1,FASEH,770.5
2,FIP-MOC,765.76
3,MULTIVIX VITÓRIA,762.74
4,FAB,758.32



Em relação as faculdades, a que tem a melhor nota é a campo real

In [0]:
notas_ordenadas.plot.bar(x='sigla', y='nota_media')


# Link para mais informações, agora de 2020 e 2021: 
https://pt.wikipedia.org/wiki/Programa_Universidade_para_Todos

In [0]:
import pandas as pd

data = {
    'Ano': [2021,2020],
    'Bolsas_Integrais': [146.3, 182.9],
    'Bolsas_Parciais': [150.0, 237.4],
    'Bolsas_Total': [296.3, 420.3]
}

In [0]:
df_pandas = pd.DataFrame(data)

In [0]:
df_bolsas = ps.from_pandas(df_pandas)
df_bolsas

Unnamed: 0,Ano,Bolsas_Integrais,Bolsas_Parciais,Bolsas_Total
0,2021,146.3,150.0,296.3
1,2020,182.9,237.4,420.3



Como a quantidade de bolsas variou nos últimos anos?


Fonte: https://pt.wikipedia.org/wiki/Programa_Universidade_para_Todos Acessado em: 2024


Tivemos uma diminuição de bolsas em 2021

In [0]:
df_bolsas.plot.bar(x='Ano',y=['Bolsas_Integrais','Bolsas_Parciais'],barmode='group')


# Rankeando as universidades publicas com base em site externo


site para consulta https://pt.wikipedia.org/wiki/Ensino_superior_no_Brasil

In [0]:
url = 'https://pt.wikipedia.org/wiki/Ensino_superior_no_Brasil'

In [0]:
!pip install lxml

Collecting lxml
  Downloading lxml-5.1.0-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (8.0 MB)
[?25l[K     |                                | 10 kB 14.0 MB/s eta 0:00:01[K     |                                | 20 kB 15.7 MB/s eta 0:00:01[K     |▏                               | 30 kB 7.3 MB/s eta 0:00:02[K     |▏                               | 40 kB 4.5 MB/s eta 0:00:02[K     |▏                               | 51 kB 5.5 MB/s eta 0:00:02[K     |▎                               | 61 kB 5.4 MB/s eta 0:00:02[K     |▎                               | 71 kB 5.4 MB/s eta 0:00:02[K     |▎                               | 81 kB 6.1 MB/s eta 0:00:02[K     |▍                               | 92 kB 5.8 MB/s eta 0:00:02[K     |▍                               | 102 kB 5.4 MB/s eta 0:00:02[K     |▌                               | 112 kB 5.4 MB/s eta 0:00:02[K     |▌                               | 122 kB 5.4 MB/s eta 0:00:02[K     |▌                             

In [0]:
lista = ps.read_html(url)
df_publicas = lista[0]

In [0]:
df_publicas.head()

Unnamed: 0,Classificação Nacional,Classificação Mundial,Universidade,Logo,sigla,tipo,web,Localização
0,1,72,Universidade de São Paulo,,USP,Pública Estadual,www5.usp.br/,São Paulo
1,2,236,Universidade Estadual de Campinas,,UNICAMP,Pública Estadual,www.unicamp.br/,São Paulo
2,3,278,Universidade Federal do Rio de Janeiro,,UFRJ,Pública federal,ufrj.br/,Rio de Janeiro
3,4,298,Universidade Federal de Minas Gerais,,UFMG,Pública federal,ucb.edu.bo,Minas Gerais
4,5,345,Universidade Estadual Paulista,,UNESP,Pública Estadual,www.unesp.br,São Paulo


In [0]:
df_publicas.sort_values(by=['Classificação Nacional'], inplace = True, ascending=False)


Caso a pessoa decida tentar uma universidade pública a USP é a que possui melhor nota, seguida pela Unicamp.


In [0]:
fig = df_publicas.plot.bar(x='sigla', y = 'Classificação Nacional', color=range(10))
fig.layout.coloraxis.showscale = False
fig.show()


# Criando DF em Pyspark

In [0]:
dfs_bolsas = df_bolsas.to_spark()

In [0]:
dfs_bolsas.show()

+----+----------------+---------------+------------+
| Ano|Bolsas_Integrais|Bolsas_Parciais|Bolsas_Total|
+----+----------------+---------------+------------+
|2021|           146.3|          150.0|       296.3|
|2020|           182.9|          237.4|       420.3|
+----+----------------+---------------+------------+



In [0]:
local = '/FileStore/tables/ProUni/publicas.parquet'
df_publicas.to_parquet(local, partition_cols='Classificação Nacional')

In [0]:
display(dbutils.fs.ls('/FileStore/tables/ProUni'))

path,name,size,modificationTime
dbfs:/FileStore/tables/ProUni/cursos_prouni.csv,cursos_prouni.csv,9225477,1707595482000
dbfs:/FileStore/tables/ProUni/publicas.parquet/,publicas.parquet/,0,0
dbfs:/FileStore/tables/ProUni/reajuste.csv,reajuste.csv,124990,1707595483000
