# Cursos de medicina no Brasil

No Brasil, os cursos de medicina são extremamente concorridos e exigentes, com uma carga horária intensa e duração média de seis anos. As faculdades de medicina no país oferecem formação em diversas áreas, como cirurgia, pediatria, ginecologia e obstetrícia, entre outras especialidades médicas.

Existem opções de bolsas para estudantes que desejam cursar medicina no país. Uma das principais opções é o Programa Universidade para Todos (PROUNI), que oferece bolsas de estudos parciais e integrais em universidades particulares para estudantes de baixa renda que tenham obtido boas notas no Enem.

Além disso, há também a possibilidade de ingressar em universidades públicas, que são gratuitas e oferecem um ensino de qualidade reconhecido mundialmente. No entanto, o processo seletivo para ingresso em universidades públicas é bastante concorrido e exige um alto desempenho dos candidatos.

Nas próximas seções, iremos disponibilizar alguns resultados com base em dados modificados do PROUNI e de universidades públicas, a fim de fornecer informações mais detalhadas sobre as opções de bolsas e ingresso nessas instituições de ensino.

In [0]:
local_do_arquivo = '/FileStore/cursos_prouni.csv'

In [0]:
import pyspark.pandas as ps

df = ps.read_csv(local_do_arquivo, index_col='curso_id')

Esse conjunto de dados apresenta informações sobre cursos de graduação na área de saúde em universidades brasileiras. As colunas incluem informações sobre o grau do curso, turno, mensalidade, tipos de bolsa integral e parcial (cotas e ampla concorrência), cidade e universidade. Além disso, há informações sobre as notas de corte para acesso às vagas com bolsa e sem bolsa.

Algumas informações que podem ser interessantes avaliar nesse conjunto de dados são: quais universidades oferecem bolsas de estudos e qual é a porcentagem de bolsas concedidas para cada curso; quais são as notas de corte para acesso às vagas com bolsa e sem bolsa; quais são as universidades e cidades com os cursos mais caros e mais baratos em relação à mensalidade; quais são as opções de cursos em diferentes cidades e estados do país.

In [0]:
df.head()

Unnamed: 0_level_0,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,curso_busca,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
curso_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
706710394154,Bacharelado,Integral,9999.99,15,14.0,,,Medicina,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
104191210567043,Bacharelado,Noturno,9836.4,1,,,,Enfermagem,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
1002328574024,Bacharelado,Integral,9715.61,2,5.0,6.0,10.0,Medicina,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
104191212798093,Bacharelado,Noturno,9689.34,3,2.0,,,Psicologia,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Psicologia,651.0,652.22,,
65899611932754,Bacharelado,Integral,9674.34,4,1.0,5.0,2.0,Medicina,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26


In [0]:
df.shape

Out[110]: (41447, 19)

In [0]:
df['curso_busca'].equals(df['nome']).sum()

Out[111]: 41447

In [0]:
df = df.drop(['curso_busca'],axis=1)

In [0]:
df.head()

Unnamed: 0_level_0,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
curso_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
706710394154,Bacharelado,Integral,9999.99,15,14.0,,,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
104191210567043,Bacharelado,Noturno,9836.4,1,,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
1002328574024,Bacharelado,Integral,9715.61,2,5.0,6.0,10.0,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
104191212798093,Bacharelado,Noturno,9689.34,3,2.0,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Psicologia,651.0,652.22,,
65899611932754,Bacharelado,Integral,9674.34,4,1.0,5.0,2.0,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26


In [0]:
df = df.rename(columns={'nome':'nome_curso'})

In [0]:
df.head()

Unnamed: 0_level_0,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
curso_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
706710394154,Bacharelado,Integral,9999.99,15,14.0,,,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
104191210567043,Bacharelado,Noturno,9836.4,1,,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
1002328574024,Bacharelado,Integral,9715.61,2,5.0,6.0,10.0,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
104191212798093,Bacharelado,Noturno,9689.34,3,2.0,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Psicologia,651.0,652.22,,
65899611932754,Bacharelado,Integral,9674.34,4,1.0,5.0,2.0,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26


In [0]:
df[df['nome_curso']=='Medicina']['nome_curso'].count()

Out[116]: 124

In [0]:
df['turno'].unique()

Out[117]: 0             Matutino
1    Curso a Distância
2           Vespertino
3             Integral
4              Noturno
Name: turno, dtype: object

In [0]:
df[(df['turno']=='Integral') & (df['nome_curso']=='Medicina')]['nome_curso'].count()

Out[118]: 123

In [0]:
df[(df['turno']=='Integral') & (df['nome_curso']=='Medicina') | (df['turno']=='Matutino') & (df['nome_curso']=='Medicina') ]['nome_curso'].count()

Out[119]: 124

In [0]:
local_do_arquivo = '/FileStore/tables/reajuste.csv'
df_mensalidade = ps.read_csv(local_do_arquivo)

In [0]:
df_mensalidade.head()

Unnamed: 0,reajuste
0,100
1,50
2,100
3,50
4,100


In [0]:
df_mensalidade.shape

Out[122]: (41447, 1)

In [0]:
ps.set_option('compute.ops_on_diff_frames',True)

In [0]:
df.reset_index(inplace=True)

In [0]:
df['mensalidade'] = df['mensalidade']+df_mensalidade['reajuste']

In [0]:
df.dropna(inplace=True)
df.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
1950,65982912800701,Bacharelado,Matutino,1561.29,1,1,1,30,Caucaia,CE,MjMwMzAxNjAzNzA5,Faculdade Terra Nordeste - FATENE,UNIDADE SEDE - Soledade,659829,Engenharia Civil,688.7,693.02,450.0,450.0
8440,65928650009893,Bacharelado,Noturno,980.0,1,1,3,2,Sao Gotardo,MG,MzEwNTAyMDYyMTA0,Faculdade de Ciências Gerenciais de São Gotard...,UNIDADE SEDE - Boa Esperança,659286,Direito,638.94,612.92,608.26,579.5
9458,658024423323,Bacharelado,Noturno,927.0,2,1,3,2,Dourados,MS,NTAwNDAxMDAzNzAy,Centro Universitário da Grande Dourados - Unig...,DOURADOS - Jardim,658024,Psicologia,631.32,609.34,618.58,557.68
11190,1072630671593,Bacharelado,Noturno,829.0,6,5,10,9,Juiz de Fora,MG,MzExMjA2NTM2NzAy,Faculdade Doctum de Juiz de Fora - DOCTUM,CAMPUS APOGEU - Centro,1072630,Direito,669.4,632.94,615.56,584.58
17979,69558711774842,Tecnológico,Vespertino,543.0,1,1,1,1,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade da Amazônia Ocidental - FAAO,CAMPUS - RIO BRANCO - JARDIM PRIMAVERA - Jardi...,695587,Análise e Desenvolvimento de Sistemas,615.54,574.42,582.66,623.22


In [0]:
df.describe()

Unnamed: 0,curso_id,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,campus_id,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
count,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0
mean,43766140000000.0,881.605556,1.891058,2.082161,3.387199,7.190649,751066.0,599.38039,574.097921,547.297204,521.452964
std,48622650000000.0,737.440291,1.969321,2.105756,4.020312,13.897084,420241.4,53.194117,59.868058,58.971101,56.371352
min,164961100.0,194.0,1.0,1.0,1.0,1.0,479.0,450.0,450.0,450.0,450.0
25%,658949600000.0,500.0,1.0,1.0,1.0,2.0,658205.0,569.52,542.22,507.16,450.0
50%,10023280000000.0,773.83,1.0,1.0,2.0,3.0,659695.0,602.04,583.32,555.24,526.54
75%,104006000000000.0,1049.0,2.0,2.0,4.0,6.0,1054619.0,634.6,614.34,588.16,563.62
max,200825400000000.0,9815.61,34.0,50.0,74.0,179.0,2008254.0,781.2,792.24,776.36,768.34


In [0]:
df_descricao = df[df['nome_curso'] == 'Medicina'].describe()
df_descricao

Unnamed: 0,curso_id,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,campus_id,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
count,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0
mean,44078750000000.0,8007.354667,2.8,2.266667,4.466667,3.866667,759941.7,753.249333,738.438667,746.453333,724.676
std,43496360000000.0,1096.173682,1.859339,1.533747,2.587516,2.669047,251045.8,13.109076,16.966989,14.295313,18.302904
min,137380700000.0,6113.0,1.0,1.0,1.0,1.0,137380.0,735.84,720.2,729.72,690.18
25%,658461900000.0,7130.0,1.0,1.0,1.0,2.0,658345.0,741.36,729.02,735.76,715.1
50%,65793650000000.0,8295.0,2.0,1.0,5.0,3.0,660079.0,754.98,737.88,743.14,721.08
75%,70703410000000.0,8608.54,4.0,3.0,6.0,5.0,1041237.0,762.74,741.1,750.44,732.46
max,105887900000000.0,9815.61,8.0,5.0,9.0,10.0,1079920.0,781.2,792.24,776.36,768.34


In [0]:
df_descricao_bolsa = df_descricao.drop(['mensalidade','curso_id','campus_id',"nota_integral_ampla", "nota_integral_cotas", "nota_parcial_ampla", "nota_parcial_cotas"],axis=1)
df_descricao_bolsa = df_descricao_bolsa.drop(['count'],axis=0)

A partir dessa tabela, podemos inferir algumas informações sobre as bolsas de estudo oferecidas nos cursos de graduação do conjunto de dados. A média de bolsas integrais concedidas por curso por meio de cotas é de 2.80, enquanto a média de bolsas integrais concedidas por ampla concorrência é de 2.27. Já a média de bolsas parciais concedidas por cotas é de 4.47, enquanto a média de bolsas parciais concedidas por ampla concorrência é de 3.87.

Além disso, podemos observar a variação desses números, representados pelo desvio padrão, e verificar que há uma grande variabilidade nas concessões de bolsas pelos cursos. Podemos também observar os valores mínimo e máximo e verificar que o número de bolsas concedidas pode variar de 1 a 8 para bolsas integrais por cotas, de 1 a 5 para bolsas integrais por ampla concorrência, de 1 a 9 para bolsas parciais por cotas e de 1 a 10 para bolsas parciais por ampla concorrência.

In [0]:
df_descricao_bolsa.style.format('{:,.2f}').background_gradient(axis=1)

Unnamed: 0,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla
mean,2.8,2.27,4.47,3.87
std,1.86,1.53,2.59,2.67
min,1.0,1.0,1.0,1.0
25%,1.0,1.0,1.0,2.0
50%,2.0,1.0,5.0,3.0
75%,4.0,3.0,6.0,5.0
max,8.0,5.0,9.0,10.0


Qual é a média da mensalidade dos cursos de medicina por estado?

In [0]:
df_medicina = df.query("nome_curso == 'Medicina'")
df_medicina.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Franca,SP,MzUwMjAxMjE2MjAw,Universidade de Franca - UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Porto Velho,RO,MTEwMTAwMTAwMjA1,Centro Universitário São Lucas - UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Guarapuava,PR,NDEwODAyOTA5NDAx,Faculdade Campo Real - CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Itaperuna,RJ,MzMwMTAwMTAyMjA1,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82


In [0]:
df_medicina['mensalidade'].mean()

Out[132]: 8007.354666666666

In [0]:
df_medicina.query("turno == 'Integral' AND cidade_busca=='Sao Paulo'")

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
2,1002328574024,Bacharelado,Integral,9815.61,2,5,6,10,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28


In [0]:
agrupado = df_medicina.query("turno == 'Integral' OR turno == 'Matutino'").groupby('uf_busca')['mensalidade'].mean()

In [0]:
df_agrupado = ps.DataFrame(agrupado)

In [0]:
df_agrupado

Unnamed: 0_level_0,mensalidade
uf_busca,Unnamed: 1_level_1
RO,7009.97
SP,8477.466667
ES,6113.0
PB,7512.7
MG,7712.5
PA,8608.54
RJ,9123.07
MA,8381.375
AC,9774.34
PR,7174.275


In [0]:
df_agrupado.sort_values(by='mensalidade',inplace=True,ascending=False)

In [0]:
df_agrupado

Unnamed: 0_level_0,mensalidade
uf_busca,Unnamed: 1_level_1
AC,9774.34
RJ,9123.07
PA,8608.54
SP,8477.466667
MA,8381.375
MG,7712.5
PB,7512.7
PR,7174.275
RO,7009.97
ES,6113.0


In [0]:
df_agrupado = df_agrupado.reset_index()

Podemos ver que o Estado com maior média de mensalidades é o Acre e o menor é o Espírito Santo.

In [0]:
df_agrupado.plot.bar(x='uf_busca',y='mensalidade')

Quais estados possuem um número maior de cotas?

In [0]:
ps.sql('''
SELECT bolsa_integral_cotas, uf_busca
FROM {DF}
WHERE nome_curso='Medicina'
LIMIT 5;
''', DF=df)

Unnamed: 0,bolsa_integral_cotas,uf_busca
0,2,SP
1,4,AC
2,4,RJ
3,2,PA
4,3,MA


In [0]:
cotas_ordenadas = ps.sql('''
SELECT uf_busca, SUM(bolsa_integral_cotas) AS Total_de_cotas
FROM {DF}
WHERE nome_curso='Medicina'
GROUP BY uf_busca
ORDER BY Total_de_cotas DESC
''', DF=df)

In [0]:
cotas_ordenadas.head()

Unnamed: 0,uf_busca,Total_de_cotas
0,PB,8
1,MA,7
2,SP,6
3,RO,4
4,RJ,4


Em relação às cotas é o que possui mais cotas e o Espírito Santo é o sétimo.

In [0]:
cotas_ordenadas.plot.bar(x='uf_busca',y='Total_de_cotas')

In [0]:
df_medicina['cidade_busca'].unique()

Out[145]: 0          Sao Luis
1       Joao Pessoa
2             Belem
3         Itaperuna
4           Vitoria
5            Franca
6         Sao Paulo
7        Guarapuava
8      Campo Mourao
9     Montes Claros
10       Rio Branco
11       Imperatriz
12       Vespasiano
13      Porto Velho
Name: cidade_busca, dtype: object

In [0]:
nomes_cidades = {
"Sao Luis": "Capital",
"Joao Pessoa": "Município",
"Belem": "Capital",
"Itaperuna": "Município",
"Vitoria": "Município",
"Franca": "Município",
"Sao Paulo": "Capital",
"Guarapuava": "Município",
"Campo Mourao": "Município",
"Montes Claros": "Município",
"Rio Branco": "Município",
"Imperatriz": "Município",
"Vespasiano": "Município",
"Porto Velho": "Município"
}


In [0]:
capitais = df_medicina['cidade_busca'].map(nomes_cidades)
capitais

Out[147]: 22       Capital
71     Município
87     Município
107    Município
10     Município
120    Município
80     Município
2        Capital
4      Município
13       Capital
21       Capital
42     Município
20     Município
60     Município
24     Município
Name: cidade_busca, dtype: object

In [0]:
df_medicina.insert(loc=8,column='tipo_cidade',value=capitais)


In [0]:
df_medicina.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,tipo_cidade,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Capital,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Município,Franca,SP,MzUwMjAxMjE2MjAw,Universidade de Franca - UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Município,Porto Velho,RO,MTEwMTAwMTAwMjA1,Centro Universitário São Lucas - UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Município,Guarapuava,PR,NDEwODAyOTA5NDAx,Faculdade Campo Real - CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Município,Itaperuna,RJ,MzMwMTAwMTAyMjA1,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82


Já para quem prefere estudar nas grandes capitais temos 10 cursos em capitais de estados.

In [0]:
cotas_ordenadas = ps.sql('''
SELECT tipo_cidade, SUM(bolsa_integral_cotas) AS Total_de_cotas
FROM {DF}
GROUP BY tipo_cidade
ORDER BY Total_de_cotas DESC
''', DF=df_medicina)
cotas_ordenadas.plot.bar(x='tipo_cidade',y='Total_de_cotas')

É fundamental entender como a mensalidade de um curso se relaciona com a quantidade de bolsas oferecidas, pois isso pode influenciar significativamente a acessibilidade e a viabilidade financeira da educação superior para muitos estudantes. Então vamos responder a pergunta.

Como a mensalidade do curso se relaciona com a quantidade de bolsas?

In [0]:
aux = df_medicina[['mensalidade','bolsa_integral_cotas','bolsa_integral_ampla','bolsa_parcial_cotas','bolsa_parcial_ampla','nota_integral_ampla', 'nota_integral_cotas', 'nota_parcial_ampla','nota_parcial_cotas']]

In [0]:
aux.corr().style.background_gradient(cmap="Reds",vmin=-1,vmax=1)


toPandas attempted Arrow optimization because 'spark.sql.execution.arrow.pyspark.enabled' is set to true; however, failed by the reason below:
  Unable to convert the field pearson(__correlation_output__). If this column is not necessary, you may consider dropping it or converting to primitive type before the conversion.
Direct cause: Unsupported type in conversion to Arrow: MatrixUDT()
Attempting non-optimization as 'spark.sql.execution.arrow.pyspark.fallback.enabled' is set to true.



Unnamed: 0,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
mensalidade,1.0,0.080124,0.085915,0.462838,0.281507,-0.438041,-0.042471,-0.49001,-0.556348
bolsa_integral_cotas,0.080124,1.0,0.520982,0.45134,-0.120903,-0.155176,-0.360329,-0.247502,-0.064
bolsa_integral_ampla,0.085915,0.520982,1.0,0.182384,0.620009,-0.489539,-0.293681,-0.218251,0.084619
bolsa_parcial_cotas,0.462838,0.45134,0.182384,1.0,0.195821,-0.468888,-0.253827,-0.546129,-0.469743
bolsa_parcial_ampla,0.281507,-0.120903,0.620009,0.195821,1.0,-0.549894,-0.270162,-0.534464,-0.266389
nota_integral_ampla,-0.438041,-0.155176,-0.489539,-0.468888,-0.549894,1.0,0.420823,0.409216,0.563932
nota_integral_cotas,-0.042471,-0.360329,-0.293681,-0.253827,-0.270162,0.420823,1.0,0.402048,0.237963
nota_parcial_ampla,-0.49001,-0.247502,-0.218251,-0.546129,-0.534464,0.409216,0.402048,1.0,0.702974
nota_parcial_cotas,-0.556348,-0.064,0.084619,-0.469743,-0.266389,0.563932,0.237963,0.702974,1.0


Não parece haver uma relação substancial em relação entre a quantidade de bolsas.

In [0]:
df.plot.scatter(x='mensalidade',y='bolsa_parcial_cotas', trendline="ols", trendline_color_override = 'red')

Existem outras relações que podem ser obversadas como as notas de quem tem cotas e de quem não possui.

In [0]:
df.plot.scatter(x='nota_parcial_ampla',y='nota_parcial_cotas', trendline="ols", trendline_color_override = 'red')


Como o período do curso afeta a mensalidade?

In [0]:
df[df['turno']=='Integral']['mensalidade'].plot.box()

In [0]:
df[df['turno']=='Matutino']['mensalidade'].plot.box()

Comparando os cursos de enfermagem com os de medicina vemos que os cursos de medicina são muito mais caros mesmo sendo de uma área correlata.

In [0]:
df[df['nome_curso']=='Medicina']['mensalidade'].plot.box()

In [0]:
df[df['nome_curso']=='Enfermagem']['mensalidade'].plot.box(fillcolor='red')

In [0]:
df_medicina['universidade_nome'].unique()

Out[159]: 0             Faculdades Integradas Pitágoras - FIP-MOC
1          Faculdade da Saúde e Ecologia Humana - FASEH
2                          Faculdade das Américas - FAM
3           Faculdade Metropolitana da Amazônia - FAMAZ
4     Faculdade de Ciências Médicas da Paraíba - FCM-PB
5                      Faculdade Redentor - FACREDENTOR
6                   Faculdade Barão do Rio Branco - FAB
7             Universidade Cidade de São Paulo - UNICID
8        Centro Universitário Integrado de Campo Mourão
9                     Faculdade Campo Real - CAMPO REAL
10               Centro Universitário São Lucas - UniSL
11              Faculdade Brasileira - MULTIVIX VITÓRIA
12          Universidade do Ceuma - Uniceuma - UNICEUMA
13                     Universidade de Franca - UNIFRAN
Name: universidade_nome, dtype: object

In [0]:
selecao = df_medicina[df_medicina['universidade_nome'].str.contains('Universidade')][['universidade_nome']]

In [0]:
selecao

Unnamed: 0,universidade_nome
2,Universidade Cidade de São Paulo - UNICID
20,Universidade do Ceuma - Uniceuma - UNICEUMA
21,Universidade do Ceuma - Uniceuma - UNICEUMA
71,Universidade de Franca - UNIFRAN


In [0]:
selecao['universidade_nome'].unique().count()

Out[162]: 3

In [0]:
df_medicina['universidade_nome'].loc[42] = 'Centro Universitário Integrado de Campo Mourão - CUICM'
df_medicina['universidade_nome'].loc[42] 

Out[163]: 'Centro Universitário Integrado de Campo Mourão - CUICM'

In [0]:
separado = df_medicina['universidade_nome'].str.split(' - ',n=1,expand=True)
separado

Unnamed: 0,0,1
22,Faculdade das Américas,FAM
71,Universidade de Franca,UNIFRAN
87,Centro Universitário São Lucas,UniSL
107,Faculdade Campo Real,CAMPO REAL
10,Faculdade Redentor,FACREDENTOR
120,Faculdade Brasileira,MULTIVIX VITÓRIA
80,Faculdades Integradas Pitágoras,FIP-MOC
2,Universidade Cidade de São Paulo,UNICID
4,Faculdade Barão do Rio Branco,FAB
13,Faculdade Metropolitana da Amazônia,FAMAZ


In [0]:
df_medicina.insert(loc=12,column='sigla',value=separado[1])

In [0]:
df_medicina.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,tipo_cidade,cidade_busca,uf_busca,cidade_filtro,sigla,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Capital,Sao Paulo,SP,MzUxNTA2MTUwMzA4,FAM,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Município,Franca,SP,MzUwMjAxMjE2MjAw,UNIFRAN,Universidade de Franca - UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Município,Porto Velho,RO,MTEwMTAwMTAwMjA1,UniSL,Centro Universitário São Lucas - UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Município,Guarapuava,PR,NDEwODAyOTA5NDAx,CAMPO REAL,Faculdade Campo Real - CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Município,Itaperuna,RJ,MzMwMTAwMTAyMjA1,FACREDENTOR,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82


Em relação as faculdades, a que tem a melhor nota é a campo real.

In [0]:
notas_ordenadas = ps.sql('''
SELECT sigla, MEAN(nota_integral_ampla) AS nota_media
FROM {DF}
GROUP BY sigla
ORDER BY nota_media DESC
''', DF=df_medicina)
notas_ordenadas.plot.bar(x='sigla',y='nota_media')

Como a quantidade de bolsas variou nos últimos anos?

Fonte: https://pt.wikipedia.org/wiki/Programa_Universidade_para_Todos
Acessado em: 16/03/2023

In [0]:
import pandas as pd

data = {'Ano': [2021, 2020],
        'Bolsas_Integrais': [146.3, 182.9],
        'Bolsas_Parciais': [150.0, 237.4],
        'Bolsas_Total': [296.3, 420.3]}

df_pandas = pd.DataFrame(data)



In [0]:
df_bolsas = ps.from_pandas(df_pandas)
df_bolsas

Unnamed: 0,Ano,Bolsas_Integrais,Bolsas_Parciais,Bolsas_Total
0,2021,146.3,150.0,296.3
1,2020,182.9,237.4,420.3


Tivemos uma diminuição de bolsas em 2021

In [0]:
df_bolsas.plot.bar(x='Ano',y=['Bolsas_Integrais','Bolsas_Parciais'],barmode='group')

In [0]:
url = 'https://pt.wikipedia.org/wiki/Ensino_superior_no_Brasil'

In [0]:
!pip install lxml

ERROR:root:Exception while sending command.
Traceback (most recent call last):
  File "/databricks/spark/python/lib/py4j-0.10.9.5-src.zip/py4j/clientserver.py", line 511, in send_command
    answer = smart_decode(self.stream.readline()[:-1])
  File "/usr/lib/python3.9/socket.py", line 704, in readinto
    return self._sock.recv_into(b)
ConnectionResetError: [Errno 104] Connection reset by peer

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/databricks/spark/python/lib/py4j-0.10.9.5-src.zip/py4j/java_gateway.py", line 1038, in send_command
    response = connection.send_command(command)
  File "/databricks/spark/python/lib/py4j-0.10.9.5-src.zip/py4j/clientserver.py", line 539, in send_command
    raise Py4JNetworkError(
py4j.protocol.Py4JNetworkError: Error while sending or receiving
Collecting lxml
  Downloading lxml-4.9.2-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.manylinux_2_24_x86_64.whl (7.1 MB)
[?25l[

In [0]:
lista = ps.read_html(url)

In [0]:
len(lista)

Out[174]: 5

In [0]:
df_publicas=lista[0]
df_publicas

Unnamed: 0,Classificação Nacional,Classificação Mundial,Universidade,Logo,sigla,tipo,web,Localização
0,1,72,Universidade de São Paulo,,USP,Pública Estadual,www5.usp.br/,São Paulo
1,2,236,Universidade Estadual de Campinas,,UNICAMP,Pública Estadual,www.unicamp.br/,São Paulo
2,3,278,Universidade Federal do Rio de Janeiro,,UFRJ,Pública federal,ufrj.br/,Rio de Janeiro
3,4,298,Universidade Federal de Minas Gerais,,UFMG,Pública federal,ucb.edu.bo,Minas Gerais
4,5,345,Universidade Estadual Paulista,,UNESP,Pública Estadual,www.unesp.br,São Paulo
5,6,427,Universidade Federal de Santa Catarina,,UFSC,Pública federal,ufsc.br/,Santa Catarina
6,7,592,Universidade de Brasília,,UNB,Pública Estadual,www.unb.br/,Distrito Federal
7,8,593,Universidade Federal do Paraná,,UFPR,Pública federal,www.ufpr.br/,Paraná
8,9,596,Universidade Federal Fluminense,,UFF,Pública federal,www.uff.br/,Rio de Janeiro
9,10,667,Universidade Federal de São Carlos,,UFSCAR,Pública federal,www.ufscar.br/,São Paulo


In [0]:
type(df_publicas)

Out[176]: pyspark.pandas.frame.DataFrame

In [0]:
df_publicas.sort_values(by=['Classificação Nacional'],inplace=True,ascending=False)

Caso a pessoa decida tentar uma universidade pública a USP é a que possui melhor nota, seguida pela Unicamp.

In [0]:
fig=df_publicas.plot.bar(x='sigla',y='Classificação Nacional',color=range(10))
fig.layout.coloraxis.showscale = False

fig.show()

In [0]:
dfs_bolsas = df_bolsas.to_spark()
dfs_bolsas.show()

+----+----------------+---------------+------------+
| Ano|Bolsas_Integrais|Bolsas_Parciais|Bolsas_Total|
+----+----------------+---------------+------------+
|2021|           146.3|          150.0|       296.3|
|2020|           182.9|          237.4|       420.3|
+----+----------------+---------------+------------+



In [0]:
type(dfs_bolsas)

Out[180]: pyspark.sql.dataframe.DataFrame

In [0]:
local_do_arquivo = "/FileStore/tables/cursos_prouni.csv"

In [0]:
df_publicas.to_parquet('/FileStore/tables/publicas.parquet',partition_cols='Classificação Nacional')

In [0]:
df_publicas2 = ps.read_parquet('/FileStore/tables/publicas.parquet')
df_publicas2

Unnamed: 0,Classificação Mundial,Universidade,Logo,sigla,tipo,web,Localização,Classificação Nacional
0,236,Universidade Estadual de Campinas,,UNICAMP,Pública Estadual,www.unicamp.br/,São Paulo,2
1,667,Universidade Federal de São Carlos,,UFSCAR,Pública federal,www.ufscar.br/,São Paulo,10
2,427,Universidade Federal de Santa Catarina,,UFSC,Pública federal,ufsc.br/,Santa Catarina,6
3,278,Universidade Federal do Rio de Janeiro,,UFRJ,Pública federal,ufrj.br/,Rio de Janeiro,3
4,298,Universidade Federal de Minas Gerais,,UFMG,Pública federal,ucb.edu.bo,Minas Gerais,4
5,596,Universidade Federal Fluminense,,UFF,Pública federal,www.uff.br/,Rio de Janeiro,9
6,345,Universidade Estadual Paulista,,UNESP,Pública Estadual,www.unesp.br,São Paulo,5
7,592,Universidade de Brasília,,UNB,Pública Estadual,www.unb.br/,Distrito Federal,7
8,593,Universidade Federal do Paraná,,UFPR,Pública federal,www.ufpr.br/,Paraná,8
9,72,Universidade de São Paulo,,USP,Pública Estadual,www5.usp.br/,São Paulo,1
