# Medicina no Brasil

No Brasil, os cursos de medicina são extremamente concorridos e exigentes, com uma carga horária intensa e duração média de seis anos. As faculdades de medicina no país oferecem formação em diversas áreas, como cirurgia, pediatria, ginecologia e obstetrícia, entre outras especialidades médicas.

Existem opções de bolsas para estudantes que desejam cursar medicina no país. Uma das principais opções é o Programa Universidade para Todos (PROUNI), que oferece bolsas de estudos parciais e integrais em universidades particulares para estudantes de baixa renda que tenham obtido boas notas no Enem.

Além disso, há também a possibilidade de ingressar em universidades públicas, que são gratuitas e oferecem um ensino de qualidade reconhecido mundialmente. No entanto, o processo seletivo para ingresso em universidades públicas é bastante concorrido e exige um alto desempenho dos candidatos.

Nas próximas seções, iremos disponibilizar alguns resultados com base em dados modificados do PROUNI e de universidades públicas, a fim de fornecer informações mais detalhadas sobre as opções de bolsas e ingresso nessas instituições de ensino.

# Bibliotecas

In [0]:
import pyspark.pandas as ps

# Carregamento e Análise dos Dados

In [0]:
# carregando o dataset

local_arquivo = '/FileStore/cursos_prouni.csv'
df = ps.read_csv(local_arquivo, index_col='curso_id')
df.head()

Unnamed: 0_level_0,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,curso_busca,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
curso_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
706710394154,Bacharelado,Integral,9999.99,15,14.0,,,Medicina,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
104191210567043,Bacharelado,Noturno,9836.4,1,,,,Enfermagem,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
1002328574024,Bacharelado,Integral,9715.61,2,5.0,6.0,10.0,Medicina,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
104191212798093,Bacharelado,Noturno,9689.34,3,2.0,,,Psicologia,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Psicologia,651.0,652.22,,
65899611932754,Bacharelado,Integral,9674.34,4,1.0,5.0,2.0,Medicina,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26


In [0]:
# tamanho do dataset

df.shape

Out[3]: (41447, 19)

Nota-se que possivelmente existem 2 colunas que mostram a mesma informação.

In [0]:
# verificar se as colunas apresentam a mesma informação

df['curso_busca'].equals(df['nome'])

Out[4]: curso_id
706710394154       True
104191210567043    True
1002328574024      True
104191212798093    True
65899611932754     True
65781564964        True
65788486984        True
65861111850254     True
658099184724       True
10505911785244     True
65921511844324     True
1055878921193      True
65881713994834     True
104123711716094    True
689693216461       True
6896933216461      True
105821211803184    True
699042726814       True
100369211074       True
6576768684         True
105887911921884    True
658119591744       True
105596711902804    True
25031009564        True
137380663614       True
405659244          True
256016294          True
699950009794       True
108119413996154    True
65941410292044     True
65886811637384     True
107783113635364    True
103635150009314    True
1004316634941      True
706703822244       True
1003235594144      True
2457651144         True
658670718594       True
105458350008124    True
702329994764       True
3349900844         True

O método equals retorna True quandos os resgistros comparados são iguais

In [0]:
# quantidade de ocorrências

iguais = df['curso_busca'].equals(df['nome'])
iguais.value_counts()

Out[5]: True    41447
dtype: int64

In [0]:
# remover coluna

df = df.drop(['curso_busca'], axis=1)
df.head()

Unnamed: 0_level_0,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
curso_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
706710394154,Bacharelado,Integral,9999.99,15,14.0,,,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
104191210567043,Bacharelado,Noturno,9836.4,1,,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
1002328574024,Bacharelado,Integral,9715.61,2,5.0,6.0,10.0,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
104191212798093,Bacharelado,Noturno,9689.34,3,2.0,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Psicologia,651.0,652.22,,
65899611932754,Bacharelado,Integral,9674.34,4,1.0,5.0,2.0,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26


In [0]:
# renomear a coluna de nome do curso

df = df.rename(columns={'nome':'nome_curso'})

# Operações no Dataset

Quantos cursos de Medicina temos nesse conjunto de dados do Prouni?

In [0]:
# quantidade de cursos

df[df['nome_curso']=='Medicina']['nome_curso'].count()

Out[8]: 124

In [0]:
# modalidades de turno

df['turno'].unique()

Out[9]: 0             Matutino
1    Curso a Distância
2           Vespertino
3             Integral
4              Noturno
Name: turno, dtype: object

In [0]:
# cursos de medicina em periodo integral

df[(df['turno']=='Integral') & (df['nome_curso']=='Medicina')]['nome_curso'].count()

Out[10]: 123

In [0]:
# verificando se os cursos são integral ou matutino

df[(df['turno']=='Integral') & (df['nome_curso']=='Medicina') | (df['turno']=='Matutino') & (df['nome_curso']=='Medicina') ]['nome_curso'].count()

Out[11]: 124

In [0]:
# carregando o segundo dataset - reajuste

local_do_arquivo = '/FileStore/reajuste.csv'
df_mensalidade = ps.read_csv(local_do_arquivo)
df_mensalidade.head()

Unnamed: 0,reajuste
0,100
1,50
2,100
3,50
4,100


In [0]:
# tamanho do dataset

df_mensalidade.shape

Out[13]: (41447, 1)

o dataset "reajuste" tem o mesmo número de linhas que o primeiro

In [0]:
# habilitar a combinação de diferentes datasets

ps.set_option('compute.ops_on_diff_frames',True)

In [0]:
# remover indice do primeiro df

df.reset_index(inplace=True)

In [0]:
# adicinaro valor de reajuste a coluna de mensalidade

df['mensalidade'] = df['mensalidade'] + df_mensalidade['reajuste']

# Resumo do Dataframe

In [0]:
# remover valores nulos

df.dropna(inplace=True)
df.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
1950,65982912800701,Bacharelado,Matutino,1561.29,1,1,1,30,Caucaia,CE,MjMwMzAxNjAzNzA5,Faculdade Terra Nordeste - FATENE,UNIDADE SEDE - Soledade,659829,Engenharia Civil,688.7,693.02,450.0,450.0
8440,65928650009893,Bacharelado,Noturno,980.0,1,1,3,2,Sao Gotardo,MG,MzEwNTAyMDYyMTA0,Faculdade de Ciências Gerenciais de São Gotard...,UNIDADE SEDE - Boa Esperança,659286,Direito,638.94,612.92,608.26,579.5
9458,658024423323,Bacharelado,Noturno,927.0,2,1,3,2,Dourados,MS,NTAwNDAxMDAzNzAy,Centro Universitário da Grande Dourados - Unig...,DOURADOS - Jardim,658024,Psicologia,631.32,609.34,618.58,557.68
11190,1072630671593,Bacharelado,Noturno,829.0,6,5,10,9,Juiz de Fora,MG,MzExMjA2NTM2NzAy,Faculdade Doctum de Juiz de Fora - DOCTUM,CAMPUS APOGEU - Centro,1072630,Direito,669.4,632.94,615.56,584.58
17979,69558711774842,Tecnológico,Vespertino,543.0,1,1,1,1,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade da Amazônia Ocidental - FAAO,CAMPUS - RIO BRANCO - JARDIM PRIMAVERA - Jardi...,695587,Análise e Desenvolvimento de Sistemas,615.54,574.42,582.66,623.22


In [0]:
# estatísticas descritivas

df.describe()

Unnamed: 0,curso_id,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,campus_id,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
count,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0
mean,43766140000000.0,881.605556,1.891058,2.082161,3.387199,7.190649,751066.0,599.38039,574.097921,547.297204,521.452964
std,48622650000000.0,737.440291,1.969321,2.105756,4.020312,13.897084,420241.4,53.194117,59.868058,58.971101,56.371352
min,164961100.0,194.0,1.0,1.0,1.0,1.0,479.0,450.0,450.0,450.0,450.0
25%,658949600000.0,500.0,1.0,1.0,1.0,2.0,658205.0,569.52,542.22,507.16,450.0
50%,10023280000000.0,773.83,1.0,1.0,2.0,3.0,659695.0,602.04,583.32,555.24,526.54
75%,104006000000000.0,1049.0,2.0,2.0,4.0,6.0,1054619.0,634.6,614.34,588.16,563.62
max,200825400000000.0,9815.61,34.0,50.0,74.0,179.0,2008254.0,781.2,792.24,776.36,768.34


In [0]:
# estatísticas descritivas apenas dos cursos de medicina

df[df['nome_curso'] == 'Medicina'].describe()

Unnamed: 0,curso_id,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,campus_id,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
count,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0
mean,44078750000000.0,8007.354667,2.8,2.266667,4.466667,3.866667,759941.7,753.249333,738.438667,746.453333,724.676
std,43496360000000.0,1096.173682,1.859339,1.533747,2.587516,2.669047,251045.8,13.109076,16.966989,14.295313,18.302904
min,137380700000.0,6113.0,1.0,1.0,1.0,1.0,137380.0,735.84,720.2,729.72,690.18
25%,658461900000.0,7130.0,1.0,1.0,1.0,2.0,658345.0,741.36,729.02,735.76,715.1
50%,65793650000000.0,8295.0,2.0,1.0,5.0,3.0,660079.0,754.98,737.88,743.14,721.08
75%,70703410000000.0,8608.54,4.0,3.0,6.0,5.0,1041237.0,762.74,741.1,750.44,732.46
max,105887900000000.0,9815.61,8.0,5.0,9.0,10.0,1079920.0,781.2,792.24,776.36,768.34


In [0]:
# atribuir a desciração a uma variável

df_descricao = df[df['nome_curso'] == 'Medicina'].describe()

# Analisando Dados Sobre Bolsas

In [0]:
# excluir colunas não relevantes na análise

['mensalidade','curso_id','campus_id',"nota_integral_ampla", "nota_integral_cotas", "nota_parcial_ampla", "nota_parcial_cotas"] # colunas a serem removidas

df_descricao_bolsa = df_descricao.drop(['mensalidade','curso_id','campus_id',"nota_integral_ampla", "nota_integral_cotas", "nota_parcial_ampla", "nota_parcial_cotas"],axis=1)

In [0]:
# resumo do dataframe

df_descricao_bolsa

Unnamed: 0,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla
count,15.0,15.0,15.0,15.0
mean,2.8,2.266667,4.466667,3.866667
std,1.859339,1.533747,2.587516,2.669047
min,1.0,1.0,1.0,1.0
25%,1.0,1.0,1.0,2.0
50%,2.0,1.0,5.0,3.0
75%,4.0,3.0,6.0,5.0
max,8.0,5.0,9.0,10.0


In [0]:
# excluir a linha de count

df_descricao_bolsa = df_descricao_bolsa.drop(['count'],axis=0)

In [0]:
# melhorar a visualização

df_descricao_bolsa.style.format('{:,.2f}').background_gradient(axis=1)

Unnamed: 0,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla
mean,2.8,2.27,4.47,3.87
std,1.86,1.53,2.59,2.67
min,1.0,1.0,1.0,1.0
25%,1.0,1.0,1.0,2.0
50%,2.0,1.0,5.0,3.0
75%,4.0,3.0,6.0,5.0
max,8.0,5.0,9.0,10.0


# Método Query

Qual é a média de mensalidade dos cursos de medicina por estado?

In [0]:
# criar um dataset apenas com cursos de medicina

df_medicina = df.query("nome_curso == 'Medicina'")
df_medicina.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Franca,SP,MzUwMjAxMjE2MjAw,Universidade de Franca - UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Porto Velho,RO,MTEwMTAwMTAwMjA1,Centro Universitário São Lucas - UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Guarapuava,PR,NDEwODAyOTA5NDAx,Faculdade Campo Real - CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Itaperuna,RJ,MzMwMTAwMTAyMjA1,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82


In [0]:
# média as mensalidades

df_medicina['mensalidade'].mean()

Out[26]: 8007.354666666666

In [0]:
# filtro período integral e cidade de SP

df_medicina.query("turno == 'Integral' AND cidade_busca == 'Sao Paulo'")

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
2,1002328574024,Bacharelado,Integral,9815.61,2,5,6,10,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28


In [0]:
# filtro período integral ou matutino

df_medicina.query("turno == 'Integral' OR turno == 'Matutino'")

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Franca,SP,MzUwMjAxMjE2MjAw,Universidade de Franca - UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Porto Velho,RO,MTEwMTAwMTAwMjA1,Centro Universitário São Lucas - UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Guarapuava,PR,NDEwODAyOTA5NDAx,Faculdade Campo Real - CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Itaperuna,RJ,MzMwMTAwMTAyMjA1,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82
120,658345863564,Bacharelado,Integral,6113.0,3,3,1,1,Vitoria,ES,MzIwMzAwOTA1MzA5,Faculdade Brasileira - MULTIVIX VITÓRIA,CAMPUS GOIABEIRAS - Goiabeiras,658345,Medicina,762.74,749.0,776.36,768.34
80,7052291076664,Bacharelado,Integral,7130.0,1,1,1,1,Montes Claros,MG,MzEwMjAwNzQzMzAy,Faculdades Integradas Pitágoras - FIP-MOC,UNIDADE SEDE - Ibituruna,705229,Medicina,765.76,741.1,774.96,750.64
2,1002328574024,Bacharelado,Integral,9815.61,2,5,6,10,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
4,65899611932754,Bacharelado,Integral,9774.34,4,1,5,2,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26
13,104123711716094,Bacharelado,Integral,8608.54,2,1,7,2,Belem,PA,MTUwMzAwNzAxNDAy,Faculdade Metropolitana da Amazônia - FAMAZ,FACULDADE METROPOLITANA DA AMAZÔNIA - FAMAZ - ...,1041237,Medicina,741.36,739.9,760.8,715.1


In [0]:
# agrupando por estados e suas médias de mensalidade

agrupado = df_medicina.query("turno == 'Integral' OR turno == 'Matutino'").groupby('uf_busca')['mensalidade'].mean()
agrupado

Out[29]: uf_busca
RO    7009.970000
SP    8477.466667
ES    6113.000000
PB    7512.700000
MG    7712.500000
PA    8608.540000
RJ    9123.070000
MA    8381.375000
AC    9774.340000
PR    7174.275000
Name: mensalidade, dtype: float64

In [0]:
# retornar um dataframe

df_agrupado = ps.DataFrame(agrupado)
df_agrupado

Unnamed: 0_level_0,mensalidade
uf_busca,Unnamed: 1_level_1
RO,7009.97
SP,8477.466667
ES,6113.0
PB,7512.7
MG,7712.5
PA,8608.54
RJ,9123.07
MA,8381.375
AC,9774.34
PR,7174.275


# Gráficos

In [0]:
# ordenando por valor

df_agrupado.sort_values(by='mensalidade',inplace=True,ascending=False)
df_agrupado

Unnamed: 0_level_0,mensalidade
uf_busca,Unnamed: 1_level_1
AC,9774.34
RJ,9123.07
PA,8608.54
SP,8477.466667
MA,8381.375
MG,7712.5
PB,7512.7
PR,7174.275
RO,7009.97
ES,6113.0


In [0]:
# reset index

df_agrupado = df_agrupado.reset_index()
df_agrupado

Unnamed: 0,uf_busca,mensalidade
0,AC,9774.34
1,RJ,9123.07
2,PA,8608.54
3,SP,8477.466667
4,MA,8381.375
5,MG,7712.5
6,PB,7512.7
7,PR,7174.275
8,RO,7009.97
9,ES,6113.0


In [0]:
# grafico de barras

df_agrupado.plot.bar(x='uf_busca',y='mensalidade')

no pandas api é utilizado a biblioteca plotly por padrão para os gráficos

# SQL

Qual é o número total de bolsas por estado?

In [0]:
# bolsas integrais por estado

ps.sql('''
SELECT bolsa_integral_cotas, uf_busca
FROM {DF}
WHERE nome_curso = 'Medicina'
LIMIT 5
''', DF=df)

Unnamed: 0,bolsa_integral_cotas,uf_busca
0,2,SP
1,2,SP
2,4,RO
3,1,PR
4,4,RJ


In [0]:
# total de cotas ordenadas por estado

cotas_ordenadas = ps.sql('''
SELECT uf_busca, SUM(bolsa_integral_cotas) as Total_de_cotas
FROM {DF}
WHERE nome_curso = 'Medicina'
GROUP BY uf_busca
ORDER BY Total_de_cotas DESC
''', DF=df)

cotas_ordenadas

Unnamed: 0,uf_busca,Total_de_cotas
0,PB,8
1,MA,7
2,SP,6
3,RO,4
4,RJ,4
5,AC,4
6,ES,3
7,MG,2
8,PA,2
9,PR,2


In [0]:
# gráfico de barras

cotas_ordenadas.plot.bar(x='uf_busca',y='Total_de_cotas')

# MAP

Temos mais cotas em capitais de estado ou em outros municípios?

In [0]:
# cidades no dataframe 

df_medicina['cidade_busca'].unique()

Out[37]: 0          Sao Luis
1       Joao Pessoa
2             Belem
3         Itaperuna
4           Vitoria
5            Franca
6         Sao Paulo
7        Guarapuava
8      Campo Mourao
9     Montes Claros
10       Rio Branco
11       Imperatriz
12       Vespasiano
13      Porto Velho
Name: cidade_busca, dtype: object

In [0]:
# dicionário com a categoria de cada cidade

nomes_cidades = {
"Sao Luis": "Capital",
"Joao Pessoa":"Capital",
"Belem":"Capital",
"Itaperuna":"Município",
"Vitoria":"Município",
"Franca":"Município",
"Sao Paulo":"Capital",
"Guarapuava":"Município",
"Campo Mourao":"Município",
"Montes Claros":"Município",
"Rio Branco":"Município",
"Imperatriz":"Município",
"Vespasiano":"Município",
"Porto Velho": "Município"
}

In [0]:
# aplicar o map

capitais = df_medicina['cidade_busca'].map(nomes_cidades)

In [0]:
df_medicina.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Franca,SP,MzUwMjAxMjE2MjAw,Universidade de Franca - UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Porto Velho,RO,MTEwMTAwMTAwMjA1,Centro Universitário São Lucas - UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Guarapuava,PR,NDEwODAyOTA5NDAx,Faculdade Campo Real - CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Itaperuna,RJ,MzMwMTAwMTAyMjA1,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82


para inserir a series criada ao lado da coluna de cidade, utiliza-se o parametro loc=8

In [0]:
# inserir a informação no dataframe 

df_medicina.insert(loc=8, column='tipo_cidade', value=capitais)

In [0]:
df_medicina.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,tipo_cidade,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Capital,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Município,Franca,SP,MzUwMjAxMjE2MjAw,Universidade de Franca - UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Município,Porto Velho,RO,MTEwMTAwMTAwMjA1,Centro Universitário São Lucas - UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Município,Guarapuava,PR,NDEwODAyOTA5NDAx,Faculdade Campo Real - CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Município,Itaperuna,RJ,MzMwMTAwMTAyMjA1,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82


In [0]:
# total das bolsas integrais por tipo de cidade

cotas_ordenadas = ps.sql('''
SELECT tipo_cidade, SUM(bolsa_integral_cotas) AS Total_de_cotas
FROM {DF}
GROUP BY tipo_cidade
ORDER BY Total_de_cotas DESC
''', DF=df_medicina)


cotas_ordenadas.plot.bar(x='tipo_cidade',y='Total_de_cotas')

# Comparação entre Varriáveis - Correlação

A correlação mede a força e a direção da relação linear entre duas variáveis. Podendo ela ser positiva, negativa ou nula.

In [0]:
# df auxiliar com apenas colunas numéricas relevantes

aux = df_medicina[['mensalidade','bolsa_integral_cotas','bolsa_integral_ampla','bolsa_parcial_cotas','bolsa_parcial_ampla','nota_integral_ampla', 'nota_integral_cotas', 'nota_parcial_ampla','nota_parcial_cotas']]

In [0]:
# matriz de correlação

aux.corr().style.background_gradient(cmap="Reds",vmin=-1,vmax=1)


toPandas attempted Arrow optimization because 'spark.sql.execution.arrow.pyspark.enabled' is set to true; however, failed by the reason below:
  Unable to convert the field pearson(__correlation_output__). If this column is not necessary, you may consider dropping it or converting to primitive type before the conversion.
Direct cause: Unsupported type in conversion to Arrow: MatrixUDT()
Attempting non-optimization as 'spark.sql.execution.arrow.pyspark.fallback.enabled' is set to true.



Unnamed: 0,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
mensalidade,1.0,0.080124,0.085915,0.462838,0.281507,-0.438041,-0.042471,-0.49001,-0.556348
bolsa_integral_cotas,0.080124,1.0,0.520982,0.45134,-0.120903,-0.155176,-0.360329,-0.247502,-0.064
bolsa_integral_ampla,0.085915,0.520982,1.0,0.182384,0.620009,-0.489539,-0.293681,-0.218251,0.084619
bolsa_parcial_cotas,0.462838,0.45134,0.182384,1.0,0.195821,-0.468888,-0.253827,-0.546129,-0.469743
bolsa_parcial_ampla,0.281507,-0.120903,0.620009,0.195821,1.0,-0.549894,-0.270162,-0.534464,-0.266389
nota_integral_ampla,-0.438041,-0.155176,-0.489539,-0.468888,-0.549894,1.0,0.420823,0.409216,0.563932
nota_integral_cotas,-0.042471,-0.360329,-0.293681,-0.253827,-0.270162,0.420823,1.0,0.402048,0.237963
nota_parcial_ampla,-0.49001,-0.247502,-0.218251,-0.546129,-0.534464,0.409216,0.402048,1.0,0.702974
nota_parcial_cotas,-0.556348,-0.064,0.084619,-0.469743,-0.266389,0.563932,0.237963,0.702974,1.0


Pode-se oberservar uma leve corelação positva entre a mensalidade a quantidade de bolsas parciais para cotas

In [0]:
# gráfico de dispersão mensalidade x bolsa parcial cotas

df_medicina.plot.scatter(x='mensalidade',y='bolsa_parcial_cotas')

In [0]:
# linha de tendência

df_medicina.plot.scatter(x='mensalidade',y='bolsa_parcial_cotas', trendline='ols', trendline_color_override = 'red')

A correlação baixa de 0.4 e o R² igual à 0.214219 que também é baixo. Com esses dados, não descobrimos relação entre o valor da mensalidade e a quantidade de bolsas analisadas.

In [0]:
# boxplot mensalidade geral

df['mensalidade'].plot.box()

In [0]:
# apenas periodo integral

df[df['turno']=='Integral']['mensalidade'].plot.box()

In [0]:
# apenas periodo matutino

df[df["turno"] == "Matutino"]["mensalidade"].plot.box()

In [0]:
# mensalidade curso medicina

df[df['nome_curso']=='Medicina']['mensalidade'].plot.box()

In [0]:
# mensalidade curso enfermagem

df[df['nome_curso']=='Enfermagem']['mensalidade'].plot.box()

# Tratando Strings

Adicionar uma coluna com as siglas das universidades

In [0]:
# buscar as universidades 

df_medicina['universidade_nome'].unique()

Out[54]: 0             Faculdades Integradas Pitágoras - FIP-MOC
1          Faculdade da Saúde e Ecologia Humana - FASEH
2                          Faculdade das Américas - FAM
3           Faculdade Metropolitana da Amazônia - FAMAZ
4     Faculdade de Ciências Médicas da Paraíba - FCM-PB
5                      Faculdade Redentor - FACREDENTOR
6                   Faculdade Barão do Rio Branco - FAB
7             Universidade Cidade de São Paulo - UNICID
8        Centro Universitário Integrado de Campo Mourão
9                     Faculdade Campo Real - CAMPO REAL
10               Centro Universitário São Lucas - UniSL
11              Faculdade Brasileira - MULTIVIX VITÓRIA
12          Universidade do Ceuma - Uniceuma - UNICEUMA
13                     Universidade de Franca - UNIFRAN
Name: universidade_nome, dtype: object

In [0]:
# buscando pelo nome universidade - metodo contains

selecao = df_medicina[df_medicina['universidade_nome'].str.contains('Universidade')][['universidade_nome']]
selecao

Unnamed: 0,universidade_nome
2,Universidade Cidade de São Paulo - UNICID
20,Universidade do Ceuma - Uniceuma - UNICEUMA
21,Universidade do Ceuma - Uniceuma - UNICEUMA
71,Universidade de Franca - UNIFRAN


O Centro Universitário Integrado de Campo Mourão não apresenta uma sigla

In [0]:
# adicionar a sigla a um caso específico

df_medicina['universidade_nome'].loc[42] = 'Centro Universitário Integrado de Campo Mourão - CUICM'
df_medicina['universidade_nome'].loc[42]

Out[62]: 'Centro Universitário Integrado de Campo Mourão - CUICM'

o trecho .loc[42] indica a linha a ser alterada no DF na coluna ['universidade_nome']

In [0]:
# separar as siglas dos nomes

separado = df_medicina['universidade_nome'].str.split(' - ', n=1, expand=True)
separado

Unnamed: 0,0,1
22,Faculdade das Américas,FAM
71,Universidade de Franca,UNIFRAN
87,Centro Universitário São Lucas,UniSL
107,Faculdade Campo Real,CAMPO REAL
10,Faculdade Redentor,FACREDENTOR
120,Faculdade Brasileira,MULTIVIX VITÓRIA
80,Faculdades Integradas Pitágoras,FIP-MOC
2,Universidade Cidade de São Paulo,UNICID
4,Faculdade Barão do Rio Branco,FAB
13,Faculdade Metropolitana da Amazônia,FAMAZ


n=1 > apenas uma separaçã


expand=True > cria uma nova coluna para a string separada

In [0]:
# adicionar as siglas ao df 

df_medicina.insert(loc=12, column='sigla', value=separado[1])
df_medicina.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,tipo_cidade,cidade_busca,uf_busca,cidade_filtro,sigla,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Capital,Sao Paulo,SP,MzUxNTA2MTUwMzA4,FAM,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Município,Franca,SP,MzUwMjAxMjE2MjAw,UNIFRAN,Universidade de Franca - UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Município,Porto Velho,RO,MTEwMTAwMTAwMjA1,UniSL,Centro Universitário São Lucas - UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Município,Guarapuava,PR,NDEwODAyOTA5NDAx,CAMPO REAL,Faculdade Campo Real - CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Município,Itaperuna,RJ,MzMwMTAwMTAyMjA1,FACREDENTOR,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82


In [0]:
# nota médias das universidades

notas_ordenadas = ps.sql('''
SELECT sigla, MEAN(nota_integral_ampla) AS nota_media
FROM {DF}
GROUP BY sigla
ORDER BY nota_media DESC
''', DF=df_medicina)

notas_ordenadas.plot.bar(x='sigla',y='nota_media')

# de Pandas para Spark

https://pt.wikipedia.org/wiki/Programa_Universidade_para_Todos

O Dataframe abaixo foi retirado do link onde indica a quantidade de bolsas em milheres por ano

In [0]:
# Criar o Dataframe

import pandas as pd

data = {
    'Ano': [2021,2020],
    'Bolsas_Integrais': [146.3, 182.9],
    'Bolsas_Parciais': [150.0, 237.4],
    'Bolsas_Total': [296.3, 420.3]
}

df_pandas = pd.DataFrame(data)



In [0]:
# Conversão para o Pandas do Spark

df_bolsas = ps.from_pandas(df_pandas)
df_bolsas

Unnamed: 0,Ano,Bolsas_Integrais,Bolsas_Parciais,Bolsas_Total
0,2021,146.3,150.0,296.3
1,2020,182.9,237.4,420.3


In [0]:
# gráfico comparativo

df_bolsas.plot.bar(x='Ano',y=['Bolsas_Integrais','Bolsas_Parciais'],barmode='group')

# Leitura de html

Quais são as melhores universidades?

In [0]:
# instalar a biblioteca

!pip install lxml

Collecting lxml
  Downloading lxml-5.4.0-cp39-cp39-manylinux_2_28_x86_64.whl (5.1 MB)
[?25l[K     |                                | 10 kB 20.3 MB/s eta 0:00:01[K     |▏                               | 20 kB 10.7 MB/s eta 0:00:01[K     |▏                               | 30 kB 6.8 MB/s eta 0:00:01[K     |▎                               | 40 kB 4.9 MB/s eta 0:00:02[K     |▎                               | 51 kB 5.8 MB/s eta 0:00:01[K     |▍                               | 61 kB 5.9 MB/s eta 0:00:01[K     |▌                               | 71 kB 5.6 MB/s eta 0:00:01[K     |▌                               | 81 kB 5.0 MB/s eta 0:00:02[K     |▋                               | 92 kB 5.6 MB/s eta 0:00:01[K     |▋                               | 102 kB 5.6 MB/s eta 0:00:01[K     |▊                               | 112 kB 5.6 MB/s eta 0:00:01[K     |▊                               | 122 kB 5.6 MB/s eta 0:00:01[K     |▉                               | 133 kB 5.6 MB/s e

In [0]:
# link com ranking

url = 'https://pt.wikipedia.org/wiki/Ensino_superior_no_Brasil'

In [0]:
# atribuir a leitura a uma variável

lista = ps.read_html(url)

In [0]:
len(lista)

Out[65]: 5

Identificou 5 Dataframes no link

In [0]:
# Leitura do DF

df_publicas = lista[0]
df_publicas

Unnamed: 0,Classificação Nacional,Classificação Mundial,Universidade,Logo,sigla,tipo,web,Localização
0,1,72,Universidade de São Paulo,,USP,Pública Estadual,www5.usp.br/,São Paulo
1,2,236,Universidade Estadual de Campinas,,UNICAMP,Pública Estadual,www.unicamp.br/,São Paulo
2,3,278,Universidade Federal do Rio de Janeiro,,UFRJ,Pública federal,ufrj.br/,Rio de Janeiro
3,4,298,Universidade Federal de Minas Gerais,,UFMG,Pública federal,ucb.edu.bo,Minas Gerais
4,5,345,Universidade Estadual Paulista,,UNESP,Pública Estadual,www.unesp.br,São Paulo
5,6,427,Universidade Federal de Santa Catarina,,UFSC,Pública federal,ufsc.br/,Santa Catarina
6,7,592,Universidade de Brasília,,UNB,Pública Estadual,www.unb.br/,Distrito Federal
7,8,593,Universidade Federal do Paraná,,UFPR,Pública federal,www.ufpr.br/,Paraná
8,9,596,Universidade Federal Fluminense,,UFF,Pública federal,www.uff.br/,Rio de Janeiro
9,10,667,Universidade Federal de São Carlos,,UFSCAR,Pública federal,www.ufscar.br/,São Paulo


In [0]:
# tipo do DF

type(df_publicas)

Out[67]: pyspark.pandas.frame.DataFrame

# Salvar informações

In [0]:
# Convertendo para o Spark - df bolsas

dfs_bolsas = df_bolsas.to_spark()
dfs_bolsas.show()

+----+----------------+---------------+------------+
| Ano|Bolsas_Integrais|Bolsas_Parciais|Bolsas_Total|
+----+----------------+---------------+------------+
|2021|           146.3|          150.0|       296.3|
|2020|           182.9|          237.4|       420.3|
+----+----------------+---------------+------------+



In [0]:
# Tipo

type(dfs_bolsas)

Out[70]: pyspark.sql.dataframe.DataFrame

In [0]:
# salvar o df com ranking em parquet

df_publicas.to_parquet('/FileStore/tables/publicas.parquet', partition_cols='Classificação Nacional')

In [0]:
# ler o arquivo

ps.read_parquet('/FileStore/tables/publicas.parquet')

Unnamed: 0,Classificação Mundial,Universidade,Logo,sigla,tipo,web,Localização,Classificação Nacional
0,236,Universidade Estadual de Campinas,,UNICAMP,Pública Estadual,www.unicamp.br/,São Paulo,2
1,667,Universidade Federal de São Carlos,,UFSCAR,Pública federal,www.ufscar.br/,São Paulo,10
2,427,Universidade Federal de Santa Catarina,,UFSC,Pública federal,ufsc.br/,Santa Catarina,6
3,278,Universidade Federal do Rio de Janeiro,,UFRJ,Pública federal,ufrj.br/,Rio de Janeiro,3
4,298,Universidade Federal de Minas Gerais,,UFMG,Pública federal,ucb.edu.bo,Minas Gerais,4
5,596,Universidade Federal Fluminense,,UFF,Pública federal,www.uff.br/,Rio de Janeiro,9
6,345,Universidade Estadual Paulista,,UNESP,Pública Estadual,www.unesp.br,São Paulo,5
7,592,Universidade de Brasília,,UNB,Pública Estadual,www.unb.br/,Distrito Federal,7
8,593,Universidade Federal do Paraná,,UFPR,Pública federal,www.ufpr.br/,Paraná,8
9,72,Universidade de São Paulo,,USP,Pública Estadual,www5.usp.br/,São Paulo,1
