## Análise de Dados com Databricks

In [0]:
# criando diretório
dbutils.fs.mkdirs('/FileStore/tables/analise_dados_prouni')

In [0]:
# listando conteúdo disponível na pasta
display(dbutils.fs.ls('/FileStore/tables/analise_dados_prouni'))

In [0]:
# criando variável com o local do arquivo de interesse
local_do_arquivo = '/FileStore/tables/analise_dados_prouni/cursos_prouni.csv'

## Trabalhando com Pandas dentro do PySpark

In [0]:
import pyspark.pandas as ps

In [0]:
# carregando os dados do arquivo CSV em um dataframe
df = ps.read_csv(local_do_arquivo)

In [0]:
# exibindo as primeiras linhas do dataframe
df.head()

Unnamed: 0,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,curso_id,curso_busca,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
0,Bacharelado,Integral,9999.99,15,14.0,,,706710394154,Medicina,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
1,Bacharelado,Noturno,9836.4,1,,,,104191210567043,Enfermagem,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
2,Bacharelado,Integral,9715.61,2,5.0,6.0,10.0,1002328574024,Medicina,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
3,Bacharelado,Noturno,9689.34,3,2.0,,,104191212798093,Psicologia,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Psicologia,651.0,652.22,,
4,Bacharelado,Integral,9674.34,4,1.0,5.0,2.0,65899611932754,Medicina,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26


In [0]:
# carregando os dados do arquivo CSV em um dataframe especificando uma coluna como índice
df = ps.read_csv(local_do_arquivo, index_col='curso_id')

In [0]:
# exibindo as primeiras linhas do dataframe com índice definido 'curso_id'
df.head()

Unnamed: 0_level_0,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,curso_busca,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
curso_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
706710394154,Bacharelado,Integral,9999.99,15,14.0,,,Medicina,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
104191210567043,Bacharelado,Noturno,9836.4,1,,,,Enfermagem,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
1002328574024,Bacharelado,Integral,9715.61,2,5.0,6.0,10.0,Medicina,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
104191212798093,Bacharelado,Noturno,9689.34,3,2.0,,,Psicologia,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Psicologia,651.0,652.22,,
65899611932754,Bacharelado,Integral,9674.34,4,1.0,5.0,2.0,Medicina,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26


**Analisando o conjunto de dados**

In [0]:
# consultando a qtde de linhas e colunas
df.shape

Out[9]: (41447, 19)

In [0]:
# avaliando se duas colunas possuem a mesma informação
df['curso_busca'].equals(df['nome']).sum()

Out[10]: 41447

In [0]:
# excluindo uma coluna com dados duplicados
df = df.drop(['curso_busca'], axis=1)

In [0]:
# consultando df atualizado sem a coluna 'curso_busca'
df.head()

Unnamed: 0_level_0,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
curso_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
706710394154,Bacharelado,Integral,9999.99,15,14.0,,,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
104191210567043,Bacharelado,Noturno,9836.4,1,,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
1002328574024,Bacharelado,Integral,9715.61,2,5.0,6.0,10.0,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
104191212798093,Bacharelado,Noturno,9689.34,3,2.0,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Psicologia,651.0,652.22,,
65899611932754,Bacharelado,Integral,9674.34,4,1.0,5.0,2.0,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26


In [0]:
# renomeando o nome de uma coluna
df = df.rename(columns={'nome':'nome_curso'})

In [0]:
# validando a alteração do nome da coluna
df.head()

Unnamed: 0_level_0,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
curso_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
706710394154,Bacharelado,Integral,9999.99,15,14.0,,,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
104191210567043,Bacharelado,Noturno,9836.4,1,,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
1002328574024,Bacharelado,Integral,9715.61,2,5.0,6.0,10.0,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
104191212798093,Bacharelado,Noturno,9689.34,3,2.0,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Psicologia,651.0,652.22,,
65899611932754,Bacharelado,Integral,9674.34,4,1.0,5.0,2.0,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26


## Respondendo algumas perguntas relacionadas a base de dados sobre os cursos de medicina

**Primeira pergunta: quantos cursos de Medicina temos nesse conjunto de dados do Prouni?**

In [0]:
# verificando a qtde de cursos são de medicina
df[df['nome_curso']=='Medicina']['nome_curso'].count()

Out[15]: 124

**Segunda pergunta: em quais turnos temos cursos de Medicina?**

In [0]:
# identificando e listando os valores únicos presentes na coluna 'turno'
df['turno'].unique()

Out[16]: 0             Matutino
1    Curso a Distância
2           Vespertino
3             Integral
4              Noturno
Name: turno, dtype: object

In [0]:
# realizando a contagem dos valores únicos
df['turno'].value_counts()

Out[17]: Curso a Distância    22926
Noturno              12196
Matutino              5175
Integral               640
Vespertino             510
Name: turno, dtype: int64

In [0]:
# calculando a qtde de cursos de Medicina disponíveis no período Integral
df[(df['turno']=='Integral') & (df['nome_curso']=='Medicina')]['nome_curso'].count()

Out[18]: 123

In [0]:
# calculando a qtde de cursos de Medicina disponíveis no período Integral + Matutino
df[(df['turno']=='Integral') & (df['nome_curso']=='Medicina') | (df['turno']=='Matutino') & (df['nome_curso']=='Medicina')]['nome_curso'].count()

Out[19]: 124

In [0]:
# realizando novo cálculo com a qtde de Medicina para cada período
curso_por_periodo = df[df['nome_curso'] == 'Medicina'].groupby('turno').size()
curso_por_periodo

Out[20]: turno
Matutino      1
Integral    123
dtype: int64

**Terceira pergunta: Cálculo Mensalidade de cursos de Medicina no Brasil**

In [0]:
# acessando a base de dados reajuste.csv
local_do_arquivo = '/FileStore/tables/analise_dados_prouni/reajuste.csv'
df_mensalidade = ps.read_csv(local_do_arquivo)
df_mensalidade.head()

Unnamed: 0,reajuste
0,100
1,50
2,100
3,50
4,100


In [0]:
# analisando tamanho da base de dados
df_mensalidade.shape

Out[22]: (41447, 1)

In [0]:
# realizando primeira tentativa para somar o reajuste na mensalidade
df['mensalidade'] = df['mensalidade'] + df_mensalidade['reajuste']

[0;31m---------------------------------------------------------------------------[0m
[0;31mValueError[0m                                Traceback (most recent call last)
File [0;32m<command-4300107081789124>:2[0m
[1;32m      1[0m [38;5;66;03m# realizando primeira tentativa para somar o reajuste na mensalidade[39;00m
[0;32m----> 2[0m df[[38;5;124m'[39m[38;5;124mmensalidade[39m[38;5;124m'[39m] [38;5;241m=[39m [43mdf[49m[43m[[49m[38;5;124;43m'[39;49m[38;5;124;43mmensalidade[39;49m[38;5;124;43m'[39;49m[43m][49m[43m [49m[38;5;241;43m+[39;49m[43m [49m[43mdf_mensalidade[49m[43m[[49m[38;5;124;43m'[39;49m[38;5;124;43mreajuste[39;49m[38;5;124;43m'[39;49m[43m][49m

File [0;32m/databricks/spark/python/pyspark/pandas/base.py:319[0m, in [0;36mIndexOpsMixin.__add__[0;34m(self, other)[0m
[1;32m    318[0m [38;5;28;01mdef[39;00m [38;5;21m__add__[39m([38;5;28mself[39m, other: Any) [38;5;241m-[39m[38;5;241m>[39m SeriesOrIndex:
[0;32m--> 3

In [0]:
# o erro acima ocorre porque ele não consegue combinar duas informações de DataFrames diferentes
# por padrão é necessário ativar a opção compute.ops_on_diff_frames
ps.set_option('compute.ops_on_diff_frames',True)

In [0]:
# realizando segunda tentativa para somar o reajuste na mensalidade
df['mensalidade'] = df['mensalidade'] + df_mensalidade['reajuste']

[0;31m---------------------------------------------------------------------------[0m
[0;31mValueError[0m                                Traceback (most recent call last)
File [0;32m<command-4300107081789126>:2[0m
[1;32m      1[0m [38;5;66;03m# realizando segunda tentativa para somar o reajuste na mensalidade[39;00m
[0;32m----> 2[0m df[[38;5;124m'[39m[38;5;124mmensalidade[39m[38;5;124m'[39m] [38;5;241m=[39m [43mdf[49m[43m[[49m[38;5;124;43m'[39;49m[38;5;124;43mmensalidade[39;49m[38;5;124;43m'[39;49m[43m][49m[43m [49m[38;5;241;43m+[39;49m[43m [49m[43mdf_mensalidade[49m[43m[[49m[38;5;124;43m'[39;49m[38;5;124;43mreajuste[39;49m[38;5;124;43m'[39;49m[43m][49m

File [0;32m/databricks/spark/python/pyspark/pandas/base.py:319[0m, in [0;36mIndexOpsMixin.__add__[0;34m(self, other)[0m
[1;32m    318[0m [38;5;28;01mdef[39;00m [38;5;21m__add__[39m([38;5;28mself[39m, other: Any) [38;5;241m-[39m[38;5;241m>[39m SeriesOrIndex:
[0;32m--> 31

In [0]:
# o erro acima ocorre porque o primeiro dataframe possui um novo índice para o carregamento ser mais eficiente
# e o df_mensalidade não tem esse índice
# para facilitar será removido o índice do primeiro dataframe, mas esta prática deve ser evitada e utilizando mesmo índice para os 2 dfs
df.reset_index(inplace=True)

In [0]:
# validando a exclusão do índice
df.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
0,706710394154,Bacharelado,Integral,9999.99,15,14.0,,,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
1,104191210567043,Bacharelado,Noturno,9836.4,1,,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
2,1002328574024,Bacharelado,Integral,9715.61,2,5.0,6.0,10.0,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
3,104191212798093,Bacharelado,Noturno,9689.34,3,2.0,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Psicologia,651.0,652.22,,
4,65899611932754,Bacharelado,Integral,9674.34,4,1.0,5.0,2.0,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26


In [0]:
# realizando finalmente a soma do reajuste na mensalidade
df['mensalidade'] = df['mensalidade'] + df_mensalidade['reajuste']

In [0]:
# analisando novo valor da mensalidade
df['mensalidade'].head(10)

Out[30]: 0    10099.99
1     9886.40
2     9815.61
3     9739.34
4     9774.34
5     9750.00
6     9664.00
7     9450.00
8     9308.00
9     9148.00
Name: mensalidade, dtype: float64

In [0]:
# analisando o número de valores nulos no dataframe
contar_nulos = df.isnull().sum()
contar_nulos

Out[31]: curso_id                    0
grau                        0
turno                       0
mensalidade                 0
bolsa_integral_cotas     8927
bolsa_integral_ampla    16043
bolsa_parcial_cotas     32619
bolsa_parcial_ampla     28406
cidade_busca                0
uf_busca                    0
cidade_filtro               0
universidade_nome           0
campus_nome                 0
campus_id                   0
nome_curso                  0
nota_integral_ampla      8927
nota_integral_cotas     24645
nota_parcial_ampla      25097
nota_parcial_cotas      35928
dtype: int64

In [0]:
# para o cenário atual de trabalho serão removidos os valores nulos do conjunto de dados
df.dropna(inplace=True)
df.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
1950,65982912800701,Bacharelado,Matutino,1561.29,1,1,1,30,Caucaia,CE,MjMwMzAxNjAzNzA5,Faculdade Terra Nordeste - FATENE,UNIDADE SEDE - Soledade,659829,Engenharia Civil,688.7,693.02,450.0,450.0
8440,65928650009893,Bacharelado,Noturno,980.0,1,1,3,2,Sao Gotardo,MG,MzEwNTAyMDYyMTA0,Faculdade de Ciências Gerenciais de São Gotard...,UNIDADE SEDE - Boa Esperança,659286,Direito,638.94,612.92,608.26,579.5
9458,658024423323,Bacharelado,Noturno,927.0,2,1,3,2,Dourados,MS,NTAwNDAxMDAzNzAy,Centro Universitário da Grande Dourados - Unig...,DOURADOS - Jardim,658024,Psicologia,631.32,609.34,618.58,557.68
11190,1072630671593,Bacharelado,Noturno,829.0,6,5,10,9,Juiz de Fora,MG,MzExMjA2NTM2NzAy,Faculdade Doctum de Juiz de Fora - DOCTUM,CAMPUS APOGEU - Centro,1072630,Direito,669.4,632.94,615.56,584.58
17979,69558711774842,Tecnológico,Vespertino,543.0,1,1,1,1,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade da Amazônia Ocidental - FAAO,CAMPUS - RIO BRANCO - JARDIM PRIMAVERA - Jardi...,695587,Análise e Desenvolvimento de Sistemas,615.54,574.42,582.66,623.22


In [0]:
# validando a exclusão de valores nulos no dataframe
contar_nulos = df.isnull().sum()
contar_nulos

Out[33]: curso_id                0
grau                    0
turno                   0
mensalidade             0
bolsa_integral_cotas    0
bolsa_integral_ampla    0
bolsa_parcial_cotas     0
bolsa_parcial_ampla     0
cidade_busca            0
uf_busca                0
cidade_filtro           0
universidade_nome       0
campus_nome             0
campus_id               0
nome_curso              0
nota_integral_ampla     0
nota_integral_cotas     0
nota_parcial_ampla      0
nota_parcial_cotas      0
dtype: int64

In [0]:
# Efetuando uma análise estatística descritiva do DataFrame geral por meio do método describe
df.describe()

Unnamed: 0,curso_id,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,campus_id,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
count,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0
mean,43766140000000.0,881.605556,1.891058,2.082161,3.387199,7.190649,751066.0,599.38039,574.097921,547.297204,521.452964
std,48622650000000.0,737.440291,1.969321,2.105756,4.020312,13.897084,420241.4,53.194117,59.868058,58.971101,56.371352
min,164961100.0,194.0,1.0,1.0,1.0,1.0,479.0,450.0,450.0,450.0,450.0
25%,658949600000.0,500.0,1.0,1.0,1.0,2.0,658205.0,569.52,542.22,507.16,450.0
50%,10023280000000.0,773.83,1.0,1.0,2.0,3.0,659695.0,602.04,583.32,555.24,526.54
75%,104006000000000.0,1049.0,2.0,2.0,4.0,6.0,1054619.0,634.6,614.34,588.16,563.62
max,200825400000000.0,9815.61,34.0,50.0,74.0,179.0,2008254.0,781.2,792.24,776.36,768.34


In [0]:
# Efetuando uma análise estatística descritiva específica para o curso de medicina para comparar com todos os cursos
df[df['nome_curso']=='Medicina'].describe()

Unnamed: 0,curso_id,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,campus_id,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
count,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0
mean,44078750000000.0,8007.354667,2.8,2.266667,4.466667,3.866667,759941.7,753.249333,738.438667,746.453333,724.676
std,43496360000000.0,1096.173682,1.859339,1.533747,2.587516,2.669047,251045.8,13.109076,16.966989,14.295313,18.302904
min,137380700000.0,6113.0,1.0,1.0,1.0,1.0,137380.0,735.84,720.2,729.72,690.18
25%,658461900000.0,7130.0,1.0,1.0,1.0,2.0,658345.0,741.36,729.02,735.76,715.1
50%,65793650000000.0,8295.0,2.0,1.0,5.0,3.0,660079.0,754.98,737.88,743.14,721.08
75%,70703410000000.0,8608.54,4.0,3.0,6.0,5.0,1041237.0,762.74,741.1,750.44,732.46
max,105887900000000.0,9815.61,8.0,5.0,9.0,10.0,1079920.0,781.2,792.24,776.36,768.34


**Restringindo análise estatística descritiva com as variáveis de interesse para focar nos dados de bolsas**

In [0]:
df_descricao = df[df['nome_curso']=='Medicina'].describe()

In [0]:
# excluíndo colunas
df_descricao_bolsa = df_descricao.drop(['mensalidade','curso_id','campus_id',"nota_integral_ampla", "nota_integral_cotas", "nota_parcial_ampla", "nota_parcial_cotas"],axis=1)

In [0]:
# visualizando novo dataframe
df_descricao_bolsa

Unnamed: 0,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla
count,15.0,15.0,15.0,15.0
mean,2.8,2.266667,4.466667,3.866667
std,1.859339,1.533747,2.587516,2.669047
min,1.0,1.0,1.0,1.0
25%,1.0,1.0,1.0,2.0
50%,2.0,1.0,5.0,3.0
75%,4.0,3.0,6.0,5.0
max,8.0,5.0,9.0,10.0


In [0]:
# excluíndo primeira linha do novo dataframe
df_descricao_bolsa = df_descricao_bolsa.drop(['count'], axis=0)
df_descricao_bolsa

Unnamed: 0,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla
mean,2.8,2.266667,4.466667,3.866667
std,1.859339,1.533747,2.587516,2.669047
min,1.0,1.0,1.0,1.0
25%,1.0,1.0,1.0,2.0
50%,2.0,1.0,5.0,3.0
75%,4.0,3.0,6.0,5.0
max,8.0,5.0,9.0,10.0


In [0]:
# aplicando formatação aos valores e utilizando estilo do pandas para melhorar a apresentação visual
df_descricao_bolsa.style.format('{:,.2f}')

Unnamed: 0,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla
mean,2.8,2.27,4.47,3.87
std,1.86,1.53,2.59,2.67
min,1.0,1.0,1.0,1.0
25%,1.0,1.0,1.0,2.0
50%,2.0,1.0,5.0,3.0
75%,4.0,3.0,6.0,5.0
max,8.0,5.0,9.0,10.0


In [0]:
# aplicando formatação aos valores e utilizando estilo e aplicando cores no background do pandas para melhorar a apresentação visual
df_descricao_bolsa.style.format('{:,.2f}').background_gradient(axis=1)

Unnamed: 0,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla
mean,2.8,2.27,4.47,3.87
std,1.86,1.53,2.59,2.67
min,1.0,1.0,1.0,1.0
25%,1.0,1.0,1.0,2.0
50%,2.0,1.0,5.0,3.0
75%,4.0,3.0,6.0,5.0
max,8.0,5.0,9.0,10.0


**Qual é a média de mensalidade dos cursos de medicina por estado?**

In [0]:
# criando novo df utilizando o método query para filtrar as linhas onde a coluna 'nome_curso == Medicina'
df_medicina = df.query("nome_curso == 'Medicina'")
df_medicina.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Franca,SP,MzUwMjAxMjE2MjAw,Universidade de Franca - UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Porto Velho,RO,MTEwMTAwMTAwMjA1,Centro Universitário São Lucas - UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Guarapuava,PR,NDEwODAyOTA5NDAx,Faculdade Campo Real - CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Itaperuna,RJ,MzMwMTAwMTAyMjA1,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82


In [0]:
# calculando a média da coluna 'mensalidade'
df_medicina['mensalidade'].mean()

Out[43]: 8007.354666666666

In [0]:
# arredondando o valor da média da mensalidade
resultado = round(df_medicina['mensalidade'].mean(), 2)
resultado

Out[44]: 8007.35

In [0]:
# Consultando as mensalidades do curso de medicina onde o turno seja integral e que sejam na cidade de São Paulo
df_medicina.query('turno == "Integral" AND cidade_busca == "Sao Paulo"')

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
2,1002328574024,Bacharelado,Integral,9815.61,2,5,6,10,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28


In [0]:
# Consultando as mensalidades do curso de medicina onde o turno seja integral ou matutino
df_medicina.query("turno == 'Integral' OR turno == 'Matutino'")

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Franca,SP,MzUwMjAxMjE2MjAw,Universidade de Franca - UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Porto Velho,RO,MTEwMTAwMTAwMjA1,Centro Universitário São Lucas - UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Guarapuava,PR,NDEwODAyOTA5NDAx,Faculdade Campo Real - CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Itaperuna,RJ,MzMwMTAwMTAyMjA1,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82
120,658345863564,Bacharelado,Integral,6113.0,3,3,1,1,Vitoria,ES,MzIwMzAwOTA1MzA5,Faculdade Brasileira - MULTIVIX VITÓRIA,CAMPUS GOIABEIRAS - Goiabeiras,658345,Medicina,762.74,749.0,776.36,768.34
80,7052291076664,Bacharelado,Integral,7130.0,1,1,1,1,Montes Claros,MG,MzEwMjAwNzQzMzAy,Faculdades Integradas Pitágoras - FIP-MOC,UNIDADE SEDE - Ibituruna,705229,Medicina,765.76,741.1,774.96,750.64
2,1002328574024,Bacharelado,Integral,9815.61,2,5,6,10,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
4,65899611932754,Bacharelado,Integral,9774.34,4,1,5,2,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26
13,104123711716094,Bacharelado,Integral,8608.54,2,1,7,2,Belem,PA,MTUwMzAwNzAxNDAy,Faculdade Metropolitana da Amazônia - FAMAZ,FACULDADE METROPOLITANA DA AMAZÔNIA - FAMAZ - ...,1041237,Medicina,741.36,739.9,760.8,715.1


In [0]:
# agrupando informações por estado e calculando a média
agrupado = df_medicina.query("turno == 'Integral' OR turno == 'Matutino'").groupby('uf_busca')['mensalidade'].mean()
agrupado

Out[47]: uf_busca
RO    7009.970000
SP    8477.466667
ES    6113.000000
PB    7512.700000
MG    7712.500000
PA    8608.540000
RJ    9123.070000
MA    8381.375000
AC    9774.340000
PR    7174.275000
Name: mensalidade, dtype: float64

In [0]:
type(agrupado)

Out[48]: pyspark.pandas.series.Series

In [0]:
# criando uma sessão Spark
spark

In [0]:
# criando um dataframe com o resultado da variável 'agrupado'
df_agrupado = agrupado.to_dataframe()
df_agrupado

Unnamed: 0_level_0,mensalidade
uf_busca,Unnamed: 1_level_1
RO,7009.97
SP,8477.466667
ES,6113.0
PB,7512.7
MG,7712.5
PA,8608.54
RJ,9123.07
MA,8381.375
AC,9774.34
PR,7174.275


In [0]:
# realizando a ordenação descendente do dataframe
df_agrupado.sort_values(by='mensalidade', inplace=True, ascending=False)

In [0]:
# consultando dataframe classificado em ordem descendente pela coluna 'mensalidade'
df_agrupado

Unnamed: 0_level_0,mensalidade
uf_busca,Unnamed: 1_level_1
AC,9774.34
RJ,9123.07
PA,8608.54
SP,8477.466667
MA,8381.375
MG,7712.5
PB,7512.7
PR,7174.275
RO,7009.97
ES,6113.0


**Trabalhando com Gráfico de barras**

In [0]:
# resetando o índice do dataframe
df_agrupado = df_agrupado.reset_index()
df_agrupado

Unnamed: 0,uf_busca,mensalidade
0,AC,9774.34
1,RJ,9123.07
2,PA,8608.54
3,SP,8477.466667
4,MA,8381.375
5,MG,7712.5
6,PB,7512.7
7,PR,7174.275
8,RO,7009.97
9,ES,6113.0


In [0]:
# plotando gráfico de barras
df_agrupado.plot.bar(x='uf_busca', y='mensalidade')

**Trabalhando com SQL com Pandas**

**Qual é o número total de bolsas por estado?**

In [0]:
# criando query com SQL
ps.sql('''
       SELECT bolsa_integral_cotas, uf_busca
        FROM {DF}
         WHERE nome_curso = 'Medicina'
          LIMIT 5
       ''',DF=df)

Unnamed: 0,bolsa_integral_cotas,uf_busca
0,2,SP
1,2,SP
2,4,RO
3,1,PR
4,4,RJ


In [0]:
# criando nova query sql agrupando as informações e mostrando a soma total de cada estado
cotas_ordenadas = ps.sql('''
                         SELECT uf_busca, SUM(bolsa_integral_cotas) AS Total_de_cotas
                          FROM {DF}
                           WHERE nome_curso = 'Medicina'
                            GROUP BY uf_busca
                             ORDER BY Total_de_cotas DESC
                         ''', DF=df)

In [0]:
# consultando resultado da nova query
cotas_ordenadas

Unnamed: 0,uf_busca,Total_de_cotas
0,PB,8
1,MA,7
2,SP,6
3,RO,4
4,RJ,4
5,AC,4
6,ES,3
7,MG,2
8,PA,2
9,PR,2


**Visualizando informações com gráficos**

In [0]:
cotas_ordenadas.plot.bar(x='uf_busca', y='Total_de_cotas')

**Nova pergunta: Temos mais cotas em capitas de estado ou em outros municípios?**

**Mapeamento**

In [0]:
# consultando valores únicos para a coluna de interesse
df_medicina['cidade_busca'].unique()

Out[59]: 0          Sao Luis
1       Joao Pessoa
2             Belem
3         Itaperuna
4           Vitoria
5            Franca
6         Sao Paulo
7        Guarapuava
8      Campo Mourao
9     Montes Claros
10       Rio Branco
11       Imperatriz
12       Vespasiano
13      Porto Velho
Name: cidade_busca, dtype: object

In [0]:
# criando dicionário
nomes_cidades = {
    "Sao Luis": "Capital",
    "Joao Pessoa":"Capital",
    "Belem":"Capital",
    "Itaperuna":"Município",
    "Vitoria":"Município",
    "Franca":"Município",
    "Sao Paulo":"Capital",
    "Guarapuava":"Município",
    "Campo Mourao":"Município",
    "Montes Claros":"Município",
    "Rio Branco":"Município",
    "Imperatriz":"Município",
    "Vespasiano":"Município",
    "Porto Velho": "Município"
}

In [0]:
# selecionando coluna de interesse do dataframe e aplicando o map
df_medicina['cidade_busca'].map(nomes_cidades)

Out[61]: 22       Capital
71     Município
87     Município
107    Município
10     Município
120    Município
80     Município
2        Capital
4      Município
13       Capital
21       Capital
42     Município
20     Município
60       Capital
24     Município
Name: cidade_busca, dtype: object

In [0]:
# armazenando resultado em uma variável
capitais = df_medicina['cidade_busca'].map(nomes_cidades)

In [0]:
# adicionando as informações em uma nova coluna do dataframe
df_medicina.insert(loc=8,column='tipo_cidade',value=capitais)
df_medicina.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,tipo_cidade,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Capital,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Município,Franca,SP,MzUwMjAxMjE2MjAw,Universidade de Franca - UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Município,Porto Velho,RO,MTEwMTAwMTAwMjA1,Centro Universitário São Lucas - UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Município,Guarapuava,PR,NDEwODAyOTA5NDAx,Faculdade Campo Real - CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Município,Itaperuna,RJ,MzMwMTAwMTAyMjA1,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82


**Visualizando informações com gráficos**

In [0]:
# explorando dados para descobrir se existem mais cotas de bolsas em capitais ou em outros municípios
cotas_ordenadas = ps.sql('''
                         SELECT tipo_cidade, SUM(bolsa_integral_cotas) AS Total_de_cotas
                          FROM {DF}
                           GROUP BY tipo_cidade
                            ORDER BY Total_de_cotas DESC
                         ''', DF=df_medicina)

In [0]:
# analisando resultado da query
cotas_ordenadas

Unnamed: 0,tipo_cidade,Total_de_cotas
0,Município,24
1,Capital,18


In [0]:
# analisando resposta com gráfico de barras
cotas_ordenadas.plot.bar(x='tipo_cidade', y='Total_de_cotas')

**Como a mensalidade do curso se relaciona com a quantidade de bolsas?**

**Matriz de correlação**

In [0]:
# criando dataframe auxiliar para realizar operação de correlação apenas com as variáveis(colunas) numéricas
aux = df_medicina[['mensalidade','bolsa_integral_cotas','bolsa_integral_ampla','bolsa_parcial_cotas','bolsa_parcial_ampla','nota_integral_ampla', 'nota_integral_cotas', 'nota_parcial_ampla','nota_parcial_cotas']]

In [0]:
# consultando dataframe aux
aux.head()

Unnamed: 0,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,8300.0,2,3,4,7,735.84,724.7,738.42,723.28
71,7316.79,2,3,4,8,744.88,730.88,741.36,721.08
87,7009.97,4,3,9,5,742.72,720.2,729.72,711.68
107,6498.55,1,1,1,4,781.2,731.04,745.06,741.0
10,9123.07,4,4,5,5,741.06,729.02,730.98,722.82


In [0]:
# construindo uma matriz de correlação cruzada
aux.corr()


toPandas attempted Arrow optimization because 'spark.sql.execution.arrow.pyspark.enabled' is set to true; however, failed by the reason below:
  Unable to convert the field pearson(__correlation_output__). If this column is not necessary, you may consider dropping it or converting to primitive type before the conversion.
Direct cause: Unsupported type in conversion to Arrow: MatrixUDT()
Attempting non-optimization as 'spark.sql.execution.arrow.pyspark.fallback.enabled' is set to true.



Unnamed: 0,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
mensalidade,1.0,0.080124,0.085915,0.462838,0.281507,-0.438041,-0.042471,-0.49001,-0.556348
bolsa_integral_cotas,0.080124,1.0,0.520982,0.45134,-0.120903,-0.155176,-0.360329,-0.247502,-0.064
bolsa_integral_ampla,0.085915,0.520982,1.0,0.182384,0.620009,-0.489539,-0.293681,-0.218251,0.084619
bolsa_parcial_cotas,0.462838,0.45134,0.182384,1.0,0.195821,-0.468888,-0.253827,-0.546129,-0.469743
bolsa_parcial_ampla,0.281507,-0.120903,0.620009,0.195821,1.0,-0.549894,-0.270162,-0.534464,-0.266389
nota_integral_ampla,-0.438041,-0.155176,-0.489539,-0.468888,-0.549894,1.0,0.420823,0.409216,0.563932
nota_integral_cotas,-0.042471,-0.360329,-0.293681,-0.253827,-0.270162,0.420823,1.0,0.402048,0.237963
nota_parcial_ampla,-0.49001,-0.247502,-0.218251,-0.546129,-0.534464,0.409216,0.402048,1.0,0.702974
nota_parcial_cotas,-0.556348,-0.064,0.084619,-0.469743,-0.266389,0.563932,0.237963,0.702974,1.0


In [0]:
# atualizando matriz aplicando estilo e background para analisar correlações fortes
aux.corr().style.background_gradient(cmap="Reds",vmin=-1,vmax=1)


toPandas attempted Arrow optimization because 'spark.sql.execution.arrow.pyspark.enabled' is set to true; however, failed by the reason below:
  Unable to convert the field pearson(__correlation_output__). If this column is not necessary, you may consider dropping it or converting to primitive type before the conversion.
Direct cause: Unsupported type in conversion to Arrow: MatrixUDT()
Attempting non-optimization as 'spark.sql.execution.arrow.pyspark.fallback.enabled' is set to true.



Unnamed: 0,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
mensalidade,1.0,0.080124,0.085915,0.462838,0.281507,-0.438041,-0.042471,-0.49001,-0.556348
bolsa_integral_cotas,0.080124,1.0,0.520982,0.45134,-0.120903,-0.155176,-0.360329,-0.247502,-0.064
bolsa_integral_ampla,0.085915,0.520982,1.0,0.182384,0.620009,-0.489539,-0.293681,-0.218251,0.084619
bolsa_parcial_cotas,0.462838,0.45134,0.182384,1.0,0.195821,-0.468888,-0.253827,-0.546129,-0.469743
bolsa_parcial_ampla,0.281507,-0.120903,0.620009,0.195821,1.0,-0.549894,-0.270162,-0.534464,-0.266389
nota_integral_ampla,-0.438041,-0.155176,-0.489539,-0.468888,-0.549894,1.0,0.420823,0.409216,0.563932
nota_integral_cotas,-0.042471,-0.360329,-0.293681,-0.253827,-0.270162,0.420823,1.0,0.402048,0.237963
nota_parcial_ampla,-0.49001,-0.247502,-0.218251,-0.546129,-0.534464,0.409216,0.402048,1.0,0.702974
nota_parcial_cotas,-0.556348,-0.064,0.084619,-0.469743,-0.266389,0.563932,0.237963,0.702974,1.0


**Analisando a correlação da mensalidade com a bolsa_parcial_cotas & Com gráfico de dispersão**

In [0]:
# criando gráfico de dispersão
df_medicina.plot.scatter(x='mensalidade', y='bolsa_parcial_cotas')

In [0]:
# construindo uma linha de tendência para tentar identificar aumento da mensalidade com relação ao aumento do número de cotas
df_medicina.plot.scatter(x='mensalidade',y='bolsa_parcial_cotas', trendline='ols', trendline_color_override = 'red')

**Esses resultados sugerem que não há uma relação forte ou significativa entre o valor da mensalidade e a quantidade de bolsas analisadas. Reforçando que o número de bolsas disponíveis não parece ser um fator determinante no preço da mensalidade.**

**Analisando a correlação da nota_parcial_ampla com a nota_parcial_cotas & Com gráfico de dispersão**

In [0]:
df_medicina.plot.scatter(x='nota_parcial_ampla',y='nota_parcial_cotas', trendline='ols', trendline_color_override = 'red')

**Analisando como o turno do curso afeta o valor da mensalidade com Boxplot**

In [0]:
# analisando o boxplot com a mensalidade no geral de todos os cursos
df['mensalidade'].plot.box()

In [0]:
# analisando mensalidade com cursos no período integral
df[df['turno']=='Integral']['mensalidade'].plot.box()

In [0]:
# analisando mensalidade com cursos no período matutino
df[df['turno']=='Matutino']['mensalidade'].plot.box()

In [0]:
# comparando mensalidade por curso (Medicina)
df[df['nome_curso']=='Medicina']['mensalidade'].plot.box()

In [0]:
# comparando mensalidade por curso (Enfermagem)
df[df['nome_curso']=='Enfermagem']['mensalidade'].plot.box()

In [0]:
# comparando mensalidade por curso (Enfermagem) utilizando preenchimento diferente para o boxplot
df[df['nome_curso']=='Enfermagem']['mensalidade'].plot.box(fillcolor='red')

**Pergunta: Quais faculdades são universidades?**

In [0]:
df_medicina['universidade_nome'].unique()

Out[85]: 0             Faculdades Integradas Pitágoras - FIP-MOC
1          Faculdade da Saúde e Ecologia Humana - FASEH
2                          Faculdade das Américas - FAM
3           Faculdade Metropolitana da Amazônia - FAMAZ
4     Faculdade de Ciências Médicas da Paraíba - FCM-PB
5                      Faculdade Redentor - FACREDENTOR
6                   Faculdade Barão do Rio Branco - FAB
7             Universidade Cidade de São Paulo - UNICID
8        Centro Universitário Integrado de Campo Mourão
9                     Faculdade Campo Real - CAMPO REAL
10               Centro Universitário São Lucas - UniSL
11              Faculdade Brasileira - MULTIVIX VITÓRIA
12          Universidade do Ceuma - Uniceuma - UNICEUMA
13                     Universidade de Franca - UNIFRAN
Name: universidade_nome, dtype: object

In [0]:
# criando novo dataframe com apenas uma coluna e fazendo filtro com o método str.contains pelo nome 'Universidade'
selecao = df_medicina[df_medicina['universidade_nome'].str.contains('Universidade')][['universidade_nome']]
selecao

Unnamed: 0,universidade_nome
2,Universidade Cidade de São Paulo - UNICID
20,Universidade do Ceuma - Uniceuma - UNICEUMA
21,Universidade do Ceuma - Uniceuma - UNICEUMA
71,Universidade de Franca - UNIFRAN


In [0]:
# atualizando nome da faculdade incluindo uma sigla
df_medicina['universidade_nome'].loc[42] = 'Centro Universitário Integrado de Campo Mourão - CUICM'
df_medicina['universidade_nome'].loc[42]

Out[88]: 'Centro Universitário Integrado de Campo Mourão - CUICM'

In [0]:
# separando a sigla dos nomes das universidades/faculdades
df_separado = df_medicina['universidade_nome'].str.split(' - ', n=1, expand=True)
df_separado

Unnamed: 0,0,1
22,Faculdade das Américas,FAM
71,Universidade de Franca,UNIFRAN
87,Centro Universitário São Lucas,UniSL
107,Faculdade Campo Real,CAMPO REAL
10,Faculdade Redentor,FACREDENTOR
120,Faculdade Brasileira,MULTIVIX VITÓRIA
80,Faculdades Integradas Pitágoras,FIP-MOC
2,Universidade Cidade de São Paulo,UNICID
4,Faculdade Barão do Rio Branco,FAB
13,Faculdade Metropolitana da Amazônia,FAMAZ


In [0]:
# adicionando nova coluna no dataframe com os nomes das siglas
df_medicina.insert(loc=12,column='sigla',value=df_separado[1])

In [0]:
# visualizando df
df_medicina.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,tipo_cidade,cidade_busca,uf_busca,cidade_filtro,sigla,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Capital,Sao Paulo,SP,MzUxNTA2MTUwMzA4,FAM,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Município,Franca,SP,MzUwMjAxMjE2MjAw,UNIFRAN,Universidade de Franca - UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Município,Porto Velho,RO,MTEwMTAwMTAwMjA1,UniSL,Centro Universitário São Lucas - UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Município,Guarapuava,PR,NDEwODAyOTA5NDAx,CAMPO REAL,Faculdade Campo Real - CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Município,Itaperuna,RJ,MzMwMTAwMTAyMjA1,FACREDENTOR,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82


**Qual a nota média de cada faculdade?**

In [0]:
# query sql calculando a nota média de cada faculdade
notas_ordenadas = ps.sql('''
                         SELECT sigla, MEAN(nota_integral_ampla) AS nota_media
                          FROM {DF}
                           GROUP BY sigla
                            ORDER BY nota_media DESC
                         ''',DF=df_medicina)

In [0]:
# visualizando resultado da query
notas_ordenadas

Unnamed: 0,sigla,nota_media
0,CAMPO REAL,781.2
1,FASEH,770.5
2,FIP-MOC,765.76
3,MULTIVIX VITÓRIA,762.74
4,FAB,758.32
5,Uniceuma - UNICEUMA,757.15
6,FCM-PB,754.98
7,CUICM,745.46
8,UNIFRAN,744.88
9,UniSL,742.72


In [0]:
# analisando resultado com gráfico
notas_ordenadas.plot.bar(x='sigla',y='nota_media')

**Realizando novas análises do Prouni combinando informações de outra fonte de dados:**
https://pt.wikipedia.org/wiki/Programa_Universidade_para_Todos

In [0]:
# criando dicionário utilizando fonte de dados do wikipedia
import pandas as pd

data = {
    'Ano': [2021,2020],
    'Bolsas_Integrais': [146.3, 182.9],
    'Bolsas_Parciais': [150.0, 237.4],
    'Bolsas_Total': [296.3, 420.3]
}
data



Out[16]: {'Ano': [2021, 2020],
 'Bolsas_Integrais': [146.3, 182.9],
 'Bolsas_Parciais': [150.0, 237.4],
 'Bolsas_Total': [296.3, 420.3]}

In [0]:
# criando um dataframe com os dados do dicionário 'data'
df_pandas = pd.DataFrame(data)
df_pandas

Unnamed: 0,Ano,Bolsas_Integrais,Bolsas_Parciais,Bolsas_Total
0,2021,146.3,150.0,296.3
1,2020,182.9,237.4,420.3


In [0]:
# transferindo o dataframe pandas para o Spark
df_bolsas = ps.from_pandas(df_pandas)
df_bolsas

Unnamed: 0,Ano,Bolsas_Integrais,Bolsas_Parciais,Bolsas_Total
0,2021,146.3,150.0,296.3
1,2020,182.9,237.4,420.3


In [0]:
# plotando gráfico
df_bolsas.plot.bar(x='Ano',y=['Bolsas_Integrais','Bolsas_Parciais'],barmode='group')

##Leitura de página HTML

In [0]:
# buscando informações do site
url = 'https://pt.wikipedia.org/wiki/Ensino_superior_no_Brasil'

In [0]:
# instalando biblioteca
!pip install lxml

Collecting lxml
  Downloading lxml-5.1.0-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (8.0 MB)
[?25l[K     |                                | 10 kB 18.5 MB/s eta 0:00:01[K     |                                | 20 kB 1.4 MB/s eta 0:00:06[K     |▏                               | 30 kB 2.0 MB/s eta 0:00:04[K     |▏                               | 40 kB 2.7 MB/s eta 0:00:03[K     |▏                               | 51 kB 3.3 MB/s eta 0:00:03[K     |▎                               | 61 kB 3.9 MB/s eta 0:00:03[K     |▎                               | 71 kB 3.2 MB/s eta 0:00:03[K     |▎                               | 81 kB 3.6 MB/s eta 0:00:03[K     |▍                               | 92 kB 4.0 MB/s eta 0:00:02[K     |▍                               | 102 kB 4.4 MB/s eta 0:00:02[K     |▌                               | 112 kB 4.4 MB/s eta 0:00:02[K     |▌                               | 122 kB 4.4 MB/s eta 0:00:02[K     |▌                              

In [0]:
# realizando a leitura da página html
lista = ps.read_html(url)

In [0]:
# consultando seu tamanho 
len(lista)

Out[7]: 5

In [0]:
# consultando informação (tabela de dados) disponível na posição 1
lista[1]

Unnamed: 0,vdeEnsino superior no Brasil,vdeEnsino superior no Brasil.1
0,Acesso,ENEM Fuvest Fundação Vunesp UFRJ SISU
1,PolíticasEducacionais,EBSERH ENADE Revalida FIES Índice Geral de Cur...
2,Instituições,Tipos Universidades privadas Universidades púb...
3,Tipos,Universidades privadas Universidades públicas ...
4,Localização,Bahia Mato Grosso do Sul Minas Gerais Belo Hor...
5,Qualidade,Por curso de graduação ENADE 2006 2008 2010
6,Outras,Católicas Disciplinas Residência médica Univer...
7,Extensão,Rádio universitária Televisão universitária Pr...
8,Redes,ABRUC CRUB COMUNG FAUBAI Rede Federal de Educa...


In [0]:
# consultando informação (tabela de dados) disponível na posição 2
lista[2]

Unnamed: 0,0,1
0,Tipos,Universidades privadas Universidades públicas ...
1,Localização,Bahia Mato Grosso do Sul Minas Gerais Belo Hor...
2,Qualidade,Por curso de graduação ENADE 2006 2008 2010
3,Outras,Católicas Disciplinas Residência médica Univer...


In [0]:
# consultando informação (tabela de dados) disponível na posição 0
df_publicas = lista[0]
df_publicas

Unnamed: 0,Classificação Nacional,Classificação Mundial,Universidade,Logo,sigla,tipo,web,Localização
0,1,72,Universidade de São Paulo,,USP,Pública Estadual,www5.usp.br/,São Paulo
1,2,236,Universidade Estadual de Campinas,,UNICAMP,Pública Estadual,www.unicamp.br/,São Paulo
2,3,278,Universidade Federal do Rio de Janeiro,,UFRJ,Pública federal,ufrj.br/,Rio de Janeiro
3,4,298,Universidade Federal de Minas Gerais,,UFMG,Pública federal,ucb.edu.bo,Minas Gerais
4,5,345,Universidade Estadual Paulista,,UNESP,Pública Estadual,www.unesp.br,São Paulo
5,6,427,Universidade Federal de Santa Catarina,,UFSC,Pública federal,ufsc.br/,Santa Catarina
6,7,592,Universidade de Brasília,,UNB,Pública Estadual,www.unb.br/,Distrito Federal
7,8,593,Universidade Federal do Paraná,,UFPR,Pública federal,www.ufpr.br/,Paraná
8,9,596,Universidade Federal Fluminense,,UFF,Pública federal,www.uff.br/,Rio de Janeiro
9,10,667,Universidade Federal de São Carlos,,UFSCAR,Pública federal,www.ufscar.br/,São Paulo


In [0]:
# avaliando o tipo de dados do objeto
type(df_publicas)

Out[12]: pyspark.pandas.frame.DataFrame

In [0]:
# ordenando as informações com os valores do maior para o menor
df_publicas.sort_values(by=['Classificação Nacional'], inplace=True, ascending=False)

In [0]:
# construindo um gráfico de barras
fig = df_publicas.plot.bar(x='sigla', y='Classificação Nacional')

# exibindo o gráfico na interface de plotagem padrão (aqui neste caso, em um notebook databricks)
fig.show()

In [0]:
# construindo um gráfico de barras e especificando as cores das barras de acordo com a sequencia definida por range(10)
fig = df_publicas.plot.bar(x='sigla', y='Classificação Nacional', color=range(10))

# removendo a escala de cores / legenda de cor
fig.layout.coloraxis.showscale = False

# exibindo o gráfico na interface de plotagem padrão (aqui neste caso, em um notebook databricks)
fig.show()

## Salvando as informações

In [0]:
# convertendo um dataframe pandas para o dataframe do Spark
dfs_bolsas = df_bolsas.to_spark()

In [0]:
# visualizando as informações
dfs_bolsas.show()

+----+----------------+---------------+------------+
| Ano|Bolsas_Integrais|Bolsas_Parciais|Bolsas_Total|
+----+----------------+---------------+------------+
|2021|           146.3|          150.0|       296.3|
|2020|           182.9|          237.4|       420.3|
+----+----------------+---------------+------------+



In [0]:
# verificando o tipo de dado da variável
type(dfs_bolsas)

Out[21]: pyspark.sql.dataframe.DataFrame

**Salvando as informações**

In [0]:
# criando variável com o local do arquivo
local_do_arquivo = '/FileStore/tables/analise_dados_prouni/cursos_prouni.csv'

In [0]:
# salvando arquivo no formato .parquet
df_publicas.to_parquet('/FileStore/tables/analise_dados_prouni/publicas.parquet', partition_cols='Classificação Nacional')

In [0]:
# lendo o novo arquivo com formato .parquet e verificando sua integridade para garantir que tenha sido armazenado corretamente.
ps.read_parquet('/FileStore/tables/analise_dados_prouni/publicas.parquet')

Unnamed: 0,Classificação Mundial,Universidade,Logo,sigla,tipo,web,Localização,Classificação Nacional
0,236,Universidade Estadual de Campinas,,UNICAMP,Pública Estadual,www.unicamp.br/,São Paulo,2
1,667,Universidade Federal de São Carlos,,UFSCAR,Pública federal,www.ufscar.br/,São Paulo,10
2,427,Universidade Federal de Santa Catarina,,UFSC,Pública federal,ufsc.br/,Santa Catarina,6
3,278,Universidade Federal do Rio de Janeiro,,UFRJ,Pública federal,ufrj.br/,Rio de Janeiro,3
4,298,Universidade Federal de Minas Gerais,,UFMG,Pública federal,ucb.edu.bo,Minas Gerais,4
5,596,Universidade Federal Fluminense,,UFF,Pública federal,www.uff.br/,Rio de Janeiro,9
6,345,Universidade Estadual Paulista,,UNESP,Pública Estadual,www.unesp.br,São Paulo,5
7,592,Universidade de Brasília,,UNB,Pública Estadual,www.unb.br/,Distrito Federal,7
8,593,Universidade Federal do Paraná,,UFPR,Pública federal,www.ufpr.br/,Paraná,8
9,72,Universidade de São Paulo,,USP,Pública Estadual,www5.usp.br/,São Paulo,1


## Criando um dashboard

https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/926640056564256/4300107081789094/3143020199822757/latest.html