### Carregando dados

In [0]:
prouni_csv = "/FileStore/tables/analise-dados/cursos_prouni.csv"
reajuste_csv = "/FileStore/tables/analise-dados/reajuste.csv"

In [0]:
import pyspark.pandas as ps

In [0]:
df = ps.read_csv(prouni_csv, index_col="curso_id")

In [0]:
df.shape

Out[7]: (41447, 19)

### Removendo colunas iguais

In [0]:
df['curso_busca'].equals(df['nome']).sum()

Out[8]: 41447

In [0]:
df = df.drop('curso_busca', axis=1)

In [0]:
df = df.rename(columns={'nome':'nome_curso'})

### Quantos cursos de medicina existem no dataset?

In [0]:
display(df[df['nome_curso'] == 'Medicina']['nome_curso'].count())

124

### Quais os turnos disponiveis?

In [0]:
display(df['turno'].unique())

0             Matutino
1    Curso a Distância
2           Vespertino
3             Integral
4              Noturno
Name: turno, dtype: object

In [0]:
df.dtypes

Out[13]: grau                     object
turno                    object
mensalidade             float64
bolsa_integral_cotas      int32
bolsa_integral_ampla      int32
bolsa_parcial_cotas       int32
bolsa_parcial_ampla       int32
cidade_busca             object
uf_busca                 object
cidade_filtro            object
universidade_nome        object
campus_nome              object
campus_id                 int32
nome_curso               object
nota_integral_ampla     float64
nota_integral_cotas     float64
nota_parcial_ampla      float64
nota_parcial_cotas      float64
dtype: object

In [0]:
df[(df['turno'] == 'Integral') & (df['nome_curso'] == 'Medicina')]['nome_curso'].count()

Out[14]: 123

In [0]:
df[(df['turno'] == 'Integral') & (df['nome_curso'] == 'Medicina') | (df['turno'] == 'Matutino') & (df['nome_curso'] == 'Medicina')]['nome_curso'].count()


Out[15]: 124

In [0]:
df[(df['nome_curso'] == 'Medicina')]['turno'].unique()

Out[16]: 0    Matutino
1    Integral
Name: turno, dtype: object

### Mensalidade dos cursos

In [0]:
df_mensalidade = ps.read_csv(reajuste_csv)
df_mensalidade.shape

Out[17]: (41447, 1)

In [0]:
df.reset_index(inplace=True)

In [0]:
ps.set_option("compute.ops_on_diff_frames", True)

In [0]:
df['mensalidade'] = df['mensalidade'] + df_mensalidade['reajuste']

### Método apply

In [0]:
df_example = ps.DataFrame({'A': [1,2,3], 'B': [4,5,6]})

In [0]:
def pandas_soma(pser) -> ps.Series[float]:
    return pser + 1

In [0]:
df_example = df_example.apply(pandas_soma)
display(df_example)

A,B
2.0,5.0
3.0,6.0
4.0,7.0


### Resumo do DataFrame

In [0]:
df.dropna(inplace=True) # Remove Nulls e NaNs
df.shape

Out[24]: (2203, 19)

In [0]:
df.describe() # Gera uma tabela com informações gerais das colunas

Unnamed: 0,curso_id,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,campus_id,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
count,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0
mean,43766140000000.0,881.605556,1.891058,2.082161,3.387199,7.190649,751066.0,599.38039,574.097921,547.297204,521.452964
std,48622650000000.0,737.440291,1.969321,2.105756,4.020312,13.897084,420241.4,53.194117,59.868058,58.971101,56.371352
min,164961100.0,194.0,1.0,1.0,1.0,1.0,479.0,450.0,450.0,450.0,450.0
25%,658949600000.0,500.0,1.0,1.0,1.0,2.0,658205.0,569.52,542.22,507.16,450.0
50%,10023280000000.0,773.83,1.0,1.0,2.0,3.0,659695.0,602.04,583.32,555.24,526.54
75%,104006000000000.0,1049.0,2.0,2.0,4.0,6.0,1054619.0,634.6,614.34,588.16,563.62
max,200825400000000.0,9815.61,34.0,50.0,74.0,179.0,2008254.0,781.2,792.24,776.36,768.34


In [0]:
df[df['nome_curso'] == 'Medicina'].describe()

Unnamed: 0,curso_id,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,campus_id,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
count,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0
mean,44078750000000.0,8007.354667,2.8,2.266667,4.466667,3.866667,759941.7,753.249333,738.438667,746.453333,724.676
std,43496360000000.0,1096.173682,1.859339,1.533747,2.587516,2.669047,251045.8,13.109076,16.966989,14.295313,18.302904
min,137380700000.0,6113.0,1.0,1.0,1.0,1.0,137380.0,735.84,720.2,729.72,690.18
25%,658461900000.0,7130.0,1.0,1.0,1.0,2.0,658345.0,741.36,729.02,735.76,715.1
50%,65793650000000.0,8295.0,2.0,1.0,5.0,3.0,660079.0,754.98,737.88,743.14,721.08
75%,70703410000000.0,8608.54,4.0,3.0,6.0,5.0,1041237.0,762.74,741.1,750.44,732.46
max,105887900000000.0,9815.61,8.0,5.0,9.0,10.0,1079920.0,781.2,792.24,776.36,768.34


In [0]:
df_descricao = df[df['nome_curso'] == 'Medicina'].describe()

In [0]:
df_descricao_bolsa = df_descricao.drop(['mensalidade','curso_id','campus_id',"nota_integral_ampla", "nota_integral_cotas", "nota_parcial_ampla", "nota_parcial_cotas"],axis=1)


In [0]:
df_descricao_bolsa.style.format('{:,.2f}').background_gradient(axis=1)

Unnamed: 0,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla
count,15.0,15.0,15.0,15.0
mean,2.8,2.27,4.47,3.87
std,1.86,1.53,2.59,2.67
min,1.0,1.0,1.0,1.0
25%,1.0,1.0,1.0,2.0
50%,2.0,1.0,5.0,3.0
75%,4.0,3.0,6.0,5.0
max,8.0,5.0,9.0,10.0


### Query mensalidade media

In [0]:
df_medicina = df.query("nome_curso == 'Medicina'")

In [0]:
df_medicina['mensalidade'].mean()

Out[31]: 8007.354666666666

In [0]:
df_medicina.query("turno == 'Integral' AND cidade_busca == 'Sao Paulo'")

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
2,1002328574024,Bacharelado,Integral,9815.61,2,5,6,10,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28


In [0]:
agrupado = df_medicina.query("turno == 'Integral' OR turno == 'Matutino'").groupby('uf_busca')['mensalidade'].mean()
type(agrupado)

Out[33]: pyspark.pandas.series.Series

In [0]:
df_agrupado = ps.DataFrame(agrupado)

In [0]:
df_agrupado

Unnamed: 0_level_0,mensalidade
uf_busca,Unnamed: 1_level_1
RO,7009.97
SP,8477.466667
ES,6113.0
PB,7512.7
MG,7712.5
PA,8608.54
RJ,9123.07
MA,8381.375
AC,9774.34
PR,7174.275


In [0]:
df_agrupado.sort_values('mensalidade', inplace=True, ascending=False)


In [0]:
df_agrupado

Unnamed: 0_level_0,mensalidade
uf_busca,Unnamed: 1_level_1
AC,9774.34
RJ,9123.07
PA,8608.54
SP,8477.466667
MA,8381.375
MG,7712.5
PB,7512.7
PR,7174.275
RO,7009.97
ES,6113.0


In [0]:
df_agrupado = df_agrupado.reset_index()

In [0]:
df_agrupado.plot.bar(x= 'uf_busca', y= 'mensalidade')

### Query bolsas por estado

In [0]:
ps.sql('''
        SELECT bolsa_integral_cotas, uf_busca   
        FROM {DF} WHERE nome_curso = 'Medicina' LIMIT 5        
       ''', DF=df)

Unnamed: 0,bolsa_integral_cotas,uf_busca
0,2,SP
1,2,SP
2,4,RO
3,1,PR
4,4,RJ


In [0]:
cotas_ordenadas = ps.sql('''
        SELECT uf_busca, SUM(bolsa_integral_cotas) AS total_cotas   
        FROM {DF} 
        WHERE nome_curso = 'Medicina'
        GROUP BY uf_busca
        ORDER BY total_cotas DESC        
       ''', DF=df)

In [0]:
cotas_ordenadas.plot.bar(x = 'uf_busca', y = 'total_cotas')

In [0]:
df_medicina['cidade_busca'].unique()

Out[43]: 0          Sao Luis
1       Joao Pessoa
2             Belem
3         Itaperuna
4           Vitoria
5            Franca
6         Sao Paulo
7        Guarapuava
8      Campo Mourao
9     Montes Claros
10       Rio Branco
11       Imperatriz
12       Vespasiano
13      Porto Velho
Name: cidade_busca, dtype: object

In [0]:
nomes_cidades = {
    "Sao Luis": "Capital",
    "Joao Pessoa":"Capital",
    "Belem":"Capital",
    "Itaperuna":"Município",
    "Vitoria":"Município",
    "Franca":"Município",
    "Sao Paulo":"Capital",
    "Guarapuava":"Município",
    "Campo Mourao":"Município",
    "Montes Claros":"Município",
    "Rio Branco":"Município",
    "Imperatriz":"Município",
    "Vespasiano":"Município",
    "Porto Velho": "Município"
}

In [0]:
capitais = df_medicina['cidade_busca'].map(nomes_cidades)

In [0]:
df_medicina.insert(loc=8, column='tipo_cidade', value=capitais)

In [0]:
cotas_ordenadas = ps.sql('''
                         SELECT tipo_cidade, SUM(bolsa_integral_cotas) as total_cotas
                         FROM {DF} 
                         GROUP BY tipo_cidade
                         ORDER BY total_cotas DESC
                         ''', DF=df_medicina)

In [0]:
cotas_ordenadas.plot.bar(x='tipo_cidade', y='total_cotas')

##Correlação e linha de tendência


In [0]:
aux = df_medicina[['mensalidade','bolsa_integral_cotas','bolsa_integral_ampla','bolsa_parcial_cotas','bolsa_parcial_ampla','nota_integral_ampla', 'nota_integral_cotas', 'nota_parcial_ampla','nota_parcial_cotas']]

In [0]:
aux.corr()


toPandas attempted Arrow optimization because 'spark.sql.execution.arrow.pyspark.enabled' is set to true; however, failed by the reason below:
  Unable to convert the field pearson(__correlation_output__). If this column is not necessary, you may consider dropping it or converting to primitive type before the conversion.
Direct cause: Unsupported type in conversion to Arrow: MatrixUDT()
Attempting non-optimization as 'spark.sql.execution.arrow.pyspark.fallback.enabled' is set to true.



Unnamed: 0,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
mensalidade,1.0,0.080124,0.085915,0.462838,0.281507,-0.438041,-0.042471,-0.49001,-0.556348
bolsa_integral_cotas,0.080124,1.0,0.520982,0.45134,-0.120903,-0.155176,-0.360329,-0.247502,-0.064
bolsa_integral_ampla,0.085915,0.520982,1.0,0.182384,0.620009,-0.489539,-0.293681,-0.218251,0.084619
bolsa_parcial_cotas,0.462838,0.45134,0.182384,1.0,0.195821,-0.468888,-0.253827,-0.546129,-0.469743
bolsa_parcial_ampla,0.281507,-0.120903,0.620009,0.195821,1.0,-0.549894,-0.270162,-0.534464,-0.266389
nota_integral_ampla,-0.438041,-0.155176,-0.489539,-0.468888,-0.549894,1.0,0.420823,0.409216,0.563932
nota_integral_cotas,-0.042471,-0.360329,-0.293681,-0.253827,-0.270162,0.420823,1.0,0.402048,0.237963
nota_parcial_ampla,-0.49001,-0.247502,-0.218251,-0.546129,-0.534464,0.409216,0.402048,1.0,0.702974
nota_parcial_cotas,-0.556348,-0.064,0.084619,-0.469743,-0.266389,0.563932,0.237963,0.702974,1.0


In [0]:
aux.corr().style.background_gradient(cmap="Reds",vmin=-1,vmax=1)


toPandas attempted Arrow optimization because 'spark.sql.execution.arrow.pyspark.enabled' is set to true; however, failed by the reason below:
  Unable to convert the field pearson(__correlation_output__). If this column is not necessary, you may consider dropping it or converting to primitive type before the conversion.
Direct cause: Unsupported type in conversion to Arrow: MatrixUDT()
Attempting non-optimization as 'spark.sql.execution.arrow.pyspark.fallback.enabled' is set to true.



Unnamed: 0,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
mensalidade,1.0,0.080124,0.085915,0.462838,0.281507,-0.438041,-0.042471,-0.49001,-0.556348
bolsa_integral_cotas,0.080124,1.0,0.520982,0.45134,-0.120903,-0.155176,-0.360329,-0.247502,-0.064
bolsa_integral_ampla,0.085915,0.520982,1.0,0.182384,0.620009,-0.489539,-0.293681,-0.218251,0.084619
bolsa_parcial_cotas,0.462838,0.45134,0.182384,1.0,0.195821,-0.468888,-0.253827,-0.546129,-0.469743
bolsa_parcial_ampla,0.281507,-0.120903,0.620009,0.195821,1.0,-0.549894,-0.270162,-0.534464,-0.266389
nota_integral_ampla,-0.438041,-0.155176,-0.489539,-0.468888,-0.549894,1.0,0.420823,0.409216,0.563932
nota_integral_cotas,-0.042471,-0.360329,-0.293681,-0.253827,-0.270162,0.420823,1.0,0.402048,0.237963
nota_parcial_ampla,-0.49001,-0.247502,-0.218251,-0.546129,-0.534464,0.409216,0.402048,1.0,0.702974
nota_parcial_cotas,-0.556348,-0.064,0.084619,-0.469743,-0.266389,0.563932,0.237963,0.702974,1.0


In [0]:
df_medicina.plot.scatter(x='mensalidade', y='bolsa_parcial_cotas', trendline='ols', trendline_color_override='pink')

In [0]:
df_medicina.plot.scatter(x='nota_parcial_ampla', y='nota_parcial_cotas', trendline='ols', trendline_color_override='pink')

### Como o turno do curso afeta a mensalidade?

In [0]:
df_medicina

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,tipo_cidade,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Capital,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Município,Franca,SP,MzUwMjAxMjE2MjAw,Universidade de Franca - UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Município,Porto Velho,RO,MTEwMTAwMTAwMjA1,Centro Universitário São Lucas - UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Município,Guarapuava,PR,NDEwODAyOTA5NDAx,Faculdade Campo Real - CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Município,Itaperuna,RJ,MzMwMTAwMTAyMjA1,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82
120,658345863564,Bacharelado,Integral,6113.0,3,3,1,1,Município,Vitoria,ES,MzIwMzAwOTA1MzA5,Faculdade Brasileira - MULTIVIX VITÓRIA,CAMPUS GOIABEIRAS - Goiabeiras,658345,Medicina,762.74,749.0,776.36,768.34
80,7052291076664,Bacharelado,Integral,7130.0,1,1,1,1,Município,Montes Claros,MG,MzEwMjAwNzQzMzAy,Faculdades Integradas Pitágoras - FIP-MOC,UNIDADE SEDE - Ibituruna,705229,Medicina,765.76,741.1,774.96,750.64
2,1002328574024,Bacharelado,Integral,9815.61,2,5,6,10,Capital,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
4,65899611932754,Bacharelado,Integral,9774.34,4,1,5,2,Município,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26
13,104123711716094,Bacharelado,Integral,8608.54,2,1,7,2,Capital,Belem,PA,MTUwMzAwNzAxNDAy,Faculdade Metropolitana da Amazônia - FAMAZ,FACULDADE METROPOLITANA DA AMAZÔNIA - FAMAZ - ...,1041237,Medicina,741.36,739.9,760.8,715.1


In [0]:
df[df['turno'] == 'Integral']['mensalidade'].plot.box()

In [0]:
df[df['nome_curso'] == 'Medicina']['mensalidade'].plot.box()

In [0]:
df[df['nome_curso'] == 'Enfermagem']['mensalidade'].plot.box(fillcolor='red')

In [0]:
selecao = df_medicina[df_medicina['universidade_nome'].str.contains('Universidade')][['universidade_nome']]

In [0]:
df_medicina['universidade_nome'].loc[42] = 'Centro Universitário Integrado de Campo Mourão - CUICM'
df_medicina['universidade_nome'].loc[42]

Out[59]: 'Centro Universitário Integrado de Campo Mourão - CUICM'

In [0]:
separado = df_medicina['universidade_nome'].str.split(' - ', n=1, expand=True)

In [0]:
separado

Unnamed: 0,0,1
22,Faculdade das Américas,FAM
71,Universidade de Franca,UNIFRAN
87,Centro Universitário São Lucas,UniSL
107,Faculdade Campo Real,CAMPO REAL
10,Faculdade Redentor,FACREDENTOR
120,Faculdade Brasileira,MULTIVIX VITÓRIA
80,Faculdades Integradas Pitágoras,FIP-MOC
2,Universidade Cidade de São Paulo,UNICID
4,Faculdade Barão do Rio Branco,FAB
13,Faculdade Metropolitana da Amazônia,FAMAZ


In [0]:
df_medicina.insert(loc=12, column='sigla', value=separado[1])

In [0]:
notas_ordenadas = ps.sql('''
                         SELECT sigla, MEAN(nota_integral_ampla) AS nota_media
                         FROM {DF}
                         GROUP BY sigla
                         ORDER BY nota_media
                         ''', DF=df_medicina)

In [0]:
notas_ordenadas.plot.bar('sigla', 'nota_media')

### Wikipédia prouni estudo

In [0]:
import pandas as pd

In [0]:
data = {
    'Ano': [2021,2020],
    'Bolsas_Integrais': [146.3, 182.9],
    'Bolsas_Parciais': [150.0, 237.4],
    'Bolsas_Total': [296.3, 420.3]
}

In [0]:
df_bolsas = pd.DataFrame(data)

In [0]:
df_bolsas = ps.DataFrame(data)

In [0]:
df_bolsas.plot.bar(x='Ano',y=['Bolsas_Integrais','Bolsas_Parciais'],barmode='group')


## Lendo HTML

In [0]:
!pip install lxml

You should consider upgrading via the '/local_disk0/.ephemeral_nfs/envs/pythonEnv-df7da333-e359-413c-8092-9baefda0279c/bin/python -m pip install --upgrade pip' command.[0m


In [0]:
url = 'https://pt.wikipedia.org/wiki/Ensino_superior_no_Brasil'

In [0]:
lista = ps.read_html(url)

In [0]:
len(lista)

Out[79]: 5

In [0]:
df_publicas = lista[0]

In [0]:
type(df_publicas)

Out[103]: pyspark.pandas.frame.DataFrame

In [0]:
df_publicas.sort_values(by=['Classificação Nacional'], inplace=True, ascending=False)

In [0]:
fig = df_publicas.plot.bar(x='sigla',y='Classificação Nacional')
fig.show()

In [0]:
fig = df_publicas.plot.bar(x='sigla',y='Classificação Nacional',color=range(10))
fig.show()

In [0]:
fig = df_publicas.plot.bar(x='sigla',y='Classificação Nacional',color=range(10))
fig.layout.coloraxis.showscale = False
fig.show()

## Saída

In [0]:
dfs_bolsas = df_bolsas.to_spark()

In [0]:
dfs_bolsas.show()

+----+----------------+---------------+------------+
| Ano|Bolsas_Integrais|Bolsas_Parciais|Bolsas_Total|
+----+----------------+---------------+------------+
|2021|           146.3|          150.0|       296.3|
|2020|           182.9|          237.4|       420.3|
+----+----------------+---------------+------------+



In [0]:
type(dfs_bolsas)

Out[114]: pyspark.sql.dataframe.DataFrame

In [0]:
df_publicas.to_parquet('/FileStore/tables/publicas.parquet', partition_cols='Classificação Nacional')

In [0]:
ps.read_parquet('/FileStore/tables/publicas.parquet')

Unnamed: 0,Classificação Mundial,Universidade,Logo,sigla,tipo,web,Localização,Classificação Nacional
0,236,Universidade Estadual de Campinas,,UNICAMP,Pública Estadual,www.unicamp.br/,São Paulo,2
1,667,Universidade Federal de São Carlos,,UFSCAR,Pública federal,www.ufscar.br/,São Paulo,10
2,427,Universidade Federal de Santa Catarina,,UFSC,Pública federal,ufsc.br/,Santa Catarina,6
3,278,Universidade Federal do Rio de Janeiro,,UFRJ,Pública federal,ufrj.br/,Rio de Janeiro,3
4,298,Universidade Federal de Minas Gerais,,UFMG,Pública federal,ucb.edu.bo,Minas Gerais,4
5,596,Universidade Federal Fluminense,,UFF,Pública federal,www.uff.br/,Rio de Janeiro,9
6,345,Universidade Estadual Paulista,,UNESP,Pública Estadual,www.unesp.br,São Paulo,5
7,592,Universidade de Brasília,,UNB,Pública Estadual,www.unb.br/,Distrito Federal,7
8,593,Universidade Federal do Paraná,,UFPR,Pública federal,www.ufpr.br/,Paraná,8
9,72,Universidade de São Paulo,,USP,Pública Estadual,www5.usp.br/,São Paulo,1
