In [1]:
import numpy as np
import pandas as pd

import glob

# Ranking Melhores Universidades (2011_2024)

## Times Higher Education

Times higher education é uma revista britânica que trata sobre assuntos relacionados a educação superior. Ela publica rankings anuais que classificam as melhores universidades ao redor do mundo.

Sobre os dados:

The THE World University Rankings provide the definitive list of the world’s best universities, with an emphasis on the research mission. It is the only global university league table to judge research-intensive universities across all of their core missions: teaching (the learning environment); research (volume, income and reputation); citations (research influence); industry income (knowledge transfer) and international outlook (staff, students and research). It uses 13 carefully calibrated performance indicators to provide the most comprehensive and balanced comparisons. The overall list is accompanied by 11 subject-specific rankings.

Original data, as well as ranking methodology described per each year, is available on the official website www.timeshighereducation.com
 Methodology (2024): https://www.timeshighereducation.com/world-university-rankings/world-university-rankings-2024-methodology



### Carregar Dados

In [2]:
#Link para download dos dados: https://www.kaggle.com/datasets/r1chardson/the-world-university-rankings-2011-2023

path_the='../dados/THE World University Rankings 2011-2024' #caminho onde estão salvos os dados
files_the=glob.glob(path_the+'/*.csv')
files_the

['../dados/THE World University Rankings 2011-2024/2015_rankings.csv',
 '../dados/THE World University Rankings 2011-2024/2019_rankings.csv',
 '../dados/THE World University Rankings 2011-2024/2024_rankings.csv',
 '../dados/THE World University Rankings 2011-2024/2011_rankings.csv',
 '../dados/THE World University Rankings 2011-2024/2016_rankings.csv',
 '../dados/THE World University Rankings 2011-2024/2014_rankings.csv',
 '../dados/THE World University Rankings 2011-2024/2023_rankings.csv',
 '../dados/THE World University Rankings 2011-2024/2012_rankings.csv',
 '../dados/THE World University Rankings 2011-2024/2020_rankings.csv',
 '../dados/THE World University Rankings 2011-2024/2017_rankings.csv',
 '../dados/THE World University Rankings 2011-2024/2022_rankings.csv',
 '../dados/THE World University Rankings 2011-2024/2013_rankings.csv',
 '../dados/THE World University Rankings 2011-2024/2021_rankings.csv',
 '../dados/THE World University Rankings 2011-2024/2018_rankings.csv']

In [3]:
dados={} #dicionário que receberá os dados dos rankings entre 2011 e 2024, cada key no dicionário será um ano
anos=[str(ano) for ano in range(2011,2025,1)] #strings com os anos que serão usadas na contrução do dicionário
colunas_ano={} #dicinários com as colunas presentes nos ranking de cada ano. Será criado para avaliar se as métricas avaliadas são as mesmas em todos os rankings
for index, file_path in enumerate(files_the):
    dados[anos[index]]=pd.read_csv(file_path)  #dados carregados no dicionário
    #dados[anos[index]]['ano']=anos[index] #adicionar coluna com anos do ranking nos dataframes
    colunas_ano[anos[index]]=dados[anos[index]].columns.to_list()

### Análise Exploratória

In [4]:
#Nem todas as métricas estão presentes em todos os rankings
for ano in anos:
    print('{}: {} colunas'.format(ano,len(colunas_ano[ano])))

2011: 20 colunas
2012: 24 colunas
2013: 25 colunas
2014: 20 colunas
2015: 24 colunas
2016: 20 colunas
2017: 24 colunas
2018: 20 colunas
2019: 24 colunas
2020: 24 colunas
2021: 24 colunas
2022: 20 colunas
2023: 24 colunas
2024: 24 colunas


In [5]:
#Número de Universidade avaliadas em cada ano:
for ano in anos:
    print('{}: {} universidades no ranking)'.format(ano,len(dados[ano])))

2011: 401 universidades no ranking)
2012: 1258 universidades no ranking)
2013: 2671 universidades no ranking)
2014: 200 universidades no ranking)
2015: 800 universidades no ranking)
2016: 400 universidades no ranking)
2017: 2345 universidades no ranking)
2018: 402 universidades no ranking)
2019: 1397 universidades no ranking)
2020: 981 universidades no ranking)
2021: 2112 universidades no ranking)
2022: 400 universidades no ranking)
2023: 1526 universidades no ranking)
2024: 1103 universidades no ranking)


In [6]:
#Métricas que estão presentes no ranking de 2024 mas não estão em outros rankings
for ano in anos:
    for metric in colunas_ano['2024']:
        if metric not in  colunas_ano[ano]:
            print('{}: {} - ausente'.format(ano,metric))
    print('')

2011: stats_number_students - ausente
2011: stats_student_staff_ratio - ausente
2011: stats_pc_intl_students - ausente
2011: stats_female_male_ratio - ausente



2014: stats_number_students - ausente
2014: stats_student_staff_ratio - ausente
2014: stats_pc_intl_students - ausente
2014: stats_female_male_ratio - ausente


2016: stats_number_students - ausente
2016: stats_student_staff_ratio - ausente
2016: stats_pc_intl_students - ausente
2016: stats_female_male_ratio - ausente


2018: stats_number_students - ausente
2018: stats_student_staff_ratio - ausente
2018: stats_pc_intl_students - ausente
2018: stats_female_male_ratio - ausente




2022: stats_number_students - ausente
2022: stats_student_staff_ratio - ausente
2022: stats_pc_intl_students - ausente
2022: stats_female_male_ratio - ausente





Descrição das métricas (colunas nos dataframes): 

- rank_order: posição geral da universidade, considerando todas as notas atribuídas
- rank
- name: nome da universidade
- scores_overall: pontuação média da universidade considerando todas a métricas
- scores_overall_rank: ranking da universidade considerando o overall score
- scores_teaching: pontuacao atribuída para ensino
- scores_teaching_rank: rankeamento de acordo com o score para ensino
- scores_international_outlook: nível de internacionalização da universidade, mede a capacidade da universidade de atrair estudantes estrangeiros
- scores_international_outlook_rank: rankeamento de acorde com o nível de internacionalização
- scores_industry_income: mede a capacidade da universidede de coloborar com a indústria
- scores_industry_income_rank:  ranking criado de acordo com o scores_industry_income
- scores_research :avaliação da qualidade da pesquisa realizada na universidade
- scores_research_rank: ranking criado de acordo com o scores_research
- scores_citations :pontuação atribuída de acordo com as citações recebidas pelos trabalhos produzidos na universidade
- scores_citations_rank: ranking criado de acordo com scores_citations
- location: localização da universidade
- aliases: 
- subjects_offered': cursos oferecidos
- closed: se a universidade está ou não fechada
- unaccredited : universidade possui ou não credenciamento formal
- stats_proportion_of_isr: intedisciplinidade
- stats_female_male_ratio: proporção entre mulheres e homens
- stats_pc_intl_students: 
- stats_student_staff_ratio: proporção entre o número de funcionários e o número de estudantes
- stats_number_students: número de estudantes



In [7]:
#Conversão do dicionário em dataframe
df_dados=pd.concat(dados,axis=0)
#df_dados é um dataframe com os rankings de 2011 até 2024

In [8]:
df_dados.info()

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 15996 entries, ('2011', 0) to ('2024', 1102)
Data columns (total 25 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   rank_order                         15996 non-null  int64  
 1   rank                               15996 non-null  object 
 2   name                               15996 non-null  object 
 3   scores_overall                     14235 non-null  object 
 4   scores_overall_rank                15996 non-null  int64  
 5   scores_teaching                    14235 non-null  float64
 6   scores_teaching_rank               15996 non-null  int64  
 7   scores_international_outlook       14235 non-null  object 
 8   scores_international_outlook_rank  15996 non-null  int64  
 9   scores_industry_income             14235 non-null  object 
 10  scores_industry_income_rank        15996 non-null  int64  
 11  scores_research                    

In [9]:
df_dados.loc['2024',:].head()

Unnamed: 0,rank_order,rank,name,scores_overall,scores_overall_rank,scores_teaching,scores_teaching_rank,scores_international_outlook,scores_international_outlook_rank,scores_industry_income,...,location,aliases,subjects_offered,closed,unaccredited,stats_number_students,stats_student_staff_ratio,stats_pc_intl_students,stats_female_male_ratio,stats_proportion_of_isr
0,10,1,University of Oxford,94.3,10,86.7,5,95.0,24,63.7,...,United Kingdom,University of Oxford,"Accounting & Finance,General Engineering,Commu...",False,False,20410,11.2,38%,46 : 54,
1,20,2,University of Cambridge,93.2,20,87.8,3,93.0,35,51.5,...,United Kingdom,University of Cambridge,"Business & Management,General Engineering,Art,...",False,False,18390,10.9,35%,45 : 55,
2,30,=3,California Institute of Technology,93.0,30,90.3,1,59.7,322,92.6,...,United States,California Institute of Technology caltech,"Languages, Literature & Linguistics,Economics ...",False,False,2209,6.5,27%,31 : 69,
3,40,=3,Stanford University,93.0,40,89.1,2,77.6,162,60.5,...,United States,Stanford University,"Physics & Astronomy,Computer Science,Politics ...",False,False,15845,7.5,22%,42 : 58,
4,50,5,Massachusetts Institute of Technology,92.5,50,87.3,4,87.6,81,88.4,...,United States,Massachusetts Institute of Technology,"Mathematics & Statistics,Languages, Literature...",False,False,11177,8.7,34%,37 : 63,


In [10]:
#criar duas novas colunas, uma com a porcentagem de homens e outra com a porcentagem de mulheres
df_dados=pd.concat([df_dados,df_dados['stats_female_male_ratio'].str.split(':',expand=True)],axis=1)
df_dados.rename(columns={0:'male proportion',1:'female proportion'},inplace=True)

In [11]:
df_dados.loc['2024',:].head()

Unnamed: 0,rank_order,rank,name,scores_overall,scores_overall_rank,scores_teaching,scores_teaching_rank,scores_international_outlook,scores_international_outlook_rank,scores_industry_income,...,subjects_offered,closed,unaccredited,stats_number_students,stats_student_staff_ratio,stats_pc_intl_students,stats_female_male_ratio,stats_proportion_of_isr,male proportion,female proportion
0,10,1,University of Oxford,94.3,10,86.7,5,95.0,24,63.7,...,"Accounting & Finance,General Engineering,Commu...",False,False,20410,11.2,38%,46 : 54,,46,54
1,20,2,University of Cambridge,93.2,20,87.8,3,93.0,35,51.5,...,"Business & Management,General Engineering,Art,...",False,False,18390,10.9,35%,45 : 55,,45,55
2,30,=3,California Institute of Technology,93.0,30,90.3,1,59.7,322,92.6,...,"Languages, Literature & Linguistics,Economics ...",False,False,2209,6.5,27%,31 : 69,,31,69
3,40,=3,Stanford University,93.0,40,89.1,2,77.6,162,60.5,...,"Physics & Astronomy,Computer Science,Politics ...",False,False,15845,7.5,22%,42 : 58,,42,58
4,50,5,Massachusetts Institute of Technology,92.5,50,87.3,4,87.6,81,88.4,...,"Mathematics & Statistics,Languages, Literature...",False,False,11177,8.7,34%,37 : 63,,37,63


In [12]:
#Substituir as virgulas por pontos na coluna stats_number_students
#Essa coluna estão os números de estudantes em cada universidade, portanto são números inteiros

df_dados['stats_number_students']=df_dados['stats_number_students'].str.replace(',','.')
df_dados['stats_number_students']

2011  0          NaN
      1          NaN
      2          NaN
      3          NaN
      4          NaN
               ...  
2024  1098     9.254
      1099    15.468
      1100    13.600
      1101    23.260
      1102    10.305
Name: stats_number_students, Length: 15996, dtype: object

### Análise dos Rankings

#### Melhores colocadas ao longo dos anos

In [68]:
top_universidades=[]
n_top=9 #posicao do index que será selecionado. Se n_top=9 serão selecionadas 10 universidades, porque o index começa em zero. Portanto nesse caso seriam selecionadas as universidades com index de 0 a 9.
for ano in anos: #anos é uma lista com os anos para os quais os rankings estão disponíveis
    top=df_dados.loc[(ano,slice(0,n_top)),['name']].rename(columns={'name':ano}) #multiindex: o primeiro index é o ano e o segundo index é selecionado no slice
    top.reset_index(drop=True,inplace=True)
    top_universidades.append(top)
top_universidades=pd.concat(top_universidades,axis=1) #converter a lista em dataframes
top_universidades=top_universidades.transpose() #transpor para que o ranking para cada anos apareça em cada linha

In [69]:
name_columns=[str(i)+'°' for i in range(1,11)]
name_columns

top_universidades.columns=name_columns

In [70]:
top_universidades

Unnamed: 0,1°,2°,3°,4°,5°,6°,7°,8°,9°,10°
2011,California Institute of Technology,Harvard University,University of Oxford,Stanford University,University of Cambridge,Massachusetts Institute of Technology,Princeton University,"University of California, Berkeley",Yale University,Imperial College London
2012,University of Oxford,University of Cambridge,Stanford University,Massachusetts Institute of Technology,California Institute of Technology,Harvard University,Princeton University,Yale University,Imperial College London,The University of Chicago
2013,University of Oxford,Stanford University,Massachusetts Institute of Technology,Harvard University,University of Cambridge,Princeton University,California Institute of Technology,Imperial College London,"University of California, Berkeley",Yale University
2014,Harvard University,California Institute of Technology,Massachusetts Institute of Technology,Stanford University,Princeton University,University of Oxford,University of Cambridge,"University of California, Berkeley",Imperial College London,Yale University
2015,California Institute of Technology,University of Oxford,Stanford University,University of Cambridge,Massachusetts Institute of Technology,Harvard University,Princeton University,Imperial College London,ETH Zurich,The University of Chicago
2016,California Institute of Technology,Harvard University,University of Oxford,Stanford University,Massachusetts Institute of Technology,Princeton University,University of Cambridge,"University of California, Berkeley",The University of Chicago,Imperial College London
2017,University of Oxford,Harvard University,University of Cambridge,Stanford University,Massachusetts Institute of Technology,California Institute of Technology,Princeton University,"University of California, Berkeley",Yale University,Imperial College London
2018,California Institute of Technology,Harvard University,Stanford University,University of Oxford,Princeton University,University of Cambridge,Massachusetts Institute of Technology,Imperial College London,The University of Chicago,"University of California, Berkeley"
2019,University of Oxford,California Institute of Technology,University of Cambridge,Stanford University,Massachusetts Institute of Technology,Princeton University,Harvard University,Yale University,The University of Chicago,Imperial College London
2020,University of Oxford,California Institute of Technology,Stanford University,University of Cambridge,Massachusetts Institute of Technology,Harvard University,Princeton University,Imperial College London,ETH Zurich,"University of California, Berkeley"


In [82]:
top_1=top_universidades['1°'].value_counts()
top_1=pd.DataFrame(top_1)
top_1=top_1.rename(columns={'1°':'Número de vezes que esteve em 1° no ranking entre 2001 e 2024'})

In [83]:
top_1

Unnamed: 0,Número de vezes que esteve em 1° no ranking entre 2001 e 2024
University of Oxford,8
California Institute of Technology,5
Harvard University,1
