# Cruzando m√∫ltiplas bases


Uma outra situa√ß√£o bastante comum √© que as caracter√≠sticas de uma determinada observa√ß√£o estejam espalhadas em m√∫ltiplas bases.

Esse √© o padr√£o adotado em bancos de dados relacionais, por exemplo, onde uma mesma observa√ß√£o pode ter suas caracter√≠sticas espalhadas em diferentes bases.

Para **cruzar** esses dados, precisamos de opera√ß√µes que unam as bases a partir de identificadores em comum.

No exemplo a seguir, vamos analisar o cancelamento do semestre por parte dos alunos da UFRN.

## Entendendo os dados

Neste exemplo, vamos lidar com tr√™s bases de dados:
- **componentes**, que representam disciplinas existentes em estruturas curriculares de cursos da UFRN;
- **turmas**, que representam ofertas dessas disciplinas em determinados per√≠odos;
- **matr√≠culas**, que listam os discentes matriculados nessas turmas.

Vamos come√ßar conhecendo a base de componentes:

In [0]:
import pandas as pd

In [0]:
componentes = pd.read_csv(
                        "http://dados.ufrn.br/dataset/3fea67e8-6916-4ed0-aaa6-9a8ca06a9bdc/resource/9a3521d2-4bc5-4fda-93f0-f701c8a20727/download/componentes-curriculares-presenciais.csv", 
                        sep=";"
                        )
componentes

Nesta base, as informa√ß√µes que podem nos ser √∫teis s√£o o identificador do componente, seu nome e sua unidade respons√°vel.

In [0]:
componentes_reduzido = componentes[["id_componente","nome","unidade_responsavel"]]
componentes_reduzido

Antes de prosseguirmos, vamos nos assegurar que n√£o haja dados faltando:

In [0]:
componentes_reduzido.isnull().sum()

Como h√° apenas um dado faltando, podemos ver se h√° uma indica√ß√£o de como preencher esse dado:

In [0]:
componentes_reduzido[componentes_reduzido["nome"].isnull()]

Uma op√ß√£o aqui seria entrar em contato com a Superintend√™ncia de Inform√°tica da UFRN, curadora da base de dados.

No entanto, para esta an√°lise vamos excluir essa observa√ß√£o:

In [0]:
componentes_reduzido = componentes_reduzido[~componentes_reduzido["nome"].isnull()]

Vamos agora conferir as bases de turmas, que s√£o disponibilizadas por per√≠odo:

In [0]:
csv_turmas = {
    "2018.2": "http://dados.ufrn.br/dataset/1938623d-fb07-41a4-a55a-1691f7c3b8b5/resource/77fe7603-0e71-4e21-8cd4-cb823353023f/download/turmas-2018.2.csv",
    "2018.1": "http://dados.ufrn.br/dataset/1938623d-fb07-41a4-a55a-1691f7c3b8b5/resource/3ae16138-4214-4a30-ac2d-6cffd6237031/download/turmas-2018.1.csv",
    "2017.2": "http://dados.ufrn.br/dataset/1938623d-fb07-41a4-a55a-1691f7c3b8b5/resource/01fe7343-fdf0-4a67-b915-2386b7c2fecb/download/turmas-2017.2.csv",
    "2017.1": "http://dados.ufrn.br/dataset/1938623d-fb07-41a4-a55a-1691f7c3b8b5/resource/5e77d066-d506-45eb-a21e-76aa79616fef/download/turmas-2017.1.csv",
    "2016.2": "http://dados.ufrn.br/dataset/1938623d-fb07-41a4-a55a-1691f7c3b8b5/resource/5e8e3228-7f22-40a2-9efd-561c44844567/download/turmas-2016.2.csv",
    "2016.1": "http://dados.ufrn.br/dataset/1938623d-fb07-41a4-a55a-1691f7c3b8b5/resource/322d9977-ba15-47f1-8216-75a1ca78e197/download/turmas-2016.1.csv",
    "2015.2": "http://dados.ufrn.br/dataset/1938623d-fb07-41a4-a55a-1691f7c3b8b5/resource/7c59621c-4a8b-49d4-b319-83cfea9bdf28/download/turmas-2015.2.csv",
    "2015.1": "http://dados.ufrn.br/dataset/1938623d-fb07-41a4-a55a-1691f7c3b8b5/resource/4d5aee5a-00b0-4ed6-a4be-59fa77a56797/download/turmas-2015.1.csv",
    "2014.2": "http://dados.ufrn.br/dataset/1938623d-fb07-41a4-a55a-1691f7c3b8b5/resource/2c69547b-920f-4ec2-92c0-3fbc19512165/download/turmas-2014.2.csv",
    "2014.1": "http://dados.ufrn.br/dataset/1938623d-fb07-41a4-a55a-1691f7c3b8b5/resource/e6e4144f-4042-4fdc-84e0-76e9ec27ae7c/download/turmas-2014.1.csv",
}

In [0]:
dados_turmas = pd.concat(pd.read_csv(csv_turmas[url], sep=";") for url in csv_turmas)
dados_turmas

Estranhamente, as primeiras observa√ß√µes revelam que h√° m√∫ltiplas observa√ß√µes com o mesmo identificador de turma.

Isso n√£o √© comum em bancos de dados relacionais, uma vez que cada base costuma ter um identificador √∫nico por observa√ß√£o.

Quando isto acontece, temos a indica√ß√£o de que a identifica√ß√£o de uma observa√ß√£o depende de m√∫ltiplas caracter√≠sticas.

Vamos isolar um caso assim para ver a diferen√ßa entre as observa√ß√µes:

In [0]:
dados_turmas.query('id_turma == 57612672')

Nota-se que a diferen√ßa entre as observa√ß√µes est√° nos campos `siape`, `matricula_docente_externo` e `ch_dedicada_periodo`.

Pesquisando o contexto da UFRN, isso indica que a mesma turma √© registrada tantas vezes quantos forem os professores que a estejam lecionando.

Para nossa an√°lise, isto n√£o √© interessante, ent√£o vamos simplificar esta base removendo as entradas duplicadas com o m√©todo `drop_duplicates()`, aplicado ap√≥s ordenarmos os dados pela coluna `id_turma`:

In [0]:
dados_turmas = dados_turmas.sort_values("id_turma").drop_duplicates(subset="id_turma")
dados_turmas

Vamos dar uma olhada em valores faltando:

In [0]:
dados_turmas.isnull().sum()

üòÖ

Com tantos valores faltando, nossa melhor alternativa √© remover as caracter√≠sticas que estejam incompletas.

Fazemos isso usando o m√©todo `drop_na()`, informando que queremos remover colunas (`axis=1`):

In [0]:
dados_turmas = dados_turmas.dropna(axis=1)
dados_turmas

## Cruzando dados de disciplinas e turmas



At√© aqui, temos uma grande quantidade de dados √† nossa disposi√ß√£o, com 38.276 disciplinas e 91.483 turmas. 

Fazendo um recorte da nossa an√°lise, vamos come√ßar por  disciplinas obrigat√≥rias do Bacharelado em Tecnologia da Informa√ß√£o (BTI):

In [0]:
lista_obrigat√≥rias = [
                      "AN√ÅLISE COMBINAT√ìRIA",
                      "C√ÅLCULO DIFERENCIAL E INTEGRAL I",
                      "ESTRUTURA DE DADOS B√ÅSICAS I",
                      "ESTRUTURAS DE DADOS B√ÅSICAS II",
                      "FUNDAMENTOS MATEM√ÅTICOS DA COMPUTA√á√ÉO I",
                      "FUNDAMENTOS MATEM√ÅTICOS DA COMPUTA√á√ÉO II",
                      "GEOMETRIA EUCLIDIANA",
                      "INTRODU√á√ÉO √ÄS T√âCNICAS DE PROGRAMA√á√ÉO",
                      "LINGUAGEM DE PROGRAMA√á√ÉO I",
                      "LINGUAGEM DE PROGRAMA√á√ÉO II",
                      "MATEM√ÅTICA ELEMENTAR",
                      "PENSAMENTO COMPUTACIONAL",
                      "PR√ÅTICAS DE LEITURA EM INGL√äS",
                      "PR√ÅTICAS DE LEITURA E ESCRITA EM PORTUGU√äS I",
                      "PR√ÅTICAS DE LEITURA E ESCRITA EM PORTUGU√äS II",
                      "PROBABILIDADE",
                      "TECNOLOGIA DA INFORMA√á√ÉO E SOCIEDADE",
                      "VETORES E GEOMETRIA ANAL√çTICA",
                      ]

unidades_acad√™micas = ["INSTITUTO METROPOLE DIGITAL", "DEPARTAMENTO DE INFORM√ÅTICA E MATEM√ÅTICA APLICADA"]
condi√ß√£o_nome = f"nome in {lista_obrigat√≥rias}"
condi√ß√£o_unidade = f"unidade_responsavel in {unidades_acad√™micas}"
componentes_bti_obrigat√≥rios = componentes_reduzido.query(f"{condi√ß√£o_nome} and {condi√ß√£o_unidade}")
componentes_bti_obrigat√≥rios

Para unir os dados de turmas e componentes, vamos usar o m√©todo `merge()`, que recebe dois dataframes e a indica√ß√£o dos identificadores que devem ser usados para o cruzamento: 

In [0]:
turmas_obrigat√≥rias = pd.merge(componentes_bti_obrigat√≥rios, dados_turmas, left_on="id_componente", right_on="id_componente_curricular")
turmas_obrigat√≥rias

Revendo este c√≥digo:
- `n√∫cleo_comum` √© considerado o dataframe √† esquerda da uni√£o e seu identificador √© informado usando o argumento `left_on="id_componente"`
- `data_turmas` √© considerado o dataframe √† direita da uni√£o e seu identificador √© informado usando o argumento `right_on="id_componente_curricular"`

Note que agora temos um dataframe consideravelmente menor, com apenas 341 observa√ß√µes.

Isto acontece porque o m√©todo `merge()` adota como padr√£o a **uni√£o interna**, que preserva apenas as observa√ß√µes onde os identificadores dos dataframes originais s√£o iguais. 

## Cruzando dados de turmas e de matr√≠culas

O √∫ltimo dado que precisamos coletar √© o de matr√≠culas de discentes em turmas.

Apesar do dado para o primeiro per√≠odo de 2019 estar dispon√≠vel, vamos coletar apenas os dados at√© 2018 j√° que n√£o h√° dados de turmas ainda para 2019.

**Observa√ß√£o:** a execu√ß√£o da coleta a seguir pode demorar um pouco.

In [0]:
csv_matr√≠culas = {
    "2018.2": "http://dados.ufrn.br/dataset/c8650d55-3c5a-4787-a126-d28a4ef902a6/resource/0bfcaf6a-4424-4983-8ba8-d330350a8fbe/download/matricula-componente-20182.csv",
    "2018.1": "http://dados.ufrn.br/dataset/c8650d55-3c5a-4787-a126-d28a4ef902a6/resource/3c1feba4-ced1-466e-8e94-a040224a51dc/download/matricula-componente-20181.csv",
    "2017.2": "http://dados.ufrn.br/dataset/c8650d55-3c5a-4787-a126-d28a4ef902a6/resource/55dfe713-ff7c-4fa8-8d1d-d4294a025bff/download/matricula-componente-20172.csv",
    "2017.1": "http://dados.ufrn.br/dataset/c8650d55-3c5a-4787-a126-d28a4ef902a6/resource/79071c21-e32c-438f-b930-d1b6ccc02ec2/download/matricula-componente-20171.csv",
    "2016.2": "http://dados.ufrn.br/dataset/c8650d55-3c5a-4787-a126-d28a4ef902a6/resource/f6179838-b619-4d7d-af9c-18c438b80dd4/download/matriculas-de-2016.2.csv",
    "2016.1": "http://dados.ufrn.br/dataset/c8650d55-3c5a-4787-a126-d28a4ef902a6/resource/4778d3ce-8898-46a8-a623-ee6a480a2980/download/matriculas-de-2016.1.csv",
    "2015.2": "http://dados.ufrn.br/dataset/c8650d55-3c5a-4787-a126-d28a4ef902a6/resource/baa6c8b4-2072-417f-b238-c028ccc8c14b/download/matriculas-de-2015.2.csv",
    "2015.1": "http://dados.ufrn.br/dataset/c8650d55-3c5a-4787-a126-d28a4ef902a6/resource/9e7ba1c2-f92d-4b9c-9e91-3b026ecdf913/download/matriculas-de-2015.1.csv",
    "2014.2": "http://dados.ufrn.br/dataset/c8650d55-3c5a-4787-a126-d28a4ef902a6/resource/e974792c-b557-470c-bf3d-ede7d5b5e6a6/download/matricula-componente-20142.csv",
    "2014.1": "http://dados.ufrn.br/dataset/c8650d55-3c5a-4787-a126-d28a4ef902a6/resource/7081446d-39f9-4374-ad0b-86ecab97e569/download/matricula-componente-20141.csv",
}

In [0]:
dados_matr√≠culas = pd.concat(pd.read_csv(csv_matr√≠culas[url], sep=";") for url in csv_matr√≠culas)
dados_matr√≠culas

6.943.310 observa√ß√µes! üò±

Vamos repetir os procedimentos que fizemos anteriormente, come√ßando pela limpeza de dados faltando

In [0]:
dados_matr√≠culas.isnull().sum()

In [0]:
dados_matr√≠culas = dados_matr√≠culas.dropna(axis=1)
dados_matr√≠culas

Vamos verificar se tamb√©m h√° dados repetidos neste dataframe:

In [0]:
dados_matr√≠culas.groupby(["discente","id_turma","descricao"]).size()

Note que um mesmo discente, apesar de aprovado, aparece como tr√™s observa√ß√µes para uma √∫nica turma.

Isto indica que uma observa√ß√£o neste dataset √© o registro de desempenho de um discente em apenas uma unidade.

Vamos ent√£o reduzir este dataframe, eliminando dados repetidos:

In [0]:
dados_matr√≠culas = dados_matr√≠culas.sort_values(["discente","id_turma","descricao"]).drop_duplicates(subset=["discente","id_turma","descricao"])
dados_matr√≠culas

Note que tanto a ordena√ß√£o como a remo√ß√£o de dados repetidos foi feita considerando a tupla `"discente","id_turma","descricao"`, j√° que s√≥ queremos considerar repetidas observa√ß√µes que representem m√∫ltiplas unidades de um mesmo discente em uma mesma turma.

Assim, conseguimos reduzir a quantidade de observa√ß√µes neste dataframe para "apenas" 2.410.123. 

Para finalizar, vamos cruzar os dados de matr√≠culas com os dados de turmas, usando como identificador a caracter√≠stica `id_turma`:

In [0]:
matr√≠culas_obrigat√≥rias = pd.merge(dados_matr√≠culas, turmas_obrigat√≥rias, on="id_turma")
matr√≠culas_obrigat√≥rias

Ap√≥s a uni√£o interna, nosso dataframe cont√©m apenas 23.933 observa√ß√µes, referentes a discentes que cursaram as disciplinas do nosso recorte.

Vamos persistir esses dados:

In [0]:
from google.colab import drive
drive.mount('/content/drive')

In [0]:
matr√≠culas_obrigat√≥rias.to_csv("/content/drive/My Drive/obrigat√≥rias-bti-2014-2018.csv", index=False)

## Analisando os resultados dos discentes

Vamos passar a analisar os resultados obtidos pelos discentes nestas disciplinas:

In [0]:
matr√≠culas_obrigat√≥rias.descricao.value_counts()

Entender todos os poss√≠veis resultados exigiria uma boa documenta√ß√£o do dataset, o que ainda n√£o est√° dispon√≠vel.

Para efeito desta an√°lise, podemos descartar o caso de indeferimento, j√° que neste caso o aluno n√£o chegou a cursar a disciplina:

In [0]:
lista_n√£o_cursou = [
                    "CUMPRIU",
                    "DESISTENCIA",
                    "DISPENSADO",
                    "EXCLUIDA",
                    "INDEFERIDO",
                    ]
condi√ß√£o_tentativa = f"not descricao in {lista_n√£o_cursou}"
matr√≠culas_obrigat√≥rias = matr√≠culas_obrigat√≥rias.query(condi√ß√£o_tentativa)

In [0]:
matr√≠culas_obrigat√≥rias.descricao.value_counts()

Chama a aten√ß√£o a quantidade de possibilidades de reprova√ß√£o prevista no regulamento dos cursos de gradua√ß√£o da UFRN.

Para simplificar nossa an√°lise, vamos considerar apenas as possibilidades que tiveram um n√∫mero razo√°vel de casos:

In [0]:
reprova√ß√µes = ["REPROVADO POR NOTA","REPROVADO POR NOTA E FALTA","REPROVADO POR FALTAS"]
condi√ß√£o = f"not descricao in {reprova√ß√µes}"
matr√≠culas_obrigat√≥rias = matr√≠culas_obrigat√≥rias.query(condi√ß√£o)

Vamos agora discriminar o resultado por disciplina:

In [0]:
agregado_obrigat√≥rias = matr√≠culas_obrigat√≥rias.groupby(["nome","descricao"]).size()
agregado_obrigat√≥rias

In [0]:
percentual_obrigat√≥rias = pd.crosstab(matr√≠culas_obrigat√≥rias["nome"], matr√≠culas_obrigat√≥rias["descricao"], normalize="index")
percentual_obrigat√≥rias

Como s√£o muitos valores poss√≠veis para analisarmos, vamos usar o `catplot` da biblioteca `seaborn` para nos ajudar.

Este m√©todo permite gerar um gr√°fico de barras onde podemos informar os valores no eixo x, as categorias no eixo y e os diferentes grupos (disciplinas) pela cor (`hue`).

Para isso, no entanto, precisamos converter nosso dataframe para o formato longo, o que fazemos usando o m√©todo `unstack`.


In [0]:
dados_obrigat√≥rias = percentual_obrigat√≥rias.unstack().reset_index(name="percentual")
dados_obrigat√≥rias

In [0]:
dados_obrigat√≥rias.to_csv("/content/drive/My Drive/obrigatorias-imd-2014-2018.csv", index=False)

Para melhorar a legibilidade do gr√°fico, configuramos tamb√©m sua propor√ß√£o e legenda:

In [0]:
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

In [0]:
sns.catplot(x="percentual", y="descricao", hue="nome", kind="bar", data=dados_obrigat√≥rias, legend=True, legend_out=True, height=20, aspect=0.6)
plt.xlabel("Percentual")
plt.ylabel("Resultado")
plt.title("Resultado dos alunos por disciplina")

Dada a elevada quantidade de disciplinas, se torna dif√≠cil enxergar padr√µes sem o aux√≠lio de algoritmos apropriados para isso.

Por hora, vamos visualizar a quantidade de vezes que cada discente se matriculou em cada disciplina:

In [0]:
tentativas_obrigat√≥rias = matr√≠culas_obrigat√≥rias.groupby(["nome","discente"]).size()
tentativas_obrigat√≥rias

Convertendo a s√©rie em dataframe:

In [0]:
dados_tentativas = tentativas_obrigat√≥rias.reset_index(name="tentativas")
dados_tentativas

Para analisarmos as distribui√ß√µes de tentativas por disciplina, vamos usar boxplots e histogramas.

In [0]:
plt.figure(figsize=(6,8))
sns.boxplot(x="tentativas", y="nome", data=dados_tentativas)
plt.xlabel("N√∫mero de tentativas")

Analisando inicialmente os boxplots acima, vemos claramente dois grupos de disciplinas:
1. disciplinas em que apenas outliers precisam tentar mais de uma vez
2. disciplinas em que uma parte significativa dos discentes precisa de mais de uma tentativa

Aqui cabe uma ressalva: as disciplinas Pensamento computacional, Matem√°tica elementar, An√°lise combinat√≥ria e Geometria euclidiana foram criadas em 2018. 

Mesmo com poucos dados, j√° d√° para perceber a mesma diferencia√ß√£o entre Geometria euclidiana e as demais.

Vamos dar uma olhada nos histogramas para ver em maior detalhe a distribui√ß√£o de tentativas por disciplina:

In [0]:
dados_tentativas.hist(by="nome", column="tentativas", figsize=(20,12), bins=6, range=(1,6))
plt.xlabel("N√∫mero de tentativas")
plt.ylabel("N√∫mero de discentes")

Assim como indicado pelos boxplots, podemos ver dois grandes padr√µes entre as distribui√ß√µes.

No entanto, ainda que as caudas das distribui√ß√µes n√£o sejam real√ßadas pelos boxplots, as disciplinas com m√∫ltiplas tentativas apresentam uma grande quantidade de discentes tentando 3 ou mais vezes.

## Analisando cancelamentos na UFRN

Um dado que chama a aten√ß√£o na an√°lise anterior √© a alta quantidade de cancelamentos nas disciplinas obrigat√≥rias do BTI.

No contexto da UFRN, um cancelamento ocorre quando um discente solicita o cancelamento de todo o seu semestre letivo, perdendo todas as disciplinas de uma vez.

Originalmente, esse mecanismo foi pensado para atender pessoas que tivessem problemas de sa√∫de, mudan√ßa tempor√°ria ou qualquer outro motivo que necessitassem at√© 2 anos de aus√™ncia da universidade.

Na pr√°tica, esse mecanismo acaba sendo usado quando discentes est√£o pr√≥ximos a ser jubilados por insucessos (um discente pode ter no m√°ximo 3 insucessos em uma disciplina).

Vamos ent√£o analisar esta situa√ß√£o em cursos de gradua√ß√£o da UFRN em geral:

In [0]:
turmas_gradua√ß√£o = dados_turmas.query('nivel_ensino == "GRADUA√á√ÉO"')
turmas_gradua√ß√£o

Identificadas as turmas de gradua√ß√£o, vamos cruzar os dados com os componentes e matr√≠culas:

In [0]:
componentes_turmas = pd.merge(turmas_gradua√ß√£o, componentes, left_on="id_componente_curricular", right_on="id_componente")
componentes_turmas

In [0]:
matr√≠culas_ufrn = pd.merge(dados_matr√≠culas, componentes_turmas, on="id_turma")
matr√≠culas_ufrn

Agora que cruzamos os dados, vamos verificar os resultados poss√≠veis dos discentes:

In [0]:
matr√≠culas_ufrn.descricao.value_counts()

Para podermos comparar com os dados que observamos na an√°lise do BTI, precisamos restringir esses resultados aos casos que usamos naquela an√°lise:

In [0]:
lista_n√£o_cursou_ufrn = [
                        "AGUARDANDO DEFERIMENTO",
                        "EM ESPERA",
                        "INCORPORADO",
                        "MATRICULADO",
                        "REPROVADO POR NOTA",
                        "REPROVADO POR NOTA E FALTA",
                        "REPROVADO POR FALTAS",
                        "TRANSFERIDO"
                        ]
condi√ß√µes_a_remover = lista_n√£o_cursou + lista_n√£o_cursou_ufrn
condi√ß√£o_tentativa_ufrn = f"not descricao in {condi√ß√µes_a_remover}"
matr√≠culas_ufrn = matr√≠culas_ufrn.query(condi√ß√£o_tentativa_ufrn)
matr√≠culas_ufrn.descricao.value_counts()

Agora que filtramos os dados, vamos agreg√°-los por unidade e descri√ß√£o:

In [0]:
percentual_ufrn = pd.crosstab(matr√≠culas_ufrn["unidade_responsavel"], matr√≠culas_ufrn["descricao"], normalize="index")
percentual_ufrn

Como nosso interesse √© apenas nos casos cancelados, vamos filtrar os dados e orden√°-los:

In [0]:
cancelados_ufrn = percentual_ufrn["CANCELADO"].sort_values()
cancelados_ufrn

üò±

A propor√ß√£o entre os dados de m√≠nimo e m√°ximo √© de 230 vezes!

Bom, extremos podem ser enganosos, ent√£o vamos dar uma olhada na distribui√ß√£o dos dados:

In [0]:
from scipy.stats import norm

In [0]:
sns.distplot(cancelados_ufrn, fit=norm, bins=20)
plt.xlabel("Percentual")
plt.ylabel("Distribui√ß√£o")
plt.title("Quantidade de cancelamentos por unidade acad√™mica")

A distribui√ß√£o dos dados se aproxima de uma distribui√ß√£o normal, mas h√° ind√≠cios de bimodalidade.

Al√©m disso, d√° para ver que h√° dois conjuntos de outliers nas extremidades dos dados:

In [0]:
cancelados_ufrn[cancelados_ufrn <= 0.01]

O conjunto de outliers √† esquerda do gr√°fico √© composto predominantemente por unidades relacionadas √† medicina.

Por sua vez, os outliers √† direita s√£o todos relacionados √† ci√™ncias exatas:

In [0]:
cancelados_ufrn[cancelados_ufrn >= 0.1]

Para concluir, vamos dar uma olhada nas estat√≠sticas descritivas dessa s√©rie:

In [0]:
cancelados_ufrn.describe()

Tanto a m√©dia como a mediana est√£o pr√≥ximas a 6%.

No entanto, o terceiro quartil √© o triplo do primeiro quartil.

Vamos ver os cursos em cada regi√£o:

In [0]:
cancelados_ufrn[cancelados_ufrn <= cancelados_ufrn.quantile(0.25)]

Aqui n√≥s j√° vemos uma mistura maior de cursos, mas a presen√ßa de unidades relacionadas √† medicina continua elevada.

In [0]:
cancelados_ufrn[cancelados_ufrn >= cancelados_ufrn.quantile(0.75)]

Neste caso, vemos que taxas de cancelamento pr√≥ximas a 10% s√£o comuns em diferentes √°reas da UFRN, envolvendo ci√™ncias humanas, bioci√™ncias e exatas.