# Coleta de dados das Universidades Federais do Nordeste  

A primeira etapa para a elaboração do GUIA NORDESTE DE FONTES JORNALÍSTICAS é, a princípio, o levantamento de dados de todas as Universidades Federais (UFs) localizadas na região Nordeste (NE) e dos cursos oferecidos por cada uma, com o objetivo de reunir áreas e subáreas por especialidade.

Para essa tarefa, utilizamos os microdados do [Censo da Educação Superior (2022)](https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/censo-da-educacao-superior) coletados pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP).

Por meio dos Microdados, é possível obter um amplo panorama da educação brasileira e, como importante ferramenta de transparência, é indubitavelmente um rico acervo sobre a educação superior do nosso país e uma fonte segura e eficaz de obtenção de dados, acessíveis aos pesquisadores, estudantes, gestores e sociedade em geral.

Obtemos os dados das UFs por meio da filtragem da base de dados fornecida pelo Censo do Ensino Superior. Uma vez filtrada a base, cumprimos uma etapa auxiliar de obtenção do endereço URL de cada UF, obtemos os endereços através do [Portal da Educação PEBSP](https://www.pebsp.com/sobre-nos/). O endereço URL é um dado importante para a etapa seguinte: O mapeamento do corpo docente de cada UF e suas respectivas áreas e subáreas de atuação.

Importante porque prevemos realizar esta etapa através de crawlers que irão raspar as informações acerca do corpo docente de cada UF disponíveis em suas páginas na web e organizá-las em formato tabular. Contudo, estamos aguardando a confirmação da possibilidade do uso da base de dados do Lattes que tem o potencial de fornecer todas as informações que precisamos, o que simplificará o processo de obtenção destes dados. É nesta etapa que identificaremos os pesquisadores que irão compor o GUIA NORDESTE DE FONTES JORNALÍSTICAS.

> **Observação**: Os caminhos de carregamento e extração deste notebook possuem uma estrutura de diretórios específica. Ou seja, os códigos não serão executados fora dessa estrutura. Para executar corretamente o código, faça o download do projeto em https://github.com/dvths/guia-ne.

## Coletando os dados de interesse referentes às UFNs

In [2]:
import os
import pandas as pd
from zipfile import ZipFile

In [3]:
pd.set_option("display.max_columns", None)
pd.set_option('display.max_colwidth', None)

In [4]:
ROOT_DIR = os.path.dirname(os.getcwd())
DATA_BASE_DIR = os.path.join(ROOT_DIR, "data")
DATA_RAW_DIR = os.path.join(DATA_BASE_DIR, "raw")
DATA_PROCESSED_DIR = os.path.join(DATA_BASE_DIR, "processed")
ZIP_FILE_PATH = os.listdir(DATA_RAW_DIR)[0]

In [5]:
with ZipFile(os.path.join(DATA_RAW_DIR, ZIP_FILE_PATH), "r") as local_file:
    local_file.extractall(DATA_RAW_DIR)

## Importação dos dados

In [6]:
DATA_PATH = os.path.join(DATA_RAW_DIR, "microdados_educaç╞o_superior_2022/dados/MICRODADOS_ED_SUP_IES_2022.CSV")

In [7]:
df = pd.read_csv(DATA_PATH, sep=";", encoding="latin-1")

In [8]:
df.shape

(2595, 81)

In [9]:
df.columns

Index(['NU_ANO_CENSO', 'NO_REGIAO_IES', 'CO_REGIAO_IES', 'NO_UF_IES',
       'SG_UF_IES', 'CO_UF_IES', 'NO_MUNICIPIO_IES', 'CO_MUNICIPIO_IES',
       'IN_CAPITAL_IES', 'NO_MESORREGIAO_IES', 'CO_MESORREGIAO_IES',
       'NO_MICRORREGIAO_IES', 'CO_MICRORREGIAO_IES',
       'TP_ORGANIZACAO_ACADEMICA', 'TP_CATEGORIA_ADMINISTRATIVA',
       'NO_MANTENEDORA', 'CO_MANTENEDORA', 'CO_IES', 'NO_IES', 'SG_IES',
       'DS_ENDERECO_IES', 'DS_NUMERO_ENDERECO_IES',
       'DS_COMPLEMENTO_ENDERECO_IES', 'NO_BAIRRO_IES', 'NU_CEP_IES',
       'QT_TEC_TOTAL', 'QT_TEC_FUNDAMENTAL_INCOMP_FEM',
       'QT_TEC_FUNDAMENTAL_INCOMP_MASC', 'QT_TEC_FUNDAMENTAL_COMP_FEM',
       'QT_TEC_FUNDAMENTAL_COMP_MASC', 'QT_TEC_MEDIO_FEM', 'QT_TEC_MEDIO_MASC',
       'QT_TEC_SUPERIOR_FEM', 'QT_TEC_SUPERIOR_MASC',
       'QT_TEC_ESPECIALIZACAO_FEM', 'QT_TEC_ESPECIALIZACAO_MASC',
       'QT_TEC_MESTRADO_FEM', 'QT_TEC_MESTRADO_MASC', 'QT_TEC_DOUTORADO_FEM',
       'QT_TEC_DOUTORADO_MASC', 'IN_ACESSO_PORTAL_CAPES',
       'IN_

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2595 entries, 0 to 2594
Data columns (total 81 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   NU_ANO_CENSO                    2595 non-null   int64  
 1   NO_REGIAO_IES                   2595 non-null   object 
 2   CO_REGIAO_IES                   2595 non-null   int64  
 3   NO_UF_IES                       2595 non-null   object 
 4   SG_UF_IES                       2595 non-null   object 
 5   CO_UF_IES                       2595 non-null   int64  
 6   NO_MUNICIPIO_IES                2595 non-null   object 
 7   CO_MUNICIPIO_IES                2595 non-null   int64  
 8   IN_CAPITAL_IES                  2595 non-null   int64  
 9   NO_MESORREGIAO_IES              2595 non-null   object 
 10  CO_MESORREGIAO_IES              2595 non-null   int64  
 11  NO_MICRORREGIAO_IES             2595 non-null   object 
 12  CO_MICRORREGIAO_IES             25

In [11]:
df.head()

Unnamed: 0,NU_ANO_CENSO,NO_REGIAO_IES,CO_REGIAO_IES,NO_UF_IES,SG_UF_IES,CO_UF_IES,NO_MUNICIPIO_IES,CO_MUNICIPIO_IES,IN_CAPITAL_IES,NO_MESORREGIAO_IES,CO_MESORREGIAO_IES,NO_MICRORREGIAO_IES,CO_MICRORREGIAO_IES,TP_ORGANIZACAO_ACADEMICA,TP_CATEGORIA_ADMINISTRATIVA,NO_MANTENEDORA,CO_MANTENEDORA,CO_IES,NO_IES,SG_IES,DS_ENDERECO_IES,DS_NUMERO_ENDERECO_IES,DS_COMPLEMENTO_ENDERECO_IES,NO_BAIRRO_IES,NU_CEP_IES,QT_TEC_TOTAL,QT_TEC_FUNDAMENTAL_INCOMP_FEM,QT_TEC_FUNDAMENTAL_INCOMP_MASC,QT_TEC_FUNDAMENTAL_COMP_FEM,QT_TEC_FUNDAMENTAL_COMP_MASC,QT_TEC_MEDIO_FEM,QT_TEC_MEDIO_MASC,QT_TEC_SUPERIOR_FEM,QT_TEC_SUPERIOR_MASC,QT_TEC_ESPECIALIZACAO_FEM,QT_TEC_ESPECIALIZACAO_MASC,QT_TEC_MESTRADO_FEM,QT_TEC_MESTRADO_MASC,QT_TEC_DOUTORADO_FEM,QT_TEC_DOUTORADO_MASC,IN_ACESSO_PORTAL_CAPES,IN_ACESSO_OUTRAS_BASES,IN_ASSINA_OUTRA_BASE,IN_REPOSITORIO_INSTITUCIONAL,IN_BUSCA_INTEGRADA,IN_SERVICO_INTERNET,IN_PARTICIPA_REDE_SOCIAL,IN_CATALOGO_ONLINE,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_DOC_TOTAL,QT_DOC_EXE,QT_DOC_EX_FEMI,QT_DOC_EX_MASC,QT_DOC_EX_SEM_GRAD,QT_DOC_EX_GRAD,QT_DOC_EX_ESP,QT_DOC_EX_MEST,QT_DOC_EX_DOUT,QT_DOC_EX_INT,QT_DOC_EX_INT_DE,QT_DOC_EX_INT_SEM_DE,QT_DOC_EX_PARC,QT_DOC_EX_HOR,QT_DOC_EX_0_29,QT_DOC_EX_30_34,QT_DOC_EX_35_39,QT_DOC_EX_40_44,QT_DOC_EX_45_49,QT_DOC_EX_50_54,QT_DOC_EX_55_59,QT_DOC_EX_60_MAIS,QT_DOC_EX_BRANCA,QT_DOC_EX_PRETA,QT_DOC_EX_PARDA,QT_DOC_EX_AMARELA,QT_DOC_EX_INDIGENA,QT_DOC_EX_COR_ND,QT_DOC_EX_BRA,QT_DOC_EX_EST,QT_DOC_EX_COM_DEFICIENCIA
0,2022,Centro-Oeste,5,Mato Grosso,MT,51,Cuiabá,5103403,1,Centro-Sul Mato-grossense,4,Cuiabá,17,1,1,FUNDACAO UNIVERSIDADE FEDERAL DE MATO GROSSO,1,1,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,Avenida Fernando Correa da Costa,2367,Cidade Universitária,Boa Esperança,78060900.0,1379,2,19,2,14,32,67,123,141,313,316,170,105,45,30,1,0,1,1,1,1,1,1,0,46094,1738,1637,819,818,0,62,68,205,1302,1585,1313,272,52,0,49,170,313,350,247,182,143,183,1023,85,431,43,8,47,1609,28,6
1,2022,Centro-Oeste,5,Distrito Federal,DF,53,Brasília,5300108,1,Distrito Federal,1,Brasília,1,1,1,FUNDACAO UNIVERSIDADE DE BRASILIA,2,2,UNIVERSIDADE DE BRASÍLIA,UNB,Campus Universitário Darcy Ribeiro,s/n,-,Asa Norte,70910900.0,3081,0,0,6,30,64,132,349,263,785,702,263,349,81,57,1,0,1,1,0,1,1,1,12438,493150,2977,2886,1340,1546,0,18,25,235,2608,2728,2435,293,158,0,40,170,325,554,505,374,412,506,1848,94,474,59,9,402,2731,155,17
2,2022,Nordeste,2,Sergipe,SE,28,São Cristóvão,2806701,0,Leste Sergipano,3,Aracaju,11,1,1,FUNDACAO UNIVERSIDADE FEDERAL DE SERGIPE,3,3,UNIVERSIDADE FEDERAL DE SERGIPE,UFS,Avenida Marechal Rondon,s/n,-,Jardim Rosa Elze,49100000.0,1699,0,0,17,47,315,275,149,60,249,165,204,130,56,32,1,0,1,1,1,1,1,1,40534,316939,1793,1749,834,915,0,81,0,227,1441,1622,1441,181,127,0,32,132,283,346,318,248,194,196,206,31,266,13,2,1231,1719,30,1
3,2022,Norte,1,Amazonas,AM,13,Manaus,1302603,1,Centro Amazonense,3,Manaus,7,1,1,FUNDACAO UNIVERSIDADE DO AMAZONAS,4,4,UNIVERSIDADE FEDERAL DO AMAZONAS,UFAM,Av. Rodrigo Otávio,6200,Campus Universitário,Coroado II,69077000.0,2418,6,5,3,11,137,200,455,432,444,308,150,191,40,36,1,0,1,1,0,1,1,1,39299,3959,2169,1718,758,960,0,79,125,401,1113,1609,1355,254,109,0,77,160,272,308,242,231,228,200,110,12,141,6,2,1447,1718,0,1
4,2022,Nordeste,2,Piauí,PI,22,Teresina,2211001,1,Centro-Norte Piauiense,2,Teresina,3,1,1,FUNDACAO UNIVERSIDADE FEDERAL DO PIAUI,14054,5,UNIVERSIDADE FEDERAL DO PIAUÍ,UFPI,Campus Universitário Ministro Petrônio Portela,s/n,SG - 07,Ininga,64049550.0,1095,3,19,1,15,27,68,105,113,244,213,126,94,36,31,1,0,1,0,1,1,1,1,0,0,1695,1482,716,766,0,0,77,275,1130,1384,1195,189,98,0,26,131,269,308,202,156,151,239,133,44,232,1,2,1070,1482,0,0


In [12]:
df["CO_IES"].unique()

array([    1,     2,     3, ..., 25624, 25788, 27103])

In [13]:
df["CO_IES"].value_counts()

CO_IES
1        1
14097    1
13783    1
13792    1
13796    1
        ..
1838     1
1840     1
1841     1
1842     1
27103    1
Name: count, Length: 2595, dtype: int64

In [14]:
df.sample(5)

Unnamed: 0,NU_ANO_CENSO,NO_REGIAO_IES,CO_REGIAO_IES,NO_UF_IES,SG_UF_IES,CO_UF_IES,NO_MUNICIPIO_IES,CO_MUNICIPIO_IES,IN_CAPITAL_IES,NO_MESORREGIAO_IES,CO_MESORREGIAO_IES,NO_MICRORREGIAO_IES,CO_MICRORREGIAO_IES,TP_ORGANIZACAO_ACADEMICA,TP_CATEGORIA_ADMINISTRATIVA,NO_MANTENEDORA,CO_MANTENEDORA,CO_IES,NO_IES,SG_IES,DS_ENDERECO_IES,DS_NUMERO_ENDERECO_IES,DS_COMPLEMENTO_ENDERECO_IES,NO_BAIRRO_IES,NU_CEP_IES,QT_TEC_TOTAL,QT_TEC_FUNDAMENTAL_INCOMP_FEM,QT_TEC_FUNDAMENTAL_INCOMP_MASC,QT_TEC_FUNDAMENTAL_COMP_FEM,QT_TEC_FUNDAMENTAL_COMP_MASC,QT_TEC_MEDIO_FEM,QT_TEC_MEDIO_MASC,QT_TEC_SUPERIOR_FEM,QT_TEC_SUPERIOR_MASC,QT_TEC_ESPECIALIZACAO_FEM,QT_TEC_ESPECIALIZACAO_MASC,QT_TEC_MESTRADO_FEM,QT_TEC_MESTRADO_MASC,QT_TEC_DOUTORADO_FEM,QT_TEC_DOUTORADO_MASC,IN_ACESSO_PORTAL_CAPES,IN_ACESSO_OUTRAS_BASES,IN_ASSINA_OUTRA_BASE,IN_REPOSITORIO_INSTITUCIONAL,IN_BUSCA_INTEGRADA,IN_SERVICO_INTERNET,IN_PARTICIPA_REDE_SOCIAL,IN_CATALOGO_ONLINE,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_DOC_TOTAL,QT_DOC_EXE,QT_DOC_EX_FEMI,QT_DOC_EX_MASC,QT_DOC_EX_SEM_GRAD,QT_DOC_EX_GRAD,QT_DOC_EX_ESP,QT_DOC_EX_MEST,QT_DOC_EX_DOUT,QT_DOC_EX_INT,QT_DOC_EX_INT_DE,QT_DOC_EX_INT_SEM_DE,QT_DOC_EX_PARC,QT_DOC_EX_HOR,QT_DOC_EX_0_29,QT_DOC_EX_30_34,QT_DOC_EX_35_39,QT_DOC_EX_40_44,QT_DOC_EX_45_49,QT_DOC_EX_50_54,QT_DOC_EX_55_59,QT_DOC_EX_60_MAIS,QT_DOC_EX_BRANCA,QT_DOC_EX_PRETA,QT_DOC_EX_PARDA,QT_DOC_EX_AMARELA,QT_DOC_EX_INDIGENA,QT_DOC_EX_COR_ND,QT_DOC_EX_BRA,QT_DOC_EX_EST,QT_DOC_EX_COM_DEFICIENCIA
1837,2022,Sudeste,3,São Paulo,SP,35,Cruzeiro,3513405,0,Vale do Paraíba Paulista,13,Guaratinguetá,51,3,2,CENTRO ESTADUAL DE EDUCACAO TECNOLOGICA PAULA SOUZA,33,15680,Fatec Cruzeiro - Prof. Waldomiro May,,Rua Doutor Othon Barcelos,s/n,-,Itagaçaba,12730010.0,10,0,0,0,0,0,0,0,3,2,4,0,1,0,0,0,0,0,0,0,1,1,1,0,0,58,58,25,33,0,0,5,35,18,5,0,5,27,26,0,3,7,13,4,16,5,10,51,2,1,1,0,3,58,0,0
1046,2022,Sul,4,Paraná,PR,41,Curitiba,4106902,1,Metropolitana de Curitiba,10,Curitiba,37,3,5,FUNDACAO EDUCACIONAL MENONITA,1498,2301,FACULDADE FIDELIS,FF,Rua Pastor David Koop,189,-,Boqueirão,81670340.0,12,0,0,0,0,4,0,5,1,1,1,0,0,0,0,0,0,1,1,1,1,1,1,1,3700,32,32,16,16,0,0,10,15,7,5,0,5,19,8,1,3,6,3,3,9,4,3,31,0,0,0,0,1,31,1,0
727,2022,Sudeste,3,Minas Gerais,MG,31,Pouso Alegre,3152501,0,Sul/Sudoeste de Minas,10,Pouso Alegre,52,1,5,FUNDACAO DE ENSINO SUPERIOR DO VALE DO SAPUCAI,127,1586,UNIVERSIDADE DO VALE DO SAPUCAÍ,UNIVÁS,Avenida Coronel Alfredo Custódio Paula,320,-,Alfredo Custódio de Paula,37553068.0,128,0,0,0,6,23,20,29,9,29,10,1,1,0,0,1,0,0,1,1,1,1,1,37223,16580,160,159,74,85,0,0,16,92,51,29,0,29,38,92,1,13,31,23,20,27,14,30,148,3,5,2,0,1,159,0,0
1687,2022,Sudeste,3,Minas Gerais,MG,31,Ipatinga,3131307,0,Vale do Rio Doce,8,Ipatinga,39,3,4,CENTRO EDUCACIONAL IBRA LTDA,18439,12899,FACULDADE IBRA DE MINAS GERAIS,FACULDADE FIBMG,AVENIDA GERASA,1447,-,Bethania,35164056.0,60,0,0,0,0,8,22,1,5,11,10,0,0,3,0,1,0,1,1,1,1,1,1,22000,22000,15,12,6,6,0,0,6,5,1,3,1,2,9,0,1,2,1,3,2,2,1,0,6,0,3,0,0,3,12,0,0
1260,2022,Norte,1,Tocantins,TO,17,Guaraí,1709302,0,Ocidental do Tocantins,1,Miracema do Tocantins,3,3,4,INSTITUTO EDUCACIONAL SANTA CATARINA LTDA - EPP,2224,3363,FACULDADE GUARAÍ,FAG,Avenida Jk,2541,-,Setor Universitário,77700000.0,25,0,0,0,0,10,4,4,0,5,2,0,0,0,0,0,0,1,1,1,1,1,1,120,316,77,66,41,25,0,0,34,25,7,8,0,8,44,14,11,22,12,7,11,0,2,1,38,3,24,1,0,0,66,0,2


## Filtrando as Universidades Federais do Nordeste

Filtrar o dataset com as seguintes condições para as variáveis:
- "NO_REGIAO_IES" == "Nordeste"
- "TP_ORGANIZACAO_ACADEMICA" == 1 (Universidade)
- "TP_CATEGORIA_ADMINISTRATIVA == 1 (Pública)

Esse filtro garantirá que teremos apenasas Universidades Federais da região Nordeste.


In [15]:
filtered_data = df[df["NO_REGIAO_IES"].isin(["Nordeste"]) &
                      df["TP_ORGANIZACAO_ACADEMICA"].isin([1]) &
                      df["TP_CATEGORIA_ADMINISTRATIVA"].isin([1])]

In [55]:
filtered_data.shape

(20, 81)

In [56]:
filtered_data["SG_UF_IES"].value_counts()

SG_UF_IES
BA    4
PE    4
CE    3
PI    2
RN    2
PB    2
SE    1
MA    1
AL    1
Name: count, dtype: int64

## Mapeamento dos sites de cada Universidade Federal do Nordeste

- Link com lista dos sites:
  - https://www.pebsp.com/lista-de-universidade-federais-do-brasil-2020/

In [25]:
import requests
from parsel import Selector
from pprint import pprint as pp

In [26]:
response = requests.get("https://www.pebsp.com/lista-de-universidade-federais-do-brasil-2020/")

In [27]:
response

<Response [200]>

In [28]:
content = Selector(text=response.text) 

In [29]:
content

<Selector query=None data='<html lang="pt-BR" class data-skin="l...'>

In [30]:
# Xpath para nome da universidade: //td[contains(text(), 'Nordeste')]/following-sibling::td/following-sibling::td/text()
content.xpath("//td[contains(text(), 'Nordeste')]/following-sibling::td/following-sibling::td/text()").getall()

['Universidade Federal de Alagoas',
 'Universidade Federal da Bahia',
 'Universidade Federal do Sul da Bahia',
 'Universidade Federal do Recôncavo da Bahia',
 'Universidade Federal do Oeste da Bahia',
 'Universidade Federal da Lusofonia Afro-Brasileira',
 'Universidade Federal do Cariri',
 'Universidade Federal do Ceará',
 'Universidade Federal do Maranhão',
 'Universidade Federal da Paraíba',
 'Universidade Federal de Campina Grande',
 'Universidade Federal de Pernambuco',
 'Universidade Federal do Vale do São Francisco',
 'Universidade Federal Rural de Pernambuco',
 'Universidade Federal do Agreste de Pernambuco',
 'Universidade Federal do Delta do Parnaíba',
 'Universidade Federal do Piauí',
 'Universidade Federal do Rio Grande do Norte',
 'Universidade Federal Rural do Semi-Árido',
 'Universidade Federal de Sergipe']

In [31]:
# Xpath para sigla : //td[contains(text(), 'Nordeste')]/following-sibling::td/following-sibling::td/following-sibling::td/a/text()
content.xpath("//td[contains(text(), 'Nordeste')]/following-sibling::td/following-sibling::td/following-sibling::td/a/text()").getall()

['UFAL',
 'UFBA',
 'UFSB',
 'UFRB',
 'UFOB',
 'UNILAB',
 'UFCA',
 'UFC',
 'UFMA',
 'UFPB',
 'UFCG',
 'UFPE',
 'UNIVASF',
 'UFRPE',
 'UFAPE',
 'UFDPar',
 'UFPI',
 'UFRN',
 'UFERSA',
 'UFS']

In [32]:
# Xpath par url: //td[contains(text(), 'Nordeste')]/following-sibling::td/following-sibling::td/following-sibling::td/a/@href
content.xpath("//td[contains(text(), 'Nordeste')]/following-sibling::td/following-sibling::td/following-sibling::td/a/@href").getall()

['https://ufal.br/',
 'https://www.ufba.br/',
 'https://www.ufsb.edu.br/',
 'https://ufrb.edu.br/',
 'https://www.ufob.edu.br/',
 'http://www.unilab.edu.br/',
 'https://www.ufca.edu.br/',
 'http://www.ufc.br/',
 'https://portalpadrao.ufma.br/',
 'https://www.ufpb.br/',
 'https://portal.ufcg.edu.br/',
 'https://www.ufpe.br/',
 'http://portais.univasf.edu.br/',
 'http://www.ufrpe.br/',
 'http://ww3.uag.ufrpe.br/',
 'https://www.ufpi.br/ufdpar',
 'https://www.ufpi.br/',
 'https://ufrn.br/',
 'https://ufersa.edu.br/',
 'http://www.ufs.br/']

- Criar um DataFrame com os dados raspados do site:

In [66]:
data = {
    "NO_IES": content.xpath("//td[contains(text(), 'Nordeste')]/following-sibling::td/following-sibling::td/text()").getall(),
    "SG_IES": content.xpath("//td[contains(text(), 'Nordeste')]/following-sibling::td/following-sibling::td/following-sibling::td/a/text()").getall(),
    "URL_IES": content.xpath("//td[contains(text(), 'Nordeste')]/following-sibling::td/following-sibling::td/following-sibling::td/a/@href").getall()
}

In [67]:
df_with_url = pd.DataFrame(data)

In [68]:
df_with_url.head()

Unnamed: 0,NO_IES,SG_IES,URL_IES
0,Universidade Federal de Alagoas,UFAL,https://ufal.br/
1,Universidade Federal da Bahia,UFBA,https://www.ufba.br/
2,Universidade Federal do Sul da Bahia,UFSB,https://www.ufsb.edu.br/
3,Universidade Federal do Recôncavo da Bahia,UFRB,https://ufrb.edu.br/
4,Universidade Federal do Oeste da Bahia,UFOB,https://www.ufob.edu.br/


In [69]:
df_with_url[["NO_IES", "SG_IES"]] = df_with_url[["NO_IES", "SG_IES"]].apply(lambda x: x.str.upper())

In [70]:
df_with_url.head()

Unnamed: 0,NO_IES,SG_IES,URL_IES
0,UNIVERSIDADE FEDERAL DE ALAGOAS,UFAL,https://ufal.br/
1,UNIVERSIDADE FEDERAL DA BAHIA,UFBA,https://www.ufba.br/
2,UNIVERSIDADE FEDERAL DO SUL DA BAHIA,UFSB,https://www.ufsb.edu.br/
3,UNIVERSIDADE FEDERAL DO RECÔNCAVO DA BAHIA,UFRB,https://ufrb.edu.br/
4,UNIVERSIDADE FEDERAL DO OESTE DA BAHIA,UFOB,https://www.ufob.edu.br/


- Fazer uma junção com a tabela do Censo da Educação Superior filtrada, criando uma nova coluna para o URL de cada  Universidade Federal.

In [75]:
df_new = filtered_data.merge(df_with_url, how="left", on = ["NO_IES","SG_IES"])

In [76]:
df_new.head(20)

Unnamed: 0,NU_ANO_CENSO,NO_REGIAO_IES,CO_REGIAO_IES,NO_UF_IES,SG_UF_IES,CO_UF_IES,NO_MUNICIPIO_IES,CO_MUNICIPIO_IES,IN_CAPITAL_IES,NO_MESORREGIAO_IES,CO_MESORREGIAO_IES,NO_MICRORREGIAO_IES,CO_MICRORREGIAO_IES,TP_ORGANIZACAO_ACADEMICA,TP_CATEGORIA_ADMINISTRATIVA,NO_MANTENEDORA,CO_MANTENEDORA,CO_IES,NO_IES,SG_IES,DS_ENDERECO_IES,DS_NUMERO_ENDERECO_IES,DS_COMPLEMENTO_ENDERECO_IES,NO_BAIRRO_IES,NU_CEP_IES,QT_TEC_TOTAL,QT_TEC_FUNDAMENTAL_INCOMP_FEM,QT_TEC_FUNDAMENTAL_INCOMP_MASC,QT_TEC_FUNDAMENTAL_COMP_FEM,QT_TEC_FUNDAMENTAL_COMP_MASC,QT_TEC_MEDIO_FEM,QT_TEC_MEDIO_MASC,QT_TEC_SUPERIOR_FEM,QT_TEC_SUPERIOR_MASC,QT_TEC_ESPECIALIZACAO_FEM,QT_TEC_ESPECIALIZACAO_MASC,QT_TEC_MESTRADO_FEM,QT_TEC_MESTRADO_MASC,QT_TEC_DOUTORADO_FEM,QT_TEC_DOUTORADO_MASC,IN_ACESSO_PORTAL_CAPES,IN_ACESSO_OUTRAS_BASES,IN_ASSINA_OUTRA_BASE,IN_REPOSITORIO_INSTITUCIONAL,IN_BUSCA_INTEGRADA,IN_SERVICO_INTERNET,IN_PARTICIPA_REDE_SOCIAL,IN_CATALOGO_ONLINE,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_DOC_TOTAL,QT_DOC_EXE,QT_DOC_EX_FEMI,QT_DOC_EX_MASC,QT_DOC_EX_SEM_GRAD,QT_DOC_EX_GRAD,QT_DOC_EX_ESP,QT_DOC_EX_MEST,QT_DOC_EX_DOUT,QT_DOC_EX_INT,QT_DOC_EX_INT_DE,QT_DOC_EX_INT_SEM_DE,QT_DOC_EX_PARC,QT_DOC_EX_HOR,QT_DOC_EX_0_29,QT_DOC_EX_30_34,QT_DOC_EX_35_39,QT_DOC_EX_40_44,QT_DOC_EX_45_49,QT_DOC_EX_50_54,QT_DOC_EX_55_59,QT_DOC_EX_60_MAIS,QT_DOC_EX_BRANCA,QT_DOC_EX_PRETA,QT_DOC_EX_PARDA,QT_DOC_EX_AMARELA,QT_DOC_EX_INDIGENA,QT_DOC_EX_COR_ND,QT_DOC_EX_BRA,QT_DOC_EX_EST,QT_DOC_EX_COM_DEFICIENCIA,URL_IES
0,2022,Nordeste,2,Sergipe,SE,28,São Cristóvão,2806701,0,Leste Sergipano,3,Aracaju,11,1,1,FUNDACAO UNIVERSIDADE FEDERAL DE SERGIPE,3,3,UNIVERSIDADE FEDERAL DE SERGIPE,UFS,Avenida Marechal Rondon,s/n,-,Jardim Rosa Elze,49100000.0,1699,0,0,17,47,315,275,149,60,249,165,204,130,56,32,1,0,1,1,1,1,1,1,40534,316939,1793,1749,834,915,0,81,0,227,1441,1622,1441,181,127,0,32,132,283,346,318,248,194,196,206,31,266,13,2,1231,1719,30,1,http://www.ufs.br/
1,2022,Nordeste,2,Piauí,PI,22,Teresina,2211001,1,Centro-Norte Piauiense,2,Teresina,3,1,1,FUNDACAO UNIVERSIDADE FEDERAL DO PIAUI,14054,5,UNIVERSIDADE FEDERAL DO PIAUÍ,UFPI,Campus Universitário Ministro Petrônio Portela,s/n,SG - 07,Ininga,64049550.0,1095,3,19,1,15,27,68,105,113,244,213,126,94,36,31,1,0,1,0,1,1,1,1,0,0,1695,1482,716,766,0,0,77,275,1130,1384,1195,189,98,0,26,131,269,308,202,156,151,239,133,44,232,1,2,1070,1482,0,0,https://www.ufpi.br/
2,2022,Nordeste,2,Maranhão,MA,21,São Luís,2111300,1,Norte Maranhense,1,Aglomeração Urbana de São Luís,2,1,1,FUNDACAO UNIVERSIDADE FEDERAL DO MARANHAO,2497,548,UNIVERSIDADE FEDERAL DO MARANHÃO,UFMA,Avenida dos Portugueses,1966,-,Vila Bacanga,65080805.0,1864,1,3,1,3,84,130,197,203,472,345,243,120,35,27,1,0,1,1,1,1,1,1,30,7932,1930,1822,883,939,0,8,105,344,1365,1740,1345,395,82,0,23,164,314,315,265,227,219,295,631,123,518,29,4,517,1794,28,11,https://portalpadrao.ufma.br/
3,2022,Nordeste,2,Rio Grande do Norte,RN,24,Natal,2408102,1,Leste Potiguar,4,Natal,18,1,1,UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE,13401,570,UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE,UFRN,Avenida Senador Salgado Filho,3000,Campus Universitário,Lagoa Nova,59078970.0,2631,4,41,9,31,39,175,203,355,443,405,408,353,99,66,1,0,1,1,1,1,1,1,52,4994,2592,2365,1059,1306,0,107,0,330,1928,2054,1805,249,311,0,81,239,348,433,382,265,270,347,150,8,65,2,1,2139,2286,79,12,https://ufrn.br/
4,2022,Nordeste,2,Alagoas,AL,27,Maceió,2704302,1,Leste Alagoano,3,Maceió,11,1,1,UNIVERSIDADE FEDERAL DE ALAGOAS,15601,577,UNIVERSIDADE FEDERAL DE ALAGOAS,UFAL,Av. Lourival de Melo Mota,s/n,CAMPUS A. C. SIMÕES,TABULEIRO DO MARTINS,57072970.0,1691,3,24,3,6,97,79,284,222,359,190,190,151,42,41,1,0,1,1,0,1,1,1,0,8745,1775,1725,803,922,0,3,77,327,1318,1591,1367,224,134,0,20,155,298,359,280,176,156,281,1047,86,562,26,4,0,1699,26,5,https://ufal.br/
5,2022,Nordeste,2,Bahia,BA,29,Salvador,2927408,1,Metropolitana de Salvador,5,Salvador,21,1,1,UNIVERSIDADE FEDERAL DA BAHIA,15594,578,UNIVERSIDADE FEDERAL DA BAHIA,UFBA,RUA AUGUSTO VIANA,S/N,CAMPUS UNIVERSITARIO CANELA,CANELA,40110060.0,2222,2,36,3,24,65,171,211,232,557,425,245,150,61,40,1,0,1,1,0,1,1,1,67,4838,3178,2805,1406,1399,0,103,75,324,2303,2377,1990,387,333,95,27,187,372,484,439,382,336,578,1308,91,763,38,14,591,2718,87,3,https://www.ufba.br/
6,2022,Nordeste,2,Paraíba,PB,25,João Pessoa,2507507,1,Mata Paraibana,4,João Pessoa,22,1,1,UNIVERSIDADE FEDERAL DA PARAIBA,15590,579,UNIVERSIDADE FEDERAL DA PARAÍBA,UFPB,Cidade Universitária,s/n,Campus I,Castelo Branco,58051900.0,3130,13,79,2,19,261,272,400,407,367,398,388,330,107,87,1,0,1,1,1,1,1,1,59,300000,2732,2655,1318,1337,0,38,39,318,2260,2468,2296,172,187,0,24,133,375,529,493,349,327,425,706,54,444,22,3,1426,2615,40,9,https://www.ufpb.br/
7,2022,Nordeste,2,Pernambuco,PE,26,Recife,2611606,1,Metropolitana de Recife,5,Recife,17,1,1,UNIVERSIDADE FEDERAL DE PERNAMBUCO,15538,580,UNIVERSIDADE FEDERAL DE PERNAMBUCO,UFPE,Av. Prof. Moraes Rego,1.235,-,Cidade Universitária,50670901.0,3719,0,2,14,35,170,271,1398,1155,0,0,335,209,77,53,1,0,0,1,1,1,1,0,4017,7331,3055,2985,1467,1518,0,22,79,464,2420,2657,2214,443,328,0,88,247,392,489,477,378,322,592,954,87,418,17,7,1502,2959,26,31,https://www.ufpe.br/
8,2022,Nordeste,2,Ceará,CE,23,Fortaleza,2304400,1,Metropolitana de Fortaleza,3,Fortaleza,16,1,1,UNIVERSIDADE FEDERAL DO CEARA,15439,583,UNIVERSIDADE FEDERAL DO CEARÁ,UFC,"Av. da Universidade, 2853, Benfica.",2853,-,Benfica,60020181.0,3269,1,16,20,49,200,227,435,410,617,396,438,253,104,103,1,0,1,1,0,1,1,1,0,26072,2359,2282,928,1354,0,72,32,269,1909,2108,1892,216,151,23,37,144,333,425,362,299,285,397,1183,57,810,46,12,174,2230,52,15,http://www.ufc.br/
9,2022,Nordeste,2,Pernambuco,PE,26,Recife,2611606,1,Metropolitana de Recife,5,Recife,17,1,1,UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO,15599,587,UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO,UFRPE,Rua Dom Manoel de Medeiros,s/n,-,Dois Irmãos,52071030.0,1618,2,14,12,88,230,409,66,98,183,193,143,107,41,32,1,0,1,1,0,1,1,1,13,242193,1110,1080,492,588,0,4,6,87,983,1069,1048,21,11,0,1,97,183,231,154,143,110,161,614,63,367,14,1,21,1074,6,7,http://www.ufrpe.br/


> Note `URL_IES`, a variável que adicionamos ao fim da tabela, contém três valores `NaN` isso indica que a junção não foi bem sucedida. A causa pode ser uma incosistência nas variáveis `NO_IES` ou `SG_IES`, que usamos para junção. Vamos investigar estes valores em ambas as tabelas:

In [77]:
# Seleciona apenas os valores `NaN` na variável "URL_IES" da nova tabela
nan_values = df_new[df_new["URL_IES"].isna()]
nan_values

Unnamed: 0,NU_ANO_CENSO,NO_REGIAO_IES,CO_REGIAO_IES,NO_UF_IES,SG_UF_IES,CO_UF_IES,NO_MUNICIPIO_IES,CO_MUNICIPIO_IES,IN_CAPITAL_IES,NO_MESORREGIAO_IES,CO_MESORREGIAO_IES,NO_MICRORREGIAO_IES,CO_MICRORREGIAO_IES,TP_ORGANIZACAO_ACADEMICA,TP_CATEGORIA_ADMINISTRATIVA,NO_MANTENEDORA,CO_MANTENEDORA,CO_IES,NO_IES,SG_IES,DS_ENDERECO_IES,DS_NUMERO_ENDERECO_IES,DS_COMPLEMENTO_ENDERECO_IES,NO_BAIRRO_IES,NU_CEP_IES,QT_TEC_TOTAL,QT_TEC_FUNDAMENTAL_INCOMP_FEM,QT_TEC_FUNDAMENTAL_INCOMP_MASC,QT_TEC_FUNDAMENTAL_COMP_FEM,QT_TEC_FUNDAMENTAL_COMP_MASC,QT_TEC_MEDIO_FEM,QT_TEC_MEDIO_MASC,QT_TEC_SUPERIOR_FEM,QT_TEC_SUPERIOR_MASC,QT_TEC_ESPECIALIZACAO_FEM,QT_TEC_ESPECIALIZACAO_MASC,QT_TEC_MESTRADO_FEM,QT_TEC_MESTRADO_MASC,QT_TEC_DOUTORADO_FEM,QT_TEC_DOUTORADO_MASC,IN_ACESSO_PORTAL_CAPES,IN_ACESSO_OUTRAS_BASES,IN_ASSINA_OUTRA_BASE,IN_REPOSITORIO_INSTITUCIONAL,IN_BUSCA_INTEGRADA,IN_SERVICO_INTERNET,IN_PARTICIPA_REDE_SOCIAL,IN_CATALOGO_ONLINE,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_DOC_TOTAL,QT_DOC_EXE,QT_DOC_EX_FEMI,QT_DOC_EX_MASC,QT_DOC_EX_SEM_GRAD,QT_DOC_EX_GRAD,QT_DOC_EX_ESP,QT_DOC_EX_MEST,QT_DOC_EX_DOUT,QT_DOC_EX_INT,QT_DOC_EX_INT_DE,QT_DOC_EX_INT_SEM_DE,QT_DOC_EX_PARC,QT_DOC_EX_HOR,QT_DOC_EX_0_29,QT_DOC_EX_30_34,QT_DOC_EX_35_39,QT_DOC_EX_40_44,QT_DOC_EX_45_49,QT_DOC_EX_50_54,QT_DOC_EX_55_59,QT_DOC_EX_60_MAIS,QT_DOC_EX_BRANCA,QT_DOC_EX_PRETA,QT_DOC_EX_PARDA,QT_DOC_EX_AMARELA,QT_DOC_EX_INDIGENA,QT_DOC_EX_COR_ND,QT_DOC_EX_BRA,QT_DOC_EX_EST,QT_DOC_EX_COM_DEFICIENCIA,URL_IES
12,2022,Nordeste,2,Pernambuco,PE,26,Petrolina,2611101,0,São Francisco Pernambucano,2,Petrolina,5,1,1,FUNDACAO UNIVERSIDADE FEDERAL DO VALE DO SAO FRANCISCO,14107,3984,FUNDAÇÃO UNIVERSIDADE FEDERAL DO VALE DO SÃO FRANCISCO,UNIVASF,Avenida José de Sá Maniçoba,s/n,Campus Universitário,Centro,56304917.0,397,0,0,0,0,4,11,29,27,89,81,76,62,10,8,1,0,0,0,1,1,1,1,6,58,579,573,230,343,0,2,32,111,428,488,466,22,85,0,4,45,122,158,109,68,43,24,251,29,152,13,2,126,564,9,4,
14,2022,Nordeste,2,Ceará,CE,23,Redenção,2311603,0,Norte Cearense,2,Baturité,13,1,1,UNIVERSIDADE DA INTEGRACAO INTERNACIONAL DA LUSOFONIA AFRO-BRASILEIRA,16658,15497,UNIVERSIDADE DA INTEGRAÇÃO INTERNACIONAL DA LUSOFONIA AFRO-BRASILEIRA,UNILAB,Av. da Abolição,03,-,Centro,62790000.0,440,0,0,0,0,34,38,53,43,97,89,32,32,7,15,1,0,0,1,0,1,1,1,0,0,385,359,197,162,0,0,1,12,346,359,347,12,0,0,3,21,90,97,77,38,16,17,146,69,115,2,2,25,328,31,0,
19,2022,Nordeste,2,Piauí,PI,22,Parnaíba,2207702,0,Norte Piauiense,1,Litoral Piauiense,2,1,1,UNIVERSIDADE FEDERAL DO DELTA DO PARNAIBA - UFDPAR,17818,25277,UNIVERSIDADE FEDERAL DO DELTA DO PARNAIBA,UFDPAR,Avenida São Sebastião,2.819,- até 2819 - lado ímpar,Nossa Senhora de Fátima,64202020.0,103,0,3,0,0,5,6,17,17,17,12,11,6,6,3,1,0,1,1,1,1,1,1,4000,10000,274,255,128,127,0,1,20,64,170,242,183,59,13,0,11,36,56,59,45,16,22,10,30,7,38,1,1,178,255,0,0,


In [79]:
nan_values["NO_IES"]

12                   FUNDAÇÃO UNIVERSIDADE FEDERAL DO VALE DO SÃO FRANCISCO
14    UNIVERSIDADE DA INTEGRAÇÃO INTERNACIONAL DA LUSOFONIA AFRO-BRASILEIRA
19                                UNIVERSIDADE FEDERAL DO DELTA DO PARNAIBA
Name: NO_IES, dtype: object

In [80]:
# Exibe os valores da variável "NO_IES" da tabela filtrada para observarmos possivel incosistência
filtered_data["NO_IES"]

2                                             UNIVERSIDADE FEDERAL DE SERGIPE
4                                               UNIVERSIDADE FEDERAL DO PIAUÍ
257                                          UNIVERSIDADE FEDERAL DO MARANHÃO
264                               UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
271                                           UNIVERSIDADE FEDERAL DE ALAGOAS
272                                             UNIVERSIDADE FEDERAL DA BAHIA
273                                           UNIVERSIDADE FEDERAL DA PARAÍBA
274                                        UNIVERSIDADE FEDERAL DE PERNAMBUCO
277                                             UNIVERSIDADE FEDERAL DO CEARÁ
281                                  UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO
283                                  UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO
1112                                   UNIVERSIDADE FEDERAL DE CAMPINA GRANDE
1396                   FUNDAÇÃO UNIVERSIDADE FEDERAL DO VALE DO 

Podemos notar que há direrenças nos valores:
- Na tabela `filtered_data` temos "UNIVERSIDADE DA INTEGRAÇÃO INTERNACIONAL DA LUSOFONIA AFRO-BRASILEIRA", enquanto na tabela `df_with_url` esta informação aparece escrita "UNIVERSIDADE FEDERAL DA LUSOFONIA AFRO-BRASILEIRA"

O mesmo acontece com "FUNDAÇÃO UNIVERSIDADE FEDERAL DO VALE DO SÃO FRANCISCO", que, na tabela `df_with_url` consta como "UNIVERSIDADE FEDERAL DO VALE DO SÃO FRANCISCO" e "UNIVERSIDADE FEDERAL DO DELTA DO PARNAIBA", que em `df_with_url` consta como "UNIVERSIDADE FEDERAL DO DELTA DO PARNAÍBA" (note a diferença no acento agudo).

Como são apenas três ocorrências, podemo corrigir os valores manualmente:

In [84]:
df_with_url["NO_IES"] = df_with_url["NO_IES"].replace(
    "UNIVERSIDADE FEDERAL DA LUSOFONIA AFRO-BRASILEIRA",
    "UNIVERSIDADE DA INTEGRAÇÃO INTERNACIONAL DA LUSOFONIA AFRO-BRASILEIRA")

In [85]:
df_with_url["NO_IES"] = df_with_url["NO_IES"].replace(
    "UNIVERSIDADE FEDERAL DO VALE DO SÃO FRANCISCO",
    "FUNDAÇÃO UNIVERSIDADE FEDERAL DO VALE DO SÃO FRANCISCO")

In [86]:
df_with_url["NO_IES"] = df_with_url["NO_IES"].replace(
    "UNIVERSIDADE FEDERAL DO DELTA DO PARNAÍBA",
    "UNIVERSIDADE FEDERAL DO DELTA DO PARNAIBA")

Agora podemos sobreescrever `df_new` com a mesma junção e os valores devem corresponder-se adequadamente:

In [88]:
df_new = filtered_data.merge(df_with_url, how="left", on = ["NO_IES","SG_IES"])

In [91]:
# Checa se ainda há valores nulos
nan_values = df_new[df_new["URL_IES"].isna()]
nan_values

Unnamed: 0,NU_ANO_CENSO,NO_REGIAO_IES,CO_REGIAO_IES,NO_UF_IES,SG_UF_IES,CO_UF_IES,NO_MUNICIPIO_IES,CO_MUNICIPIO_IES,IN_CAPITAL_IES,NO_MESORREGIAO_IES,CO_MESORREGIAO_IES,NO_MICRORREGIAO_IES,CO_MICRORREGIAO_IES,TP_ORGANIZACAO_ACADEMICA,TP_CATEGORIA_ADMINISTRATIVA,NO_MANTENEDORA,CO_MANTENEDORA,CO_IES,NO_IES,SG_IES,DS_ENDERECO_IES,DS_NUMERO_ENDERECO_IES,DS_COMPLEMENTO_ENDERECO_IES,NO_BAIRRO_IES,NU_CEP_IES,QT_TEC_TOTAL,QT_TEC_FUNDAMENTAL_INCOMP_FEM,QT_TEC_FUNDAMENTAL_INCOMP_MASC,QT_TEC_FUNDAMENTAL_COMP_FEM,QT_TEC_FUNDAMENTAL_COMP_MASC,QT_TEC_MEDIO_FEM,QT_TEC_MEDIO_MASC,QT_TEC_SUPERIOR_FEM,QT_TEC_SUPERIOR_MASC,QT_TEC_ESPECIALIZACAO_FEM,QT_TEC_ESPECIALIZACAO_MASC,QT_TEC_MESTRADO_FEM,QT_TEC_MESTRADO_MASC,QT_TEC_DOUTORADO_FEM,QT_TEC_DOUTORADO_MASC,IN_ACESSO_PORTAL_CAPES,IN_ACESSO_OUTRAS_BASES,IN_ASSINA_OUTRA_BASE,IN_REPOSITORIO_INSTITUCIONAL,IN_BUSCA_INTEGRADA,IN_SERVICO_INTERNET,IN_PARTICIPA_REDE_SOCIAL,IN_CATALOGO_ONLINE,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_DOC_TOTAL,QT_DOC_EXE,QT_DOC_EX_FEMI,QT_DOC_EX_MASC,QT_DOC_EX_SEM_GRAD,QT_DOC_EX_GRAD,QT_DOC_EX_ESP,QT_DOC_EX_MEST,QT_DOC_EX_DOUT,QT_DOC_EX_INT,QT_DOC_EX_INT_DE,QT_DOC_EX_INT_SEM_DE,QT_DOC_EX_PARC,QT_DOC_EX_HOR,QT_DOC_EX_0_29,QT_DOC_EX_30_34,QT_DOC_EX_35_39,QT_DOC_EX_40_44,QT_DOC_EX_45_49,QT_DOC_EX_50_54,QT_DOC_EX_55_59,QT_DOC_EX_60_MAIS,QT_DOC_EX_BRANCA,QT_DOC_EX_PRETA,QT_DOC_EX_PARDA,QT_DOC_EX_AMARELA,QT_DOC_EX_INDIGENA,QT_DOC_EX_COR_ND,QT_DOC_EX_BRA,QT_DOC_EX_EST,QT_DOC_EX_COM_DEFICIENCIA,URL_IES


In [89]:
df_new.head(20)

Unnamed: 0,NU_ANO_CENSO,NO_REGIAO_IES,CO_REGIAO_IES,NO_UF_IES,SG_UF_IES,CO_UF_IES,NO_MUNICIPIO_IES,CO_MUNICIPIO_IES,IN_CAPITAL_IES,NO_MESORREGIAO_IES,CO_MESORREGIAO_IES,NO_MICRORREGIAO_IES,CO_MICRORREGIAO_IES,TP_ORGANIZACAO_ACADEMICA,TP_CATEGORIA_ADMINISTRATIVA,NO_MANTENEDORA,CO_MANTENEDORA,CO_IES,NO_IES,SG_IES,DS_ENDERECO_IES,DS_NUMERO_ENDERECO_IES,DS_COMPLEMENTO_ENDERECO_IES,NO_BAIRRO_IES,NU_CEP_IES,QT_TEC_TOTAL,QT_TEC_FUNDAMENTAL_INCOMP_FEM,QT_TEC_FUNDAMENTAL_INCOMP_MASC,QT_TEC_FUNDAMENTAL_COMP_FEM,QT_TEC_FUNDAMENTAL_COMP_MASC,QT_TEC_MEDIO_FEM,QT_TEC_MEDIO_MASC,QT_TEC_SUPERIOR_FEM,QT_TEC_SUPERIOR_MASC,QT_TEC_ESPECIALIZACAO_FEM,QT_TEC_ESPECIALIZACAO_MASC,QT_TEC_MESTRADO_FEM,QT_TEC_MESTRADO_MASC,QT_TEC_DOUTORADO_FEM,QT_TEC_DOUTORADO_MASC,IN_ACESSO_PORTAL_CAPES,IN_ACESSO_OUTRAS_BASES,IN_ASSINA_OUTRA_BASE,IN_REPOSITORIO_INSTITUCIONAL,IN_BUSCA_INTEGRADA,IN_SERVICO_INTERNET,IN_PARTICIPA_REDE_SOCIAL,IN_CATALOGO_ONLINE,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_DOC_TOTAL,QT_DOC_EXE,QT_DOC_EX_FEMI,QT_DOC_EX_MASC,QT_DOC_EX_SEM_GRAD,QT_DOC_EX_GRAD,QT_DOC_EX_ESP,QT_DOC_EX_MEST,QT_DOC_EX_DOUT,QT_DOC_EX_INT,QT_DOC_EX_INT_DE,QT_DOC_EX_INT_SEM_DE,QT_DOC_EX_PARC,QT_DOC_EX_HOR,QT_DOC_EX_0_29,QT_DOC_EX_30_34,QT_DOC_EX_35_39,QT_DOC_EX_40_44,QT_DOC_EX_45_49,QT_DOC_EX_50_54,QT_DOC_EX_55_59,QT_DOC_EX_60_MAIS,QT_DOC_EX_BRANCA,QT_DOC_EX_PRETA,QT_DOC_EX_PARDA,QT_DOC_EX_AMARELA,QT_DOC_EX_INDIGENA,QT_DOC_EX_COR_ND,QT_DOC_EX_BRA,QT_DOC_EX_EST,QT_DOC_EX_COM_DEFICIENCIA,URL_IES
0,2022,Nordeste,2,Sergipe,SE,28,São Cristóvão,2806701,0,Leste Sergipano,3,Aracaju,11,1,1,FUNDACAO UNIVERSIDADE FEDERAL DE SERGIPE,3,3,UNIVERSIDADE FEDERAL DE SERGIPE,UFS,Avenida Marechal Rondon,s/n,-,Jardim Rosa Elze,49100000.0,1699,0,0,17,47,315,275,149,60,249,165,204,130,56,32,1,0,1,1,1,1,1,1,40534,316939,1793,1749,834,915,0,81,0,227,1441,1622,1441,181,127,0,32,132,283,346,318,248,194,196,206,31,266,13,2,1231,1719,30,1,http://www.ufs.br/
1,2022,Nordeste,2,Piauí,PI,22,Teresina,2211001,1,Centro-Norte Piauiense,2,Teresina,3,1,1,FUNDACAO UNIVERSIDADE FEDERAL DO PIAUI,14054,5,UNIVERSIDADE FEDERAL DO PIAUÍ,UFPI,Campus Universitário Ministro Petrônio Portela,s/n,SG - 07,Ininga,64049550.0,1095,3,19,1,15,27,68,105,113,244,213,126,94,36,31,1,0,1,0,1,1,1,1,0,0,1695,1482,716,766,0,0,77,275,1130,1384,1195,189,98,0,26,131,269,308,202,156,151,239,133,44,232,1,2,1070,1482,0,0,https://www.ufpi.br/
2,2022,Nordeste,2,Maranhão,MA,21,São Luís,2111300,1,Norte Maranhense,1,Aglomeração Urbana de São Luís,2,1,1,FUNDACAO UNIVERSIDADE FEDERAL DO MARANHAO,2497,548,UNIVERSIDADE FEDERAL DO MARANHÃO,UFMA,Avenida dos Portugueses,1966,-,Vila Bacanga,65080805.0,1864,1,3,1,3,84,130,197,203,472,345,243,120,35,27,1,0,1,1,1,1,1,1,30,7932,1930,1822,883,939,0,8,105,344,1365,1740,1345,395,82,0,23,164,314,315,265,227,219,295,631,123,518,29,4,517,1794,28,11,https://portalpadrao.ufma.br/
3,2022,Nordeste,2,Rio Grande do Norte,RN,24,Natal,2408102,1,Leste Potiguar,4,Natal,18,1,1,UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE,13401,570,UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE,UFRN,Avenida Senador Salgado Filho,3000,Campus Universitário,Lagoa Nova,59078970.0,2631,4,41,9,31,39,175,203,355,443,405,408,353,99,66,1,0,1,1,1,1,1,1,52,4994,2592,2365,1059,1306,0,107,0,330,1928,2054,1805,249,311,0,81,239,348,433,382,265,270,347,150,8,65,2,1,2139,2286,79,12,https://ufrn.br/
4,2022,Nordeste,2,Alagoas,AL,27,Maceió,2704302,1,Leste Alagoano,3,Maceió,11,1,1,UNIVERSIDADE FEDERAL DE ALAGOAS,15601,577,UNIVERSIDADE FEDERAL DE ALAGOAS,UFAL,Av. Lourival de Melo Mota,s/n,CAMPUS A. C. SIMÕES,TABULEIRO DO MARTINS,57072970.0,1691,3,24,3,6,97,79,284,222,359,190,190,151,42,41,1,0,1,1,0,1,1,1,0,8745,1775,1725,803,922,0,3,77,327,1318,1591,1367,224,134,0,20,155,298,359,280,176,156,281,1047,86,562,26,4,0,1699,26,5,https://ufal.br/
5,2022,Nordeste,2,Bahia,BA,29,Salvador,2927408,1,Metropolitana de Salvador,5,Salvador,21,1,1,UNIVERSIDADE FEDERAL DA BAHIA,15594,578,UNIVERSIDADE FEDERAL DA BAHIA,UFBA,RUA AUGUSTO VIANA,S/N,CAMPUS UNIVERSITARIO CANELA,CANELA,40110060.0,2222,2,36,3,24,65,171,211,232,557,425,245,150,61,40,1,0,1,1,0,1,1,1,67,4838,3178,2805,1406,1399,0,103,75,324,2303,2377,1990,387,333,95,27,187,372,484,439,382,336,578,1308,91,763,38,14,591,2718,87,3,https://www.ufba.br/
6,2022,Nordeste,2,Paraíba,PB,25,João Pessoa,2507507,1,Mata Paraibana,4,João Pessoa,22,1,1,UNIVERSIDADE FEDERAL DA PARAIBA,15590,579,UNIVERSIDADE FEDERAL DA PARAÍBA,UFPB,Cidade Universitária,s/n,Campus I,Castelo Branco,58051900.0,3130,13,79,2,19,261,272,400,407,367,398,388,330,107,87,1,0,1,1,1,1,1,1,59,300000,2732,2655,1318,1337,0,38,39,318,2260,2468,2296,172,187,0,24,133,375,529,493,349,327,425,706,54,444,22,3,1426,2615,40,9,https://www.ufpb.br/
7,2022,Nordeste,2,Pernambuco,PE,26,Recife,2611606,1,Metropolitana de Recife,5,Recife,17,1,1,UNIVERSIDADE FEDERAL DE PERNAMBUCO,15538,580,UNIVERSIDADE FEDERAL DE PERNAMBUCO,UFPE,Av. Prof. Moraes Rego,1.235,-,Cidade Universitária,50670901.0,3719,0,2,14,35,170,271,1398,1155,0,0,335,209,77,53,1,0,0,1,1,1,1,0,4017,7331,3055,2985,1467,1518,0,22,79,464,2420,2657,2214,443,328,0,88,247,392,489,477,378,322,592,954,87,418,17,7,1502,2959,26,31,https://www.ufpe.br/
8,2022,Nordeste,2,Ceará,CE,23,Fortaleza,2304400,1,Metropolitana de Fortaleza,3,Fortaleza,16,1,1,UNIVERSIDADE FEDERAL DO CEARA,15439,583,UNIVERSIDADE FEDERAL DO CEARÁ,UFC,"Av. da Universidade, 2853, Benfica.",2853,-,Benfica,60020181.0,3269,1,16,20,49,200,227,435,410,617,396,438,253,104,103,1,0,1,1,0,1,1,1,0,26072,2359,2282,928,1354,0,72,32,269,1909,2108,1892,216,151,23,37,144,333,425,362,299,285,397,1183,57,810,46,12,174,2230,52,15,http://www.ufc.br/
9,2022,Nordeste,2,Pernambuco,PE,26,Recife,2611606,1,Metropolitana de Recife,5,Recife,17,1,1,UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO,15599,587,UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO,UFRPE,Rua Dom Manoel de Medeiros,s/n,-,Dois Irmãos,52071030.0,1618,2,14,12,88,230,409,66,98,183,193,143,107,41,32,1,0,1,1,0,1,1,1,13,242193,1110,1080,492,588,0,4,6,87,983,1069,1048,21,11,0,1,97,183,231,154,143,110,161,614,63,367,14,1,21,1074,6,7,http://www.ufrpe.br/


## Extrair dados para CSV

Por fim, salvaremos os dados filtrados por Universidades Federais do Nordeste com seus respectivos endereços URL para um arquivo CSV.

> **Observação**: Os caminhos de carregamento e extração deste notebook possuem uma estrutura de diretórios específica. Ou seja, os códigos não serão executados fora dessa estrutura. Para executar corretamente o código, faça o download do projeto em https://github.com/dvths/guia-ne.

In [90]:
if not os.path.exists(DATA_PROCESSED_DIR):
    os.makedirs(DATA_PROCESSED_DIR)

file_csv_processed = os.path.join(DATA_PROCESSED_DIR, "universidades_federais_ne.csv")

df_new.to_csv(file_csv_processed, sep=";", index=False)