# Classifica√ß√£o das Institui√ß√µes com base na base de dados da ICJ e do Cadastro e-MEC

Este notebook documenta o processo de **classifica√ß√£o das institui√ß√µes participantes da Inicia√ß√£o Cient√≠fica J√∫nior (ICJ)** entre os anos de 2010 a 2023, com base na consolida√ß√£o de dados do CNPq e na estrutura institucional informada pelo **Cadastro Nacional de Institui√ß√µes de Ensino Superior - e-MEC**.

---

## üîç Etapas do Processo

### 1. Carregamento das bases de dados
- `ICJ_Instituicao_Ano_bolsistas_2010_2023.xlsx`: base com registros de bolsas, valores e institui√ß√µes.
- `CATEGORIAS_INSTITUICOES.xlsx`: base com a classifica√ß√£o de cada institui√ß√£o.

### 2. Padroniza√ß√£o dos nomes das institui√ß√µes
```python
import unicodedata

def padronizar_nome(nome):
    if pd.isna(nome):
        return ""
    nome = unicodedata.normalize('NFKD', nome).encode('ASCII', 'ignore').decode('ASCII')
    return nome.strip().upper()

df_icj["Nome_Padronizado"] = df_icj["Institui√ß√£o"].apply(padronizar_nome)
df_categorias["Nome_Padronizado"] = df_categorias["Nome_Padronizado"].apply(padronizar_nome)
```

---

### 3. Jun√ß√£o entre os bancos
Realizamos o `merge` usando a coluna `Nome_Padronizado`.

```python
df_icj_classificado = df_icj.merge(
    df_categorias,
    on="Nome_Padronizado",
    how="left",
    suffixes=("", "_classificado")
)
```

---

### 4. Estrutura da classifica√ß√£o

As colunas adicionadas foram:
- `Classificacao_Instituicao`: descri√ß√£o geral (IES, Escola da Educa√ß√£o B√°sica, ONG, Instituto de Pesquisa, etc.).
- `CATEGORIA`: P√∫blica, Privada ou ONG.
- `CATEGORIA_ADMINISTRATIVA`: ex: P√∫blica Federal, Privada com fins lucrativos.
- `ORGANIZACAO_ACADEMICA`: Universidade, Centro Universit√°rio, Faculdade (quando dispon√≠vel).

---

### 5. Exporta√ß√£o final
```python
df_icj_classificado.to_excel("ICJ_Classificado_Final.xlsx", index=False)
```

---

## ‚úÖ Considera√ß√µes Finais

Este processo permitiu:
- Qualificar analiticamente o tipo de institui√ß√£o que recebeu fomento da ICJ.
- Evitar erros de classifica√ß√£o autom√°tica baseados apenas em palavras-chave.
- Incorporar tipologias importantes para a discuss√£o de pol√≠ticas p√∫blicas no contexto do financiamento da educa√ß√£o b√°sica e superior.

---

**Autor**: Tiago Ribeiro dos Anjos  
**Projeto**: Doutorado em Ci√™ncia, Tecnologia e Sociedade ‚Äî UFSCar  
**Contato**: tiagoribeiroanjos@gmail.com  
