# 7. Análise dos dados - Parte 2

In [2]:
import polars as pl
df = pl.read_csv('base_fapesp_tratada.csv')
df.columns

['N. Processo',
 'Título (Português)',
 'Título (Inglês)',
 'Beneficiário',
 'Instituição',
 'Cidade Instituição',
 'Instituição Parceira',
 'Pesquisador Responsável',
 'Local de Pesquisa',
 'Modalidade de apoio',
 'Grande Área do Conhecimento',
 'Área do Conhecimento',
 'Subárea do Conhecimento',
 'Assuntos',
 'Data de Início',
 'Data de Término',
 'Acordo(s)/Convênio(s) de Cooperação com a FAPESP',
 'Instituições no Exterior',
 'Pais de Origem',
 'Pesquisador responsável no exterior',
 'Resumo (Português)',
 'Resumo (Inglês)',
 'Processos Vinculados']

## Quais são as instituições que mais recebem financiamento?
Para receber isso, vamos trabalhar com a coluna 'Instituição'. Vamos começar contando os valores ali existentes.

In [3]:
df['Instituição'].value_counts(sort=True)

Instituição,count
str,u32
,5680
"""Universidade de São Paulo (USP…",4520
"""Universidade de São Paulo (USP…",3977
"""Universidade de São Paulo (USP…",3908
"""Universidade Federal de São Pa…",3658
…,…
"""Pontifícia Universidade Católi…",1
"""Universidade Estadual de Campi…",1
"""Universidade Municipal de São …",1
"""Faculdade de Engenharia de Sor…",1


Aqui esbarramos em um problema. Não conseguimos ler o conteúdo completo de cada item.

Poderiamos burlar isso acessando itens individuais:

In [4]:
df['Instituição'].value_counts(sort=True)['Instituição'][0]

In [5]:
df['Instituição'].value_counts(sort=True)['Instituição'][1]

'Universidade de São Paulo (USP). Faculdade de Filosofia, Letras e Ciências Humanas (FFLCH)'

In [6]:
df['Instituição'].value_counts(sort=True)['Instituição'][2]

'Universidade de São Paulo (USP). Faculdade de Medicina de Ribeirão Preto (FMRP)'

In [7]:
df['Instituição'].value_counts(sort=True)['Instituição'][3]

'Universidade de São Paulo (USP). Instituto de Ciências Biomédicas (ICB)'

O que estamos ali fazendo é:

`df['Instituição'].value_counts(sort=True)`: calculamos o dataframe que vimos anteriormente.

`['Instituição']`: selecionamos a coluna que nos interessa. Poderia ser também 'count'.

`[<numero da linha>]`: indicamos o número da linha que queremos acessar. Note que o item 0 é nulo e, por isso, nada foi impresso abaixo do código.

Evidentemente, não seria muito prático fazer isso para todos os itens da lista. Para contornar isso, podemos utilizar algumas configurações para nos ajudar.

### Configurando a exibição dos Data Frames

Podemos configurar o tamanho máximo do texto que será exibido, nos permitindo ler tudo:

In [8]:
pl.Config.set_fmt_str_lengths(200)
df['Instituição'].value_counts(sort=True)

Instituição,count
str,u32
,5680
"""Universidade de São Paulo (USP). Faculdade de Filosofia, Letras e Ciências Humanas (FFLCH)""",4520
"""Universidade de São Paulo (USP). Faculdade de Medicina de Ribeirão Preto (FMRP)""",3977
"""Universidade de São Paulo (USP). Instituto de Ciências Biomédicas (ICB)""",3908
"""Universidade Federal de São Paulo (UNIFESP). Campus São Paulo. Escola Paulista de Medicina (EPM)""",3658
…,…
"""Pontifícia Universidade Católica de São Paulo (PUC-SP). Fundação Aniela Tadeusz Ginsberg""",1
"""Universidade Estadual de Campinas (UNICAMP). Faculdade de Engenharia (FE)""",1
"""Universidade Municipal de São Caetano do Sul (USCS). Faculdade de Comunicação e Artes""",1
"""Faculdade de Engenharia de Sorocaba (FACENS)""",1


Bem melhor, né?

Com `pl.Config.set_fmt_str_lengths(<numero_máximo_de_caracteres>)`, podemos definir qual o máximo de caracteres que poderão aparecer.

Se quiseremos resetar essa configuração, basta rodar o seguinte: `pl.Config.restore_defaults()`. Mas vamos deixar assim por enquanto. E lembre-se que essa configuração vale para um notebook só. Se quiser aumentar o tamanho máximo em outro notebook, terá que rodar esse código de novo.

Ainda tá meio chatinho de ver porque não conseguimos ver todas as linhas. Felizmente, existe uma configuração para nos ajudar nisso também:

In [9]:
pl.Config.set_tbl_rows(20)
df['Instituição'].value_counts(sort=True).head(20)

Instituição,count
str,u32
,5680
"""Universidade de São Paulo (USP). Faculdade de Filosofia, Letras e Ciências Humanas (FFLCH)""",4520
"""Universidade de São Paulo (USP). Faculdade de Medicina de Ribeirão Preto (FMRP)""",3977
"""Universidade de São Paulo (USP). Instituto de Ciências Biomédicas (ICB)""",3908
"""Universidade Federal de São Paulo (UNIFESP). Campus São Paulo. Escola Paulista de Medicina (EPM)""",3658
"""Universidade de São Paulo (USP). Escola Superior de Agricultura Luiz de Queiroz (ESALQ)""",3534
"""Universidade de São Paulo (USP). Faculdade de Medicina (FM)""",3507
"""Universidade Estadual Paulista (UNESP). Campus de Jaboticabal. Faculdade de Ciências Agrárias e Veterinárias (FCAV)""",3489
"""Universidade Federal de São Carlos (UFSCAR). Centro de Ciências Exatas e de Tecnologia (CCET)""",3370
"""Universidade Estadual de Campinas (UNICAMP). Instituto de Biologia (IB)""",2873


Com a função `pl.Config.set_tbl_rows(<numero_maximo_de_linhas>)`, podemos definir quantas linhas serão impressas.

Note que, além de aparecerem mais linhas, a coluna em si ficou mais larga. Isso aconteceu porque agora apareceram linhas com mais caracteres e que puderam aproveitar do limite generoso de caracteres que nós definimos antes.

Note que se pedirmos uma linha a mais que o limite já teremos novamente uma coluna com "...":

In [10]:
df['Instituição'].value_counts(sort=True).head(21)

Instituição,count
str,u32
,5680
"""Universidade de São Paulo (USP). Faculdade de Filosofia, Letras e Ciências Humanas (FFLCH)""",4520
"""Universidade de São Paulo (USP). Faculdade de Medicina de Ribeirão Preto (FMRP)""",3977
"""Universidade de São Paulo (USP). Instituto de Ciências Biomédicas (ICB)""",3908
"""Universidade Federal de São Paulo (UNIFESP). Campus São Paulo. Escola Paulista de Medicina (EPM)""",3658
"""Universidade de São Paulo (USP). Escola Superior de Agricultura Luiz de Queiroz (ESALQ)""",3534
"""Universidade de São Paulo (USP). Faculdade de Medicina (FM)""",3507
"""Universidade Estadual Paulista (UNESP). Campus de Jaboticabal. Faculdade de Ciências Agrárias e Veterinárias (FCAV)""",3489
"""Universidade Federal de São Carlos (UFSCAR). Centro de Ciências Exatas e de Tecnologia (CCET)""",3370
"""Universidade Estadual de Campinas (UNICAMP). Instituto de Biologia (IB)""",2873


Teste um pouco diferentes limites de largura e de numero de linhas e estabeleça números que te deixem mais confortáveis em trabalhar com esses dados.

### Voltando à análise

Você deve ter reparado que na coluna "Instituição" consta a indicação não só do nome, mas também da faculdade ou do instituto à que a pessoa beneficiária de uma das bolsas da fapesp era vinculada. Isso quer dizer que não conseguimos saber a partir dessa coluna, por exemplo, quantas bolsas a USP ou a UNICAMP já receberam e não existe nenhuma outra coluna na base de dados que nos permita coletar essa informação.

Mas perceba que essa informação está lá nessa exata coluna, ela só não está estruturada da maneira como gostaríamos. Mas podemos criar uma nova coluna que atenda o que desejamos:

In [11]:
df2 = df.with_columns(
    pl.col("Instituição").str.split(by=".").list.get(0).alias("Universidade")
)
df2['Instituição', 'Universidade']

Instituição,Universidade
str,str
"""Universidade de São Paulo (USP). Escola de Comunicações e Artes (ECA)""","""Universidade de São Paulo (USP)"""
"""Universidade de São Paulo (USP). Faculdade de Filosofia, Letras e Ciências Humanas (FFLCH)""","""Universidade de São Paulo (USP)"""
"""Universidade de São Paulo (USP). Instituto de Física de São Carlos (IFSC)""","""Universidade de São Paulo (USP)"""
"""Universidade Federal do Rio de Janeiro (UFRJ). Instituto de Biofísica Carlos Chagas Filho (IBCCF)""","""Universidade Federal do Rio de Janeiro (UFRJ)"""
"""FIOCRUZ PARANA INSTITUTO CARLOS CHAGAS/FIOCRUZ""","""FIOCRUZ PARANA INSTITUTO CARLOS CHAGAS/FIOCRUZ"""
"""FIOCRUZ PARANA INSTITUTO CARLOS CHAGAS/FIOCRUZ""","""FIOCRUZ PARANA INSTITUTO CARLOS CHAGAS/FIOCRUZ"""
"""Universidade de São Paulo (USP). Faculdade de Medicina de Ribeirão Preto (FMRP)""","""Universidade de São Paulo (USP)"""
"""Universidade Federal de Santa Maria. Centro de Ciências Naturais e Exatas (CCNE)""","""Universidade Federal de Santa Maria"""
"""FAC IDOR CIENCIAS MEDICAS/IDOR""","""FAC IDOR CIENCIAS MEDICAS/IDOR"""
"""Ministério da Ciência, Tecnologia e Inovação (Brasil). Centro Nacional de Pesquisa em Energia e Materiais (CNPEM)""","""Ministério da Ciência, Tecnologia e Inovação (Brasil)"""


Olha como foi relativamente simples. Em uma linha de código conseguimos a informação que queríamos e agora podemos finalmente descobrir que instituições mais recebem financiamento.

In [12]:
df2['Universidade'].value_counts(sort=True).head(20)

Universidade,count
str,u32
"""Universidade de São Paulo (USP)""",61710
"""Universidade Estadual Paulista (UNESP)""",34195
"""Universidade Estadual de Campinas (UNICAMP)""",22228
"""Universidade Federal de São Carlos (UFSCAR)""",7813
"""Universidade Federal de São Paulo (UNIFESP)""",5900
,5680
"""Secretaria da Saúde (São Paulo - Estado)""",3166
"""Secretaria de Agricultura e Abastecimento (São Paulo - Estado)""",1668
"""Secretaria de Desenvolvimento Econômico (São Paulo - Estado)""",1475
"""Ministério da Ciência, Tecnologia e Inovação (Brasil)""",1335


Se quisermos salvar também a informação de faculdade, fazemos o seguinte:

In [45]:
df3 = df.with_columns([
    pl.col("Instituição").str.split(".").list.get(0).alias("Universidade"),
    pl.col("Instituição").str.split(".").list.get(1, null_on_oob=True).str.strip_chars().alias("Faculdade")
])

df3["Universidade", "Faculdade"]

Universidade,Faculdade
str,str
"""Universidade de São Paulo (USP)""","""Escola de Comunicações e Artes (ECA)"""
"""Universidade de São Paulo (USP)""","""Faculdade de Filosofia, Letras e Ciências Humanas (FFLCH)"""
"""Universidade de São Paulo (USP)""","""Instituto de Física de São Carlos (IFSC)"""
"""Universidade Federal do Rio de Janeiro (UFRJ)""","""Instituto de Biofísica Carlos Chagas Filho (IBCCF)"""
"""FIOCRUZ PARANA INSTITUTO CARLOS CHAGAS/FIOCRUZ""",
"""FIOCRUZ PARANA INSTITUTO CARLOS CHAGAS/FIOCRUZ""",
"""Universidade de São Paulo (USP)""","""Faculdade de Medicina de Ribeirão Preto (FMRP)"""
"""Universidade Federal de Santa Maria""","""Centro de Ciências Naturais e Exatas (CCNE)"""
"""FAC IDOR CIENCIAS MEDICAS/IDOR""",
"""Ministério da Ciência, Tecnologia e Inovação (Brasil)""","""Centro Nacional de Pesquisa em Energia e Materiais (CNPEM)"""


A primeira linha permaneceu a mesma, mas acrescentamos uma segunda linha detalhando a extração do restante.

`pl.col("Instituição")`: Indicamos que, para criar a nova coluna, iremos utilizar a coluna "Instituição" como base.

`.str.split(".")`: Separamos o texto contido em cada linha nessa coluna utilizando o ponto como delimitador

`.list.get(1, null_on_oob=True)`: Para a universidade, pegamos o item 0, que é o primeiro da lista. Aqui, pegamos o item 1 e incluimos `null_on_oob=True`para lidar com casos em que não há ponto final - isto é, não há uma "sub-instituição" listada, como uma faculdade. "null_on_oob" verdadeiro quer dizer que, em casos em que não há o elemento desejado (o elemento 1) e, por isso, daria o erro de "out of bounds" (o elemento procurado não existe), em vez de erro, é salvo o valor nulo. Podemos ver isso que aconteceu nas linhas referentes a "FIOCRUZ PARANA INSTITUTO CARLOS CHAGAS/FIOCRUZ", por exemplo.

`.str.strip_chars()`: Logo depois do ponto que é utilizado como delimitador vem um espaço, que seria salvo no inicio do texto desta coluna. Esta função exclui esse espaço.

`.alias("Faculdade")`: Salvamos o resultado da operação definida até aqui em coluna denominada "Faculdade".

Feita a organização dessa coluna, podemos novamente realizar operações que já fizemos antes, como obsevar apenas as linhas relacionadas à USP:

In [49]:
(
    df3
    .filter(
        pl.col('Universidade') == "Universidade de São Paulo (USP)"
    )
    ['Faculdade']
    .value_counts(sort=True)
)

Faculdade,count
str,u32
"""Faculdade de Filosofia, Letras e Ciências Humanas (FFLCH)""",4520
"""Faculdade de Medicina de Ribeirão Preto (FMRP)""",3977
"""Instituto de Ciências Biomédicas (ICB)""",3908
"""Escola Superior de Agricultura Luiz de Queiroz (ESALQ)""",3534
"""Faculdade de Medicina (FM)""",3507
"""Instituto de Biociências (IB)""",2651
"""Escola de Engenharia de São Carlos (EESC)""",2600
"""Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto (FFCLRP)""",2588
"""Instituto de Química (IQ)""",2507
"""Escola Politécnica (EP)""",2426


Podemos ser mais específicos e olhar para as áreas que mais receberam bolsas da FFLCH-USP:

In [53]:
(
    df3
    .filter(
        pl.col('Universidade') == "Universidade de São Paulo (USP)",
        pl.col('Faculdade') == "Faculdade de Filosofia, Letras e Ciências Humanas (FFLCH)"
    )
    ['Área do Conhecimento']
    .value_counts(sort=True)
    .head(10)
)

Área do Conhecimento,count
str,u32
"""História""",1056
"""Letras""",1028
"""Filosofia""",627
"""Antropologia""",437
"""Sociologia""",420
"""Geografia""",272
"""Linguística""",245
"""Ciência Política""",232
"""Geociências""",83
"""Ciência da Informação""",28
