# Introdução {.unnumbered}

Essa é a primeira parte do material didático para o Curso de Ciência de Dados Jurídicos. Nosso foco será primeiro em aprender a usar o Pandas para fazer manipulações e extrair informações de conjuntos de dados. Na parte seguinte do curso iremos focar em fazer uma introdução a parte estatística, como aplicar ferramentas e testes estatísticos em nossos conjuntos de dados. A grande vantagem de utilizar uma linguagem de programação para isso, é que não precisamos nos preocupar em como conduzir os testes, uma vez que já existem funções prontas.

Assim, podemos focar em entender o propósito e quando esses testes devem ser aplicados, e apenas como devemos passar os dados para as funções. Por sorte, boa parte dos pacotes esperam receber um conjunto de dados do formato `DataFrame` do Pandas, de modo tidy. Assim, na maior parte dos casos não precisamos fazer manipulações complexas. Lembrando que a premissa básico de dados tidy é que cada linha representa uma observação da unidade objeto de análise, e cada coluna uma variável diferente dessa observação.

No início dos notebooks serão oferecidas também referências de material de apoio que servem como referência externa para explicação ou aprofundamento dos conceitos e métodos apresentados. Lembrando que mesmo que não indicado, a documentação de cada função é uma fonte valiosa de informação para entender como devemos usar a função, e quais as opções disponíveis para controlar seu comportamento.

# Material de apoio {.unnumbered}



### Referências sobre uso do pandas que podem ser consultadas longo do curso {.unnumbered}


Esse link contém uma tabela que serve de referência para várias das funções do pandas: [https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf). As explicações são dadas de forma um pouco técnica, mas não incompreensível. Ainda, vamos nos familiarizar com parte do vocabulário e as funções ao longo do curso, sendo uma forma simples de lembrar do nome de cada função e o que ela faz.

[Essa série de vídeos contém explicações sobre o funcionamento do pandas: https://www.youtube.com/watch?v=7myBWiNwZBc](https://www.youtube.com/watch?v=7myBWiNwZBc&ab_channel=UniversidadedosDados)
    
#### Query {.unnumbered}

VImos um pouco do query no curso de programação, mas ele será essencial ao longo de todo o trabalho de dados. Assim vamos revisitar e nos aprofundar um pouco mais no assunto. Abaixo trrês referências que podem ser úteis.

**Importante: [esse vídeo explica o funcionamento do método `query`: https://www.youtube.com/watch?v=c1Xz9wXQSGM](https://www.youtube.com/watch?v=c1Xz9wXQSGM)**.

Essea rtigo lista várias formas de usar o `query`, vamos tentar mostrar algumas delas mas não seria possível exaurir o tema aqui: [https://note.nkmk.me/en/python-pandas-query/](https://note.nkmk.me/en/python-pandas-query/)

[O artigo a seguir também contém algumas explicações e dicas de como usar o `query`: <br> https://towardsdatascience.com/10-examples-that-will-make-you-use-pandas-query-function-more-often-a8fb3e9361cb](https://towardsdatascience.com/10-examples-that-will-make-you-use-pandas-query-function-more-often-a8fb3e9361cb)

[Capítulo sobre sumarização e tratamento de dados com o pandas: https://statsthinking21.github.io/statsthinking21-python/02-SummarizingData.html](https://statsthinking21.github.io/statsthinking21-python/02-SummarizingData.html)

# Sobre o Pandas

Para realizar grandes coisas, precisamos subir sobre os ombros de gigantes. A comunidade Python é incrível e já desenvolveu muitas ferramentas que foram disponibilizadas gratuitamente para os usuários da plataforma. Não há necessidade de reinventar a roda.

Uma dessas ferramentas é o pacote `Pandas`, que vamos usar para ler e trabalhar com dados estruturados.

In [None]:
import pandas

Essa linha importa o pacote `Pandas` e todas as funções e métodos que estão contidos nele. Usando a notação acima, toda vez que quisermos usar qualquer função do Pandas, como `read_csv`, precisamos escrever o nome inteiro do pacote, usando `pandas.read_csv`. Por conta da inconveniência da digitação extra, costumamos importar a maior parte dos pacotes usando certas abreviações ou "aliases" com a seguinte notação:

In [None]:
import pandas as pd

No caso do pacote `pandas` a abreviação canônica é `pd`. Assim, sempre utilizaremos essa forma de importar a biblioteca.

Vários outros pacotes possuem abreviações similares. É fácil encontrar na internet exemplos de importação canônica para cada um deles.

# Caso 1

No início de 2021, os dados do [portal de compras do Governo Federal](http://compras.dados.gov.br/docs/home.html) foram destaque por conta do [elevado valor gasto com leite condensado nos anos de 2019 e 2020](https://www1.folha.uol.com.br/colunas/monicabergamo/2021/01/psol-pede-que-pgr-investigue-gasto-federal-de-r-18-bilhao-com-alimentos-e-bebidas.shtml). Outro assunto polêmico de 2020, início da pandemia, envolveu o uso da Cloroquina contra o COVID-19 ([apontado como inefetivo pela comunidade científica](https://noticias.uol.com.br/colunas/jamil-chade/2020/10/16/oms-estudo-global-revela-que-remdesivir-e-cloroquina-nao-funcionam.htm), mas defendido por alguns atores políticos).

Quanto será que o governo federal gastou com Cloroquina ao longo de 2020? Preparei um arquivo CSV com todas as compras sem licitação do Governo Federal em 2020 pra iniciar nossa experimentação com o Pandas.

## Algumas funcionalidades do pandas.

### Lendo arquivos

Já falamos a respeito da função `read_csv`. Ela é responsável por fazer exatamente o que seu nome sugere: ler arquivos ".csv". Mas pra que queremos ler arquivos ".csv"?

O `pandas` é uma biblioteca que introduz no Python um tipo de objeto especialmente desenhado para lidar com **tabelas**: o `DataFrame`. Arquivos .csv (Comma Separated Values) são o formato aberto mais universal para a leitura de tabelas. Assim, é interessante começar a nossa exploração do `pandas` usando esse objeto. Na verdade, essa é apenas a ponta do iceberg: ao longo do curso, vamos ver como é possível usar o `pandas` para ler arquvios tirados de uma API, como podemos usar a biblioteca pra ler arquivos do Excel, e até mesmo para extrair as tabelas contidas em uma página da internet.

Uma característica interessante do Pandas é que ele consegue ler arquivos a partir da URL. Se você tem um link que faz o download de um arquivo csv, pode usar esse link para carregar esse arquivo diretamente para o Pandas.

In [None]:
compras_2020 = pd.read_csv("https://bit.ly/3amlUZK")

O arquivo foi carregado como um novo tipo de objeto no Python: um `DataFrame` do `pandas`.

Além disso, salvamos os dados em uma variável arbitrariamente (mas descritivamente) chamada `compras_2020`.


In [None]:
type(compras_2020)

A biblioteca `pandas` é muito bem estabelecida e recebe muito apoio da comunidade de programadores de python, assim muito do que precisamos fazer já está pronto de alguma forma. Também podemos carregar outros formatos de dado como arquivos excel com a função `read_excel` e até carregar dados de sites seja baixando o arquivo, perceba como estamos passando um link para carregar o csv, ou do código HTML de uma página - há um arquivo específico sobre esse assunto.

## Acessando informações básicas de um DataFrame

Assim como listas e dicionários possuíam certos métodos que nos permitiam fazer coisas interessantes com essas estruturas de dados (por exemplo, usando `.insert()` e `.pop()` em listas), os `DataFrames` também possuem vários métodos desenhados para facilitar o trabalho do cientista de dados. Um bom primeiro passo é obter um panorama das informações que possuímos, algo que pode ser feito usando os métodos do `pandas` `.head()` e `.tail()`.

In [None]:
compras_2020.head()

Esses métodos mostram apenas algumas linhas da nossa tabela. Por que não olhar a tabela inteira de uma vez? Uma hipótese: talvez a tabela seja grande demais. Para descobrir as dimensões de uma tabela, podemos acessar o atributo `.shape`.

In [None]:
compras_2020.shape

A tabela compras_2020 tem mais de 90 mil linhas! Por isso, pode não ser uma boa ideia imprimir todas as linhas de uma única vez. O tamanho dessa tabela também justifica a preferência pelo Python: tabelas desse tamanho começam a se comportar de maneira bastante lenta em plataformas como o Excel (inclusive, quando as tabelas são realmente muito grandes, o Excel sequer consegue abrir!).

A função info oferece informações importantes: o tipo dos dados armazenados em cada coluna, quantos valores estão preenchidos com valores não nulos

In [None]:
compras_2020.info()

## Acessando dados em um DataFrame

Um `DataFrame` é uma estrutura de dados (também um tipo de variável) que representa uma tabela. Tabelas são compostas por linhas e colunas.

Cada interseção entre linhas e colunas é chamada de uma célula. Algumas vezes, queremos acessar a informação constante de uma linha. Outras vezes, estamos interessados em conseguir as informações de uma coluna inteira. Ainda outras vezes, queremos apenas o valor armazenado em uma célula.

### Acessando colunas

In [None]:
#imprime o nome de todas as colunas
compras_2020.columns

Podemos acessar um objeto contendo todas as colunas como se fosse uma lista. Veja que o resultado é muito parecido com de uma lista, mas indicando que é um Índice (index)

In [None]:
cols_compras = compras_2020.columns

print(cols_compras)

cols_compras[1]

In [None]:
# notem como é similar a um dicionário
compras_2020["Orgão"] 

Podemos também selecionar mais de uma coluna, passando uma lista com os nomes das colunas que queremos dentro do colchetes.

In [None]:
compras_2020[["Orgão", "Descrição objeto licitação"]]

Essa notação pode parecer um pouco confusa... Uma forma de evitar é separar a lista em uma variável específica, e passar essa variável para o DataFrame. Isso é especialmente útil quando temos muitas colunas para selecionar.

In [None]:
cols_selecionadas = ["Orgão", "Descrição objeto licitação"]

compras_2020[cols_selecionadas]

### Acessando linhas

In [None]:
compras_2020.iloc[1]

Tanto uma linhas quanto uma coluna são do tipo `Series`, e os valores individuais podem ser acessados como por um dicionário usando a chave do valor desejado.

In [None]:
linha2 = compras_2020.iloc[1]

print(type(linha2))

In [None]:
linha2["Valor total da compra"]

`DataFrames`representam tabelas, e são compostos por múltiplas `Series`, que se assemelham a uma lista ordenada de valores contendo uma chave. Ao acessar uma linha ou coluna de uma variável DataFrame o `Pandas`gera uma variável do tipo `Series`. Mais a frente veremos que essas variáveis tem uma série de métodos, que utilizaremos para fazer operações em toda uma coluna (exemplo, somar ou cálcular a média).

### Acessando células

Podemos combinar a forma de acessar linhas e colunas com a sintaxe `.iloc[indice]['nome_da_coluna']`:

In [None]:
compras_2020['Orgão'].iloc[1]

In [None]:
compras_2020.iloc[1]['Orgão']

### Também é possível acessar ranges de valores

A sintaxe para acessar sequência de valores é distinta para linhas e para colunas.

Para linhas usamos a indexação junto ao iloc, como para selecionar elementos de uma lista.

Já para acessar colunas, passamos uma lista de valores dentro dos colchetes que seleciona a coluna. Observe que são abertos e fechados 2 colchetes.

In [None]:
compras_2020.iloc[0:24]['Orgão']

In [None]:
compras_2020.iloc[0:24][['Orgão', 'Descrição justificativa']]

## Observando variáveis categóricas

Categorias como Orgão e Código da modalidade da compra servem para classificar os dados. Assim, podemos fazer perguntas como: quais são os órgãos que mais frequentemente fazem compras sem licitação e quais são as modalidades de compra mais frequentes. Para responder essas perguntas, podemos usar o método `.value_counts()`.

In [None]:
compras_2020["Orgão"].value_counts()

Podemos também obter a contagem relativa dos valores com o argumento `normalize=True`, ou mudar a ordem dos valores com o argumento `ascending=True`. Vejamos:

In [None]:
compras_2020["Código da modalidade da compra"].value_counts(normalize=True, ascending=True)

### Valores únicos

Não necessariamente queremos tantas informações. Podemos querer observar apenas os valores únicos de uma coluna. Para isso, usamos o método `.unique()` ao selecionar uma coluna.

Vejamos:

In [None]:
compras_2020["Código da modalidade da compra"].unique()

Poderíamos também querer saber quantos valores únicos existem em uma coluna. Para isso, usamos o método `.nunique()`.

In [None]:
compras_2020["Código da modalidade da compra"].nunique()

## Indexação lógica

Com mais frequência, não queremos uma parte arbitrária do `DataFrame`, mas sim o subconjunto do `DataFrame` que satisfaz alguma condição. Por exemplo, podemos querer a relação de todas as compras feitas sem licitação pela UFRJ.

Acima, podemos ver que a UFRJ é identificada na coluna Orgão pela string "26245: UNIVERSIDADE FEDERAL DO RIO DE JANEIRO". Com essa informação, podemos pedir para que o `DataFrame` encontre apenas as linhas que possuem "26245: UNIVERSIDADE FEDERAL DO RIO DE JANEIRO" no campo Orgão. Ou seja, queremos criar um filtro lógico a partir da condição da variáel `Orgão` da linha ser igual ao valor que representa a UFRJ. Existem algumas maneiras de fazer isso.

A mais simples delas, e que iremos adotar ao longo do curso, envolve o uso do método `.query()`.

Podemos perceber nos exemplos abaixo que usamos uma sintaxe semelhante à de condicionais para definir a condição que as linhas que irão permanecer devem cumprir. Dentro do query, podemos nos referir ao nome da coluna livremente dentro da *string* que delimita o query, desde que ela não tenha espaço.

In [None]:
compras_2020.query("Orgão == '26245: UNIVERSIDADE FEDERAL DO RIO DE JANEIRO'")

Podemos replicar o mesmo caminho para encontrar todas as despesas da FND, usando agora a coluna "UASG".

Vamos aproveitar para mostrar uma outra forma de utilizar o query, armazenando o valor utilizado para filtro em uma variável.

Para chamar a variável de dentro da `string` que delimita o query, usamos o símbolo `@` antes do nome da variável. Isso é útil para não precisarmos nos preocupar com como escrever valores dentro da string, e também diminuir o tamanho do texto passado para a função.

In [None]:
uasg_fnd = "158223: FACULDADE NACIONAL DE DIREITO DA UFRJ"

compras_2020.query("UASG == @uasg_fnd").head(2)

E, se desejarmos, podemos armazenar o valor do filtro em uma nova variável, para que possamos acessar as informações de forma mais fácil.

In [None]:
fnd = compras_2020.query("UASG == '158223: FACULDADE NACIONAL DE DIREITO DA UFRJ'")

In [None]:
fnd.shape

Quando a coluna que queremos pesquisar possui espaços, precisamos usar \` dentro do `query` para sinalizar ao método que estamos falando de uma única coluna.

In [None]:
compras_2020.query("`Código da modalidade da compra` == '7: Inexigibilidade'").head(3)

Poderíamos também filtrar todas as compras que não foram na modalidade de Inexigibilidade, usando o operador `!=` para indicar que queremos todas as linhas que não são iguais a "Inexigibilidade".

Como os dados tratam de compras sem licitação, ao estudar as regras de licitação vocês irão verificar que isso deixaria os casos em que há Dispensa, fundamentação distinta para que a a administração não realize licitação.

In [None]:
compras_2020.query("`Código da modalidade da compra` != '7: Inexigibilidade'").head(1)

Com colunas numéricas, poderíamos também usar outros operadores de comparação. Em especial maior que (`>`), menor que (`<`), maior ou igual a (`>=`), e menor ou igual a (`<=`). Contudo se você retornar às informações resultantes do info, logo no início, você vai verificar que a única coluna com valor numérico (`float` ou `int`) é a coluna `` `Número Inciso` ``, as demais não tem valores preenchidos. Não parece fazer muito sentido separa os incisos pela sua ordem, mas seria possível dada a forma como os dados estão organizados.


Se observamos o conteúdo, também vamos ver que a coluna referente ao Valor deveria ser de um tipo numérico, contudo foi lida como texto devido a presença de R$. Vamos voltar a esse ponto mais adiante.

Sugerimos que no uso interativo você crie uma célula e execute o método `.info()` novamente para verificar isso!

In [None]:
# rode o info aqui


Outra funcionalidade importante de termos em mente é a possibilidade de filtrar a partir de múltiplos valores. Por exemplo, podemos querer filtrar todas as compras feitas pela UFRJ OU pela FND. Para isso, podemos usar uma lista contendo os valores que queremos filtrar e o operador `in`, para dizer que queremos todas as linhas que o valor do Orgão esteja presente (dentro) da lista.

Vamos fazer isso para filtrar todas as universidades federais do estado do Rio de Janeiro.


In [None]:
federais_rj = [
    "26245: UNIVERSIDADE FEDERAL DO RIO DE JANEIRO",
    "26249: UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO",
    "26269: FUNDACAO UNIVERSIDADE DO RIO DE JANEIRO",
    "26236: UNIVERSIDADE FEDERAL FLUMINENSE"
]

In [None]:
compras_2020.query("Orgão in @federais_rj")["Orgão"].value_counts()

Há ainda a possibilidade de filtrar a partir de múltiplas condições. Por exemplo, podemos querer filtrar todas as compras feitas por umas das Universidades Federais, e que foram feitas por inexigibilidade. Para isso, podemos usar o operador `and` (ou `&`) para indicar que queremos todas as linhas que satisfaçam às duas condições.

In [None]:
texto_inexigibilidade = "7: Inexigibilidade"
compras_2020.query("Orgão in @federais_rj and `Código da modalidade da compra` == @texto_inexigibilidade").head(2)

Outra forma de fazer o mesmo filtro seria em sequência, utilizando duas vezes o método `.query()`.

In [None]:
univs_fluminenses = compras_2020.query("Orgão in @federais_rj")

compras_univ_inexigibilidade = univs_fluminenses.query("`Código da modalidade da compra` == @texto_inexigibilidade")

Podemos combinar todas as formas de filtrar com os operadores lógicos `and` e `or` para criar filtros mais complexos, nosso objetivo aqui era apenas introduzir essa possibilidade.

Por fim, podemos usar métodos para identificar matches parciais em colunas contendo texto. Isso é feito principalmente pelo método: `.str.contains()`, inclusive suas configurações que podemos conferir na [documentação: https://pandas.pydata.org/docs/reference/api/pandas.Series.str.contains.html](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.contains.html).

Vamos ver um exemplo, mas vamos revisitar essa função mais adiante, e também em outras aulas.

Vamos filtrar todas as compras feitas por Universidades no páis. De bônus, vamos ter uma estimativa do número de universidades federais no país em 2020.

In [None]:
busca_contem = "UNIVERSIDADE"

federais = compras_2020.query("Orgão.str.contains(@busca_contem)")

print(federais["Orgão"].nunique())


federais["Orgão"].value_counts()

## Criando novas colunas

Podemos adicionar colunas a um `DataFrame` usando a seguinte sintaxe:

`nome_do_dataframe['nome_da_nova_coluna'] = novo_valor`

Se `novo_valor` for uma constante, os dados vão ser replicados para todas as linhas do `DataFrame`:

In [None]:
compras_2020["Data de extração"] = "04/02/2021"
compras_2020.head()

In [None]:
compras_2020.tail()

Se `novo_valor` for uma lista, ela precisa ter um número de elementos igual ao número de linhas do `DataFrame` (nesse caso, 96.005), alocando cada valor para uma linha em ordem.

In [None]:
# esse código deve dar erro!
compras_2020["Número aleatório"] = [123454, 35345634]

Agora vamos tentar com o número correto de elementos.

In [None]:
import numpy as np

numeros_aleatorios = []

tamanho_df = compras_2020.shape[0]

# a função abaixo vai gerar números aleatórios entre 0 e 1000000 do tamanho do dataframe
numeros_aleatorios = np.random.randint(0, 1000000, size = tamanho_df)

In [None]:
compras_2020["Número aleatório"] = numeros_aleatorios

In [None]:
compras_2020.head()

## Algumas operações com colunas

Já que criamos uma coluna numérica, é interessante ver também que podemos usar operações normais usando essas colunas. Por exemplo:

In [None]:
compras_2020["Número aleatório"]/10

Podemos salvar o resultado da operação em uma nova coluna

In [None]:
compras_2020["Aleatório mais 10"] = compras_2020["Número aleatório"] + 10
compras_2020.head()

## Excluindo colunas

Podemos excluir colunas usando o método `.drop()` e passando as colunas que queremos remover com o argumento `columns`.


In [None]:
compras_2020.drop(columns=["Data de extração", "Número aleatório", "Aleatório mais 10"], inplace=True)

compras_2020.head(3)

## Executando operações permanentes

Se você voltar a última célula de código, pode verificar que passamos o argumento `inplace` para o método `drop`.

Esse argumento tem um significado especial de instruir que a alteração resultante deve alterar **permanentemente** a variável sobre a qual foi executada. Assim, essa operação não retorna nenhum resultado e se tentarmos salvá-lo em uma nova variável, semelhante ao que ocorre com listas se usarmos `append`.

O argumento `inplace` é aceito por grande parte dos métodos que são executados sobre um dataframe, como o `query`. 

<b>CUIDADO:Ao executar uma operação inplace, a mudança é permanente. Assim, para voltar ao estado anterior é necessário recarregar os dados daquela variável como foi feito originalmente. No nosso exemplo, se deletarmos uma coluna seria necessário recarregar o arquivo original.

Além disso, isso pode gerar erros em certos casos. Se tentarmos executar o drop novamente da célula anterior o pandas irá informar que as colunas não existem e não podem ser removidas. </b>

In [None]:
compras_2020["teste"] = 'a'

df_teste = compras_2020.drop(columns=["teste"], inplace=True)

print(df_teste)

Outro ponto importante é que se rodarmos o drop para colunas que não existem, o pandas vai retornar un erro do tipo `KeyError`. Assim, é importante verificar se a coluna que queremos excluir existe antes de tentar excluir. Poderíamos também mudar esse comportamento com o argumento `errors='ignore'`.

Teste isso na célula abaixo:

In [None]:
# Edite esta célula para alterar o comportamento do drop!

compras_2020.drop(columns=["Data de extração", "Número aleatório", "Aleatório mais 10"], inplace=True)

### Retornando ao caso: Tratando os dados

Já vimos que quando temos colunas numéricas, podemos fazer operações. Poderíamos, por exemplo, pedir a soma de todos os valores pagos para saber o gasto sem licitação. Também, vamos querer saber o valor total gasto com Cloroquina ao fim de nossa análise

Infelizmente, a coluna "Valor total da compra" não é numérica. Precisamos transformar essa coluna em numérica.

A primeira opção seria usar uma iteração por meio de um for loop, como a célula abaixo:

In [None]:
#opção 1
valor_em_numero = []

for index, value in compras_2020["Valor total da compra"].items():
    if type(value) == str: #impedir que o código abaixo rode quando a célula está vazia
        valor_em_numero.append(float(value.replace("R$ ", "").replace(",", "")))
    else:
        valor_em_numero.append(value)
        
compras_2020["valor_numerico"] = valor_em_numero

Contudo, a melhor opção é fazer tudo diretamente pelo Pandas. Veja como podemos fazer isso:

In [None]:
#opção 2
compras_2020["valor_numerico"] = compras_2020["Valor total da compra"].str.replace("R$ ", "", regex=False).str.replace(",", "", regex=False).astype(float)

# ou ainda simplificando com uma única expressão regular
compras_2020["valor_numerico"] = compras_2020["Valor total da compra"].str.replace(r"R\$\s?|,", "", regex=True).astype(float)

Agora podemos somar usando o método `sum` e outras manipulações numéricas!

In [None]:
compras_2020["valor_numerico"].sum()

## Encontrando casos onde há compra de cloroquina

O que queremos fazer, no final das contas, é encontrar as compras envolvendo cloroquina. Ao contrário da busca pela UFRJ ou por um determinado código de modalidade de compra, as informações sobre a cloroquina não estão estruturadas da mesma forma. provavelmente, vamos encontrar menções à cloroquina na coluna que descreve o objeto da licitação. Mas a menção à cloroquina pode se dar em qualquer lugar dentro deste campo e de várias formas diferentes.

Para encontrar o que estamos procurando, precisamos usar as habilidades adquiridas em programação para advogados. Sabemos, por exemplo, que podemos usar o operador `is in` com objetos do tipo `str` para saber se uma determinada substring está contida naquele objeto. A dúvida é: como fazer uso dessa operação no `pandas`? Existem algumas opções. A primeira delas novamente envolve uma iteração via `for loop`.

In [None]:
cloroquina_bin = []
# assim como para iterar em dicionários, precisamos adicionar o método .items ao iterar uma série
for index, value in compras_2020["Descrição objeto licitação"].items(): 
    if type(value) == str and "cloroquina" in value.lower():
        cloroquina_bin.append(1)
    else:
        cloroquina_bin.append(0)
        
compras_2020["cloroquina_bin"] = cloroquina_bin

In [None]:
compras_2020.query("cloroquina_bin == 1").head(2)

Outra forma de fazer a mesma coisa que usaremos ao longo do curso é utilizar operações "vetorizadas", que são aplicadas sobre toda a coluna. No caso, queremos fazer operações de `string`, assim devemos adicionar o indicador `.str` após a coluna acessada.

Primeiro vamos converter toda a coluna para letras minúsculas, e então descobrir se ela contém a palavra cloroquina (veja que usamos `.str` novamente).

In [None]:
compras_2020["Descrição objeto licitação"].str.lower().str.contains("cloroquina")

Como comentamos no início do notebook, estamos subindo no ombro de gigantes e boa parte do que precisamos fazer para tratar dados já foi feito e disponibilizado de forma simples. Assim, podemos simplificar essa operação e pedir que o método `contains` ignore a diferença de capitalização nas letras com o argumento `case=False`.

Case é a expressão inglesa para se referir a capitalização.

In [None]:
compras_2020["contem_cloroquina"] = compras_2020["Descrição objeto licitação"].str.contains("cloroquina", case=False)
compras_2020.query("contem_cloroquina == True").head(3)

Poderíamos também desejar que o resultado da nossa busca estivesse expresso em 0s e 1s, criando a variável binária que permite que façamos operações matemáticas com ela. Para isso, usamos o método `astype(float)` no fim da nossa linha de código, para converter os valores booleanos em inteiros: `True` vira 1 e `False` vira 0.

In [None]:
# como já criamos uma coluna com o valor booleano vamos nos referir a ela
# poderíamos também fazer uma única linha de código:
# compras_2020["Descrição objeto licitação"].str.contains("cloroquina", case=False).astype(int)
compras_2020["cloroquina_bin"] = compras_2020["contem_cloroquina"].astype(float)
compras_2020["cloroquina_bin"].describe()

In [None]:
compras_2020.query("cloroquina_bin == 1")["valor_numerico"].sum()

Poderíamos também facilmente acessar a média com o método que possui o nome da operação em inglês: `mean`

In [None]:
compras_2020.query("cloroquina_bin == 1")["valor_numerico"].mean()

Podemos calcular quanto do total sem licitação os gastos com cloroquina representam.

In [None]:
# Multiplicamos por 100 para ter o resultado em porcentagem
(compras_2020.query("cloroquina_bin == True")["valor_numerico"].sum() / compras_2020["valor_numerico"].sum()) * 100

## Conclusão

Os gastos com cloroquina foram elevados em termos absolutos, mas modestos em termos relativos, e representam um número ínfimo do número de transações sem licitação realizadas pelo governo federal em 2020.



## Rodada bônus: Ivermectina

In [None]:
compras_2020["ivermectina_bin"] = compras_2020["Descrição objeto licitação"].str.contains("ivermectina", case=False)
compras_ivermectina = compras_2020.query("ivermectina_bin == True")
compras_ivermectina.head(2)

In [None]:
compras_ivermectina["valor_numerico"].sum()

## Desafio: Guloseimas

Para praticar o que aprendemos, use as células abaixo para repetir a análise identificando as compras que envolvem guloseimas, a partir da presença de `"leite condensado"` na descrição do objeto. Faça o mesmo para `"chocolate"` em seguida.