# Tabelas II

Hoje veremos algumas técnicas de filtragem, operações envolvendo valores de uma coluna e criação de novas colunas a partir de uma coluna já existente.

## Filtrando Linhas Que Atendem a Uma Condição

Muitas vezes queremos filtrar as linhas que atendem a uma determinada condição. Uma forma de fazermos isso, é executando a seguinte declaração

> nome\_da\_tabela[ nome\_da\_tabela[ 'Nome da Coluna' ] == condição ]

Observe que estamos usando o operador igual

> ==

Nesse caso queremos apenas as linhas cujos valores da coluna *Nome da Coluna* sejam <ins>iguais</ins> ao valor da *condição*.

Para entendermos melhor, suponha que queiramos ver as linhas cuja coluna *Survivors* (Sobreviventes) que sejam iguais a 100 000. Para isso, devemos executar a seguinte declaração:

<br/>

``` python
napoleão[napoleão['Survivors'] == 100_000]
```
<br/>

Ou seja, colocaremos a condição desejada dentro dos colchetes. Execute a declaração acima na célula abaixo. Mas antes disso, chame a biblioteca *pandas* com o *alias* pd e atribua ao nome *napoleão* a tabela com os dados de sua campanha na Rússia:

> [https://raw.githubusercontent.com/nightlySnoopy/database/main/napoleon.csv](https://raw.githubusercontent.com/nightlySnoopy/database/main/napoleon.csv)

Observe que podemos utilizar o "truque" do _ para separar os dígitos que não há problemas.

Mas e se quiséssemos ver as linhas com 100 000 ou mais sobrevimentes? Basta trocar o operador $==$ por $>=$:

<br/>

``` python
napoleão[napoleão['Survivors'] >= 100_000]
```
<br/>


Verifique as linhas em que a coluna *Survivors* são superiores a 130 000.

Verifique as linhas em que a coluna *Survivors* são exatamente iguais a 150 000.

Verifique as linhas cuja coluna *City* é *Smolensk*.

## Selecionando Linhas Que Contenham Parte de um *String* (Substring)

É comum nossa memória falhar em alguns momentos ou, também pode acontecer de estarmos trabalhando com dados cujos valores tem nomes não familiares para nós.

Na tabela *napoleão*, na coluna *City* tem um valor que é *Dorogobouge*. Suponha que você precise ver as informações dessa linha, mas você não se lembra desse nome para filtrá-la. E agora?

Para resolver essa situação, usaremos dois métodos simultaneamente para nos auxiliar:

<br/>

``` python
.str.countains( )
```
<br/>

em que o argumento que será fornecido ao método *.contains( )* é a parte do *string* que estamos buscando. Observe que antes dele é utilizado o método *.str*. Ele informa ao método *.contains( )* que estamos buscando um *string*.

Voltando ao nosso problema, suponha que lembremos que o nome daquela cidade tinha **bou** no nome. Assim, executaremos a seguinte declaração:

<br/>

``` python
napoleão[napoleão['City'].str.contains('bou')]
```
<br/>

Execute a declaração acima na célula abaixo:

Aqui precisamos tomar cuidado, uma vez que o Python leva em consideração se os caracteres estão grafadas em maiúsculo ou minúsculo. Logo, se você executar

... o Python não retornará a linha desejada.

Verifique as linhas em que a coluna *City* apresenta o *substring*

> ou

Verifique as linhas em que a coluna *City* apresenta o *substring*

> C

Verifique as linhas em que a coluna *City* apresenta o *substring*

> c

## Selecionando Linhas Que Atendem a Mais de Uma Condição

Muitas vezes apenas 1 condição é insuficiente para filtrar as linhas de uma tabela. Por exemplo, ao executarmos

Observe que a execução desse filtro retornou 2 linhas. Suponha que seja necessário acrescentar mais uma condição nesse processo de filtragem. Como deveremos proceder?

### Operador Lógico **and (E)**: Todas as Condições Devem Ser Satisfeitas

Suponha que queiramos apenas os casos em que *City* seja *Smolensk* <ins>**E**</ins> o número de **Survivors** (sobreviventes) seja maior que 100 000. Ou seja, queremos que **ambas** condições sejam atendidas:

1. Na coluna **City** as linhas devem conter o valor **Smolensk**;
2. Na coluna **Survivors** as linhas devem ter valores superiores a 100 000.

O operador que irá impor que todas as condições sejam atendidas é o

> $\&$

Ele desempenha o papel de **e ($\land$)** em lógica.

Para utilizarmos esse operador, é preciso por <ins>cada condição **entre parênteses**</ins>. Assim

<br/>

``` python
napoleão[(napoleão['City'] == 'Smolensk') & (napoleão['Survivors'] > 100_000)]
```
<br/>

Execute a declaração acima na célula abaixo:

Verifique as linhas em que a *Longitude* é superior a 32 e *Survivors* é maior que 100 000.

Quando é preciso impor muitas condições para realizar filtragens, a declaração pode ficar muito longa, o que dificulta a sua leitura pelo usuário. Uma forma de resolver esse problema é <ins>dividir em mais de 1 linha a declaração</ins>.

Verifique as linhas em que *Direction* é *Advance* e *Survivors* é menor ou igual a 100 000. Deixe a 2ª condição do filtro na 2ª linha da declaração.

Outra possibilidade é atribuir a nomes as condições de filtragem. Na célula abaixo, atribua ao nome

* *filtro1* a condição de que a coluna *Direction* tenha valor *Retreat*;
* *filtro2* a condição de que a coluna *Latitude* seja menor que 55

e filtre as linhas que obedeçam a essas condições.

Observe que

1. A declaração fica mais "limpa", o que facilita a sua leitura;
2. Ao atribuirmos as condições de filtragem a um nome, não é necessário colocá-las entre parênteses.

Também podemos utilizar a técnica de dividir as condições em múltiplas linhas com a de atribuí-las a nomes:

### Operador Lógico **or (OU)**: Ao Menos 1 Das Condições Deve Ser Satisfeita

Outra possibilidade de filtragem é quando queremos que <ins>ao menos 1 das condições fornecidas seja atendida</ins>.

Por exemplo, suponha que queiramos as linhas em que coluna *City* tenham o valor <ins>Smolensk **OU**</ins>  que o <ins>número de sobreviventes seja inferior a 100 000</ins>.

Perceba que nesse caso, <ins>qualquer uma das condições que forem satisfeitas</ins> é de nosso interesse.

Para esses casos, usaremos o operador

> $|$

Esse operador desempenha o papel de **ou ($\lor$)** em lógica. Assim como no caso anterior, precisamos por cada condição <ins>**entre parênteses**</ins> para utilizá-lo:

<br>

``` python
napoleão[(napoleão['City'] == 'Smolensk') | (napoleão['Survivors'] < 100_000)]
```
<br/>

Execute a declaração acima na célula abaixo:

Verifique as linhas em que a coluna *City* é *Smolensk* ou a *Latitude* é menor que 55.

Aqui também poderemos utilizar as técnicas de dividir em múltiplas linhas as condições e a de atribuir elas a nomes, assim como utilizar ambas as técnicas.

Verifique as linhas em que a *Longitude* é inferior a 35 e *Survivors* é inferior ou igual a 72 000.

# Trabalhando Com os Valores Das Colunas

Muitas vezes, os valores por si só presentes numa tabela não transmitem informações relevantes sobre os dados. É muito comum precisarmos realizar operações sobre seus valores para gerar informações relevantes para a nossa análise.

Para entendermos melhor isso, usaremos os dados da projeção feita pelo IBGE. Esses dados se encontram no link a seguir:

> [https://raw.githubusercontent.com/nightlySnoopy/database/main/projections.csv](https://raw.githubusercontent.com/nightlySnoopy/database/main/projections.csv)

 Atribua ao nome *df* a tabela presente na link acima.

Suponha que você queira saber qual é a porcentagem de aumento ou diminuição da projeção da população em cada faixa etária entre 2023 e 2024. Observe que a coluna *G.Etário* apresenta os grupos etários, o que será um importante guia para analisarmos os resultados. Portanto, vamos criar uma "cópia" de *df* com apenas essas colunas. Mas como fazer isso?

Vimos que quando queremos ver apenas algumas colunas de uma tabela tínhamos que executar

<br/>

``` python
nome_da_tabela[['Coluna Desejada1', 'Coluna Desejada2']]
```
<br/>

Usando essa mesma ideia, podemos atribuir a um outro nome a tabela com as colunas filtradas:

<br/>

``` python
df2 = df[['G.Etário', '2023', '2024']]
```
<br/>

Execute a declaração acima na célula abaixo. Visualize a nova tabela gerada.

## Calculando Variações Percentuais Usando um Valor de Referência

Para calcular variações percentuais usando um valor de referência, devemos realizar a seguinte operação:

> $\displaystyle \frac{\left( \text{Novo Valor} - \text{Valor de Referência} \right) \times 100}{\text{Valor de Referência}}$

Em nosso exemplo, queremos saber a variação percentual da projeção da população entre 2023 e 2024. Ou seja, queremos saber como os <ins>valores de 2024 variaram em **relação a 2023**</ins>. Assim

* Valor de Referência: As projeções de 2023

* Novo Valor: As projeções de 2024

Por exemplo, para sabermos a porcentagem de varição para a idade de 90 ou mais anos, iremos fazer o seguinte:

> $\displaystyle \frac{\left( \text{Novo Valor} - \text{Valor de Referência} \right) \times 100}{\text{Valor de Referência}}$

Portanto:

> $\displaystyle \frac{\left( 991663 - 943466 \right) \times 100}{943466} = 5.108504175031214$

Execute o cálculo acima na célula abaixo:

ou seja, houve um aumento de aproximadamente 5.11 \%.

Agora, se analisarmos a população de 0 a 4 anos de idade:

> $\displaystyle \frac{\left( \text{Novo Valor} - \text{Valor de Referência} \right) \times 100}{\text{Valor de Referência}}$

Portanto:

> $\displaystyle \frac{\left( 14452355 − 14569055 \right) \times 100}{14569055} = -0.8010128316489985$

Execute o cálculo acima na célula abaixo.

Deixe o resultado acima com 2 casas decimais.

O resultado é negativo, indicando que ouve uma <ins>redução de cerca de 0.80 \%</ins>.

Agora que sabemos como calcular uma porcentagem dado um valor de referência, podemos realizar esse cálculo para analisar a nossa tabela.

Mas faremos isso para cada linha? Felizmente não. Ao executar operações matemáticas **entre colunas**, os valores que estão na mesma linha sofrerão a ação dessa operação. Para ficar mais claro isso, suponha que estamos trabalhando com seguinte a tabela **t**:

|col1|col2|
|:--:|:--:|
|1   |2   |
|-2  |2   |
|1   |-2  |

Ao executarmos
``` python
t['col1'] + t['col2']
```

obteremos

|   |
|:-:|
|3  |
|0  |
|-1 |

O mesmo aconteceria se realizássemos subtração, multiplicação, divisão, potenciação ou radiciação (e outras operações aritméticas).

Na célula abaixo calcule a diferença entre as projeções de 2024 e 2023, nesta ordem presentes em *df2*:

Para cada linha (faixa etária) o valor de 2024 foi subtraído pelo valor de 2023. Lembrando que, para calcular a vaiação percentual devemos calcular

> $\displaystyle \frac{\left( \text{Novo Valor} - \text{Valor de Referência} \right) \times 100}{\text{Valor de Referência}}$

basta executar a seguinte declaração

<br>

``` python
(df2['2024'] - df2['2023']) * 100 / df2['2023']
```
<br/>

na célula abaixo para obter as variações percentuais:

Perceba que a tabela *df2* **não sofreu alterações**:

E como iremos acrescentar essa informação na tabela *df2*?

Para isso

> df2['Nome da Nova Coluna'] = valores\_da\_nova\_coluna

A nova coluna podemos rotular como *Percentual*. Os valores dessa coluna são geradas pela operação que calcula as porcentagens. Portanto:

<br>

``` python
df2['Porcentagens'] = (df2['2023'] - df2['2022']) * 100 / df2['2022']
```
<br/>

Execute a declaração acima na célula abaixo e veja como ficou a nova tabela *df2*:

Conforme já sabíamos, a população jovem do brasil tem diminuído, enquanto a população idosa tem aumentado. Observe que, de forma geral, a projeção da variação da população abaixo dos 39 anos de idade é negativa entre 2023 e 2024. Já a poulação de 65 anos ou mais apresenta um crescimento relativamente maior que as outras faixas etárias.

Em nossa tabela *df2* criamos a coluna *Porcentagens*. Contudo, seus valores são ruins de serem lidos, pois todos apresentam 6 casas decimais. Para facilitar a leitura, podemos arredondar para 2 casas decimais.

Se tivéssemos pensado nisso antes, poderíamos ter utilizado a função *round( )* para arredondar os resultados antes de criar a coluna

Mas, ao visualizar a tabela:

... nada mudou. Lembre-se: De forma geral, os métodos em *pandas* não alteram a tabela original. Assim, para alterar a tabela original (nesse caso, a *coluna original*) devemos <ins>**atualizar essa coluna**</ins>:

> df2['Porcentagens'] = round(df2['Porcentagens'], 2)

Execute a declaração acima na célula abaixo e verifique como ficou *df2*.

Observe que ao criarmos a coluna *Porcentagens* e ao arredondarmos seus valores, surgiu um alerta. O motivo esse alerta é porque quando "criamos" a tabela *df2* <ins>as colunas *E.Etário, 2023* e *2024* são, na realidade meras "imagens" dessas colunas da tabela *df*</ins>. Ou seja, criamos uma coluna de "verdade" (e realizamos modificações) numa tabela que "não é de verdade".

Para contornarmos esse problema precisamos <ins>copiar<ins> essas imagens e atribuir essa cópia ao nome *df2*. Para isso, usaremos o método

> .copy( )

logo após selecionarmos as colunas que iremos atribuir à nova tabela:

</br>

``` python
novaTabela = tabelaOriginal[['Col1', 'Col3', ...]].copy()
```
</br>

Assim, recriando a tabela *df2* com as colunas *G.Etário, 2023* e *2024*:

Agora podemos criar a coluna *Porcentagens*:

... e podemos arredondar seus valores para 2 casas decimais. Observe que alerta algum foi gerado durante todos esses procedimentos:

Verifique A variação percentual da população brasileira entre 2013 e 2023.

# Alterando o Rótulo Das Colunas

Muitas vezes recebemos tabelas cujas colunas apresentam rótulos "complicados" de se trabalhar:

* Nomes muito longos;
* Palavras estrangeiras;
* Presença de caracteres "ruins"(_, por exemplo)

entre outros.

Para resolver esse problema, usaremos o método

<br/>

``` python
.rename( )
```
<br/>

Esse método tem como parâmetro

<br/>

``` python
columns=
```
<br/>

que receberá um *dicionário* (outro objeto em Python que armazena coleções. Infelizmente não iremos entrar em detalhes sobre ele.)

Os dicionários são representados com

<br/>

``` python
{ }
```
<br/>


e para o nosso objetivo, basta sabermos que:

> $\{ \text{'nome antigo 1': 'nome novo 1'}, \text{'nome antigo 2': 'nome novo 2'}, \cdots \}$

para entendermos melhor, vamos alterar o rótulo *City* da tabela *napoleão* para *Cidade*. Para isso iremos executar

<br/>

``` python
napoleão = napoleão.rename(columns={'City': 'Cidade'})
```

<br/>

Agora vamos alterar as colunas *Direction* para *Direção* e *Survivors* para *Sobreviventes*:

Na tabela *df2* altere o rótulo *G.Etário* para *Idades* e *Porcentagens* para *Variação %*. Em seguida veja o resultado.

# Ordenando as Linhas de Uma Coluna

Na tabela *df2* Criamos a coluna *Crescimento \%*para analisar a projeção de crescimento populacional entre 2023 e 2034 . Contudo, como os dados estão em ordem crescente de *faixa etária*, fica difícil de visualizar qual é a faixa etária com o menor percentual de crescimento.

Para resolver isso, podemos usar o método

<br/>

``` python
.sort_values( )
```
<br/>

Os principais parâmetros desse método são:

1. *by*=Nome da coluna. Se tiver mais que 1 coluna, será uma lista com o nome de todas as colunas;
2. *ascending*=*True* ou *False*. Esse parâmetro determina se será em ordem **crescente** (*True*) ou **decrescente** (*False*). Caso não seja informado um valor, o padrão será *True*.

Assim como outros métodos, ele mostra uma **cópia** da tabela ordenada. Caso queiramos salvar essa modificação, devemos atribuir a outro nome ou atualizar o nome atual associada a tabela com a qual estamos trabalhando.

Para deixar em ordem crescente a coluna *Crescimento %*:

Para deixar em ordem decrescente:

Quando temos mais de 1 coluna como referência para ordenar, a posição do nome da coluna na lista determinará a prioridade. Assim, vejamos como ficar a tabela *napoleão* ordenada com o nome das cidades em ordem alfabética:

Agora vejamos como ficará a tabela se colocarmos *Cidade* e, em seguida, *Sobreviventes*:

Deixe em ordem crescente a coluna *2023* da tabela *df*

Deixe em ordem alfabética o nome das cidades da coluna *City* da tabela *napoleão*.

# Desafio:

Verifique a variação percentual da tropa de Napoleão em <ins>relação ao início da campanha da Rússia</ins>. Os resultados devem estar na nova coluna *Perda(%)* e devem ter 2 casas decimais, caso existam.