# Aprofundamentos II

Até o momento lidamos basicamente com valores *quantitativos*. No encontro de hoje, iniciaremos algumas análises que podemos executar sobre valores *qualitativos*.

# Moda de Uma Distribuição

Até o momento lidamos com 2 medidas de tendência central:

* **Média Aritmética**: Busca determinar um valor central de uma distribuição de valores numéricos com base na magnitude desses valores. Embora seja muito útil, é sensível à valores extremos (*outliers*);
* **Mediana**: Também busca determinar um valor central de uma distribuição de valores numéricos com base na posição desses valores ordenados. Embora também tenha suas utilidades, é necessário ordenar os valores antes de poder ser determinado.

Além das medidas de tendência central, também vimos as medidas de dispersão:

* **Variância**: Analisa o quão distante os valores da distribuição estão da média aritmética. Assim como ela, é sensível à valores extremos.
* **Desvio Padrão**: Analisa, em média, a distância dos valores em relação à média aritmética. Assim como ela, também é sensível à valores extremos.
* **Quartis**: Os quartis dividem uma distribuição de dados ordenados em 4 grupos.
	* 1º Quartil: É o valor que divide os primeiros 25 % valores ordenados os 75 % valores finais;
	* 2º Quartil: É o valor que divide os primeiros 50 % valores ordenados dos 50 % valores finais. É a mediana;
	* É o valor que divide os primeiros 75 % valores ordenados os 25 % valores finais.

Observe que todas as medidas analisam apenas as grandezas quantitativas.

Para iniciarmos análises sobre grandezas qualitativas, veremos a medida denominada

> Moda

A moda de uma distribuição busca determinar <ins>o valor mais frequente de uma distribuição</ins> (quantitativa ou qualitativa). Devido à essa característica, podemos tanto determinar a moda de uma distribuição de valores quantitativos quanto qualitativos. Assim como a média aritmética e mediana, também é uma medida de tendência central.

|Semana |Compras|Total(R$)|
|:-----:|:-----:|:-------:|
|Segunda|   12  |  150.00 |
|Quinta |   15  |  316.09 |
|Terça  |   13  |  297.54 |
|Segunda|   17  |  150.00 |
|Quarta |   11  |  316.09 |
|Segunda|   16  |  350.07 |
|Terça  |    8  |  123.70 |

Observe que na coluna

* **Semana**: O dia da semana que mais apareceu foi "Segunda". Portanto a moda da coluna *Semana* é "Segunda".
* **Compras**: Nesta coluna, cada valor apareceu apenas 1 vez. Por esse motivo, ela não apresenta moda.
* **Total(R$)**: Nesta coluna os valores "150.00" e "316.09" apareceram 2 vezes, cada um deles. Por esse motivo, a moda dessa coluna é "150.00" e "316.09".

Pelo exemplo anterior, a moda <ins>não</ins> será necessariamente um único valor: pode ser 1, 2, 3 ou mais valores. Ou seja depende unicamente da quantidade de vezes (*frequência absoluta*) que se repete cada um dos valores. Assim, podemos ter distribuições:

* **Amodais**: Quando cada um dos valores da distribuição apresentam a mesma frequência absoluta (mesma quantidade de "aparições");
* **Unimodal**: Quando um único valor apresenta uma frequência absoluta superior a qualquer outro valor da distribuição;
* **Bimodal**: Quando 2 valores de uma distribuição apresentam a mesma frequência absoluta e ela é superior à frequência absoluta de qualquer outro valor da distribuição;
* **Polimodal**: Quando 3 ou mais valores de uma distribuição apresentam a mesma frequência absoluta e ela é superior à frequência absoluta de qualquer outro valor da distribuição.

Manualmente, para determinarmos a moda de uma distribuição, poderíamos:

1. Ordenar os valores em alguma ordem (crescente, decrescente - quantitativos; alfabética, contra-alfabética)
2. Verificar a frequência absoluta dos valores.

Assim, por exemplo, dada a distribuição de valores a seguir:

> 1, 5, -9, 8, 7, 2, 3, 5, 7, 7, -1, -2, 4, 6, 11, 10, 4, 3, 8

Ordenando os valores:

> -9, -2, -1, 1, 2, 3, 3, 4, 4, 5, 5, 6, 7, 7, 7, 8, 8, 10, 11

Obtendo as frequências absolutas:

|Valor|Frequência Absoluta|
|:---:|:-----------------:|
|$-9$ |1                  |
|$-2$ |1                  |
|$-1$ |1                  |
|1    |1                  |
|2    |1                  |
|3    |2                  |
|4    |2                  |
|5    |2                  |
|6    |1                  |
|7    |3                  |
|8    |2                  |
|10   |1                  |
|11   |1                  |

Portanto essa distribuição é unimodal, sendo a moda o valor 7.

## Determinando a Moda de Uma Distribuição Usando o Python

A biblioteca *pandas* também apresenta um método que permite determinar a moda de uma tabela. O nome desse método é

<br>

``` python
.mode()
```

<br>

Embora exista moda populacional e amostral, a forma de se determinar ela é a mesma. Assim, de forma análoga que aconteceu com a média aritmética, não precisaremos nos preocupar com isso ao evocar esse método.

Assim como aconteceu com todos os métodos estatísticos que vimos até o momento, o parâmetro

> axis

terá como padrão o valor zero (analisará a moda de todos os valores presentes em todas as linhas de cada coluna). O valor 1 determinará a moda de todos os valores presentes em todas as colunas de cada linha.

Como exemplo, usaremos a tabela contendo informações da campanha de napoleão na Rússia:

> [https://raw.githubusercontent.com/nightlySnoopy/database/main/napoleon.csv](https://raw.githubusercontent.com/nightlySnoopy/database/main/napoleon.csv)

In [2]:
import pandas as pd
path = ('https://raw.githubusercontent.com/nightlySnoopy/database/main/napoleon.csv')
df3 = pd.read_csv(path)
df3['Pclass'].mode()

KeyError: ignored

Vamos verificar a moda de todas as linhas de cada coluna dessa tabela:

* **Longitude**: A moda dessa coluna 32°. É unimodal.
* **Latitude**: A moda dessa coluna é 54.8°. É unimodal.
* **City**: A moda dessa coluna é Smolensk. É unimodal.
* **Direction**: Essa coluna é amodal.
* **Survivors**: Essa coluna é amodal.

Para essa tabela não faz muito sentido, mas poderíamos determinar a moda de todas as colunhas de cada linha:

Observe que surgiram diversos alertas, uma vez que ao analisar os valores das colunas de cada linha o Python encontrou uma mistura de valores quantitativos e qualitativos.

Analisando as notas de alguns alunos de uma determinada instituição de Ensino Superior:

> [https://raw.githubusercontent.com/nightlySnoopy/database/main/notas.csv](https://raw.githubusercontent.com/nightlySnoopy/database/main/notas.csv)

Também podemos determinar a moda de uma única coluna:

Verifique a classe (*Pclass*) mais frequente da tabela contendo informações sobre os passageiros do navio Titanic:

> [https://raw.githubusercontent.com/nightlySnoopy/database/main/titanic.csv](https://raw.githubusercontent.com/nightlySnoopy/database/main/titanic.csv)

In [3]:
path = ('https://raw.githubusercontent.com/nightlySnoopy/database/main/titanic.csv')
df3 = pd.read_csv(path)
df3['Pclass'].mode()

0    3
Name: Pclass, dtype: int64

Verifique a moda de todas as linhas de cada coluna dessa tabela.

In [None]:
df3['Embarked'].value_counts()

In [None]:
df3['Embarked'].value_counts(normalize=True)

In [None]:
df3['Embarked'].value_counts(normalize=True) * 100

# Verificando Valores Únicos de Uma Coluna

Em algumas situações, nos interessa saber <ins>quais valores distintos</ins> estão presentes numa <ins>coluna de uma tabela</ins>. Para esses casos, podemos utilizar o método

<br>

``` python
.unique()
```
<br>

vamos verificar de quais portos os passageiros do navio Titanic embarcaram:

In [4]:
df3['Embarked'].unique()

array(['Southampton', 'Cherbourg', 'Queenstown', nan], dtype=object)

Verifique quais classes os passageiros podiam escolher.

In [5]:
df3['Pclass'].unique()

array([3, 1, 2])

# Agrupando Valores

No encontro de hoje vimos que a moda nos mostra quais valores apresentam maior frequência absoluta numa distribuição de dados. Também vimos como verificar quais são os valores únicos de uma coluna.

Agora veremos como agrupar os valores das colunas em torno de valores únicos de outras colunas e obter alguns resultados interessantes.

O agrupamento de valores é feito utilizando o método

<br>

``` python
.groupby()
```
<br>

cujo principal parâmetro é

> by

que receberá

* o nome da coluna de referência;
* a lista com os nomes das colunas de referência.

Juntamente a esse método, iremos utilizar outro métodos para obter os resultados desejados. Alguns dos métodos possíveis que poderemos usar são

* .sum( ) $\Rightarrow$ Somará os valores das colunas agrupadas;
* .count( ) $\Rightarrow$ Contará os valores das colunas agrupadas;
* .value_counts() $\Rightarrow$ Contará a quantidade de cada valor das colunas agrupadas;
* .mean( ) $\Rightarrow$ Calculará a média aritmética dos valores das colunas agrupadas;
* .median( ) $\Rightarrow$ Calculará a mediana dos valores das colunas agrupadas;
* .var( ) $\Rightarrow$ Calculará a variância <ins>amostral</ins> aritmética dos valores das colunas agrupadas;
* .std( ) $\Rightarrow$ Calculará o desvio padrão <ins>amostral</ins> aritmética dos valores das colunas agrupadas;
* .min( ) $\Rightarrow$ Verificará qual é o valor mínimo das colunas agrupadas;
* .max( ) $\Rightarrow$ Verificará qual é o valor máximo das colunas agrupadas;

Para entender melhor o funcionamento desse método, é mais fácil utilizamos ele na prática.

Primeiramente, vamos utilizar a classe dos passageiros como referência para o agrupamento. Usando da tabela *df3*, devemos executar a seguinte declaração:

<br>

``` python
df3.groupby(by='Pclass')
```
<br>

Essa declaração diz ao Python que iremos agrupar os valores das outras colunas usando como referência os valores únicos da coluna *Pclass*.

Agora, como primeiro exemplo,  iremos contar quantos valores de todas as outras colunas estão distribuídos em torno dos valores únicos da coluna *Pclass*. O método que conta elementos em *pandas* é o

> .count( )

Portanto a declaração que iremos executar será:

<br>

``` python
df3.groupby(by='Pclass').count()
```
<br>

In [6]:
df3.groupby(by='Pclass').count()

Unnamed: 0_level_0,PassengerId,Survived,Name,Sex,Age,Fare,Embarked
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,216,216,216,216,186,216,214
2,184,184,184,184,173,184,184
3,491,491,491,491,355,491,491


Observe que a 1ª "Coluna" é constituída dos valores únicos da coluna *Pclass*. Isso que o método *.groupby* faz. Sem seguida, o método *.count* contou quantos valores estão presentes na coluna

* *PassengerID* e que tem valor 1 na coluna *Pclass*;
* *PassengerID* e que tem valor 2 na coluna *Pclass*;
* *PassengerID* e que tem valor 3 na coluna *Pclass*;

E esse procedimento se repetiu para todas as outras colunas .

Observe que todas as colunas apresentam as mesmas quantidades para as classes 1, 2 e 3, exceto as colunas *Age* e *Embarked*. Na célula abaixo, verifique quantas linhas não nulas estão presentes em cada coluna:

In [7]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   Fare         891 non-null    float64
 7   Embarked     889 non-null    object 
dtypes: float64(2), int64(3), object(3)
memory usage: 55.8+ KB


Observe que essas duas colunas estão com valores ausentes. Por isso que o método *.count* retornou valores diferentes para essas duas colunas.

Também podemos especificar qual coluna que queremos contar o número de linhas. Para isso, basta especificar o nome da coluna antes de aplicar o método *.count*.

Para entendermos melhor, ainda usando a coluna *Pclass* como referência, vamos contar quantos nomes (*Name*) estão distribuídos nessas classes:

Para isso, iremos executar a seguinte declaração:

<br>

``` python
df3.groupby(by='Pclass')['Name'].count()
```
<br>

In [8]:
df3.groupby(by='Pclass')['Name'].count()

Pclass
1    216
2    184
3    491
Name: Name, dtype: int64

Podemos utilizar mais de uma coluna como referência para agruparmos os valores das colunas de uma tabela. Para o nosso próximo exemplo, iremos utilizar como referência as colunas *Pclass* e *Sex*. Novamente, contaremos quantos valores não nulos de todas as outras colunas estão distribuídas levando em consideração os valores únicos da colunas *Pclass* e *Sex*.

In [9]:
df3.groupby(by=['Pclass', 'Sex']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,PassengerId,Survived,Name,Age,Fare,Embarked
Pclass,Sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,female,94,94,94,85,94,92
1,male,122,122,122,101,122,122
2,female,76,76,76,74,76,76
2,male,108,108,108,99,108,108
3,female,144,144,144,102,144,144
3,male,347,347,347,253,347,347


Novamente, poderíamos contar os valores não nulos de apenas uma coluna. Vamos usar agora a coluna *Survived*

In [10]:
df3.groupby(by=['Pclass','Sex'])['Survived'].count()

Pclass  Sex   
1       female     94
        male      122
2       female     76
        male      108
3       female    144
        male      347
Name: Survived, dtype: int64

Usando o método *.sum*, verifique o total de taxa arrecado dos passageiros de cada classe.

In [12]:
df3.groupby(by='Pclass')['Fare'].sum()

Pclass
1    2.297596e+06
2    4.143917e+04
3    1.248372e+06
Name: Fare, dtype: float64

Usando o método *.sum*, verifique o total de taxa arrecado dos passageiros agrupados por classe e sexo.

In [13]:
df3.groupby(by=['Pclass','Sex'])['Fare'].sum()

Pclass  Sex   
1       female    1.632127e+06
        male      6.654687e+05
2       female    1.669729e+03
        male      3.976944e+04
3       female    5.401328e+05
        male      7.082390e+05
Name: Fare, dtype: float64

Usando o método *.mean*, verifique, em média, qual foi a taxa arrecada por classe e sexo?

In [14]:
df3.groupby(by=['Pclass','Sex'])['Fare'].mean()

Pclass  Sex   
1       female    17363.053723
        male       5454.661168
2       female       21.970121
        male        368.235532
3       female     3750.921935
        male       2041.034687
Name: Fare, dtype: float64

Execute a mesma declaração acima, acrescente a coluna *Embarked* como coluna de referência para o agrupamento.

In [22]:
df3.groupby(by=['Pclass','Sex','Embarked'])['Fare'].mean()

Pclass  Sex     Embarked   
1       female  Cherbourg      35900.749612
                Queenstown        90.000000
                Southampton     1836.350348
        male    Cherbourg      11685.504564
                Queenstown        90.000000
                Southampton     2209.967985
2       female  Cherbourg         25.268457
                Queenstown        12.350000
                Southampton       21.912687
        male    Cherbourg       1311.633750
                Queenstown        12.350000
                Southampton      274.646907
3       female  Cherbourg        642.327535
                Queenstown       892.001015
                Southampton     5635.490816
        male    Cherbourg       1687.904563
                Queenstown      3193.995405
                Southampton     1928.654036
Name: Fare, dtype: float64

Execute a mesma declaração anterior, mas acrescente a verificação da idade média dos passageiros.

In [24]:
df3.groupby(by=['Pclass','Sex','Embarked'])[['Fare','Age']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Fare,Age
Pclass,Sex,Embarked,Unnamed: 3_level_1,Unnamed: 4_level_1
1,female,Cherbourg,35900.749612,36.052632
1,female,Queenstown,90.0,33.0
1,female,Southampton,1836.350348,32.704545
1,male,Cherbourg,11685.504564,40.111111
1,male,Queenstown,90.0,44.0
1,male,Southampton,2209.967985,41.897188
2,female,Cherbourg,25.268457,19.142857
2,female,Queenstown,12.35,30.0
2,female,Southampton,21.912687,29.719697
2,male,Cherbourg,1311.63375,25.9375


# Agrupando Valores em Intervalos

Em diversas situações, é interessante agruparmos os valores quantitativos de uma distribuição de dados em <ins>intervalos</ins> (classes). Esse procedimento é muito utilizado, uma vez que auxilia a reduzir a quantidade de valores com os quais iremos trabalhar. Por exemplo:

* As idades de indivíduos podem ser agrupados em faixas etárias (0 até 4 anos; 5 até 9 anos, por exemplo)
* Os salários de uma população podem agrupadas em faixas salariais (até 1 salário mínimo; 1 a 3 salários mínimos, por exemplo.)

O módulo *pandas* apresenta a função

<br>

``` python
pd.cut()
```
<br>

Que executa esse procedimento de agrupar em intervalos. Essa função apresenta 2 parâmetros obrigatórios:

> $x \Rightarrow$  Recebe o nome da coluna que contém o valores quantitativos que deverão ser agrupados;
>
> bins $\Rightarrow$ Neste primeiro momento, receberá a quantidade de intervalos (classes) que desejamos agrupar os dados.

Inicialmente, vamos agrupar em faixas etárias as idades dos passageiros do navio Titanic:

In [25]:
pd.cut(df3['Age'], bins=3)

0        (0.34, 26.947]
1      (26.947, 53.473]
2        (0.34, 26.947]
3      (26.947, 53.473]
4      (26.947, 53.473]
             ...       
886    (26.947, 53.473]
887      (0.34, 26.947]
888                 NaN
889      (0.34, 26.947]
890    (26.947, 53.473]
Name: Age, Length: 891, dtype: category
Categories (3, interval[float64, right]): [(0.34, 26.947] < (26.947, 53.473] < (53.473, 80.0]]

Mas o que aconteceu aqui?

Inicialmente, o *cut* verificou o maior e o menor valor presente na coluna *Age* e em seguida, ele criou 3 intervalos com extremidades "equidistantes" de forma que todos os valores dessa coluna possam ser atribuída a um dos 3 intervalos:

> $(0.34, 26.947]$ ou $0.34 \dashv 26.947$
>
> $(26.947, 53.473]$ ou $26.947 \dashv 53.473$
>
> $(53.473, 80.0]$ ou $53.473 \dashv 80.0$

Para recordar:

> $(0.34, 26.947]$ ou $0.34 \dashv 26.947$ significa que esse intervalo considera valores superiores a 0.34, mas não ele, e vai até exatamente 26.947

Em seguida, ele analisou a idade de cada linha e atribuiu essa idade a um intervalo. Ou seja, a idade do passageiro da linha de índice zero se encaixa no intervalo $(0.34, 26.947]$.

Visualize as 5 primeiras linhas dessa tabela e compare com o resultado obtido na célula acima.

In [26]:
pd.cut(df3['Age'], bins=3).head()

0      (0.34, 26.947]
1    (26.947, 53.473]
2      (0.34, 26.947]
3    (26.947, 53.473]
4    (26.947, 53.473]
Name: Age, dtype: category
Categories (3, interval[float64, right]): [(0.34, 26.947] < (26.947, 53.473] < (53.473, 80.0]]

## Visualizando a Quantidade de Indivíduos em Cada Grupo

Inicialmente a função *pd.cut( )* pareceu não ser muito útil. Contudo, ao juntar essa função com o método descrito anteriormente

<br>

``` python
.value_counts()
```
<br>

obteremos um resultado "melhor".

In [28]:
pd.cut(df3['Age'], bins=3).value_counts().sort_index()

(0.34, 26.947]      319
(26.947, 53.473]    345
(53.473, 80.0]       50
Name: Age, dtype: int64

In [29]:
(pd.cut(df3['Age'], bins=3).value_counts(normalize=True)*100).sort_index()

(0.34, 26.947]      44.677871
(26.947, 53.473]    48.319328
(53.473, 80.0]       7.002801
Name: Age, dtype: float64

In [31]:
round((pd.cut(df3['Age'], bins=3).value_counts(normalize=True)* 100), 2).sort_index()

(0.34, 26.947]      44.68
(26.947, 53.473]    48.32
(53.473, 80.0]       7.00
Name: Age, dtype: float64

## Alterando a Exclusão e Inclusão Das Extremidades

O padrão da função *pd.cut* é <ins>*excluir* a extremidade *esquerda* e *incluir* a extremidade *direita*</ins>.

Contudo, existem casos em que é mais interessante (necessário) inverter a ordem de inclusão/exclusão Para isso, basta atribuir ao parâmetro *right* o valor *False*

> right=False

Com isso, inverteremos a ordem de inclusão/exclusão dos intervalos.

In [32]:
pd.cut(df3['Age'], bins=3, right=False).head()

0      [0.42, 26.947)
1    [26.947, 53.473)
2      [0.42, 26.947)
3    [26.947, 53.473)
4    [26.947, 53.473)
Name: Age, dtype: category
Categories (3, interval[float64, left]): [[0.42, 26.947) < [26.947, 53.473) < [53.473, 80.08)]

Observe que alterar a inclusão/exclusão dos intervalos acaba alterando a extremidade esquerda do primeiro grupo e a extremidade direita do último grupo.

## Especificando as Extremidades dos Intervalos Dos Agrupamentos

Vimos que o parâmetro

> bins

recebe como argumento a quantidade de classes desejada. Assim, a função *pd.cut* calcula automaticamente as extremidades de cada um dos intervalos.

Na prática, entretanto, existem casos em que precisamos lidar com intervalos específicos. Por exemplo, atualmente pessoas com idades entre

* 0 até 19 anos é considerada como *jovem*: $[0, 20)$ ou $0 \vdash 20$;
* 20 até 59 anos é considerada como *adulto*: $[20, 60)$ ou $20 \vdash 60$;
* 60 ou mais é considerada como *idoso*: $[60, \infty)$ ou $60 \vdash$

Como infinito não é um número, vamos atribuir como limitante direito do último intervalo o valor 81 (pois a idade de maior valor dessa tabela é 80). Assim, para essa tabela:

* 0 até 19 anos é considerada como *jovem*: $[0, 20)$ ou $0 \vdash 20$;
* 20 até 59 anos é considerada como *adulto*: $[20, 60)$ ou $20 \vdash 60$;
* 60 ou mais é considerada como *idoso*: $[60, 81)$ ou $60 \vdash 81$

Analisando essas faixas etárias, percebemos que

* As extremidades das idades são
	> 0, 20, 60, 81

* Os intervalos são fechados à esquerda e abertos à direita.

Com base nessas informações, faremos a função *pd.cut* criar esses intervalos. Para isso, basta atribuir ao parâmetro

> bins

a lista contendo os valores das extremidades:


In [33]:
pd.cut(df3['Age'], bins=[0, 20, 60, 81]).head()

0    (20, 60]
1    (20, 60]
2    (20, 60]
3    (20, 60]
4    (20, 60]
Name: Age, dtype: category
Categories (3, interval[int64, right]): [(0, 20] < (20, 60] < (60, 81]]

Opa! Observe que as extremidades dos intervalos estão errados. Vamos consertar isso com o parâmetro *right*

In [34]:
pd.cut(df3['Age'], bins=[0, 20, 60, 81], right=False).value_counts()

[20, 60)    524
[0, 20)     164
[60, 81)     26
Name: Age, dtype: int64

Agora que os intervalos foram criados, vamos visualizar quantas pessoas se encaixam em cada faixa etária:

In [36]:
pd.cut(df3['Age'], bins=[0, 20, 60, 81], right=False).value_counts().sort_index()

[0, 20)     164
[20, 60)    524
[60, 81)     26
Name: Age, dtype: int64

## Atribuindo Rótulos Aos Intervalos

Vimos que a função *pd.cut* imprimi na tela os intervalos criados. Contudo, existem casos que, em vez de intervalos, seria mais interessante termos "rótulos".

Por exemplo, na tabela *df3*, vimos que pessoas com idades entre

* 0 até 19 anos é considerada como *jovem*: $[0, 20)$ ou $0 \vdash 20$;
 * 20 até 59 anos é considerada como *adulto*: $[20, 60)$ ou $20 \vdash 60$;
 * 60 ou mais é considerada como *idoso*: $[60, 81)$ ou $60 \vdash 81$

Ou seja, poderíamos solicitar que a função *pd.cut* retornasse os termos "jovem", "adulto" e "idoso" no lugar das faixas etárias. Para isso, podemos utilizar o parâmetro

> labels

e atribuir como argumento, uma lista contendo os nomes que desejamos <ins>na mesma ordem do intervalo</ins>.

In [37]:
pd.cut(df3['Age'], bins=[0, 20, 60, 81], right=False, labels=['Jovem','Adulto', 'Idoso']).head()

0    Adulto
1    Adulto
2    Adulto
3    Adulto
4    Adulto
Name: Age, dtype: category
Categories (3, object): ['Jovem' < 'Adulto' < 'Idoso']

Verificando quantas pessoas se enquadra em cada faixa etária:

In [40]:
pd.cut(df3['Age'], bins=[0, 20, 60, 81], right=False, labels=['Jovem', 'Adulto', 'Idoso']).value_counts().sort_index()

Jovem     164
Adulto    524
Idoso      26
Name: Age, dtype: int64

Agora que sabemos de tudo isso, podemos, por exemplo, criar mais uma coluna na tabela *df3* e inserir a categoria etária de cada indivíduo:

In [41]:
df3['g,etario'] = pd.cut(df3['Age'], bins=[0, 20, 60, 81], right=False, labels=['Jovem', 'Adulto', 'Idoso'])
df3.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,Fare,Embarked,"g,etario"
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,7.25,Southampton,Adulto
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.2833,Cherbourg,Adulto
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,7925.0,Southampton,Adulto
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,Southampton,Adulto
4,5,0,3,"Allen, Mr. William Henry",male,35.0,8.05,Southampton,Adulto


Eliminando a coluna *Age*:

In [43]:
df3 = df3.drop(columns='Age')
df3.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Fare,Embarked,"g,etario"
0,1,0,3,"Braund, Mr. Owen Harris",male,7.25,Southampton,Adulto
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,71.2833,Cherbourg,Adulto
2,3,1,3,"Heikkinen, Miss. Laina",female,7925.0,Southampton,Adulto
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,53.1,Southampton,Adulto
4,5,0,3,"Allen, Mr. William Henry",male,8.05,Southampton,Adulto


Colocando a coluna *c.etária* após a coluna "Sex":

In [44]:
df3.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Fare', 'Embarked',
       'g,etario'],
      dtype='object')

In [48]:
columns = ['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'g,etario', 'Fare', 'Embarked',]
df3 = df3[columns]
df3.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,"g,etario",Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,Adulto,7.25,Southampton
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,Adulto,71.2833,Cherbourg
2,3,1,3,"Heikkinen, Miss. Laina",female,Adulto,7925.0,Southampton
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,Adulto,53.1,Southampton
4,5,0,3,"Allen, Mr. William Henry",male,Adulto,8.05,Southampton
