# (2) Pandas

**Por que usar o Pandas?**

O Pandas é uma biblioteca Python fundamental para a manipulação e análise de dados. Ele fornece estruturas de dados flexíveis e eficientes, além de um conjunto abrangente de ferramentas para realizar tarefas como:

- **Leitura e escrita de dados:** Importa dados de diversos formatos (CSV, Excel, bases de dados, etc.) e exporta resultados.
- **Manipulação de dados:** Limpeza, transformação, agregação e filtragem de dados.
- **Análise exploratória de dados:** Cálculo de estatísticas descritivas, visualização de dados.
- **Preparação de dados para machine learning:** Codificação de variáveis categóricas, tratamento de dados faltantes, etc.

Em resumo, o Pandas simplifica significativamente o processo de análise de dados, tornando-o mais produtivo e eficiente. Series e DataFrames são as Estruturas Fundamentais do Pandas

- **Series:** Uma Series é uma estrutura unidimensional rotulada, semelhante a uma coluna em uma planilha. Ela pode conter qualquer tipo de dados, desde números até strings.
- **DataFrame:** Um DataFrame é uma estrutura bidimensional rotulada, semelhante a uma tabela. É composto por múltiplas Series, onde cada coluna representa uma Series e cada linha representa uma observação.

## (2.1) Primeiros passos - Definição de tipos de dados básicos do `pandas`

In [169]:
# Importando a biblioteca `numpy` apelidando ela de `np`
import numpy as np

# Importe a biblioteca `pandas` apelidando ela de `pd`
import pandas as pd

1. Tipo `pandas.Series`

No Notebook sobre numpy definimos o array `vector` usando o seguinte código:
```python
# Criando uma lista
my_list = [1, 2, 3, 4, 5, 6]

# Convertendo a lista para um array NumPy
vector = np.array(my_list)

# Visualizando array unidimensional
vector
```

In [170]:
# Criando uma lista
my_list = [1, 2, 3, 4, 5, 6]

# Convertendo a lista para um array NumPy
vector = np.array(my_list)

# Visualizando array unidimensional
vector

array([1, 2, 3, 4, 5, 6])

In [171]:
# Transformando array em uma Serie do pandas
series = pd.Series(vector)

# Visualizar
series

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int32

In [172]:
# Transformando array em uma Serie do pandas
series = pd.Series(vector, name="vector")

# Visualizar
series

0    1
1    2
2    3
3    4
4    5
5    6
Name: vector, dtype: int32

In [173]:
# Transformando array em uma Serie do pandas
series = pd.Series(vector, name="vector", index=list("abcdef".upper()))

# Visualizar
series

A    1
B    2
C    3
D    4
E    5
F    6
Name: vector, dtype: int32

In [174]:
print(type(series))

<class 'pandas.core.series.Series'>


2. Tipo `pandas.DataFrame`

No Notebook sobre numpy também definimos o array `matrix` usando o seguinte código:
```python
# Criando duas listas
list_one = my_list[:3] # Linha 1 (array unidimensional)
list_two = my_list[3:] # Linha 2 (array unidimensional)

# Convertendo as listas para arrays NumPy
matrix = np.array([list_one, list_two])

# Visualizando array multidimensional
matrix
```

In [175]:
# Criando duas listas
list_one = my_list[:3] # Linha 1 (array unidimensional)
list_two = my_list[3:] # Linha 2 (array unidimensional)

# Convertendo as listas para arrays NumPy
matrix = np.array([list_one, list_two])

# Visualizando array multidimensional
matrix

array([[1, 2, 3],
       [4, 5, 6]])

In [176]:
# Transformando array em um Data Frame do pandas
df = pd.DataFrame(matrix.T, columns=['Idade', "Nº Brinquedos"],
                  index=pd.Series(["Orisvaldo", "Aroldo", "Augusto"], name="Criança"))

# Visualizar
df

Unnamed: 0_level_0,Idade,Nº Brinquedos
Criança,Unnamed: 1_level_1,Unnamed: 2_level_1
Orisvaldo,1,4
Aroldo,2,5
Augusto,3,6


In [177]:
print(type(df))

<class 'pandas.core.frame.DataFrame'>


## (2.2) Leitura e Inspeção Inicial de Dados

Caso você opte por usar a IDE Google Colaboratory que funciona de forma online, podemos usar os seguintes para a leitura de qualquer arquivo diretamente do Google Drive:
```python
from google.colab import drive
drive.mount("/content/drive")
```
Ao executar esse bloco de código você precisará fazer autorizações que são completamentes seguras e não irão lhe causar problemas.
Depois disso basta especificar (opcional) o caminho do arquivo e usar o comando adequado para leitura do mesmo. 
```python
path = "/content/drive/caminho/do/seu/arquivo/do/drive"
```

### (2.2.1) Comandos para Leitura de Dados:

In [178]:
# Caminho do arquivo.xlsx
path = "Conjunto de Dados/population.xlsx"

# Leitura do arquivo.xlsx
df1 = pd.read_excel(path)

# Visualização inicial
df1

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.90,0,yes,southwest,16884.92
1,18,male,33.77,1,no,southeast,1725.55
2,28,male,33.00,3,no,southeast,4449.46
3,33,male,22.70,0,no,northwest,21984.47
4,32,male,28.88,0,no,northwest,3866.86
...,...,...,...,...,...,...,...
2767,47,female,45.32,1,no,southeast,8569.86
2768,21,female,34.60,0,no,southwest,2020.18
2769,19,male,26.03,1,yes,northwest,16450.89
2770,23,male,18.72,0,no,northwest,21595.38


In [179]:
# Caminho do arquivo.csv
path = "Conjunto de Dados/apple_quality.csv"

# Leitura do arquivo.csv
df2 = pd.read_csv(path, sep=",")

# Visualização inicial
df2

Unnamed: 0,A_id,Size,Weight,Sweetness,Crunchiness,Juiciness,Ripeness,Acidity,Quality
0,0.0,-3.970049,-2.512336,5.346330,-1.012009,1.844900,0.329840,-0.491590483,good
1,1.0,-1.195217,-2.839257,3.664059,1.588232,0.853286,0.867530,-0.722809367,good
2,2.0,-0.292024,-1.351282,-1.738429,-0.342616,2.838636,-0.038033,2.621636473,bad
3,3.0,-0.657196,-2.271627,1.324874,-0.097875,3.637970,-3.413761,0.790723217,good
4,4.0,1.364217,-1.296612,-0.384658,-0.553006,3.030874,-1.303849,0.501984036,good
...,...,...,...,...,...,...,...,...,...
3996,3996.0,-0.293118,1.949253,-0.204020,-0.640196,0.024523,-1.087900,1.854235285,good
3997,3997.0,-2.634515,-2.138247,-2.440461,0.657223,2.199709,4.763859,-1.334611391,bad
3998,3998.0,-4.008004,-1.779337,2.366397,-0.200329,2.161435,0.214488,-2.229719806,good
3999,3999.0,0.278540,-1.715505,0.121217,-1.154075,1.266677,-0.776571,1.599796456,good


In [180]:
# Caminho url do arquivo.csv
path_url = "https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/vdpb/vaehdpm/gasolina-c/vendas-anuais-de-gasolina-c-por-municipio.csv"

# Leitura do arquivo.csv
df3 = pd.read_csv(path_url, sep=";", decimal=",")

# Visualização inicial
df3

Unnamed: 0,ANO,GRANDE REGIÃO,UF,PRODUTO,CÓDIGO IBGE,MUNICÍPIO,VENDAS
0,1990,REGIÃO NORTE,RO,GASOLINA C,1100015,ALTA FLORESTA D'OESTE,432968
1,1990,REGIÃO NORTE,RO,GASOLINA C,1100023,ARIQUEMES,6561925
2,1990,REGIÃO NORTE,RO,GASOLINA C,1100049,CACOAL,3991929
3,1990,REGIÃO NORTE,RO,GASOLINA C,1100288,ROLIM DE MOURA,2165472
4,1990,REGIÃO NORTE,RO,GASOLINA C,1100056,CEREJEIRAS,1240090
...,...,...,...,...,...,...,...
175320,2023,REGIÃO NORTE,TO,GASOLINA C,1721208,TOCANTINOPOLIS,3091500
175321,2023,REGIÃO NORTE,TO,GASOLINA C,1721257,TUPIRAMA,180000
175322,2023,REGIÃO NORTE,TO,GASOLINA C,1721307,TUPIRATINS,240000
175323,2023,REGIÃO NORTE,TO,GASOLINA C,1722081,WANDERLANDIA,2574000


### (2.2.2) Comandos de Inspeção de Dados - Métodos e Atributos Básicos:

O Pandas é uma biblioteca Python fundamental para análise de dados. Aqui estão os principais métodos e atributos para inspeção de dados:

#### Métodos Básicos de Inspeção

1. **Visualização de Dados**
   - `head(n)`: Mostra as primeiras n linhas (padrão: 5)
   - `tail(n)`: Mostra as últimas n linhas (padrão: 5)
   - `sample(n)`: Mostra n linhas aleatórias

2. **Informações Estruturais**
   - `shape`: Retorna uma tupla com (número de linhas, número de colunas)
   - `columns`: Retorna a lista de nomes das colunas
   - `index`: Retorna o índice do DataFrame/Series
   - `dtypes`: Retorna os tipos de dados de cada coluna

3. **Informações Estatísticas**
   - `describe()`: Estatísticas descritivas (média, desvio padrão, etc.)
   - `info()`: Resumo do DataFrame (tipos de dados, valores não nulos)
   - `value_counts()`: Contagem de valores únicos (para Series)

4. **Verificação de Dados**
   - `isnull()`: Retorna DataFrame booleano indicando valores nulos
   - `notnull()`: Oposto de isnull()
   - `duplicated()`: Identifica linhas duplicadas

#### Atributos Básicos

- `df.values`: Retorna os dados como array numpy
- `df.size`: Número total de elementos
- `df.ndim`: Número de dimensões (2 para DataFrame, 1 para Series)
- `df.empty`: Booleano indicando se está vazio

Estes comandos são essenciais para explorar e entender seus dados antes de realizar análises mais complexas.

**1. Visualização de Dados:** Para exemplos, vamos usar o `df1`.

In [181]:
# pandas.DataFrame.head(): Mostra as primeiras n linhas (default: 5)
df1.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.92
1,18,male,33.77,1,no,southeast,1725.55
2,28,male,33.0,3,no,southeast,4449.46
3,33,male,22.7,0,no,northwest,21984.47
4,32,male,28.88,0,no,northwest,3866.86


In [182]:
# pandas.DataFrame.tail(): Mostra as últimas n linhas (default: 5)
df1.tail()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
2767,47,female,45.32,1,no,southeast,8569.86
2768,21,female,34.6,0,no,southwest,2020.18
2769,19,male,26.03,1,yes,northwest,16450.89
2770,23,male,18.72,0,no,northwest,21595.38
2771,54,male,31.6,0,no,southwest,9850.43


In [183]:
"""
Se quiser, você pode embaralhar as linhas.
Pode parecer inútil agora, mas guarde este método,
você pode precisar no futuro
"""

# pandas.DataFrame.sample(): sample(n): Mostra n linhas aleatórias
df1.sample(n=None, frac=1)

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
606,27,female,25.18,0,no,northeast,3558.62
2443,45,female,31.79,0,no,southeast,17929.30
2550,41,female,28.31,1,no,northwest,7153.55
383,35,female,43.34,2,no,southeast,5846.92
1989,64,female,39.05,3,no,southeast,16085.13
...,...,...,...,...,...,...,...
620,30,male,31.40,1,no,southwest,3659.35
2271,32,male,28.93,1,yes,southeast,19719.69
1147,20,female,31.92,0,no,northwest,2261.57
2020,51,male,39.70,1,no,southwest,9391.35


**2. Informações Estruturais:** Para exemplos vamos usar o `df3`.

In [184]:
# pandas.DataFrame.shape: Retorna uma tupla no formato (número de linhas, número de colunas)
df3.shape

(175325, 7)

In [185]:
# pandas.DataFrame.columns: Retorna a lista de nomes das colunas
df3.columns

Index(['ANO', 'GRANDE REGIÃO', 'UF', 'PRODUTO', 'CÓDIGO IBGE', 'MUNICÍPIO',
       'VENDAS'],
      dtype='object')

In [186]:
# pandas.DataFrame.index: Retorna o índice do DataFrame/Series
df3.index

RangeIndex(start=0, stop=175325, step=1)

In [187]:
# pandas.DataFrame.dtypes: Retorna os tipos de dados de cada coluna
df3.dtypes

ANO               int64
GRANDE REGIÃO    object
UF               object
PRODUTO          object
CÓDIGO IBGE       int64
MUNICÍPIO        object
VENDAS            int64
dtype: object

In [188]:
# pandas.DataFrame.info(): Resumo do DataFrame (tipos de dados, valores não nulos)
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 175325 entries, 0 to 175324
Data columns (total 7 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   ANO            175325 non-null  int64 
 1   GRANDE REGIÃO  175325 non-null  object
 2   UF             175322 non-null  object
 3   PRODUTO        175325 non-null  object
 4   CÓDIGO IBGE    175325 non-null  int64 
 5   MUNICÍPIO      175325 non-null  object
 6   VENDAS         175325 non-null  int64 
dtypes: int64(3), object(4)
memory usage: 9.4+ MB


**3. Verificação de Dados:** Para exemplos vamos usar o `df2`.

In [189]:
# pandas.DataFrame.isnull(): Retorna DataFrame booleano indicando valores nulos
df2.isnull()

Unnamed: 0,A_id,Size,Weight,Sweetness,Crunchiness,Juiciness,Ripeness,Acidity,Quality
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...
3996,False,False,False,False,False,False,False,False,False
3997,False,False,False,False,False,False,False,False,False
3998,False,False,False,False,False,False,False,False,False
3999,False,False,False,False,False,False,False,False,False


In [190]:
# pandas.DataFrame.isnull().sum():  Nº de valores nulos por coluna
df2.isnull().sum()

A_id           1
Size           1
Weight         1
Sweetness      1
Crunchiness    1
Juiciness      1
Ripeness       1
Acidity        0
Quality        1
dtype: int64

In [191]:
# pandas.DataFrame.notnull(): Oposto de isnull()
df2.notnull()

Unnamed: 0,A_id,Size,Weight,Sweetness,Crunchiness,Juiciness,Ripeness,Acidity,Quality
0,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...
3996,True,True,True,True,True,True,True,True,True
3997,True,True,True,True,True,True,True,True,True
3998,True,True,True,True,True,True,True,True,True
3999,True,True,True,True,True,True,True,True,True


In [192]:
# pandas.DataFrame.notnull().sum():  Nº de valores não nulos por coluna
df2.notnull().sum()

A_id           4000
Size           4000
Weight         4000
Sweetness      4000
Crunchiness    4000
Juiciness      4000
Ripeness       4000
Acidity        4001
Quality        4000
dtype: int64

In [193]:
# pandas.DataFrame.isna(): Verificação se há NAN nas células
df2.isna()

Unnamed: 0,A_id,Size,Weight,Sweetness,Crunchiness,Juiciness,Ripeness,Acidity,Quality
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...
3996,False,False,False,False,False,False,False,False,False
3997,False,False,False,False,False,False,False,False,False
3998,False,False,False,False,False,False,False,False,False
3999,False,False,False,False,False,False,False,False,False


In [194]:
# pandas.DataFrame.isna().sum(): Nº de NAN's por coluna
df2.isna().sum()

A_id           1
Size           1
Weight         1
Sweetness      1
Crunchiness    1
Juiciness      1
Ripeness       1
Acidity        0
Quality        1
dtype: int64

In [195]:
# pandas.DataFrame.notna(): Contrário do isna()
df2.notna()

Unnamed: 0,A_id,Size,Weight,Sweetness,Crunchiness,Juiciness,Ripeness,Acidity,Quality
0,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...
3996,True,True,True,True,True,True,True,True,True
3997,True,True,True,True,True,True,True,True,True
3998,True,True,True,True,True,True,True,True,True
3999,True,True,True,True,True,True,True,True,True


In [196]:
# pandas.DataFrame.notna().sum(): Nº de não NAN's por coluna
df2.notna().sum()

A_id           4000
Size           4000
Weight         4000
Sweetness      4000
Crunchiness    4000
Juiciness      4000
Ripeness       4000
Acidity        4001
Quality        4000
dtype: int64

In [197]:
# pandas.DataFrame.duplicated(): Identifica linhas duplicadas
df2.duplicated()

0       False
1       False
2       False
3       False
4       False
        ...  
3996    False
3997    False
3998    False
3999    False
4000    False
Length: 4001, dtype: bool

**4. Atributos Básicos.**

In [198]:
# pandas.Series.values: Retorna os dados como array numpy
series.values

array([1, 2, 3, 4, 5, 6])

In [199]:
# pandas.DataFrame.values: Retorna os dados como array numpy
df.values

array([[1, 4],
       [2, 5],
       [3, 6]])

In [200]:
# pandas.DataFrame.values: Retorna os dados como array numpy
df2.values

array([[0.0, -3.970048523, -2.512336381, ..., 0.329839797,
        '-0.491590483', 'good'],
       [1.0, -1.195217191, -2.839256528, ..., 0.867530082,
        '-0.722809367', 'good'],
       [2.0, -0.292023862, -1.351281995, ..., -0.038033328,
        '2.621636473', 'bad'],
       ...,
       [3998.0, -4.008003744, -1.779337107, ..., 0.214488384,
        '-2.229719806', 'good'],
       [3999.0, 0.27853965, -1.715505028, ..., -0.77657147,
        '1.599796456', 'good'],
       [nan, nan, nan, ..., nan, 'Created_by_Nidula_Elgiriyewithana',
        nan]], dtype=object)

In [201]:
# Note que se usarmos o pd.DataFrame() novamente, temos
pd.DataFrame(df2.values)

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,0.0,-3.970049,-2.512336,5.34633,-1.012009,1.8449,0.32984,-0.491590483,good
1,1.0,-1.195217,-2.839257,3.664059,1.588232,0.853286,0.86753,-0.722809367,good
2,2.0,-0.292024,-1.351282,-1.738429,-0.342616,2.838636,-0.038033,2.621636473,bad
3,3.0,-0.657196,-2.271627,1.324874,-0.097875,3.63797,-3.413761,0.790723217,good
4,4.0,1.364217,-1.296612,-0.384658,-0.553006,3.030874,-1.303849,0.501984036,good
...,...,...,...,...,...,...,...,...,...
3996,3996.0,-0.293118,1.949253,-0.20402,-0.640196,0.024523,-1.0879,1.854235285,good
3997,3997.0,-2.634515,-2.138247,-2.440461,0.657223,2.199709,4.763859,-1.334611391,bad
3998,3998.0,-4.008004,-1.779337,2.366397,-0.200329,2.161435,0.214488,-2.229719806,good
3999,3999.0,0.27854,-1.715505,0.121217,-1.154075,1.266677,-0.776571,1.599796456,good


In [202]:
# pandas.DataFrame.size: Número total de elementos
df2.size

36009

In [203]:
# pandas.Series.size: Número total de elementos
series.size

6

In [204]:
# pandas.DataFrame.size: Número total de elementos
df.size

6

In [205]:
# pandas.Series.ndim: Número de dimensões (2 para DataFrame, 1 para Series)
series.ndim

1

In [206]:
# pandas.DataFrame.ndim: Número de dimensões (2 para DataFrame, 1 para Series)
df.ndim

2

In [207]:
# pandas.Series.empty: Booleano indicando se está vazio
series.empty

False

In [208]:
# pandas.DataFrame.empty: Booleano indicando se está vazio
df.empty

False

## (2.3) Seleção e Fatiamento de Dados:

O Pandas oferece várias maneiras eficientes de selecionar e fatiar dados em `DataFrames` e `Series`.

In [209]:
# DataFrame de exemplo
data = {
    "Nome": ["Ana", "Carlos", "Maria", "João", "Teresa"],
    "Idade": [25, 32, 28, 40, 35],
    "Salário": [5000, 6500, 4800, 7200, 6100],
    "Cidade": ["SP", "RJ", "SP", "BH", "RJ"]
}

df_example = pd.DataFrame(data, index=["a", "b", "c", "d", "e"])

# Chamando variável
df_example

Unnamed: 0,Nome,Idade,Salário,Cidade
a,Ana,25,5000,SP
b,Carlos,32,6500,RJ
c,Maria,28,4800,SP
d,João,40,7200,BH
e,Teresa,35,6100,RJ


### Seleção Direta por Colunas

1. **Seleção de uma coluna (retorna Series)**
    - Usando a ideia de *dicionários*:
       ```python
       df["name_column"]
       ```
    - Considerando a coluna com um atributo:
      ```python
      df.name_column # Apenas se o nome não contiver espaços ou caracteres especiais
      ```

3. **Seleção de múltiplas colunas (retorna DataFrame)**
   ```python
   df[["name_column1", "name_column2"]]
   ```

In [210]:
# 1. Seleção Direta por Colunas: Seleção de uma coluna (retorna Series)
df_example["Nome"]

a       Ana
b    Carlos
c     Maria
d      João
e    Teresa
Name: Nome, dtype: object

In [211]:
# 2. Seleção Direta por Colunas: Seleção de múltiplas colunas (retorna DataFrame)
df_example[["Nome", "Idade"]]

Unnamed: 0,Nome,Idade
a,Ana,25
b,Carlos,32
c,Maria,28
d,João,40
e,Teresa,35


### Seleção Indexação

1. **Por índice numérico (iloc) - Usando a ideia: `[start:stop:step]` (exclusive: `stop - 1`)**
   ```python
   df.iloc[0]                    # Primeira linha
   df.iloc[1:3]                  # Linhas 1 a 3
   df.iloc[0:10:2, :]            # Linhas de 1 a 10 usando passo 2 e Colunas do início ao fim
   df.iloc[[0, 2, 4], [0, 3, 9]] # Linhas específicas e Colunas específicas
   df.iloc[:50, ::-2]            # Linhas até a 50ª e Colunas do fim ao início usando passo 2
   ```

2. **Por rótulo (loc) - Procura exata (inclusive)**
   ```python
   df.loc["row1"]                 # Linha com índice "row1"
   df.loc["row1":"row10"]         # Faixa de índices 
   df.loc[:, "column1":"column3"] # Todas as linhas, faixa de colunas
   ```

In [212]:
# 1. Seleção Indexação: Por índice numérico (iloc) - Usando a ideia: [start:stop:step] (exclusive: stop - 1)
df_example.iloc[:, ::2]

Unnamed: 0,Nome,Salário
a,Ana,5000
b,Carlos,6500
c,Maria,4800
d,João,7200
e,Teresa,6100


In [213]:
# 1. Seleção Indexação: Por índice numérico (iloc) - Usando a ideia: [start:stop:step] (exclusive: stop - 1)
df_example.iloc[::-1, ::-1]

Unnamed: 0,Cidade,Salário,Idade,Nome
e,RJ,6100,35,Teresa
d,BH,7200,40,João
c,SP,4800,28,Maria
b,RJ,6500,32,Carlos
a,SP,5000,25,Ana


In [214]:
# 1. Seleção Indexação: Por índice numérico (iloc) - Usando a ideia: [start:stop:step] (exclusive: stop - 1)
df_example.iloc[[1, 3], ::-1]

Unnamed: 0,Cidade,Salário,Idade,Nome
b,RJ,6500,32,Carlos
d,BH,7200,40,João


In [215]:
# 1. Seleção Indexação: Por índice numérico (iloc) - Usando a ideia: [start:stop:step] (exclusive: stop - 1)
df_example.iloc[[1, 3], [2, 3]]

Unnamed: 0,Salário,Cidade
b,6500,RJ
d,7200,BH


In [216]:
# 2. Seleção Indexação: Por rótulo (loc) - Procura exata (inclusive)
df_example.loc["a"]

Nome        Ana
Idade        25
Salário    5000
Cidade       SP
Name: a, dtype: object

In [217]:
# 2. Seleção Indexação: Por rótulo (loc) - Procura exata (inclusive)
df_example.loc["a":"c"]

Unnamed: 0,Nome,Idade,Salário,Cidade
a,Ana,25,5000,SP
b,Carlos,32,6500,RJ
c,Maria,28,4800,SP


In [218]:
# 2. Seleção Indexação: Por rótulo (loc) - Procura exata (inclusive)
df_example.loc["c":, "Cidade"]

c    SP
d    BH
e    RJ
Name: Cidade, dtype: object

In [219]:
# 2. Seleção Indexação: Por rótulo (loc) - Procura exata (inclusive)
df_example.loc["c":, ["Cidade", "Salário"]]

Unnamed: 0,Cidade,Salário
c,SP,4800
d,BH,7200
e,RJ,6100


### Seleção Booleana (Filtros)

1. **Filtros simples**
   ```python
   df[df["idade"] > 30]
   df[df["nome"].str.startswith("A")]
   ```

2. **Filtros complexos**
   ```python
   df[(df["idade"] > 25) & (df["salario"] < 6000)]
   df[df["cidade"].isin(["SP", "RJ"])]
   ```

3. **Usando query()**
   ```python
   df.query("idade > 30 and salario < 8000")
   ```

In [220]:
df_example["Idade"] > 30

a    False
b     True
c    False
d     True
e     True
Name: Idade, dtype: bool

In [221]:
# 1. Seleção Booleana (Filtros): Filtros simples
df_example[df_example["Idade"] > 30]

Unnamed: 0,Nome,Idade,Salário,Cidade
b,Carlos,32,6500,RJ
d,João,40,7200,BH
e,Teresa,35,6100,RJ


In [222]:
df_example["Nome"].str.startswith("A")

a     True
b    False
c    False
d    False
e    False
Name: Nome, dtype: bool

In [223]:
# 1. Seleção Booleana (Filtros): Filtros simples
df_example[df_example["Nome"].str.startswith("A")]

Unnamed: 0,Nome,Idade,Salário,Cidade
a,Ana,25,5000,SP


In [224]:
(df_example["Idade"] > 25) & (df_example["Salário"] < 6000)

a    False
b    False
c     True
d    False
e    False
dtype: bool

In [225]:
# 2. Seleção Booleana (Filtros): Filtros Complexos
df_example[(df_example["Idade"] > 20) & (df_example["Salário"] < 6000)]

Unnamed: 0,Nome,Idade,Salário,Cidade
a,Ana,25,5000,SP
c,Maria,28,4800,SP


In [226]:
mask1 = df_example["Idade"] > 20
mask2 = df_example["Salário"] < 6000

# 2. Seleção Booleana (Filtros): Filtros Complexos
df_example[mask1 & mask2]

Unnamed: 0,Nome,Idade,Salário,Cidade
a,Ana,25,5000,SP
c,Maria,28,4800,SP


In [227]:
mask1 = df_example["Idade"] > 35
mask2 = df_example["Salário"] < 5000

# 2. Seleção Booleana (Filtros): Filtros Complexos
df_example[mask1 | mask2]

Unnamed: 0,Nome,Idade,Salário,Cidade
c,Maria,28,4800,SP
d,João,40,7200,BH


In [228]:
df_example["Cidade"].isin(["SP"])

a     True
b    False
c     True
d    False
e    False
Name: Cidade, dtype: bool

In [229]:
# 2. Seleção Booleana (Filtros): Filtros Complexos
df_example[df_example["Cidade"].isin(["SP"])]

Unnamed: 0,Nome,Idade,Salário,Cidade
a,Ana,25,5000,SP
c,Maria,28,4800,SP


In [230]:
# 2. Seleção Booleana (Filtros): Filtros Complexos
df_example["Nome"].isin(["Maria"])

a    False
b    False
c     True
d    False
e    False
Name: Nome, dtype: bool

In [231]:
# 3. Seleção Booleana (Filtros): Usando Método query()
df_example.query("Cidade == 'SP' and Salário <= 5000")

Unnamed: 0,Nome,Idade,Salário,Cidade
a,Ana,25,5000,SP
c,Maria,28,4800,SP


### Fatiamento Avançado

1. **where()**
   ```python
   df.where(df > 0)  # Mantém valores onde a condição é True, outros como NaN
   ```
2. **mask()** (oposto de where)
   ```python
   df.mask(df > 0)   # Substitui valores onde a condição é True
   ```
3. **Por `dtype`**
    ```python
    df.select_dtypes(include="number")
    ```
4. **Slice por índices personalizados**
   ```python
   df.sort_index().loc["a":"c"]  # Assume índices ordenados
   ```

In [232]:
# Fatiamneto Avançado: where()
df_example.where(df_example["Idade"] > 30)

Unnamed: 0,Nome,Idade,Salário,Cidade
a,,,,
b,Carlos,32.0,6500.0,RJ
c,,,,
d,João,40.0,7200.0,BH
e,Teresa,35.0,6100.0,RJ


In [233]:
# Fatiamneto Avançado: where()
df_example.where(df_example["Idade"] > 30, other=0)

Unnamed: 0,Nome,Idade,Salário,Cidade
a,0,0,0,0
b,Carlos,32,6500,RJ
c,0,0,0,0
d,João,40,7200,BH
e,Teresa,35,6100,RJ


In [234]:
# Fatiamneto Avançado: where()
df_example.where(df_example["Idade"] > 30, other="Vazio")

Unnamed: 0,Nome,Idade,Salário,Cidade
a,Vazio,Vazio,Vazio,Vazio
b,Carlos,32,6500,RJ
c,Vazio,Vazio,Vazio,Vazio
d,João,40,7200,BH
e,Teresa,35,6100,RJ


In [235]:
# Fatiamneto Avançado: mask()
df_example.mask(df_example["Idade"] > 30)

Unnamed: 0,Nome,Idade,Salário,Cidade
a,Ana,25.0,5000.0,SP
b,,,,
c,Maria,28.0,4800.0,SP
d,,,,
e,,,,


In [236]:
# Fatiamneto Avançado: mask()
df_example.mask(df_example["Idade"] > 30, other=0)

Unnamed: 0,Nome,Idade,Salário,Cidade
a,Ana,25,5000,SP
b,0,0,0,0
c,Maria,28,4800,SP
d,0,0,0,0
e,0,0,0,0


In [237]:
# Fatiamneto Avançado: mask()
df_example.mask(df_example["Idade"] > 30, other="Vazio")

Unnamed: 0,Nome,Idade,Salário,Cidade
a,Ana,25,5000,SP
b,Vazio,Vazio,Vazio,Vazio
c,Maria,28,4800,SP
d,Vazio,Vazio,Vazio,Vazio
e,Vazio,Vazio,Vazio,Vazio


In [238]:
df_example["Salário"] = df_example["Salário"] / 1
df_example["Salário"]

a    5000.0
b    6500.0
c    4800.0
d    7200.0
e    6100.0
Name: Salário, dtype: float64

In [239]:
# Fatiamneto Avançado: Por dtype()
df_example.select_dtypes(include="number")

Unnamed: 0,Idade,Salário
a,25,5000.0
b,32,6500.0
c,28,4800.0
d,40,7200.0
e,35,6100.0


In [240]:
# Fatiamneto Avançado: Por dtype()
df_example.select_dtypes(include="int64")

Unnamed: 0,Idade
a,25
b,32
c,28
d,40
e,35


In [241]:
# Fatiamneto Avançado: Por dtype()
df_example.select_dtypes(include="float64")

Unnamed: 0,Salário
a,5000.0
b,6500.0
c,4800.0
d,7200.0
e,6100.0


In [242]:
# Fatiamneto Avançado: Por dtype()
df_example.select_dtypes(exclude="number")

Unnamed: 0,Nome,Cidade
a,Ana,SP
b,Carlos,RJ
c,Maria,SP
d,João,BH
e,Teresa,RJ


In [243]:
# Fatiamneto Avançado: Por dtype()
df_example.select_dtypes(include="object")

Unnamed: 0,Nome,Cidade
a,Ana,SP
b,Carlos,RJ
c,Maria,SP
d,João,BH
e,Teresa,RJ


## (2.4) Criação e Manipulação de Novos Data Frames e Novas Colunas

### **Criação de Novos `DataFrames`**

- **Exemplo:** Vamos gerar preços aleatórios para 10 produtos.
    1. Iremos rótular esses produtos com as 10 primeiras letras do alfabeto
    2. Gerar preços aleatórios para esses 10 produtos:
        * Retirar uma amostra aleatória da distribuição $\text{Uniforme}(0, 1)$;
        * Multiplicar os valores dessa amostra por 100. Visando uma escala de *preços* de $(0, 100)$.
    3. Dispor em formato de dicionário.
    4. Transformar em *Data Frame* do `pandas`.

In [544]:
# Importando o módulo string
import string

# Definindo tamanho da amostra inicial
n = 10

# Rotularizando com base nas 10 primeiras letras do alfabeto
products = list(string.ascii_uppercase[:n])

# Valor que armazenará nossa semente
seed = 123456789

# Fixa a semente
np.random.seed(seed)

# Gerar preços aleatórios para esses 10 produtos
prices = np.random.uniform(0, 1, size=n) # Simula dados de uma Uniforme(0, 1)
prices = 100 * prices                     # Alterando a escala para (0, 100)
prices = np.round(prices, 2)             # Arredondando para duas casas decimais

# Dispor em formato de dicionário
data_dict = {"Produto": products, "Preço": prices}

# Transformar em Data Frame do pandas
df = pd.DataFrame(data_dict)

# Visualizar
df

Unnamed: 0,Produto,Preço
0,A,53.28
1,B,53.41
2,C,50.96
3,D,71.36
4,E,25.7
5,F,75.27
6,G,88.39
7,H,15.49
8,I,67.05
9,J,64.34


In [545]:
"""
Do ponto de vista estatístico, vamos utilizar de maneira incorreta o método de reamostragem 
com reposição chamado de bootstrap para *aumentar* o tamanho da amostra.
"""
# Gera uma amostra com reposição de tamanho 90
samples = df.sample(n = 9 * df.shape[0], replace=True, random_state=seed)

# Concatena o dataset original com as amostras retiradas
df = pd.concat([df, samples], ignore_index=True)

# Visualizar
df

Unnamed: 0,Produto,Preço
0,A,53.28
1,B,53.41
2,C,50.96
3,D,71.36
4,E,25.70
...,...,...
95,A,53.28
96,D,71.36
97,F,75.27
98,E,25.70


- **Forma Alternativa:** Poderia ter sido definido um `DataFrame` vazio para preenchimento.

In [546]:
# Criação do DataFrame vazio
df_empty = pd.DataFrame()

# Visualizar
df_empty

In [547]:
# Lembra do atributo empty. O DataFrame está vazio?
df_empty.empty

True

### **Adição e Manipulação de Novas Colunas**

- Serão dados exemplos de *Criação* (adição) de novas colunas e *Manipulação* de colunas existentes no `DataFrame`.

In [548]:
# Podemos criar ou alterar uma coluna de forma direta
df_empty["Produto"] = products

# Visualizar
df_empty

Unnamed: 0,Produto
0,A
1,B
2,C
3,D
4,E
5,F
6,G
7,H
8,I
9,J


In [549]:
# Usando o método assign(): retorna novo DataFrame
df_empty.assign(Preços = prices)

# Visualizar
df_empty

Unnamed: 0,Produto
0,A
1,B
2,C
3,D
4,E
5,F
6,G
7,H
8,I
9,J


In [550]:
"""
O método assign() foi executado na célula anterior porém usado de forma incorreta.
O método assign() retorna um novo objeto DataFrame. Logo, para se fazer o uso correto
deste método, sua saída deve ser armazenada em uma variável.
"""
# Usando o método assign(): retorna novo DataFrame
df_empty = df_empty.assign(Preço = prices)

# Visualizar
df_empty

Unnamed: 0,Produto,Preço
0,A,53.28
1,B,53.41
2,C,50.96
3,D,71.36
4,E,25.7
5,F,75.27
6,G,88.39
7,H,15.49
8,I,67.05
9,J,64.34


Em Python, podemos ajustar os valores de uma coluna ou ainda, criar novas colunas com base em colunas já existentes. Além das formas apresentadas de criação de colunas, temos o método `insert()` específico para criação de colunas.

Vamos a exemplos!

Imagine que o objetivo seja criar duas colunas: `"Sqrt - Preço"` e `"Log - Preço"`. Vimos que podemos fazer isso da seguinte forma:
```python
df["Sqrt - Preço"] = np.sqrt(df["Preço"])
df["Log - Preço"] = np.log(df["Preço"])
```

Tal finalidade também pode ser alcançada pelo método `insert()`! 

> **Nota:** O método `insert()` é um método do tipo `inplace`!

In [551]:
# Método insert(): "Sqrt - Preço"
df.insert(loc=2, column="Sqrt - Preço", value=np.sqrt(df["Preço"]))

# Método insert(): "Log - Preço"
df.insert(loc=3, column="Log - Preço", value=np.log(df["Preço"]))

# Visualizar
df

Unnamed: 0,Produto,Preço,Sqrt - Preço,Log - Preço
0,A,53.28,7.299315,3.975561
1,B,53.41,7.308215,3.977998
2,C,50.96,7.138627,3.931041
3,D,71.36,8.447485,4.267737
4,E,25.70,5.069517,3.246491
...,...,...,...,...
95,A,53.28,7.299315,3.975561
96,D,71.36,8.447485,4.267737
97,F,75.27,8.675828,4.321082
98,E,25.70,5.069517,3.246491


**Fique atento** que o método `insert()` adiciona em um local específico. Diferente da forma mais direta que posiciona a nova coluna semore com última.!

In [552]:
# Definindo semente aleatória
np.random.seed(seed)

# Criação de coluna: Quantidade de Vendas
df["Quantidade"] = np.random.randint(1, 11, size=df.shape[0])

# Criação de coluna: Venda Total
df["Venda"] = df["Quantidade"] * df["Preço"]

# Criação de coluna: Gênero do Cliente
df.insert(1, "Sexo", np.random.choice(["Male", "Female"], p=[0.45, 0.55], size=df.shape[0]))

# Visualizar
df

Unnamed: 0,Produto,Sexo,Preço,Sqrt - Preço,Log - Preço,Quantidade,Venda
0,A,Male,53.28,7.299315,3.975561,9,479.52
1,B,Female,53.41,7.308215,3.977998,3,160.23
2,C,Male,50.96,7.138627,3.931041,10,509.60
3,D,Female,71.36,8.447485,4.267737,8,570.88
4,E,Female,25.70,5.069517,3.246491,5,128.50
...,...,...,...,...,...,...,...
95,A,Female,53.28,7.299315,3.975561,6,319.68
96,D,Male,71.36,8.447485,4.267737,8,570.88
97,F,Female,75.27,8.675828,4.321082,4,301.08
98,E,Female,25.70,5.069517,3.246491,9,231.30


E se eu precisar adicionar um novo registro (*instância*)?

Pode ser feito usando o método `loc[]`!

In [553]:
# Adciionando uma nova instância preenchida de NaN
df.loc[df.shape[0], :] = [np.nan for _ in range(len(df.columns))]

# Visualizar
df

Unnamed: 0,Produto,Sexo,Preço,Sqrt - Preço,Log - Preço,Quantidade,Venda
0,A,Male,53.28,7.299315,3.975561,9.0,479.52
1,B,Female,53.41,7.308215,3.977998,3.0,160.23
2,C,Male,50.96,7.138627,3.931041,10.0,509.60
3,D,Female,71.36,8.447485,4.267737,8.0,570.88
4,E,Female,25.70,5.069517,3.246491,5.0,128.50
...,...,...,...,...,...,...,...
96,D,Male,71.36,8.447485,4.267737,8.0,570.88
97,F,Female,75.27,8.675828,4.321082,4.0,301.08
98,E,Female,25.70,5.069517,3.246491,9.0,231.30
99,H,Male,15.49,3.935734,2.740195,5.0,77.45


A célula acima pode ser usada para adcionar uma única nova instância. Agora, imagine que estamos com 10, 100 ou até mesmo 1000 novas observações. Como podemos fazer isso de forma eficiente?

In [554]:
# Número de novas amostras
n_new_samples = 100

# Novas amostras
new_samples = pd.DataFrame(np.nan, index=range(n_new_samples), columns=df.columns)

# Visualizar novas amostras
new_samples

Unnamed: 0,Produto,Sexo,Preço,Sqrt - Preço,Log - Preço,Quantidade,Venda
0,,,,,,,
1,,,,,,,
2,,,,,,,
3,,,,,,,
4,,,,,,,
...,...,...,...,...,...,...,...
95,,,,,,,
96,,,,,,,
97,,,,,,,
98,,,,,,,


In [555]:
"""
Basta agora utilizarmos a função do pandas concat()!
"""
# Lista de Data Frames a serem concatenados
list_df_to_be_concatenated = [df, new_samples]

# Concatenando e sobrepondo a informação
df = pd.concat(list_df_to_be_concatenated, axis=0, ignore_index=True)

# Visualizando a concatenação de Data Frames
df

Unnamed: 0,Produto,Sexo,Preço,Sqrt - Preço,Log - Preço,Quantidade,Venda
0,A,Male,53.28,7.299315,3.975561,9.0,479.52
1,B,Female,53.41,7.308215,3.977998,3.0,160.23
2,C,Male,50.96,7.138627,3.931041,10.0,509.60
3,D,Female,71.36,8.447485,4.267737,8.0,570.88
4,E,Female,25.70,5.069517,3.246491,5.0,128.50
...,...,...,...,...,...,...,...
196,,,,,,,
197,,,,,,,
198,,,,,,,
199,,,,,,,


Sabemos como adicionar novas linhas (instâncias) e colunas (variáveis). Porém, talvez a confiabilidade dos seus dados esteja comprometida e você pode precisar excluir informações (linhas ou colunas).

A forma mais usual, em Data Frame, de fazer isso é usando o método `drop()`. Vamos a exemplos do método.

> **Atenção:** O método `drop()` tem um parâmetro denominado de `inplace`. Se este parâmetro for verdadeiro (`True`), o método faz a alteração diretamente na variável que armazena o Data Frame na memória, desta forma, não seria necessário sobrepor a variável.

In [556]:
# Método drop(): inplace=True
df.drop(columns=["Sqrt - Preço", "Log - Preço"], inplace=True) # Excluindo colunas (variáveis)

# Método drop(): inplace=False
df = df.drop(index=list(range(100, len(df))), inplace=False)   # Excluindo linhas (instâncias)

# Visualizar
df

Unnamed: 0,Produto,Sexo,Preço,Quantidade,Venda
0,A,Male,53.28,9.0,479.52
1,B,Female,53.41,3.0,160.23
2,C,Male,50.96,10.0,509.60
3,D,Female,71.36,8.0,570.88
4,E,Female,25.70,5.0,128.50
...,...,...,...,...,...
95,A,Female,53.28,6.0,319.68
96,D,Male,71.36,8.0,570.88
97,F,Female,75.27,4.0,301.08
98,E,Female,25.70,9.0,231.30


**Imagine que você queira aplicar um Modelo de Regressão Linear neste conjunto de dados**. Logo, será preciso que todos os atributos sejam numéricos. Desta forma, se faz necessário realizar uma pequena alteração no conjunto de dados, em específico na coluna "Gênero".

**Que alteração é essa?** Os algoritmos que implementam modelos *estatísticos* (ou modelos de *machine learning*) foram feitas para variáveis numéricas. Aceitam que a natureza dela não seja de fato numérica, mas seu rótulo deve ser.

**Na prática, o que isso quer dizer?** Imagine o caso da variável *sexo*, tal variável tem apenas duas categorias (binária ou dicotômica). Podemos rotular as categorias dessa variável como `"Masculino": 0` e `"Feminino": 1`. Desta forma, eu mantenho a natureza da variável, porém seu rótulo deixa de ser alfanumérico e passa a ser numérico.

In [557]:
# Definindo dicionário de mapeamento
mapping = {"Male": 0, "Female": 1}

# Criação de coluna: Gênero (Numérico)
df.insert(2, "Sexo - Binário", df["Sexo"].map(mapping))

# Visualizar
df

Unnamed: 0,Produto,Sexo,Sexo - Binário,Preço,Quantidade,Venda
0,A,Male,0,53.28,9.0,479.52
1,B,Female,1,53.41,3.0,160.23
2,C,Male,0,50.96,10.0,509.60
3,D,Female,1,71.36,8.0,570.88
4,E,Female,1,25.70,5.0,128.50
...,...,...,...,...,...,...
95,A,Female,1,53.28,6.0,319.68
96,D,Male,0,71.36,8.0,570.88
97,F,Female,1,75.27,4.0,301.08
98,E,Female,1,25.70,9.0,231.30


Isso também poderia ter sido feito usando a função `np.where()`, vista anteriormente no módulo ***Numpy***. Veja:
```python
df["Sexo - Binário"] = np.where(df["Sexo - Binário"] == "Male", 0, 1)
```

In [558]:
# Usando o módulo Numpy para codificação
df["Sexo - Binário"] = np.where(df["Sexo"] == "Male", 0, 1)

# Visualizar
df

Unnamed: 0,Produto,Sexo,Sexo - Binário,Preço,Quantidade,Venda
0,A,Male,0,53.28,9.0,479.52
1,B,Female,1,53.41,3.0,160.23
2,C,Male,0,50.96,10.0,509.60
3,D,Female,1,71.36,8.0,570.88
4,E,Female,1,25.70,5.0,128.50
...,...,...,...,...,...,...
95,A,Female,1,53.28,6.0,319.68
96,D,Male,0,71.36,8.0,570.88
97,F,Female,1,75.27,4.0,301.08
98,E,Female,1,25.70,9.0,231.30


Aqui em entramos em um dilema que muitos analistas, as vezes, não sabem resolver da maneira certa.
Uma **variável qualquer** pode ser **qualitativa** ou **quantitativa**. Dentro de cada classificação, temos dois subníveis. Vamos nos atentar apenas para as **variáveis qualitativas** nesse momento.

Sabe-se que uma **variável qualitativa** pode, ainda, ser classificada como **qualitativa nominal** e **qualitativa ordinal**. As **nominais** estão ligadas a nomes prórprios de forma geral - por exemplo, *Cidade*, *Nome*, *País* - e as **ordinais** expressam uma relação de ordem entre si, como *Nível de Escolaridade* (Fundamental, Médio, Superior e Pós) e *Nídel de Dor* (Leve, Moderada e Intensa).

Para cada tipo de variável, temos técnicas específicas de codificação.

- **Qualitativa Nominal com $n$ categotias:** Para cada **categoria da variável** deve-se criar uma variável (coluna) binária de zeros e uns. Isto é, 0 se o indíviduo não possui determinada característica e 1 se o indivíduo possui determinada característica. Essa técnica é denominada de *variáveis dummies* ou *one-hot enconding*.
- **Qualitativa Ordinal com $n$ categotias:** Deve-se criar um dicionário que represente o *grau* da variável. Por exemplo, para a variável *Nível de Escolaridade* com os níveis: Fundamental, Médio, Superior e Pós iriamos enumerar os níveis da variável de acordo com o seu "grau". Desta forma: `"Fundamental": 0`, `"Médio": 1` , `"Superior": 2` e `"Pós": 3`.

O exemplo acima - variável *Sexo* - é um exemplo de **variável qualitativa nominal**. Porque não se criou uma coluna para as duas categoria da variável? Justamente por ser uma variável dicotômica (duas classes). Logo, se avaliarmos do ponto de vista da classe `"Female"`, temos

- `1` se o indíviduo for do sexo feminino;
- `0` caso contrário.

Nesse sentido, o `0` já representa a classe `"Male"` que é justamente o caso contrário do indíviduo não ser do sexo feminino.

Vamos a exemplos:

In [559]:
# Relembre do Data Frame df1
df1

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.90,0,yes,southwest,16884.92
1,18,male,33.77,1,no,southeast,1725.55
2,28,male,33.00,3,no,southeast,4449.46
3,33,male,22.70,0,no,northwest,21984.47
4,32,male,28.88,0,no,northwest,3866.86
...,...,...,...,...,...,...,...
2767,47,female,45.32,1,no,southeast,8569.86
2768,21,female,34.60,0,no,southwest,2020.18
2769,19,male,26.03,1,yes,northwest,16450.89
2770,23,male,18.72,0,no,northwest,21595.38


Perceba que a variável `region` tem mais de duas categorias. Como eu sei disso?

In [560]:
# Valores únicos de um coluna
print(df1["region"].unique())

# Nº de valores únicos de um coluna
print(df1["region"].nunique())

['southwest' 'southeast' 'northwest' 'northeast']
4


Não há uma ordem explicita entre as classes (regiões) da variável. Logo, se trata de uma **variável qualitativa nominal**. O processo de codificação (*dummies* ou *one-hot enconding*) é dado seguindo os passos:

1. Dicotomizar cada categoria da variável:
    - De forma geral: $$\begin{cases} 1, \text{ se o indíviduo possui a característica}; \\ 0, \text{ caso contrário}. \end{cases}$$

2. Concatenar os Data Frames em Colunas (`axis=1`):
    -  *Join* de ambos os DataFrames.

In [561]:
# Cópia para manipulação sem perda da info original
df1_copy = df1.copy()

# One-hot endeconding
dummies = pd.get_dummies(df1_copy["region"], prefix="region", drop_first=False)

# Concatenando em colunas
df1_copy = pd.concat([df1_copy, dummies], axis=1)

# Perfumaria
df1_copy.drop(columns=["charges"], inplace=True)
df1_copy["charges"] = df1["charges"]

# Visualizar
df1_copy

Unnamed: 0,age,sex,bmi,children,smoker,region,region_northeast,region_northwest,region_southeast,region_southwest,charges
0,19,female,27.90,0,yes,southwest,False,False,False,True,16884.92
1,18,male,33.77,1,no,southeast,False,False,True,False,1725.55
2,28,male,33.00,3,no,southeast,False,False,True,False,4449.46
3,33,male,22.70,0,no,northwest,False,True,False,False,21984.47
4,32,male,28.88,0,no,northwest,False,True,False,False,3866.86
...,...,...,...,...,...,...,...,...,...,...,...
2767,47,female,45.32,1,no,southeast,False,False,True,False,8569.86
2768,21,female,34.60,0,no,southwest,False,False,False,True,2020.18
2769,19,male,26.03,1,yes,northwest,False,True,False,False,16450.89
2770,23,male,18.72,0,no,northwest,False,True,False,False,21595.38


Repare que a função retorna os dados em *booleano*. Porém, o que nos interessa é o tipo numérico. Logo:

In [562]:
# Cópia para manipulação sem perda da info original
df1_copy = df1.copy()

# One-hot endeconding
dummies = pd.get_dummies(df1_copy["region"], prefix="region", drop_first=False, dtype=int)

# Concatenando em colunas
df1_copy = pd.concat([df1_copy, dummies], axis=1)

# Perfumaria
df1_copy.drop(columns=["charges"], inplace=True)
df1_copy["charges"] = df1["charges"]

# Visualizar
df1_copy

Unnamed: 0,age,sex,bmi,children,smoker,region,region_northeast,region_northwest,region_southeast,region_southwest,charges
0,19,female,27.90,0,yes,southwest,0,0,0,1,16884.92
1,18,male,33.77,1,no,southeast,0,0,1,0,1725.55
2,28,male,33.00,3,no,southeast,0,0,1,0,4449.46
3,33,male,22.70,0,no,northwest,0,1,0,0,21984.47
4,32,male,28.88,0,no,northwest,0,1,0,0,3866.86
...,...,...,...,...,...,...,...,...,...,...,...
2767,47,female,45.32,1,no,southeast,0,0,1,0,8569.86
2768,21,female,34.60,0,no,southwest,0,0,0,1,2020.18
2769,19,male,26.03,1,yes,northwest,0,1,0,0,16450.89
2770,23,male,18.72,0,no,northwest,0,1,0,0,21595.38


Para **variáveis qualitativas ordinais**, forma mais eficiente de se fazer isso é usando *mapeamento*.

```python
# Definindo dicionário de mapeamento
mapping = {"Fundamental": 0, "Médio": 1 , "Superior": 2, "Pós": 3}

# Criação de coluna: Mapeamento dos dados da coluna "Grau de Escolaridade"
dataset["Grau de Escolaridade - Codificado"] = dataset["Grau de Escolaridade"].map(mapping)
```

---

Pode ocorrer situações onde vocês irão precisar alterar os rótulos existentes. Sejam eles de linhas ou de colunas.

A pergunta que sempre deve ser feita é: *como fazer de forma eficiente?*

Assim como a exclusão pode ser feita para linhas e para colunas usando o método `drop()`.
A alteração de rótulos ou, renomeação, pode ser feita usando o médoto `rename()`.

In [563]:
"""
Sabemos que df.columns nos retorna o nome das colunas do Data Frame.
Imagine que se queira usar um rótulo para determinada coluna todo em minúsculo.
Isso pode ser feito de forma bastante intuitiva. Veja:
"""
df.rename(columns={"Produto": "Produto".lower()})

Unnamed: 0,produto,Sexo,Sexo - Binário,Preço,Quantidade,Venda
0,A,Male,0,53.28,9.0,479.52
1,B,Female,1,53.41,3.0,160.23
2,C,Male,0,50.96,10.0,509.60
3,D,Female,1,71.36,8.0,570.88
4,E,Female,1,25.70,5.0,128.50
...,...,...,...,...,...,...
95,A,Female,1,53.28,6.0,319.68
96,D,Male,0,71.36,8.0,570.88
97,F,Female,1,75.27,4.0,301.08
98,E,Female,1,25.70,9.0,231.30


In [564]:
"""
Entretanto, se essa necessidade é para todas as colunas. Pode ser usando um loop for
para percorrer o objeto df.columns e realizar a manipulação coluna por coluna.
"""
# Alterar Rótulos das Colunas
for column in df.columns:
    df.rename(columns={column: column.lower()}, inplace=True)

# Visualizar
df

Unnamed: 0,produto,sexo,sexo - binário,preço,quantidade,venda
0,A,Male,0,53.28,9.0,479.52
1,B,Female,1,53.41,3.0,160.23
2,C,Male,0,50.96,10.0,509.60
3,D,Female,1,71.36,8.0,570.88
4,E,Female,1,25.70,5.0,128.50
...,...,...,...,...,...,...
95,A,Female,1,53.28,6.0,319.68
96,D,Male,0,71.36,8.0,570.88
97,F,Female,1,75.27,4.0,301.08
98,E,Female,1,25.70,9.0,231.30


Como dito, o método `rename()` funciona de forma semelhante ao méodo `drop()`. Tal semelhança não está definida sobre a finalidade, mas sim sobre o funcionamento e forma de operar.

Deste modo, um parâmetro comum entre eles e entre muitos outros métodos do `pandas` é o `inplace` que pode fazer (`True`) ou não (`False`) a sobreposisção automática da variável que armazena este objeto.

Entretanto, alguns usuários podem achar "trabalhoso" ou "não tão explicíto/direto". Para esses usuários, temos a seguinte forma:

In [565]:
"""
df.columns representa um atributo (característica) do objeto df. Essa característica nada mais é que os rótulos da coluna.
Logo, se eu atribuir algo novo a essa caracterísica, estaria alterando o objeto.
Com esse raciocínio, é possível utilzar o código:
"""
# Alterar Rótulos das Colunas
df.columns = [caractere.upper() for caractere in df.columns]

# Visualizar
df

Unnamed: 0,PRODUTO,SEXO,SEXO - BINÁRIO,PREÇO,QUANTIDADE,VENDA
0,A,Male,0,53.28,9.0,479.52
1,B,Female,1,53.41,3.0,160.23
2,C,Male,0,50.96,10.0,509.60
3,D,Female,1,71.36,8.0,570.88
4,E,Female,1,25.70,5.0,128.50
...,...,...,...,...,...,...
95,A,Female,1,53.28,6.0,319.68
96,D,Male,0,71.36,8.0,570.88
97,F,Female,1,75.27,4.0,301.08
98,E,Female,1,25.70,9.0,231.30


Como já foi dito. Tal método, funciona para linhas e colunas. Seu uso para linhas é feito da seguinte forma:

In [566]:
# Alterar Rótulos das Linhas
df.rename(index={0: "Início", 99: "Fim"}, inplace=True)

# Visualizar
df

Unnamed: 0,PRODUTO,SEXO,SEXO - BINÁRIO,PREÇO,QUANTIDADE,VENDA
Início,A,Male,0,53.28,9.0,479.52
1,B,Female,1,53.41,3.0,160.23
2,C,Male,0,50.96,10.0,509.60
3,D,Female,1,71.36,8.0,570.88
4,E,Female,1,25.70,5.0,128.50
...,...,...,...,...,...,...
95,A,Female,1,53.28,6.0,319.68
96,D,Male,0,71.36,8.0,570.88
97,F,Female,1,75.27,4.0,301.08
98,E,Female,1,25.70,9.0,231.30


In [567]:
# Alterar Rótulos das Linhas
df.index = np.round(np.linspace(0, 1, df.shape[0]), 2)

# Visualizar
df

Unnamed: 0,PRODUTO,SEXO,SEXO - BINÁRIO,PREÇO,QUANTIDADE,VENDA
0.00,A,Male,0,53.28,9.0,479.52
0.01,B,Female,1,53.41,3.0,160.23
0.02,C,Male,0,50.96,10.0,509.60
0.03,D,Female,1,71.36,8.0,570.88
0.04,E,Female,1,25.70,5.0,128.50
...,...,...,...,...,...,...
0.96,A,Female,1,53.28,6.0,319.68
0.97,D,Male,0,71.36,8.0,570.88
0.98,F,Female,1,75.27,4.0,301.08
0.99,E,Female,1,25.70,9.0,231.30


In [568]:
# Alterar Rótulos das Linhas
df.index = pd.Series(data=np.arange(1, df.shape[0] + 1), name="ORDEM DE VENDA")

# Visualizar
df

Unnamed: 0_level_0,PRODUTO,SEXO,SEXO - BINÁRIO,PREÇO,QUANTIDADE,VENDA
ORDEM DE VENDA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,A,Male,0,53.28,9.0,479.52
2,B,Female,1,53.41,3.0,160.23
3,C,Male,0,50.96,10.0,509.60
4,D,Female,1,71.36,8.0,570.88
5,E,Female,1,25.70,5.0,128.50
...,...,...,...,...,...,...
96,A,Female,1,53.28,6.0,319.68
97,D,Male,0,71.36,8.0,570.88
98,F,Female,1,75.27,4.0,301.08
99,E,Female,1,25.70,9.0,231.30


Para muitas das coisas apresentadas até aqui, poderiamos ter reduzido o código a uma forma mais direta.

Primeiramente, lembre-se de *Funções Anônimas* do Módulo Básico do Python. Definimos uma função `lambda x` como `lambda x: f(x)`. Considere `f(x)` como a expressão (ou cálculo) que a função anônima realizará.

Mas isto só é válido no Módulo Básico do Python. Para o uso integrado com o módulo `pandas`, de forma feral, usamos o código: `DataFrame["column"].apply(lambda x: f(x))` ou `DataFrame[["column"]].apply(lambda x: f(x))`.

Veremos a diferença de ambas!

In [569]:
"""
Sobre a coluna "PREÇO". Quais são os desvios em relação a sua média?
"""
df["PREÇO"].apply(lambda x: x - np.mean(df["PREÇO"]))

ORDEM DE VENDA
1      -1.8476
2      -1.7176
3      -4.1676
4      16.2324
5     -29.4276
        ...   
96     -1.8476
97     16.2324
98     20.1424
99    -29.4276
100   -39.6376
Name: PREÇO, Length: 100, dtype: float64

In [570]:
"""
Sobre a coluna "PREÇO". Quais são os desvios em relação a sua média?
"""
df[["PREÇO"]].apply(lambda x: x - np.mean(x))

Unnamed: 0_level_0,PREÇO
ORDEM DE VENDA,Unnamed: 1_level_1
1,-1.8476
2,-1.7176
3,-4.1676
4,16.2324
5,-29.4276
...,...
96,-1.8476
97,16.2324
98,20.1424
99,-29.4276


In [571]:
"""
Qual a média de "VENDA"?
"""
df["VENDA"].apply(lambda x: np.mean(df["PREÇO"]))

ORDEM DE VENDA
1      55.1276
2      55.1276
3      55.1276
4      55.1276
5      55.1276
        ...   
96     55.1276
97     55.1276
98     55.1276
99     55.1276
100    55.1276
Name: VENDA, Length: 100, dtype: float64

In [572]:
"""
Qual a média de "VENDA"?
"""
df[["VENDA"]].apply(lambda x: np.mean(x))

VENDA    305.2782
dtype: float64

A diferênça é simples e está ligada ao que aprendemos no começo do curso sobre `pandas`.

- Ao filtrarmos: `df["Column1"]`. Obtemos uma `Series`.
- Ao filtrarmos: `df[["Column1", "Column2"]]`. Pegamos as colunas `"Column1"` e `"Column2"` em formato de `DataFrame`.

Apesar de serem dois tipos de dados do mesmo módulo, nem todas as operações funcionam de forma **exatamente** igual!

In [526]:
# Visualizar : Data Frame Exemplo
df1

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.90,0,yes,southwest,16884.92
1,18,male,33.77,1,no,southeast,1725.55
2,28,male,33.00,3,no,southeast,4449.46
3,33,male,22.70,0,no,northwest,21984.47
4,32,male,28.88,0,no,northwest,3866.86
...,...,...,...,...,...,...,...
2767,47,female,45.32,1,no,southeast,8569.86
2768,21,female,34.60,0,no,southwest,2020.18
2769,19,male,26.03,1,yes,northwest,16450.89
2770,23,male,18.72,0,no,northwest,21595.38


In [None]:
# Filtro: Com base em Uma Coluna e Uma Condição
df1[df1["age"] > 50]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
9,60,female,25.84,0,no,northwest,28923.14
11,62,female,26.29,0,yes,southeast,27808.73
13,56,female,39.82,0,no,southeast,11090.72
16,52,female,30.78,1,no,northeast,10797.34
18,56,male,40.30,0,no,southwest,10602.38
...,...,...,...,...,...,...,...
2754,59,female,27.50,0,no,southwest,12233.83
2758,53,male,29.48,0,no,southeast,9487.64
2761,54,female,35.82,3,no,northwest,12495.29
2763,51,male,37.00,0,no,southwest,8798.59


In [None]:
# Filtro: Com base em Uma Coluna e Duas Condição
df1[(df1["age"] > 30) & (df1["age"] < 50)]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
3,33,male,22.70,0,no,northwest,21984.47
4,32,male,28.88,0,no,northwest,3866.86
5,31,female,25.74,0,no,southeast,3756.62
6,46,female,33.44,1,no,southeast,8240.59
7,37,female,27.74,3,no,northwest,7281.51
...,...,...,...,...,...,...,...
2753,32,male,37.18,2,no,southeast,4673.39
2755,44,male,29.74,2,no,northeast,32108.66
2756,39,female,24.22,5,no,northwest,8965.80
2765,47,male,36.08,1,yes,southeast,42211.14


In [None]:
# Filtro: Com base em Duas Coluna e Duas Condição
df1[(df1["age"] > 30) & (df1["sex"] == "female")]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
5,31,female,25.74,0,no,southeast,3756.62
6,46,female,33.44,1,no,southeast,8240.59
7,37,female,27.74,3,no,northwest,7281.51
9,60,female,25.84,0,no,northwest,28923.14
11,62,female,26.29,0,yes,southeast,27808.73
...,...,...,...,...,...,...,...
2752,45,female,35.30,0,no,southwest,7348.14
2754,59,female,27.50,0,no,southwest,12233.83
2756,39,female,24.22,5,no,northwest,8965.80
2761,54,female,35.82,3,no,northwest,12495.29


In [None]:
# Filtro: Duplo Com base em Duas Coluna e Duas Condição
df1[((df1["age"] > 30) & (df1["sex"] == "female")) & ((df1["region"] == "southeast") & (df1["children"] >= 2))]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
25,59,female,27.72,3,no,southeast,14001.13
41,31,female,36.63,2,no,southeast,4949.76
43,37,female,30.80,2,no,southeast,6313.76
103,61,female,29.92,3,yes,southeast,30942.19
138,54,female,31.90,3,no,southeast,27322.73
...,...,...,...,...,...,...,...
2516,39,female,23.87,5,no,southeast,8582.30
2538,43,female,32.56,3,yes,southeast,40941.29
2620,45,female,27.83,2,no,southeast,8515.76
2709,42,female,40.37,2,yes,southeast,43896.38


In [None]:
# Filtro: Duplo Com base em Duas Coluna e Duas Condição
df1[((df1["age"] > 30) & (df1["sex"] == "female")) | ((df1["region"] == "southeast") & (df1["children"] >= 2))]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
2,28,male,33.00,3,no,southeast,4449.46
5,31,female,25.74,0,no,southeast,3756.62
6,46,female,33.44,1,no,southeast,8240.59
7,37,female,27.74,3,no,northwest,7281.51
9,60,female,25.84,0,no,northwest,28923.14
...,...,...,...,...,...,...,...
2756,39,female,24.22,5,no,northwest,8965.80
2757,18,male,26.18,2,no,southeast,2304.00
2761,54,female,35.82,3,no,northwest,12495.29
2764,22,female,31.02,3,yes,southeast,35595.59


In [None]:
# Condicionais
mask1 = ((df1["age"] > 30) & (df1["sex"] == "female"))
mask2 = ((df1["region"] == "southeast") & (df1["children"] >= 2))

# Filtro: Duplo Com base em Duas Coluna e Duas Condição
df1[mask1 | mask2]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
2,28,male,33.00,3,no,southeast,4449.46
5,31,female,25.74,0,no,southeast,3756.62
6,46,female,33.44,1,no,southeast,8240.59
7,37,female,27.74,3,no,northwest,7281.51
9,60,female,25.84,0,no,northwest,28923.14
...,...,...,...,...,...,...,...
2756,39,female,24.22,5,no,northwest,8965.80
2757,18,male,26.18,2,no,southeast,2304.00
2761,54,female,35.82,3,no,northwest,12495.29
2764,22,female,31.02,3,yes,southeast,35595.59


In [None]:
# Filtro: Duplo Com base em Duas Coluna e Duas Condição
df1.query("(age > 30 and sex == 'female') or (region == 'southeast' and children >= 2)")

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
2,28,male,33.00,3,no,southeast,4449.46
5,31,female,25.74,0,no,southeast,3756.62
6,46,female,33.44,1,no,southeast,8240.59
7,37,female,27.74,3,no,northwest,7281.51
9,60,female,25.84,0,no,northwest,28923.14
...,...,...,...,...,...,...,...
2756,39,female,24.22,5,no,northwest,8965.80
2757,18,male,26.18,2,no,southeast,2304.00
2761,54,female,35.82,3,no,northwest,12495.29
2764,22,female,31.02,3,yes,southeast,35595.59


In [None]:
# Filto: lambda x
df1[df1["sex"].apply(lambda x: x == "female")]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.90,0,yes,southwest,16884.92
5,31,female,25.74,0,no,southeast,3756.62
6,46,female,33.44,1,no,southeast,8240.59
7,37,female,27.74,3,no,northwest,7281.51
9,60,female,25.84,0,no,northwest,28923.14
...,...,...,...,...,...,...,...
2761,54,female,35.82,3,no,northwest,12495.29
2762,21,female,32.68,2,no,northwest,26018.95
2764,22,female,31.02,3,yes,southeast,35595.59
2767,47,female,45.32,1,no,southeast,8569.86


## (2.6) Medidas Estatísticas Estatísticas e Agrupamento de Dados

### **Medidas Estatísticas**

Como pode ser visto. Ao decorrer do ensino sobre `pandas`. Para alguns cálculos como média foi usado o módulo do **`numpy`**.

Porém, o **`pandas`** já nos ofere algumas medidas, em especial, *medidas estatísticas*.

Para exemplos, vamos utilizar o conjunto de dados `df1`. Vamos a exemplos!

In [573]:
"""
Durante a disciplina de Análise Exploratória de Dados (AED) ou Exploratory Data Analysis (EDA)
foi ensinado a construir uma Tabela de Resumo. As principais medidas adotadas são:
Média, Desvio Padrão (ou Variância), Mínimo, 1º Quartil, Mediana, 3º Quartil e Máximo.
Como bônus, vamos calcular o Coeficiente de Variação (CV).
"""

# Nomeando Rótulos de Colunas
columns = ["Mean", "Standard Deviation", "Minimum", "1st Quartile", "Median", "3rd Quartile", "Maximum", "CV"]

# Seleção: Colunas Numéricas
num_cols = df1.select_dtypes(include="number").columns

# Medidas Estatísticas
measures = [
    df1[num_cols].mean(),
    df1[num_cols].std(),
    df1[num_cols].min(),
    df1[num_cols].quantile(0.25),
    df1[num_cols].median(),
    df1[num_cols].quantile(0.75),
    df1[num_cols].max(),
    df1[num_cols].apply(lambda x: (x.std() / x.mean()) * 100)
]

# Criação o DataFrame das Medidas de Resumo
stats_summary = pd.DataFrame(measures, index=columns, columns=num_cols).T.round(2)

# Visualizar
stats_summary

Unnamed: 0,Mean,Standard Deviation,Minimum,1st Quartile,Median,3rd Quartile,Maximum,CV
age,39.11,14.08,18.0,26.0,39.0,51.0,64.0,36.01
bmi,30.7,6.13,15.96,26.22,30.45,34.77,53.13,19.96
children,1.1,1.21,0.0,0.0,1.0,2.0,5.0,110.26
charges,13261.37,12151.77,1121.87,4687.8,9333.02,16577.78,63770.43,91.63


Imagino que você está se perguntando: *"eu preciso fazer tudo isso para obter as medidas de resumo?"* A resposta é óbvia: *Não!*.
Como método de `DataFrame`, temos o `describe()`. **O que o describe faz?** Exatamente o que acabamos de fazer e um pouco mais.

In [574]:
"""
DataFrame.describe(): Crie um Data Frame com as medidas de resumo.
Por ser um Data Frame, podemos usar tudo o que aprendemos para manipular o mesmo.
"""
# Medidas de Resumo
df1.describe()

Unnamed: 0,age,bmi,children,charges
count,2772.0,2772.0,2772.0,2772.0
mean,39.109668,30.701522,1.101732,13261.369957
std,14.081459,6.129228,1.214806,12151.76897
min,18.0,15.96,0.0,1121.87
25%,26.0,26.22,0.0,4687.8
50%,39.0,30.45,1.0,9333.015
75%,51.0,34.77,2.0,16577.78
max,64.0,53.13,5.0,63770.43


As medidas calculadas são: `"count", "mean", "std", "min", "25%", "50%", "75%"` e `"max"`. Com excessão de `"count"` (nº de linhas não nulas) - que não havia no Data Frame que criamos - todas as medidas são as mesmas.

Talvez você não esteja enxergando isso ainda, mas se fizermos:

In [575]:
df1.describe().drop(index="count").T.round(2)

Unnamed: 0,mean,std,min,25%,50%,75%,max
age,39.11,14.08,18.0,26.0,39.0,51.0,64.0
bmi,30.7,6.13,15.96,26.22,30.45,34.77,53.13
children,1.1,1.21,0.0,0.0,1.0,2.0,5.0
charges,13261.37,12151.77,1121.87,4687.8,9333.02,16577.78,63770.43


In [576]:
"""
Agora está identico com excessão da coluna de "CV".
"""
df1.describe().drop(index="count").T.round(2)

Unnamed: 0,mean,std,min,25%,50%,75%,max
age,39.11,14.08,18.0,26.0,39.0,51.0,64.0
bmi,30.7,6.13,15.96,26.22,30.45,34.77,53.13
children,1.1,1.21,0.0,0.0,1.0,2.0,5.0
charges,13261.37,12151.77,1121.87,4687.8,9333.02,16577.78,63770.43


Outra pergunta que você deve está se fazendo é: *"`describe()` só funciona para colunas numéricas?"*. Não!

Para escolher os tipos de colunas que serão aplicadas as estatísticas temos o parâmetro `include` e o parâmetro `exclude`. Como eles funcionam?
- **`include`:** *Inclue* as colunas onde serão aplicadas as estatísticas;
- **`exclude`:** *Excluem* as colunas do Data Frame para que não seja aplicada as estatísticas.

**Quais argumentos devem ser passados para eles?** Uma recomendação do instrutor é usar apenas o `include`. O `include` aceita como argumento:
- **`int`:** Seleciona colunas de `dtype int`;
- **`float`:** Seleciona colunas de `dtype float`;
- **`number`:** Seleciona colunas de `dtype int` e `dtype float`, ou seja, colunas numéricas;
- **`object`:** Seleciona colunas de `dtype object` (texto);
- **`all`:** Seleciona todas as colunas;

In [577]:
df1.describe(include="int").drop(index="count").T.round(2)

Unnamed: 0,mean,std,min,25%,50%,75%,max
age,39.11,14.08,18.0,26.0,39.0,51.0,64.0
children,1.1,1.21,0.0,0.0,1.0,2.0,5.0


In [578]:
"""
Agora está identico com excessão da coluna de "CV".
"""
df1.describe(include="float").drop(index="count").T.round(2)

Unnamed: 0,mean,std,min,25%,50%,75%,max
bmi,30.7,6.13,15.96,26.22,30.45,34.77,53.13
charges,13261.37,12151.77,1121.87,4687.8,9333.02,16577.78,63770.43


In [579]:
"""
Agora está identico com excessão da coluna de "CV".
"""
df1.describe(include="number").drop(index="count").T.round(2)

Unnamed: 0,mean,std,min,25%,50%,75%,max
age,39.11,14.08,18.0,26.0,39.0,51.0,64.0
bmi,30.7,6.13,15.96,26.22,30.45,34.77,53.13
children,1.1,1.21,0.0,0.0,1.0,2.0,5.0
charges,13261.37,12151.77,1121.87,4687.8,9333.02,16577.78,63770.43


In [580]:
"""
Agora está identico com excessão da coluna de "CV".
"""
df1.describe(include="object").drop(index="count").T.round(2)

Unnamed: 0,unique,top,freq
sex,2,male,1406
smoker,2,no,2208
region,4,southeast,766


Perceba que se o argumento for `include="object"`, as medidas estatísticas são outras.
- `count`: Nº de observações não nulas;
- `unique`: Nº de valores únicos. Isto é, de forma mais adequada, nº de categorias;
- `top`: A clase modal desta coluna (variável);
- `freq`: Nº de ocorrências dessa classe.

In [581]:
"""
Agora está identico com excessão da coluna de "CV".
"""
df1.describe(include="all").T.round(2)

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
age,2772.0,,,,39.109668,14.081459,18.0,26.0,39.0,51.0,64.0
sex,2772.0,2.0,male,1406.0,,,,,,,
bmi,2772.0,,,,30.701522,6.129228,15.96,26.22,30.45,34.77,53.13
children,2772.0,,,,1.101732,1.214806,0.0,0.0,1.0,2.0,5.0
smoker,2772.0,2.0,no,2208.0,,,,,,,
region,2772.0,4.0,southeast,766.0,,,,,,,
charges,2772.0,,,,13261.369957,12151.76897,1121.87,4687.8,9333.015,16577.78,63770.43


Perceba que se o argumento for `include="all"`, a visualização e interpretação não fica tão interessante. Porém, vimos que `include="object"` não nos retorna uma análise completa. Para isso, existem outros comandos que podem ser mais interessantes. Vejamos:

In [582]:
# Temos três colunas de alfanuméricos
df1.select_dtypes("object")

Unnamed: 0,sex,smoker,region
0,female,yes,southwest
1,male,no,southeast
2,male,no,southeast
3,male,no,northwest
4,male,no,northwest
...,...,...,...
2767,female,no,southeast
2768,female,no,southwest
2769,male,yes,northwest
2770,male,no,northwest


Como `"sex"` e `"smoker"` tem apenas duas categorias. Poderiamos saber a proporção das classes usando a ideia do complementar.

Porém, a coluna `"region"` tem mais de duas categorias. Através do `describe(include="object")` não saberiamos a proporção das demais categorias. Mas sim, apenas da mais frequente.

In [583]:
# Método value_counts(): Conta o número de cada classe da coluna (variável)
df1["region"].value_counts()

region
southeast    766
southwest    684
northwest    664
northeast    658
Name: count, dtype: int64

O *default* de `value_counts()` conta os valores de forma absoluta. Para obtermos a proporção, podemos fazer uso dos seguintes códigos:

In [584]:
"""
1. Podemos calcular a proporção "manualmente" a partir da série resultante
de df1["region"].value_counts(). Basta fazermos:
"""
# Método value_counts(): Conta o número de cada classe da coluna (variável)
prop_series = df1["region"].value_counts()    # Frequência absoluta de cada classe
prop_series = prop_series / prop_series.sum() # Frequência relativa de cada classe
prop_series = 100 * prop_series               # Proporção de cada classe

# Visualizar
print(prop_series.round(2))

region
southeast    27.63
southwest    24.68
northwest    23.95
northeast    23.74
Name: count, dtype: float64


In [585]:
"""
2. Podemos alterar um parâmetro dentro do método value_counts(). Basta fazermos:
"""
# Método value_counts(): Conta o número de cada classe da coluna (variável)
prop_series = 100 * df1["region"].value_counts(normalize=True)

# Visualizar
print(prop_series.round(2))

region
southeast    27.63
southwest    24.68
northwest    23.95
northeast    23.74
Name: proportion, dtype: float64


### **Agrupamento de Dados**

Dificilmente colhemos apenas uma variável em pesquisas. Isso ocorre pelo motivo que se torna interessante, crucial e acaba sendo um diferencial na pesquisa.

Por exemplo, imagine que nós temos uma loja e fazemos o seu *marketing* e *publicidade*  via três meios de comunicação: *Jornal*, *Rádio* e *Internet*. Essa é uma **variável qualitativa nominal** e sem ela não poderiamos comparar o efeito de onde estão sendo feito o marketing da loja. Suponha que, após uma AED, constatamos que não houve reflexo do markenting feito em jornais é mínimo e na verdade está causando prejuízos para a loja.

Para podermos gerar tais visualizações e análises é necessário agrupar os dados. No Python fazemos isso usando o método `groupby()`!

In [586]:
"""
Vamos gerar mais variáveis.
"""
# Local de Venda e Data de Venda
local = ["BELÉM", "ANANINDEUA", "MARITUBA", "BENEVIDES", "SANTA  BÁRBARA"]
date = pd.date_range(start="2025-01-01", end="2025-05-31", freq="D")

# Fixando semente aleatória
np.random.seed(seed)

# Criação de coluna: Local de Venda e Data de Venda
df.insert(3, "LOCAL", np.random.choice(local, size=df.shape[0]))
df.insert(4, "DATA", np.random.choice(date, size=df.shape[0]))

# Excluindo "SEXO - BINÁRIO"
df.drop(columns="SEXO - BINÁRIO", inplace=True)

# Visualizar
df

Unnamed: 0_level_0,PRODUTO,SEXO,LOCAL,DATA,PREÇO,QUANTIDADE,VENDA
ORDEM DE VENDA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,A,Male,BELÉM,2025-01-21,53.28,9.0,479.52
2,B,Female,SANTA BÁRBARA,2025-02-14,53.41,3.0,160.23
3,C,Male,MARITUBA,2025-05-10,50.96,10.0,509.60
4,D,Female,ANANINDEUA,2025-05-23,71.36,8.0,570.88
5,E,Female,MARITUBA,2025-03-11,25.70,5.0,128.50
...,...,...,...,...,...,...,...
96,A,Female,BENEVIDES,2025-01-27,53.28,6.0,319.68
97,D,Male,ANANINDEUA,2025-01-20,71.36,8.0,570.88
98,F,Female,BENEVIDES,2025-01-04,75.27,4.0,301.08
99,E,Female,BENEVIDES,2025-05-25,25.70,9.0,231.30


In [587]:
# Agrupamento
df.groupby("SEXO")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001A548503AA0>

Perceba que `DataFrame.groupby("Variable")` não faz nada a não ser retorna a mensagem: `<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001A54313CB00>`.

Para usarmos de forma efetiva o `groupby()` temos que realizar alguma *ação* após o agrupamento dos dados.

Desta forma, se torna possível responder a perguntas como:

In [588]:
"""
Em termos de quantidade, quem consome mais, homens ou mulheres?
"""
df.groupby("SEXO")["QUANTIDADE"].sum()

SEXO
Female    308.0
Male      230.0
Name: QUANTIDADE, dtype: float64

In [589]:
"""
Em termos de gastos, quem gasta mais, homens ou mulheres?
"""
df.groupby("SEXO")["VENDA"].sum()

SEXO
Female    17373.45
Male      13154.37
Name: VENDA, dtype: float64

Só consigo agrupar por apenas uma variável? Não, o céu é o limite. Ou melhor, suas variáveis são o limite.

> **Atenção:** Quanto mais agrupamentos, mais difícil se torna a análise!

In [592]:
df.groupby(["LOCAL", "SEXO"])[["VENDA"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,VENDA
LOCAL,SEXO,Unnamed: 2_level_1
ANANINDEUA,Female,390.42
ANANINDEUA,Male,415.633333
BELÉM,Female,302.553
BELÉM,Male,258.030667
BENEVIDES,Female,241.412857
BENEVIDES,Male,402.338333
MARITUBA,Female,319.01
MARITUBA,Male,230.121818
SANTA BÁRBARA,Female,348.342
SANTA BÁRBARA,Male,263.534286


In [593]:
df.groupby([df["DATA"].dt.month, "LOCAL", "SEXO"])[["VENDA"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,VENDA
DATA,LOCAL,SEXO,Unnamed: 3_level_1
1,ANANINDEUA,Female,267.36
1,ANANINDEUA,Male,542.8
1,BELÉM,Female,426.24
1,BELÉM,Male,364.233333
1,BENEVIDES,Female,229.27
1,MARITUBA,Female,510.45
1,SANTA BÁRBARA,Female,277.7575
1,SANTA BÁRBARA,Male,570.88
2,ANANINDEUA,Female,205.6
2,ANANINDEUA,Male,390.17


In [594]:
df.groupby([df["DATA"].dt.month, "LOCAL", "SEXO"])[["PREÇO", "QUANTIDADE", "VENDA"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,PREÇO,QUANTIDADE,VENDA
DATA,LOCAL,SEXO,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,ANANINDEUA,Female,62.32,4.0,267.36
1,ANANINDEUA,Male,67.85,8.0,542.8
1,BELÉM,Female,53.28,8.0,426.24
1,BELÉM,Male,50.308333,6.5,364.233333
1,BENEVIDES,Female,65.2,3.666667,229.27
1,MARITUBA,Female,71.16,7.0,510.45
1,SANTA BÁRBARA,Female,52.805,4.75,277.7575
1,SANTA BÁRBARA,Male,71.36,8.0,570.88
2,ANANINDEUA,Female,25.7,8.0,205.6
2,ANANINDEUA,Male,57.65,7.0,390.17


In [595]:
df.groupby([df["DATA"].dt.month, "LOCAL", "SEXO"])[["PREÇO", "QUANTIDADE", "VENDA"]].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,PREÇO,QUANTIDADE,VENDA
DATA,LOCAL,SEXO,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,ANANINDEUA,Female,124.64,8.0,534.72
1,ANANINDEUA,Male,135.7,16.0,1085.6
1,BELÉM,Female,53.28,8.0,426.24
1,BELÉM,Male,301.85,39.0,2185.4
1,BENEVIDES,Female,195.6,11.0,687.81
1,MARITUBA,Female,142.32,14.0,1020.9
1,SANTA BÁRBARA,Female,211.22,19.0,1111.03
1,SANTA BÁRBARA,Male,71.36,8.0,570.88
2,ANANINDEUA,Female,25.7,8.0,205.6
2,ANANINDEUA,Male,115.3,14.0,780.34


In [594]:
df.groupby([df["DATA"].dt.month, "LOCAL", "SEXO"])[["PREÇO", "QUANTIDADE", "VENDA"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,PREÇO,QUANTIDADE,VENDA
DATA,LOCAL,SEXO,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,ANANINDEUA,Female,62.32,4.0,267.36
1,ANANINDEUA,Male,67.85,8.0,542.8
1,BELÉM,Female,53.28,8.0,426.24
1,BELÉM,Male,50.308333,6.5,364.233333
1,BENEVIDES,Female,65.2,3.666667,229.27
1,MARITUBA,Female,71.16,7.0,510.45
1,SANTA BÁRBARA,Female,52.805,4.75,277.7575
1,SANTA BÁRBARA,Male,71.36,8.0,570.88
2,ANANINDEUA,Female,25.7,8.0,205.6
2,ANANINDEUA,Male,57.65,7.0,390.17


## (2.7) Exportação de Dados

In [None]:
# Exportando Dados em formato CSV
df.to_csv("df.csv", index=False)

# Exportando Dados em formato EXCEL
df.to_excel("df.xlsx", index=False)