# Dataframes

## Definição
São compostos por várias linhas e colunas semelhante a uma tabela de banco de dados.

*Abaixo os códigos para instalar e importar Pandas e Numpy.*

In [None]:
!pip install pandas numpy



In [None]:
import pandas as pd
import numpy as np

Rode o código abaixo para fazer a importação do census.csv.<br>
O mesmo pode ser feito na sessão "Exploração/Importando o Dataset"


In [None]:
dataset = pd.read_csv("census.csv")

# Criação

In [None]:
data = [["Alice", 25, "São Paulo"],
        ["João", 30, "Rio de Janeiro"],
        ["Bruno", 35, "Curitiba"],
        ["Carlos", 40, "Manaus"]]

In [None]:
type(data)

list

In [None]:
colunas = ['Nome', 'Idade', 'Cidade']

## Criando a partir de **listas**
Passa-se duas listas, a de dados e a coluna, a segunda sendo com o parâmetro `columns`.
Sitaxe: `dataframe = pd.DataFrame(data_list, columns=column_list`

In [None]:
df_list = pd.DataFrame(data, columns = colunas)
df_list

Unnamed: 0,Nome,Idade,Cidade
0,Alice,25,São Paulo
1,João,30,Rio de Janeiro
2,Bruno,35,Curitiba
3,Carlos,40,Manaus


## Criado a partir de **Dicionário**

In [None]:
data_2 = {
    "Nome": ['Alice', 'João', 'Bruno', 'Carlos'],
    "Idade": [25, 30, 35, 40],
    "Cidade": ['São Paulo', 'Rio de Janeiro', 'Curitiba', 'Manaus']
}

In [None]:
df_dict = pd.DataFrame(data_2)
df_dict

Unnamed: 0,Nome,Idade,Cidade
0,Alice,25,São Paulo
1,João,30,Rio de Janeiro
2,Bruno,35,Curitiba
3,Carlos,40,Manaus


Como é possível observar, as chaves viraram os nomes das colunas do dataframe e os valores viraram os valores nas colunas.

## Criando com np.array

In [None]:
data_3 = np.array([["Alice", 25, "São Paulo"],
        ["João", 30, "Rio de Janeiro"],
        ["Bruno", 35, "Curitiba"],
        ["Carlos", 40, "Manaus"]])

colunas_data_3 = np.array(['Nome', 'Idade', 'Cidade'])

In [None]:
df_np_array = pd.DataFrame(data_3,columns=colunas_data_3 )
df_np_array

Unnamed: 0,Nome,Idade,Cidade
0,Alice,25,São Paulo
1,João,30,Rio de Janeiro
2,Bruno,35,Curitiba
3,Carlos,40,Manaus


## Criando a partir de Lista de Tuplas

In [None]:
data_4 = [("Alice", 25, "São Paulo"),
        ("João", 30, "Rio de Janeiro"),
        ("Bruno", 35, "Curitiba"),
        ("Carlos", 40, "Manaus")]

colunas_data_4 = ('Nome', 'Idade', 'Cidade')

In [None]:
df_tuplas = pd.DataFrame(data_4, columns=colunas_data_4)
df_tuplas

Unnamed: 0,Nome,Idade,Cidade
0,Alice,25,São Paulo
1,João,30,Rio de Janeiro
2,Bruno,35,Curitiba
3,Carlos,40,Manaus


## Criando a partir de dicionário de series

Um Dataframe é basicamente um conjunto de series, com cada uma de suas colunas sendo considerada uma. Sendo assim, também é possível criar um Dataframe a partir de series.

1. Observe a baixo um dicionário de series:

In [None]:
dict_series = {
               'Nome': pd.Series(['Alice', 'João', 'Bruno', 'Sofia']),
               'Idade': pd.Series([25, 30, 35, 40]),
               'Cidade': pd.Series(['São Paulo', 'Curitiba', 'Rio de Janeiro', 'Manaus'])
              }
dict_series

{'Nome': 0    Alice
 1     João
 2    Bruno
 3    Sofia
 dtype: object,
 'Idade': 0    25
 1    30
 2    35
 3    40
 dtype: int64,
 'Cidade': 0         São Paulo
 1          Curitiba
 2    Rio de Janeiro
 3            Manaus
 dtype: object}

In [None]:
type(dict_series)

dict

2. Agora observe como transformá-lo em Dataframe

In [None]:
df_series = pd.DataFrame(dict_series)
df_series

Unnamed: 0,Nome,Idade,Cidade
0,Alice,25,São Paulo
1,João,30,Curitiba
2,Bruno,35,Rio de Janeiro
3,Sofia,40,Manaus


## Criando a partir de dicionário de arrays

Pense num dicionário de arrays uma estrutura onde as chaves são os nomes dos elementos no array e os valores são as estruturas de array do Numpy.

In [None]:
dict_np_array = {
               'Nome': np.array(['Alice', 'João', 'Bruno', 'Sofia']),
               'Idade': np.array([25, 30, 35, 40]),
               'Cidade': np.array(['São Paulo', 'Curitiba', 'Rio de Janeiro', 'Manaus'])
              }
dict_np_array

{'Nome': array(['Alice', 'João', 'Bruno', 'Sofia'], dtype='<U5'),
 'Idade': array([25, 30, 35, 40]),
 'Cidade': array(['São Paulo', 'Curitiba', 'Rio de Janeiro', 'Manaus'], dtype='<U14')}

In [None]:
type(dict_np_array)

dict

In [None]:
df_dict_np_arrays = pd.DataFrame(dict_np_array)
df_dict_np_arrays

Unnamed: 0,Nome,Idade,Cidade
0,Alice,25,São Paulo
1,João,30,Curitiba
2,Bruno,35,Rio de Janeiro
3,Sofia,40,Manaus


# Exploração

## Importando o Dataset

Para essa parte, usaremos o arquivo csv "census.csv".

In [None]:
dataset = pd.read_csv("census.csv")
dataset

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


O método usado para importar o arquivo é outra forma de criar um Dataframe, ou seja, a variável `dataset` é um Dataframe.

## Métodos para explorar um Dataframe

Esses métodos retornam partes do Dataframe ou informações sobre ele e seus elementos...

### Retornando os 5 primeiros registros
Esse comando aceita parâmetros de modo a poder retornar até o número passado nos seus:<br>
`df.head(x)`

In [None]:
dataset.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


### Retornando os 5 últimos registros

Esse método retorna os 5 últimos registros ou do último até um valor x passado em seus parâmetros:<br>
`df.tail(x)`

In [None]:
dataset.tail()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K
32560,52,Self-emp-inc,287927,HS-grad,9,Married-civ-spouse,Exec-managerial,Wife,White,Female,15024,0,40,United-States,>50K


### Número de linhas e colunas

Retorna o número de registros e colunas na estrutura.

In [None]:
dataset.shape

(32561, 15)

### Tamanho da estrutura

Retorna a quantidade de dados na estrutura, sendo basicamente o produto entre os registros e as colunas.

In [None]:
dataset.size

488415

### Range do index

Dá informações sobre os índices da base de dados sendo:<br>
1. onde começa - *índice inicial*
2. onde termina - *índice final*
3. de quanto em quanto avança - *steps dos índices*

In [None]:
dataset.index

RangeIndex(start=0, stop=32561, step=1)

### Nomes das colunas

Com esse método é possível obter os nomes de todas as colunas do Dataframe.

In [None]:
dataset.columns

Index(['age', 'workclass', 'final-weight', 'education', 'education-num',
       'marital-status', 'occupation', 'relationship', 'race', 'sex',
       'capital-gain', 'capital-loos', 'hour-per-week', 'native-country',
       'income'],
      dtype='object')

### Informações índices x colunas

O retorno desse método é a soma do retorno de `df.index` e `df.columns`.

In [None]:
dataset.axes

[RangeIndex(start=0, stop=32561, step=1),
 Index(['age', 'workclass', 'final-weight', 'education', 'education-num',
        'marital-status', 'occupation', 'relationship', 'race', 'sex',
        'capital-gain', 'capital-loos', 'hour-per-week', 'native-country',
        'income'],
       dtype='object')]

### Informações sobre os tipos das colunas

Esse método dá o tipo dos dados armazenados em cada coluna. (object = string)

In [None]:
dataset.dtypes

Unnamed: 0,0
age,int64
workclass,object
final-weight,int64
education,object
education-num,int64
marital-status,object
occupation,object
relationship,object
race,object
sex,object


### Detalhes sobre o Dataframe

Com esse método pode-se obter detalhes sobre o Dataframe como: classe/tipo do df, range de seus índices, total de colunas, índices, nomes das colunas, quantidade de dados não núlos em cada coluna, tipo dos dados na coluna.

In [None]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       32561 non-null  object
 2   final-weight    32561 non-null  int64 
 3   education       32561 non-null  object
 4   education-num   32561 non-null  int64 
 5   marital-status  32561 non-null  object
 6   occupation      32561 non-null  object
 7   relationship    32561 non-null  object
 8   race            32561 non-null  object
 9   sex             32561 non-null  object
 10  capital-gain    32561 non-null  int64 
 11  capital-loos    32561 non-null  int64 
 12  hour-per-week   32561 non-null  int64 
 13  native-country  32561 non-null  object
 14  income          32561 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


#### Descrição do Dataframe

O retorno é um conjunto de contage, média, desvio padrão, valor mínimo, resultados de cortes em 1/4, 1/2, 3/4 da tabela para as colunas que são do tipo numérico.

In [None]:
dataset.describe()

Unnamed: 0,age,final-weight,education-num,capital-gain,capital-loos,hour-per-week
count,32561.0,32561.0,32561.0,32561.0,32561.0,32561.0
mean,38.581647,189778.4,10.080679,1077.648844,87.30383,40.437456
std,13.640433,105550.0,2.57272,7385.292085,402.960219,12.347429
min,17.0,12285.0,1.0,0.0,0.0,1.0
25%,28.0,117827.0,9.0,0.0,0.0,40.0
50%,37.0,178356.0,10.0,0.0,0.0,40.0
75%,48.0,237051.0,12.0,0.0,0.0,45.0
max,90.0,1484705.0,16.0,99999.0,4356.0,99.0


# Acesso com loc e iloc

## loc

Da mesma forma que nas series, acesso por loc é basicamente acessar pelos nomes mas nesse caso, das colunas.

### Acessando colunas

Ao usar loc com o nome de uma das colunas temos acesso a todos os dados daquela coluna no Dataframe. (efetivamente o que é feito é retornar uma serie.)

In [None]:
dataset["age"]

Unnamed: 0,age
0,39
1,50
2,38
3,53
4,28
...,...
32556,27
32557,40
32558,58
32559,22


In [None]:
type(dataset["age"])

Acessando uma coluna de dados numéricos podemos aplicar um método como visto nas series. <br>
O comando abaixo retorna a média de todas as idades no Dataframe.

In [None]:
dataset["age"].mean()

38.58164675532078

### Acessando múltiplas colunas de uma só vez

Para fazê-lo, basta passar como parâmetro do loc, uma lista com todas os nomes de colunas que desejamos ter acesso.

In [None]:
dataset[["age", "income"]]

Unnamed: 0,age,income
0,39,<=50K
1,50,<=50K
2,38,<=50K
3,53,<=50K
4,28,<=50K
...,...,...
32556,27,<=50K
32557,40,>50K
32558,58,<=50K
32559,22,<=50K


### Selecionando Colunas para acessar

Para tal retorno, basta passar a faixa de registros desejados, usando slicing, e a lista de colunas desejadas.

In [None]:
dataset.loc[:, ["age", "workclass", "education"]]

Unnamed: 0,age,workclass,education
0,39,State-gov,Bachelors
1,50,Self-emp-not-inc,Bachelors
2,38,Private,HS-grad
3,53,Private,11th
4,28,Private,Bachelors
...,...,...,...
32556,27,Private,Assoc-acdm
32557,40,Private,HS-grad
32558,58,Private,HS-grad
32559,22,Private,HS-grad


### Slicing de Linhas e Colunas

É possível aplicar slicing também com as colunas de forma semelhante ao que é feito com os valores numéricos dos registros. <br>
O código abaixo retorna da primeira à sétima linha e da coluna *age* até a *occupation*.

In [None]:
dataset.loc[:7, "age":"occupation"]

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty
5,37,Private,284582,Masters,14,Married-civ-spouse,Exec-managerial
6,49,Private,160187,9th,5,Married-spouse-absent,Other-service
7,52,Self-emp-not-inc,209642,HS-grad,9,Married-civ-spouse,Exec-managerial


## iloc

### Filtrando com loc e iloc

Após acessada uma coluna (com loc), é possível definir a faixa de registros que se quer retornar.

In [None]:
dataset["age"].iloc[:7]

Unnamed: 0,age
0,39
1,50
2,38
3,53
4,28
5,37
6,49


Outra forma de acesso que faz a mesma coisa é:

In [None]:
dataset.age.iloc[:7]

#### Acessando colunas por valores numéricos

Colunas podem ser acessadas por seus nomes e por seus valores numéricos começando em 0 depois 1 e assim por diante.<br>
O código abaixo retorna a faixa da primeira à sétima linha nas colunas 0 (primeira) até a 5.

In [None]:
dataset.iloc[0:7,0:5]

Unnamed: 0,age,workclass,final-weight,education,education-num
0,39,State-gov,77516,Bachelors,13
1,50,Self-emp-not-inc,83311,Bachelors,13
2,38,Private,215646,HS-grad,9
3,53,Private,234721,11th,7
4,28,Private,338409,Bachelors,13
5,37,Private,284582,Masters,14
6,49,Private,160187,9th,5


### Retornando faixa de linhas para todas as colunas

Para tal resultado basta usar uma das formas abaixo:<br>
1. Passando somente ":" como segundo parâmetro para expressar a faixa de colunas.<br>
2. Simplesmente não passar segundo parâmetro algum.


In [None]:
dataset.iloc[0:4,:]

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K


In [None]:
dataset.iloc[0:4]

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K


### Selecionando colunas através de números

O conceito é muito simples, bastando usar a indexação numérica das colunas dentro de uma lista como segundo parâmetro.
`df.iloc[<lines_slicing>, [<colum_index_nums>]`

In [None]:
dataset.iloc[0:7, [0, 3, 14]]

Unnamed: 0,age,education,income
0,39,Bachelors,<=50K
1,50,Bachelors,<=50K
2,38,HS-grad,<=50K
3,53,11th,<=50K
4,28,Bachelors,<=50K
5,37,Masters,<=50K
6,49,9th,<=50K


### Retornando determinada faixa de linhas e colunas

Para tal, passe dois parâmetros ao iloc:
1. slicing de linhas.
2. slicing de colunas.

Esse comando retorna as primeiras 5 colunas do Dataframe e suas primeiras 1K de linhas.


In [None]:
dataset.iloc[:1000, 0:5]

Unnamed: 0,age,workclass,final-weight,education,education-num
0,39,State-gov,77516,Bachelors,13
1,50,Self-emp-not-inc,83311,Bachelors,13
2,38,Private,215646,HS-grad,9
3,53,Private,234721,11th,7
4,28,Private,338409,Bachelors,13
...,...,...,...,...,...
995,56,Private,112840,HS-grad,9
996,45,Private,89325,Masters,14
997,48,Federal-gov,33109,Bachelors,13
998,40,Private,82465,Some-college,10


# Apagando linhas e colunas

Ambas exclusões funcionam a través do mesmo comando, mas usamos o parâmetro **axis = 1** para referirmos a uma coluna e **axis = 0** para referirmos a uma linha.

## Apagando Colunas

Esse comando apaga a coluna *workclass* na visualização do Dataframe.<br>

In [None]:
dataset.drop("workclass", axis=1)

Unnamed: 0,age,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


Para apagar a coluna em definitivo é preciso usa o parâmetro **inplace = True**. <br>
Ou, salvar a visualização num novo Dataframe.

In [None]:
dataset.drop("workclass", axis=1, inplace=True)

In [None]:
dataset_2 = dataset.drop("workclass", axis=1)

### Apagando múltiplas colunas

Para tal, passe uma lista de nome de colunas.

In [None]:
dataset.drop(["age","workclass"], axis=1,)

## Apagando Linhas

No caso das linhas, usamos números para apagá-las e definimos o parâmetro axis como 0.

In [None]:
dataset.drop(0, axis = 0)

### Apagando múltiplas linhas

Basta passar uma lista com os números das linhas desejadas.

In [None]:
dataset.drop([0,2,4], axis = 0)

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
5,37,Private,284582,Masters,14,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,40,United-States,<=50K
6,49,Private,160187,9th,5,Married-spouse-absent,Other-service,Not-in-family,Black,Female,0,0,16,Jamaica,<=50K
7,52,Self-emp-not-inc,209642,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,45,United-States,>50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


Igual a com as colunas, para salvar a exclusão é preciso ou usar inplace = True ou salvar a visualização num novo Dataframe.

In [None]:
dataset.drop(0, axis = 0, inplace = True)

In [None]:
dataset_2 = dataset.drop(0, axis = 0, inplace = True)

### Resetando índices após exclusão de coluna

Após excluir linhas, os índices ficam desorganizados. <br>
Para retornar ao estado normal, é preciso usar:

In [None]:
dataset.reset_index(drop = True, inplace = True)

# Linhas Duplicadas

## Retornando quais e quantos registros são duplicados

O comando abaixo gera uma serie onde os valores True indicam que aquele registro é duplicado

In [None]:
dataset.duplicated()

Unnamed: 0,0
0,False
1,False
2,False
3,False
4,False
...,...
32556,False
32557,False
32558,False
32559,False


Ao adiocionar `.sum()` ao fim do comando passa-se a retornar **quantos** são os registros duplicados.

In [None]:
dataset.duplicated().sum()

24

## Apagando os registros duplicados

Para simplesmente remover todas as linhas iguais, use o comando abaixo. Lembre-se de salvar o resultado num novo Dataframe ou usar o parâmetro inplace.

In [None]:
dataset.drop_duplicates()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


## Checando duplicatas numa coluna específica

Para tal efeito basta passar o parâmetro `subset = <nome_da_coluna>`. <br>
No comando abaixo está sendo checada a coluna de idades e, obviamente, haverão pessoas com idades iguais. Também é usado o .sum() que retorna quantas são essas idades duplicadas.

In [None]:
dataset.duplicated(subset = "age").sum()

32488

## Parâmetros keep e ignore_index

Os parâmetros `keep = "last"` e `ignore_index = True` no `drop_duplicates` faz com que a última das duplicatas seja mantida enquanto se apaga todas as outras, e o segundo parâmetro reorganiza os índices conforme apaga-se linhas.

In [None]:
dataset.drop_duplicates(subset = "age", keep = "last", ignore_index = True)

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,88,Private,68539,Some-college,10,Divorced,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
1,86,Private,149912,Masters,14,Never-married,Adm-clerical,Not-in-family,White,Female,0,0,40,United-States,<=50K
2,77,Private,154205,HS-grad,9,Widowed,Adm-clerical,Not-in-family,White,Female,0,0,10,United-States,<=50K
3,83,Self-emp-inc,153183,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,2392,55,United-States,>50K
4,76,Self-emp-not-inc,117169,7th-8th,4,Never-married,Farming-fishing,Not-in-family,White,Male,0,0,30,United-States,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
68,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
69,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
70,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
71,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


# Valores Faltantes

## Buscando valores NaN

A forma mais comum de buscar valores faltantes é deduzir que são do tipo `np.nan` e usar `isna()`.

In [None]:
dataset.isna().sum()

Unnamed: 0,0
age,0
workclass,0
final-weight,0
education,0
education-num,0
marital-status,0
occupation,0
relationship,0
race,0
sex,0


## Buscando valores faltantes expressos em outros formatos

Em algumas bases de dados os valores faltantes podem aparecer em outros formatos. Essa por exemplo aparece nas colunas que são Strings como "?" e para tal precisamos buscar com um filtro que usa `.contains("\?")`.

In [None]:
dataset.loc[dataset["workclass"].str.contains("\?")]

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
27,54,?,180211,Some-college,10,Married-civ-spouse,?,Husband,Asian-Pac-Islander,Male,0,0,60,South,>50K
61,32,?,293936,7th-8th,4,Married-spouse-absent,?,Not-in-family,White,Male,0,0,40,?,<=50K
69,25,?,200681,Some-college,10,Never-married,?,Own-child,White,Male,0,0,40,United-States,<=50K
77,67,?,212759,10th,6,Married-civ-spouse,?,Husband,White,Male,0,0,2,United-States,<=50K
106,17,?,304873,10th,6,Never-married,?,Own-child,White,Female,34095,0,32,United-States,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32530,35,?,320084,Bachelors,13,Married-civ-spouse,?,Wife,White,Female,0,0,55,United-States,>50K
32531,30,?,33811,Bachelors,13,Never-married,?,Not-in-family,Asian-Pac-Islander,Female,0,0,99,United-States,<=50K
32539,71,?,287372,Doctorate,16,Married-civ-spouse,?,Husband,White,Male,0,0,10,United-States,>50K
32541,41,?,202822,HS-grad,9,Separated,?,Not-in-family,Black,Female,0,0,32,United-States,<=50K


Adicionando .sum ao final do filtro temos a quantidade de registros com "?".

In [None]:
dataset["workclass"].str.contains("\?").sum()

1836

O código abaixo percorre as colunas do tipo String e checa quantas das suas linhas são "?".

In [None]:
colunas_categoricas = ["workclass", 'education', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'native-country']

In [None]:
for coluna in colunas_categoricas:
  print(coluna, ":", dataset[coluna].str.contains('\?').sum())

workclass : 1836
education : 0
marital-status : 0
occupation : 1843
relationship : 0
race : 0
sex : 0
native-country : 583


## Substituíndo usando Replace

Caso queira-se trocar esses valores faltantes podemos usar `.replace()` para transforma-los em `np.nan`. <br>
Usa-se o for aqui para percorrer todas as colunas prováveis de ter "?".

In [None]:
for coluna in colunas_categoricas:
  dataset[coluna].replace(' ?', np.nan, inplace = True)

## Checando por NaN nos conjuntos de colunas

Agora pode-se checar por NaN em todo Dataframe. O retorno terá os nomes das colunas seguido da quantidade de NaNs em seus registros.

In [None]:
dataset.isna().sum()

Unnamed: 0,0
age,0
workclass,1836
final-weight,0
education,0
education-num,0
marital-status,0
occupation,1843
relationship,0
race,0
sex,0


## Lidando com os valores NaN

### Preenchendo com valor qualquer

In [None]:
dataset.fillna("NOT INFORMED").iloc[:30]

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
5,37,Private,284582,Masters,14,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,40,United-States,<=50K
6,49,Private,160187,9th,5,Married-spouse-absent,Other-service,Not-in-family,Black,Female,0,0,16,Jamaica,<=50K
7,52,Self-emp-not-inc,209642,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,45,United-States,>50K
8,31,Private,45781,Masters,14,Never-married,Prof-specialty,Not-in-family,White,Female,14084,0,50,United-States,>50K
9,42,Private,159449,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,5178,0,40,United-States,>50K


### Preenchendo com a moda

Pelo fato das colunas serem do tipo String, podemos preencher esses valores faltantes com as modas de cada **uma**

In [None]:
dataset['workclass'].mode()

Unnamed: 0,workclass
0,Private


In [None]:
dataset['occupation'].mode()

Unnamed: 0,occupation
0,Prof-specialty


In [None]:
dataset["native-country"].mode()

Unnamed: 0,native-country
0,United-States


Efetivamente preenchendo com a moda de cada uma:
(observe que usa-se iloc[0] pelo fato do retorno de cada método mode ser uma serie)

In [None]:
dataset["workclass"].fillna(dataset["workclass"].mode().iloc[0], inplace = True)
dataset["occupation"].fillna(dataset["occupation"].mode().iloc[0], inplace = True)
dataset["native-country"].fillna(dataset["native-country"].mode().iloc[0], inplace = True)

### Apagando os registros NaN

Não é recomendado mas podemos simplesmete descartar os registros onde há NaNs, bastando usar o parâmetro `subset = <nome_da_coluna>`.<br>
o exemplo abaixo com "workclass" não retornará nada pois já tratamos a coluna.

In [None]:
dataset.dropna(subset = "workclass")

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


# Contagem

## Usando `value_counts()`

O uso do método pode ser tanto no dataset como um todo (o que retorna uma resposta muito confusa):

In [None]:
dataset.value_counts()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Unnamed: 9_level_0,Unnamed: 10_level_0,Unnamed: 11_level_0,Unnamed: 12_level_0,Unnamed: 13_level_0,Unnamed: 14_level_0,count
age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,Unnamed: 15_level_1
25,Private,195994,1st-4th,2,Never-married,Priv-house-serv,Not-in-family,White,Female,0,0,40,Guatemala,<=50K,3
23,Private,240137,5th-6th,3,Never-married,Handlers-cleaners,Not-in-family,White,Male,0,0,55,Mexico,<=50K,2
38,Private,207202,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,48,United-States,>50K,2
30,Private,144593,HS-grad,9,Never-married,Other-service,Not-in-family,Black,Male,0,0,40,?,<=50K,2
49,Self-emp-not-inc,43479,Some-college,10,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,40,United-States,<=50K,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
31,Private,128567,HS-grad,9,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,40,United-States,<=50K,1
31,Private,128493,HS-grad,9,Divorced,Other-service,Not-in-family,White,Female,0,0,25,United-States,<=50K,1
31,Private,128220,7th-8th,4,Widowed,Adm-clerical,Not-in-family,White,Female,0,0,35,United-States,<=50K,1
31,Private,127610,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,White,Female,0,0,40,United-States,>50K,1


Quando em colunas específicas, que agruparão os dados presentes nessa coluna:

In [None]:
dataset.age.value_counts()

Unnamed: 0_level_0,count
age,Unnamed: 1_level_1
36,898
31,888
34,886
23,877
35,876
...,...
83,6
88,3
85,3
86,1


Fazendo o mesmo acesso com o loc:

In [None]:
dataset["workclass"].value_counts()

Unnamed: 0_level_0,count
workclass,Unnamed: 1_level_1
Private,22696
Self-emp-not-inc,2541
Local-gov,2093
?,1836
State-gov,1298
Self-emp-inc,1116
Federal-gov,960
Without-pay,14
Never-worked,7


O parâmetro `normalize = True` faz com que o retorno seja em porcentagens:

In [None]:
dataset["workclass"].value_counts(normalize = True)

Unnamed: 0_level_0,proportion
workclass,Unnamed: 1_level_1
Private,0.69703
Self-emp-not-inc,0.078038
Local-gov,0.064279
?,0.056386
State-gov,0.039864
Self-emp-inc,0.034274
Federal-gov,0.029483
Without-pay,0.00043
Never-worked,0.000215


Adicionando `sort = False` o retorno ordenado é desativado:

In [None]:
dataset["workclass"].value_counts(normalize = True, sort = False)

Unnamed: 0_level_0,proportion
workclass,Unnamed: 1_level_1
State-gov,0.039864
Self-emp-not-inc,0.078038
Private,0.69703
Federal-gov,0.029483
Local-gov,0.064279
?,0.056386
Self-emp-inc,0.034274
Without-pay,0.00043
Never-worked,0.000215


## Percorrendo as colunas e então contando os valores(categóricos)

É possível, com uma **estrutura de repetição**, percorrer o Dataframe, pegando somente as colunas onde o dtype sejam categóricos (object/string) para então usar value_counts em cada coluna dessas e então ter o retorno da contagem em cada uma das colunas categoricas.

In [None]:
for coluna in dataset.columns:
  if dataset[coluna].dtype == object:
    print('=========', coluna, '=========')
    print(dataset[coluna].value_counts(normalize = True), '\n')

workclass
Private             0.697030
Self-emp-not-inc    0.078038
Local-gov           0.064279
?                   0.056386
State-gov           0.039864
Self-emp-inc        0.034274
Federal-gov         0.029483
Without-pay         0.000430
Never-worked        0.000215
Name: proportion, dtype: float64 

education
HS-grad         0.322502
Some-college    0.223918
Bachelors       0.164461
Masters         0.052916
Assoc-voc       0.042443
11th            0.036086
Assoc-acdm      0.032769
10th            0.028654
7th-8th         0.019840
Prof-school     0.017690
9th             0.015786
12th            0.013298
Doctorate       0.012684
5th-6th         0.010227
1st-4th         0.005160
Preschool       0.001566
Name: proportion, dtype: float64 

marital-status
Married-civ-spouse       0.459937
Never-married            0.328092
Divorced                 0.136452
Separated                0.031479
Widowed                  0.030497
Married-spouse-absent    0.012837
Married-AF-spouse        0.000

# Ordenação

## Dataset completo, por índice

Podemos, obviamente, ordenar pelo índice do Dataframe todo, sendo:
- ascending True: simplesmente retorna o Dataframe de forma normal, exibição padrão.
- ascending False: retorna o Dataframe a partir da última linha para a primeira.

A ordenação por index quando o Dataframe tem esse, numérico, é um tanto quanto inútil.

In [None]:
dataset.sort_index(ascending = False)

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
32560,52,Self-emp-inc,287927,HS-grad,9,Married-civ-spouse,Exec-managerial,Wife,White,Female,15024,0,40,United-States,>50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K


## Por valores em uma coluna

Usando `sort_values` passando o nome de uma coluna como parâmetro, temos o ordenamento feito nesse conjunto específico.<br>
Quando a coluna tem valores numéricos eles são ordenados de 0 a 9 ou vice versa dependendo do parâmetro ascending ser True ou False.<br>
Em colunas de valores strings/categóricos/object, a ordenação é feita a partir de caracteres especiais até z, de novo, dependendo se ascending é True ou False.

In [None]:
dataset.sort_values("workclass")

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
14123,41,?,339682,5th-6th,3,Married-civ-spouse,?,Husband,White,Male,0,0,40,Mexico,<=50K
1371,61,?,190997,HS-grad,9,Married-civ-spouse,?,Husband,White,Male,0,0,6,United-States,<=50K
2476,21,?,219835,Assoc-voc,11,Never-married,?,Not-in-family,White,Male,0,0,40,United-States,<=50K
7340,20,?,308924,Some-college,10,Never-married,?,Own-child,White,Male,0,0,25,United-States,<=50K
3239,17,?,110998,Some-college,10,Never-married,?,Own-child,Asian-Pac-Islander,Female,0,0,40,Philippines,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9257,19,Without-pay,344858,HS-grad,9,Never-married,Farming-fishing,Own-child,White,Male,0,0,20,United-States,<=50K
22215,19,Without-pay,43887,HS-grad,9,Never-married,Farming-fishing,Own-child,White,Male,0,0,10,United-States,<=50K
16812,46,Without-pay,142210,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Wife,White,Female,0,0,25,United-States,<=50K
21944,52,Without-pay,198262,HS-grad,9,Married-civ-spouse,Adm-clerical,Wife,White,Female,0,0,30,United-States,<=50K


## Ordenando multiplas colunas de uma vez

Para tal, passe uma lista com os nomes das colunas.

In [None]:
dataset.sort_values(["age", "workclass"])

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
106,17,?,304873,10th,6,Never-married,?,Own-child,White,Female,34095,0,32,United-States,<=50K
431,17,?,202521,11th,7,Never-married,?,Own-child,White,Male,0,0,40,United-States,<=50K
449,17,?,258872,11th,7,Never-married,?,Own-child,White,Female,0,0,5,United-States,<=50K
671,17,?,80077,11th,7,Never-married,?,Own-child,White,Female,0,0,20,United-States,<=50K
1325,17,?,138507,10th,6,Never-married,?,Own-child,White,Male,0,0,20,United-States,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
31030,90,Private,47929,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,<=50K
32277,90,Private,313749,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,25,United-States,<=50K
6232,90,Self-emp-not-inc,155981,Bachelors,13,Married-civ-spouse,Prof-specialty,Husband,White,Male,10566,0,50,United-States,<=50K
10210,90,Self-emp-not-inc,282095,Some-college,10,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,40,United-States,<=50K


Lidando com múltiplas colunas, o ascending também é definido em lista, de booleans, cada elemento correspondendo ao na mesma posição dos elementos na lista de colunas.

In [None]:
dataset.sort_values(["age", "workclass"], ascending = [False, True])

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
4109,90,?,256514,Bachelors,13,Widowed,?,Other-relative,White,Female,991,0,10,United-States,<=50K
8963,90,?,77053,HS-grad,9,Widowed,?,Not-in-family,White,Female,0,4356,40,United-States,<=50K
11731,90,?,39824,HS-grad,9,Widowed,?,Not-in-family,White,Male,401,0,4,United-States,<=50K
12451,90,?,225063,Some-college,10,Never-married,?,Own-child,Asian-Pac-Islander,Male,0,0,10,South,<=50K
24238,90,?,166343,1st-4th,2,Widowed,?,Not-in-family,Black,Female,0,0,40,United-States,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12361,17,Self-emp-not-inc,36218,11th,7,Never-married,Farming-fishing,Own-child,White,Male,0,0,20,United-States,<=50K
13536,17,Self-emp-not-inc,181317,10th,6,Never-married,Farming-fishing,Own-child,White,Male,0,0,35,United-States,<=50K
26090,17,Self-emp-not-inc,174120,12th,8,Never-married,Handlers-cleaners,Own-child,White,Male,0,0,15,United-States,<=50K
8094,17,State-gov,117906,10th,6,Never-married,Farming-fishing,Own-child,White,Male,0,0,40,United-States,<=50K


### Efetivamente ordenando o Dataframe (salvando as mudanças)

Obviamente, pode-se adicionar o parâmetro inplace = True para refletir a ordenação no Dataframe sem precisar criar outro.

In [None]:
dataset.sort_values(["age", "workclass"], ascending = [False, True], inplace = True)

Ao reordenar os valores da coluna, os índices ficam fora de ordem e para corrigir, usamos o reset_index da seguinte forma:

In [None]:
dataset.reset_index(drop = True, inplace = True)

# Filtragem

Filtragem é feita usando `.loc`. <br>
Para uma situação onde precisamos filtrar um valor de uma coluna pode-se fazer o acesso a ela de uma das duas formas mostradas abaixo:

In [None]:
dataset.loc[dataset["education"] == ' Bachelors']

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
9,42,Private,159449,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,5178,0,40,United-States,>50K
11,30,State-gov,141297,Bachelors,13,Married-civ-spouse,Prof-specialty,Husband,Asian-Pac-Islander,Male,0,0,40,India,>50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32530,35,?,320084,Bachelors,13,Married-civ-spouse,?,Wife,White,Female,0,0,55,United-States,>50K
32531,30,?,33811,Bachelors,13,Never-married,?,Not-in-family,Asian-Pac-Islander,Female,0,0,99,United-States,<=50K
32533,54,Private,337992,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,Asian-Pac-Islander,Male,0,0,50,Japan,>50K
32536,34,Private,160216,Bachelors,13,Never-married,Exec-managerial,Not-in-family,White,Female,0,0,55,United-States,>50K


In [None]:
dataset.loc[dataset["education"] == ' Bachelors']

## Filtragem e controle de colunas exibidas

Feito a filtragem, é possível definir qual ou quais colunas o retorno exibirá, passando uma lista como parâmetro após a filtragem, ainda dentro do loc.<br>
`dataframe.loc[dataframe['<filtragem>'], [lista_de_colunas]`

In [None]:
dataset.loc[dataset["education"] == ' Bachelors', ["age", 'workclass', 'education-num']]

Unnamed: 0,age,workclass,education-num
0,39,State-gov,13
1,50,Self-emp-not-inc,13
4,28,Private,13
9,42,Private,13
11,30,State-gov,13
...,...,...,...
32530,35,?,13
32531,30,?,13
32533,54,Private,13
32536,34,Private,13


## Filtros combinados

Para combinar mais de uma condicional usa-se os filtros individuais, cada um dentro de parênteses, e conecta-se eles com operadores com o `&` e `|`.Observe a estrutura do comando abaixo:<br>
`datafreme.loc[(<filtro_1>) <conector> (<filtro_2>)]`
Dentro de cada filtro terá outro .loc:
`...(dataframe.loc[<filtro>])...`



In [None]:
dataset.loc[(dataset["education-num"] == 6) & (dataset["marital-status"] == ' Never-married')]

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
106,17,?,304873,10th,6,Never-married,?,Own-child,White,Female,34095,0,32,United-States,<=50K
219,25,Private,255004,10th,6,Never-married,Craft-repair,Not-in-family,White,Male,0,0,40,United-States,<=50K
424,33,Private,228528,10th,6,Never-married,Craft-repair,Unmarried,White,Female,0,0,35,United-States,<=50K
478,27,Private,161155,10th,6,Never-married,Other-service,Not-in-family,White,Male,0,0,40,United-States,<=50K
609,17,Private,169658,10th,6,Never-married,Other-service,Own-child,White,Female,0,0,21,United-States,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
31904,55,Private,100054,10th,6,Never-married,Other-service,Not-in-family,White,Male,0,0,40,United-States,<=50K
31954,34,Private,111589,10th,6,Never-married,Other-service,Unmarried,Black,Female,0,0,40,Jamaica,<=50K
32170,41,Private,151736,10th,6,Never-married,Machine-op-inspct,Not-in-family,White,Male,0,0,40,United-States,<=50K
32447,17,Private,117798,10th,6,Never-married,Other-service,Own-child,White,Male,0,0,20,United-States,<=50K


## Filtros com `.query`

Esse método é semelhante com consultas SQL.<br>
Seu parâmetro é uma string e os conectores serão "and" ou "or".<br>
Outro detalhe importante é: caso o nome da coluna seja composto por símbolos como "-", é preciso passá-los entre "aspas especiais": (``).
Observe a query abaixo:<br>

In [None]:
dataset.query("`education-num` == 6 and `marital-status` == ' Never-married'")

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
106,17,?,304873,10th,6,Never-married,?,Own-child,White,Female,34095,0,32,United-States,<=50K
219,25,Private,255004,10th,6,Never-married,Craft-repair,Not-in-family,White,Male,0,0,40,United-States,<=50K
424,33,Private,228528,10th,6,Never-married,Craft-repair,Unmarried,White,Female,0,0,35,United-States,<=50K
478,27,Private,161155,10th,6,Never-married,Other-service,Not-in-family,White,Male,0,0,40,United-States,<=50K
609,17,Private,169658,10th,6,Never-married,Other-service,Own-child,White,Female,0,0,21,United-States,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
31904,55,Private,100054,10th,6,Never-married,Other-service,Not-in-family,White,Male,0,0,40,United-States,<=50K
31954,34,Private,111589,10th,6,Never-married,Other-service,Unmarried,Black,Female,0,0,40,Jamaica,<=50K
32170,41,Private,151736,10th,6,Never-married,Machine-op-inspct,Not-in-family,White,Male,0,0,40,United-States,<=50K
32447,17,Private,117798,10th,6,Never-married,Other-service,Own-child,White,Male,0,0,20,United-States,<=50K


Caso os nomes das colunas não sejam compostos de tal forma, simplesmente passe-os de forma direta.

In [None]:
dataset.query("age > 35 and workclass == ' Private'")

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
5,37,Private,284582,Masters,14,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,40,United-States,<=50K
6,49,Private,160187,9th,5,Married-spouse-absent,Other-service,Not-in-family,Black,Female,0,0,16,Jamaica,<=50K
9,42,Private,159449,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,5178,0,40,United-States,>50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32547,43,Private,260761,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,Mexico,<=50K
32552,43,Private,84661,Assoc-voc,11,Married-civ-spouse,Sales,Husband,White,Male,0,0,45,United-States,<=50K
32554,53,Private,321865,Masters,14,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,40,United-States,>50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K


### Explicação comando query

1. É feita a consulta com query que filtra as idades em maiores que 25 anos e onde a "workclass" seja "Private".
2. O segundo loc é composto por duas partes: `.loc[:,:]`, os primeiros dois pontos fazem fatiamento das linhas e no estado que está, retorna todas as linhas dentro do filtro e os segundos retornam somente a coluna "capital-gain".
3. O comando .sum() faz o somatório de todos os valores na coluna "capital-gain".

In [None]:
dataset.query("age > 25 and workclass == ' Private'").loc[:,"capital-gain"].sum()

19483553

# Renomeando e ordenando

Esses métodos têm função de *renomear as colunas*

## Método df.upper()
Esse método torna o nome da coluna em caracteres maiúsculos.<br>
Abaixo é usado um for para percorrer todas as colunas do Dataframe e o método é usado em cada uma, uma por vez.

In [None]:
dataset.columns = [coluna.upper() for coluna in dataset.columns]
dataset.columns

Index(['AGE', 'WORKCLASS', 'FINAL-WEIGHT', 'EDUCATION', 'EDUCATION-NUM',
       'MARITAL-STATUS', 'OCCUPATION', 'RELATIONSHIP', 'RACE', 'SEX',
       'CAPITAL-GAIN', 'CAPITAL-LOOS', 'HOUR-PER-WEEK', 'NATIVE-COUNTRY',
       'INCOME'],
      dtype='object')

## Método df.lower()
Esse método torna todos os caracteres do nome da coluna em letras minúsculas. É preciso de um for para percorrer todas as colunas de um Dataframe se é desejado aplicar isso a todas.

In [None]:
dataset.columns = [coluna.lower() for coluna in dataset.columns]
dataset.columns

Index(['age', ' relationship', 'final-weight', 'sex', 'education',
       'education-num', 'marital-status', 'occupation', 'workclass', 'race',
       'capital-gain', 'capital-loos', 'hour-per-week', 'native-country',
       'income'],
      dtype='object')

## Renomeando colunas específicas

O método `df.rename()` recebe, na forma de dicionário, o nome da coluna a ser modificada e o novo nome que ela passará a ter.

In [None]:
dataset.rename(columns = {"age": "ages", "workclass":"trabalho"}, inplace = True)

Unnamed: 0,ages,trabalho,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


In [None]:
dataset.rename(columns = {"ages": "age", "trabalho":"workclass" }, inplace = True)

## Reordenando colunas

O método `df.reindex()` recebe uma lista com os nomes das colunas na ordem atual e é preciso mudar esses elementos de ordem para que isso reflita o que se deseja atualizar.<br>
É importante também passar o parâmetro `axis = 1` para manter as mudanças somente às colunas.

In [None]:
dataset = dataset.reindex(labels = ['age', ' relationship', 'final-weight', 'sex', 'education', 'education-num', 'marital-status', 'occupation', 'workclass', 'race', 'capital-gain', 'capital-loos', 'hour-per-week', 'native-country', 'income'], axis = 1)
dataset

Unnamed: 0,age,relationship,final-weight,sex,education,education-num,marital-status,occupation,workclass,race,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,,77516,Male,Bachelors,13,Never-married,Adm-clerical,State-gov,White,2174,0,40,United-States,<=50K
1,50,,83311,Male,Bachelors,13,Married-civ-spouse,Exec-managerial,Self-emp-not-inc,White,0,0,13,United-States,<=50K
2,38,,215646,Male,HS-grad,9,Divorced,Handlers-cleaners,Private,White,0,0,40,United-States,<=50K
3,53,,234721,Male,11th,7,Married-civ-spouse,Handlers-cleaners,Private,Black,0,0,40,United-States,<=50K
4,28,,338409,Female,Bachelors,13,Married-civ-spouse,Prof-specialty,Private,Black,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,,257302,Female,Assoc-acdm,12,Married-civ-spouse,Tech-support,Private,White,0,0,38,United-States,<=50K
32557,40,,154374,Male,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Private,White,0,0,40,United-States,>50K
32558,58,,151910,Female,HS-grad,9,Widowed,Adm-clerical,Private,White,0,0,40,United-States,<=50K
32559,22,,201490,Male,HS-grad,9,Never-married,Adm-clerical,Private,White,0,0,20,United-States,<=50K


# Criação de novas colunas

Colunas novas são adicionadas ao final do Dataframe


## Criando uma coluna por vez

### Através de operações

A coluna criada abaixo é o resultado de uma operação aritmética com os valores de outra tabela.

In [None]:
dataset["hour-per-month"] = dataset["hour-per-week"] * 4
dataset.head()

Unnamed: 0,age,relationship,final-weight,sex,education,education-num,marital-status,occupation,workclass,race,capital-gain,capital-loos,hour-per-week,native-country,income,hour-per-month
0,39,,77516,Male,Bachelors,13,Never-married,Adm-clerical,State-gov,White,2174,0,40,United-States,<=50K,160
1,50,,83311,Male,Bachelors,13,Married-civ-spouse,Exec-managerial,Self-emp-not-inc,White,0,0,13,United-States,<=50K,52
2,38,,215646,Male,HS-grad,9,Divorced,Handlers-cleaners,Private,White,0,0,40,United-States,<=50K,160
3,53,,234721,Male,11th,7,Married-civ-spouse,Handlers-cleaners,Private,Black,0,0,40,United-States,<=50K,160
4,28,,338409,Female,Bachelors,13,Married-civ-spouse,Prof-specialty,Private,Black,0,0,40,Cuba,<=50K,160


### Com valores booleanos

A coluna criada abaixo tem seus valores como resultados de uma operação booleana com valores em outra coluna da tabela.

In [None]:
dataset["high-education-level"] = dataset["education-num"] > 11
dataset.head(3)

Unnamed: 0,age,relationship,final-weight,sex,education,education-num,marital-status,occupation,workclass,race,capital-gain,capital-loos,hour-per-week,native-country,income,hour-per-month,high-education-level
0,39,,77516,Male,Bachelors,13,Never-married,Adm-clerical,State-gov,White,2174,0,40,United-States,<=50K,160,True
1,50,,83311,Male,Bachelors,13,Married-civ-spouse,Exec-managerial,Self-emp-not-inc,White,0,0,13,United-States,<=50K,52,True
2,38,,215646,Male,HS-grad,9,Divorced,Handlers-cleaners,Private,White,0,0,40,United-States,<=50K,160,False


## Criando usando map



### Map com dicionário

Abaixo, um dicionário abaixo é declarado e ele basicamente, retorna uma string específica para algum dos valores listados.

In [None]:
dict_map = {" <=50K": "Low", " >50K": "High"}

O dicionário é passado num map que roda sobre a coluna "income".

In [None]:
dataset["category-income"] = dataset["income"].map(dict_map)
dataset.head(10)

Unnamed: 0,age,relationship,final-weight,sex,education,education-num,marital-status,occupation,workclass,race,capital-gain,capital-loos,hour-per-week,native-country,income,hour-per-month,high-education-level,category-income
0,39,,77516,Male,Bachelors,13,Never-married,Adm-clerical,State-gov,White,2174,0,40,United-States,<=50K,160,True,Low
1,50,,83311,Male,Bachelors,13,Married-civ-spouse,Exec-managerial,Self-emp-not-inc,White,0,0,13,United-States,<=50K,52,True,Low
2,38,,215646,Male,HS-grad,9,Divorced,Handlers-cleaners,Private,White,0,0,40,United-States,<=50K,160,False,Low
3,53,,234721,Male,11th,7,Married-civ-spouse,Handlers-cleaners,Private,Black,0,0,40,United-States,<=50K,160,False,Low
4,28,,338409,Female,Bachelors,13,Married-civ-spouse,Prof-specialty,Private,Black,0,0,40,Cuba,<=50K,160,True,Low
5,37,,284582,Female,Masters,14,Married-civ-spouse,Exec-managerial,Private,White,0,0,40,United-States,<=50K,160,True,Low
6,49,,160187,Female,9th,5,Married-spouse-absent,Other-service,Private,Black,0,0,16,Jamaica,<=50K,64,False,Low
7,52,,209642,Male,HS-grad,9,Married-civ-spouse,Exec-managerial,Self-emp-not-inc,White,0,0,45,United-States,>50K,180,False,High
8,31,,45781,Female,Masters,14,Never-married,Prof-specialty,Private,White,14084,0,50,United-States,>50K,200,True,High
9,42,,159449,Male,Bachelors,13,Married-civ-spouse,Exec-managerial,Private,White,5178,0,40,United-States,>50K,160,True,High


### Map com lambda

É possível rodar sobre uma coluna com map usando uma função anônima dentro do map.<br>
O comando abaixo simplesmente está criando uma coluna chamada "capital-gain-usd" que é baseada na coluna "capital-gain" que tem um map rodando sobre ela onde a função anônima em seu interior pega cada valor em capital-gain e retorna uma concatenação de strings onde "USD" é concatenado ao que há nessa coluna.

In [None]:
dataset["capital-gain-usd"] = dataset["capital-gain"].map(lambda x: (f"USD {x}"))
dataset.head()

Unnamed: 0,age,relationship,final-weight,sex,education,education-num,marital-status,occupation,workclass,race,capital-gain,capital-loos,hour-per-week,native-country,income,hour-per-month,high-education-level,category-income,capital-gain-usd
0,39,,77516,Male,Bachelors,13,Never-married,Adm-clerical,State-gov,White,2174,0,40,United-States,<=50K,160,True,Low,USD 2174
1,50,,83311,Male,Bachelors,13,Married-civ-spouse,Exec-managerial,Self-emp-not-inc,White,0,0,13,United-States,<=50K,52,True,Low,USD 0
2,38,,215646,Male,HS-grad,9,Divorced,Handlers-cleaners,Private,White,0,0,40,United-States,<=50K,160,False,Low,USD 0
3,53,,234721,Male,11th,7,Married-civ-spouse,Handlers-cleaners,Private,Black,0,0,40,United-States,<=50K,160,False,Low,USD 0
4,28,,338409,Female,Bachelors,13,Married-civ-spouse,Prof-specialty,Private,Black,0,0,40,Cuba,<=50K,160,True,Low,USD 0


## Criando varias colunas de uma vez

É possível fazê-lo com o uso do método `df.assign()` onde as colunas novas, junto da função que as forma, é declarada dentro dos parâmetros dele separados por vírgula.

1. Abaixo é feito o import de datetime index para usar no cálculo do ano de nascimento de cada pessoa no Dataframe.

In [None]:
from datetime import datetime as dt

In [None]:
dt.now().year

2025

2. Dentro do assign abaixo é criada as colunas "birth" e "hardwork" ao mesmo tempo onde uma é o resultado de uma subtração e a outra de uma operação booleana.<br> Ambas as colunas envolvem outras já existentes no Dataframe.

In [None]:
dataset = dataset.assign(birth = dt.now().year - dataset["age"],
                         hardwork = dataset["hour-per-week"] > 40)
dataset.loc[dataset.hardwork == True]

Unnamed: 0,age,relationship,final-weight,sex,education,education-num,marital-status,occupation,workclass,race,...,capital-loos,hour-per-week,native-country,income,hour-per-month,high-education-level,category-income,capital-gain-usd,birth,hardwork
7,52,,209642,Male,HS-grad,9,Married-civ-spouse,Exec-managerial,Self-emp-not-inc,White,...,0,45,United-States,>50K,180,False,High,USD 0,1973,True
8,31,,45781,Female,Masters,14,Never-married,Prof-specialty,Private,White,...,0,50,United-States,>50K,200,True,High,USD 14084,1994,True
10,37,,280464,Male,Some-college,10,Married-civ-spouse,Exec-managerial,Private,Black,...,0,80,United-States,>50K,320,False,High,USD 0,1988,True
13,32,,205019,Male,Assoc-acdm,12,Never-married,Sales,Private,Black,...,0,50,United-States,<=50K,200,True,Low,USD 0,1993,True
15,34,,245487,Male,7th-8th,4,Married-civ-spouse,Transport-moving,Private,Amer-Indian-Eskimo,...,0,45,Mexico,<=50K,180,False,Low,USD 0,1991,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32538,38,,139180,Female,Bachelors,13,Divorced,Prof-specialty,Private,Black,...,0,45,United-States,>50K,180,True,High,USD 15020,1987,True
32543,45,,119199,Female,Assoc-acdm,12,Divorced,Prof-specialty,Local-gov,White,...,0,48,United-States,<=50K,192,True,Low,USD 0,1980,True
32548,65,,99359,Male,Prof-school,15,Never-married,Prof-specialty,Self-emp-not-inc,White,...,0,60,United-States,<=50K,240,True,Low,USD 1086,1960,True
32550,43,,27242,Male,Some-college,10,Married-civ-spouse,Craft-repair,Self-emp-not-inc,White,...,0,50,United-States,<=50K,200,False,Low,USD 0,1982,True


# Atributos Categóricos

Esses são atributos do tipo "categoria" (`category`) e é possível

Primeiro, veja o tipo de cada coluna no DataFrame atual e o quanto de memória ele ocupa. <br>
Essa quantidade de memória ocupada pode ser diminuída ao se converter as colunas de tipo "object" para "category" pois, as colunas de tipo string guardam o mesmo valor várias vezes. *(por exemplo, se o valor de um registro é "united-states" esse valor é guardado todas as vezes que aparece tal país mas, caso transformemos em tipo categórico esse país vai assumir um valor numérico e armazenar um número ocupa menos espaço que armazenar uma string.)*

In [None]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       32561 non-null  object
 2   final-weight    32561 non-null  int64 
 3   education       32561 non-null  object
 4   education-num   32561 non-null  int64 
 5   marital-status  32561 non-null  object
 6   occupation      32561 non-null  object
 7   relationship    32561 non-null  object
 8   race            32561 non-null  object
 9   sex             32561 non-null  object
 10  capital-gain    32561 non-null  int64 
 11  capital-loos    32561 non-null  int64 
 12  hour-per-week   32561 non-null  int64 
 13  native-country  32561 non-null  object
 14  income          32561 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


Abaixo temos o retorno dos valores únicos na coluna "native-country" e a quantidade de valores que são únicos.

In [None]:
dataset["native-country"].unique(), dataset["native-country"].nunique()

(array([' United-States', ' Cuba', ' Jamaica', ' India', ' ?', ' Mexico',
        ' South', ' Puerto-Rico', ' Honduras', ' England', ' Canada',
        ' Germany', ' Iran', ' Philippines', ' Italy', ' Poland',
        ' Columbia', ' Cambodia', ' Thailand', ' Ecuador', ' Laos',
        ' Taiwan', ' Haiti', ' Portugal', ' Dominican-Republic',
        ' El-Salvador', ' France', ' Guatemala', ' China', ' Japan',
        ' Yugoslavia', ' Peru', ' Outlying-US(Guam-USVI-etc)', ' Scotland',
        ' Trinadad&Tobago', ' Greece', ' Nicaragua', ' Vietnam', ' Hong',
        ' Ireland', ' Hungary', ' Holand-Netherlands'], dtype=object),
 42)

## Conversão de tipos com `df.astype()`

O funcionamento desse método se dá através de um par de chave-valor onde a chave é o nome da coluna onde os valores serão convertidos e o valor é o tipo que os valores assumirão. <br>
*No exemplo abaixo, a coluna é native-country e seus valores se tornarão category*.

In [None]:
dataset = dataset.astype({"native-country": "category"})

Caso veja as informçaões sobre as colunas e tabela após a conversão, notará que a mudança foi feita mas, caso observe os valores de tal coluna verá que o Pandas continua a mostrar os valores em forma de string e que ainda podemos filtrar usando essas. Isso acontece porque o funcionamento das categorias, nessa situação, se dá por baixo dos panos de modo que efetivamente são usados números para representar os países mas para o usuário o Pandas ainda mantém os nomes de modo a facilitar a usabilidade.

In [None]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype   
---  ------          --------------  -----   
 0   age             32561 non-null  int64   
 1   workclass       32561 non-null  object  
 2   final-weight    32561 non-null  int64   
 3   education       32561 non-null  object  
 4   education-num   32561 non-null  int64   
 5   marital-status  32561 non-null  object  
 6   occupation      32561 non-null  object  
 7   relationship    32561 non-null  object  
 8   race            32561 non-null  object  
 9   sex             32561 non-null  object  
 10  capital-gain    32561 non-null  int64   
 11  capital-loos    32561 non-null  int64   
 12  hour-per-week   32561 non-null  int64   
 13  native-country  32561 non-null  category
 14  income          32561 non-null  object  
dtypes: category(1), int64(6), object(8)
memory usage: 3.5+ MB


In [None]:
dataset["native-country"]

Unnamed: 0,native-country
0,United-States
1,United-States
2,United-States
3,United-States
4,Cuba
...,...
32556,United-States
32557,United-States
32558,United-States
32559,United-States


# Agregação


## Definição

O conceito de agregação é o processo de resumir dados e aplicar alguma ou algumas funções neste, geralmente sendo funções numéricas e estatísticas (soma, média, contagem, etc.). Agregação é frequentemente usada para cálculos estatísticos sobre colunas específicas de um DataFrame.

## Exemplo 1
O comando abaixo pega todos os registros das colunas "hour-per-week" e "age" e calcula a média

In [None]:
dataset.loc[:,[ "hour-per-week", "age"]].mean()

Unnamed: 0,0
hour-per-week,40.437456
age,38.581647


## Exemplo 2

In [None]:
dataset.loc[:, "hour-per-week"].mean().round(2)

40.44

## Exemplo 3

Somando todos os valores em "hour-per-week".

In [None]:
dataset.loc[:, "hour-per-week"].sum()

1316684

## Exemplo 4
Somando todos os valores em "hour-per-week" e "age". O retorno será algo semelhante a uma serie one os índices serão os nomes das colunas e os valores, os resultados das somas.

In [None]:
dataset.loc[:, ["hour-per-week", "age"]].sum()

Unnamed: 0,0
hour-per-week,1316684
age,1256257


## Exemplo 4
É possível obter o valor mínimo e máximo em várias colunas diferentes como nos comandos abaixo.

In [None]:
dataset.loc[:, ["hour-per-week", "age", "income"]].min()

Unnamed: 0,0
hour-per-week,1
age,17
income,<=50K


In [None]:
dataset.loc[:, ["hour-per-week", "age", "income"]].max()

Unnamed: 0,0
hour-per-week,99
age,90
income,>50K


## Estatísticas em todo DataFrame

Pode-se aplicar um método estatístico em todo DataFrame mas, como no caso atual, é possível que hajam colunas de valores não numéricos e isso pode gerar um erro. <br>
Para evitar tal problema, use o parâmetro `numeric_only = True` que fará o método ser aplicado somente em colunas de valores numéricos.

In [None]:
dataset.mean(numeric_only = True)

Unnamed: 0,0
age,38.581647
final-weight,189778.366512
education-num,10.080679
capital-gain,1077.648844
capital-loos,87.30383
hour-per-week,40.437456


# Agrupamento


*Agrupamento*, na situação que vemos aqui, é o processo de dividir as categorias presentes numa coluna e aplicar uma função sobre essas.<br>
Isso é feito usando o método `.groupby()` para "separar" uma ou mais colunas e outra, numérica, para aplicar um método sobre de modo a associar os resultados às categorias da primeira(ou das primeiras) coluna(s).

In [None]:
dataset['workclass'].unique()

[' State-gov', ' Self-emp-not-inc', ' Private', ' Federal-gov', ' Local-gov', ' ?', ' Self-emp-inc', ' Without-pay', ' Never-worked']
Categories (9, object): [' ?', ' Federal-gov', ' Local-gov', ' Never-worked', ...,
                         ' Self-emp-inc', ' Self-emp-not-inc', ' State-gov', ' Without-pay']

## Exemplo 1
O group by é aplicado, selecionando a coluna *workclass* e as categorias desta serão associados às médias de *hour-per-week*. <br>
Ou seja,  para cada categoria de workclass teremos a média de horas que os profissionais dessa categoria trabalhou.<br>
O resultado dessa operação, da forma que está, é uma serie cujos índices serão às categorias.

In [None]:
dataset.groupby('workclass', observed=True)["hour-per-week"].mean().round(2)

Unnamed: 0_level_0,hour-per-week
workclass,Unnamed: 1_level_1
?,31.92
Federal-gov,41.38
Local-gov,40.98
Never-worked,28.43
Private,40.27
Self-emp-inc,48.82
Self-emp-not-inc,44.42
State-gov,39.03
Without-pay,32.71


In [None]:
dataset.groupby('workclass')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7dfa981accd0>

Mesmo que o comando anterior, única mudança é a ordenção por valores do maior para o menor.

In [None]:
dataset.groupby('workclass', observed=True)["hour-per-week"].mean().round(2).sort_values(ascending=False)

Unnamed: 0_level_0,hour-per-week
workclass,Unnamed: 1_level_1
Self-emp-inc,48.82
Self-emp-not-inc,44.42
Federal-gov,41.38
Local-gov,40.98
Private,40.27
State-gov,39.03
Without-pay,32.71
?,31.92
Never-worked,28.43


Caso verifique o tipo do dado gerado, verá que é uma serie, uma vez que as categorias se tornam o índice.

In [None]:
group_2 =  dataset.groupby('workclass')["hour-per-week"].mean().round(2).sort_values(ascending=False)
type(group_2)

  group_2 =  dataset.groupby('workclass')["hour-per-week"].mean().round(2).sort_values(ascending=False)


## Exemplo 2

O comando abaixo usa as categorias presentes em *income* que são duas: "<=50K" e ">50K" e associada às médias de *education-num* em cada categoria, ou seja, teremos as médias de anos de educação para pessoas que ganham menos de 50k e mais de 50k.

In [None]:
dataset.groupby("income")[["education-num","age"]].mean().round(3)

Unnamed: 0_level_0,education-num,age
income,Unnamed: 1_level_1,Unnamed: 2_level_1
<=50K,9.595,36.784
>50K,11.612,44.25


## Agrupamento com mais de uma coluna

## Exemplo 3
O comando abaixo retornará primeiro, as categorias de *income* sendo <=50k e >50k e para cada uma dessas, retornará as categorias presentes dentro de *workclass* o que quer dizer que essa última terá dois grupos iguais de categorias mas um estará sob <=50k e outro sob >50k. <br>
Esses agrupamentos discritos anteriormente serão associados às médias de hour-per-week, retornando, dentro de dois principais grupos categóricos de income, as várias categorias presentes em workclass associadas, cada uma a uma média de horas semanais.



In [None]:
group_3 = dataset.groupby(["income", "workclass"])[["hour-per-week", "education-num", "age"]].mean().round(2).sort_index()
group_3

Unnamed: 0_level_0,Unnamed: 1_level_0,hour-per-week,education-num,age
income,workclass,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
<=50K,?,31.43,9.02,39.26
<=50K,Federal-gov,40.09,10.48,40.62
<=50K,Local-gov,39.74,10.58,40.7
<=50K,Never-worked,28.43,7.43,20.57
<=50K,Private,38.8,9.45,35.11
<=50K,Self-emp-inc,47.14,10.2,43.21
<=50K,Self-emp-not-inc,43.52,9.7,44.39
<=50K,State-gov,37.11,10.8,37.28
<=50K,Without-pay,32.71,9.07,47.79
>50K,?,36.15,11.3,55.62


Note que o grupo *group_3* é uma serie onde os índices são do tipo "multi-indice".<br>
(*Na visualização abaixo, sendo basicamente uma lista de tuplas onde cada tupla tem dois elementos.*)

In [None]:
group_3.index

MultiIndex([(' <=50K',                ' ?'),
            (' <=50K',      ' Federal-gov'),
            (' <=50K',        ' Local-gov'),
            (' <=50K',     ' Never-worked'),
            (' <=50K',          ' Private'),
            (' <=50K',     ' Self-emp-inc'),
            (' <=50K', ' Self-emp-not-inc'),
            (' <=50K',        ' State-gov'),
            (' <=50K',      ' Without-pay'),
            ( ' >50K',                ' ?'),
            ( ' >50K',      ' Federal-gov'),
            ( ' >50K',        ' Local-gov'),
            ( ' >50K',     ' Never-worked'),
            ( ' >50K',          ' Private'),
            ( ' >50K',     ' Self-emp-inc'),
            ( ' >50K', ' Self-emp-not-inc'),
            ( ' >50K',        ' State-gov'),
            ( ' >50K',      ' Without-pay')],
           names=['income', 'workclass'])

Tal tipo de índice nos permite acessar seus elementos fazendo um slicing com dois índices categóricos `.loc[("index_1", "sub_index_1"):("index_2","sub_index_2")]`.<br>


### Exemplo 4
Observe como, no comando abaixo, vamos da categoria *Never-worked* dentro de <=50k (que está antes na serie) para *Private* dentro de >50k (que está depois na serie).<br>
É como se transitássemos do quarto elemento no grupo 1 para o quinto no grupo 2. Um filtro feito dentro dois grupos.

In [None]:
group_3.loc[(" <=50K", ' Never-worked'):(" >50K", " Private")]

Unnamed: 0_level_0,Unnamed: 1_level_0,hour-per-week
income,workclass,Unnamed: 2_level_1
<=50K,Never-worked,28.43
<=50K,Private,38.8
<=50K,Self-emp-inc,47.14
<=50K,Self-emp-not-inc,43.52
<=50K,State-gov,37.11
<=50K,Without-pay,32.71
>50K,?,36.15
>50K,Federal-gov,43.42
>50K,Local-gov,43.96
>50K,Never-worked,


### Exemplo 5

Também é possível acessar somente um grupo maior, >50k no caso, para então fazer o slicing em seus elementos.<br>
Abaixo é acessado primariamente o grupo de >50k para então fazer o slicing começando de *Federal-gov* até *Without-pay*

In [None]:
group_3.loc[" <=50K"][" Federal-gov": " Without-pay"]

Unnamed: 0_level_0,hour-per-week
workclass,Unnamed: 1_level_1
Federal-gov,40.09
Local-gov,39.74
Never-worked,28.43
Private,38.8
Self-emp-inc,47.14
Self-emp-not-inc,43.52
State-gov,37.11
Without-pay,32.71


## Usando índices padrões

Por default, o group by define as categorias da coluna separada como os índices, gerando assim uma serie.<br>
Mas é possível desativar esse comportamento e obter como resultado do agrupamento, um DataFrame, bastando passar nos parâmetros do `.groupby()` o `as_index = False`.<br>
O que esse parâmetro faz é simplesmente indicar que as categorias **não** devem ser usadas como índices e como isso gerará, no mínimo, três colunas, tendo como resultado, um DataFrame ao invés de serie.

In [None]:
group_3_1 = dataset.groupby(["income", "workclass"], as_index=False, observed=True)["hour-per-week"].mean().round(2)
group_3_1

Unnamed: 0,income,workclass,hour-per-week
0,<=50K,?,31.43
1,<=50K,Federal-gov,40.09
2,<=50K,Local-gov,39.74
3,<=50K,Never-worked,28.43
4,<=50K,Private,38.8
5,<=50K,Self-emp-inc,47.14
6,<=50K,Self-emp-not-inc,43.52
7,<=50K,State-gov,37.11
8,<=50K,Without-pay,32.71
9,>50K,?,36.15


É possível aplicar filtros pensando na estrutura atual (com índices padrões). Observe abaixo

In [None]:
group_3_1.query("workclass == ' Federal-gov'")

Unnamed: 0,income,workclass,hour-per-week
1,<=50K,Federal-gov,40.09
10,>50K,Federal-gov,43.42


# Agregação Versus Agrupamento

## Agregação
A agregação é feita sobre colunas numéricas e usa-se todos os registros na hora de aplicar uma função numérica:<br>
`df.loc[:, ["col_int1, col_int2"]].sum()`<br>
No exemplo acima: Num Dataframe *df* qualquer, usa-se loc para selecionar todas as linhas (`[:, ...]`) e as colunas *col_int1* e *col_int2* (`...[col_int1, col_int2]`) para então aplicar a função numérica que, no caso, é sum().<br>

## Agrupamento
O agrupamento age nas categorias das colunas (categóricas) selecionadas para então, ter cada uma destas relacionada a um resultado de operação entre uma coluna de tipo numérico e uma função.<br>
`df.groupby("col_categ")["col_int1", "col_int2"].mean()`<br>
No comando acima: Usa-se o método `.groupby` num Dataframe *df* qualquer onde é selecionada a coluna categórica *col_categ* e é selecionado em paralelo as colunas *col_int1* e *col_int2* onde são calculadas as médias destas de acordo com as categorias em col_categ, ou seja, os resultados são agrupados conforme as categorias da coluna col_categ inicial. <br>

## Diferenças
A principal diferença entre essas operações de resumo é a presença de categorias em uma e na outra não. Uma resume os dados numéricos em todo o Dataframe, usando as colunas numéricas (agregação) e a outra trabalha os dados numéricos relacionados às categorias dentro de uma coluna específica não numérica.


# Agrupamento com Agregação

## Intro .agg()

Com o uso do método `.agg()` pode-se aplicar uma ou mais funções de agregação num conjunto de dados. Esse método aceita tanto funções built-in, como sum, mean, min, max, etc. quanto funções personalizadas.

## .agg() em todo Dataframe

Abaixo se obtém as médias de todos os valores em todas as colunas numéricas do Dataframe, associados às categorias de income e workclass. <br>
Um detalhe importante é a passagem do parâmetro `numeric_only = True`, uma vez que o Dataset é composto por colunas de vários tipos, essa configuração faz com que a agregação seja feita somente nas colunas numéricas.

In [None]:
dataset.groupby(["income", "workclass"]).agg('mean', numeric_only = True ).sort_index(ascending = False)

Unnamed: 0_level_0,Unnamed: 1_level_0,age,final-weight,education-num,capital-gain,capital-loos,hour-per-week
income,workclass,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
>50K,State-gov,45.209632,186039.444759,12.917847,2211.475921,198.787535,44.186969
>50K,Self-emp-not-inc,46.428177,182979.212707,11.552486,6065.33011,252.15884,46.691989
>50K,Self-emp-inc,48.249196,183073.42926,11.882637,8606.705788,235.172026,50.154341
>50K,Private,42.815233,189069.947411,11.42837,3575.28511,187.44187,45.500907
>50K,Local-gov,44.254457,193175.02107,12.145867,2581.126418,183.220421,43.95624
>50K,Federal-gov,45.71159,187391.412399,11.752022,1881.088949,145.592992,43.420485
>50K,?,55.617801,183567.052356,11.303665,4462.109948,170.989529,36.146597
<=50K,Without-pay,47.785714,174267.5,9.071429,487.857143,0.0,32.714286
<=50K,State-gov,37.279365,183425.820106,10.8,137.730159,40.100529,37.10582
<=50K,Self-emp-not-inc,44.388553,172671.771051,9.697854,220.794717,62.629609,43.517336


## Selecionando colunas e funções

É possível definir quais colunas usa-se na agregação e quais funções são aplicadas nessas colunas, bastando passar um dicionário ao .agg com a especificação do nome da coluna (como chave) e as funções aplicadas a esta em uma lista (como valor).<br>
No código abaixo a agregação é feita com as colunas:
<ul>
  <li>"age": são aplicadas as funções mean, min e std;</li>
  <li>"hour-per-week": são aplicadas as funções min e max.</li>
</ul>

Em suma, nas categorias associadas de income e workclass teremos as médias de idade, idade mínima, desvio padrão de idades, valor mínimo de hora trabalhada na semana e valor máximo de hora trabalhada por semana.


In [None]:
dataset.groupby(["income", "workclass"]).agg({"age": ["mean", "min", "std"],
                                              "hour-per-week": ["min", 'max']})

Unnamed: 0_level_0,Unnamed: 1_level_0,age,age,age,hour-per-week,hour-per-week
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,min,std,min,max
income,workclass,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
<=50K,?,39.258359,17,20.288959,1,99
<=50K,Federal-gov,40.624788,17,12.342207,4,99
<=50K,Local-gov,40.704607,17,13.212608,2,99
<=50K,Never-worked,20.571429,17,4.613644,4,40
<=50K,Private,35.113404,17,13.03373,1,99
<=50K,Self-emp-inc,43.206478,17,13.6647,1,99
<=50K,Self-emp-not-inc,44.388553,17,13.985118,1,99
<=50K,State-gov,37.279365,17,12.582787,4,99
<=50K,Without-pay,47.785714,19,21.07561,10,65
>50K,?,55.617801,19,13.807911,1,84


## Dando titulos às colunas criadas

Ao passar ao agg, tuplas com o nome da coluna e a função a aplicar a ela, pode-se definir um nome para a coluna resultante:
`.agg(nome_col1 = ("col_original1", "funçãoX"), nome_col1 = ("col_original2","funçãoY"))`. <br>
O resultado disso é um dataframe mais organizado que o método anterior onde se passavam os parâmetros por dicionário.

In [None]:
dataset.groupby(["income", "workclass"]).agg(age_mean = ("age", "mean"),
                                             age_std = ("age", "std"),
                                             age_max = ("age", "max"),
                                             hour_min = ("hour-per-week", "min"),
                                             hour_max = ("hour-per-week", "max"))


Unnamed: 0_level_0,Unnamed: 1_level_0,age_mean,age_std,age_max,hour_min,hour_max
income,workclass,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
<=50K,?,39.258359,20.288959,90,1,99
<=50K,Federal-gov,40.624788,12.342207,90,4,99
<=50K,Local-gov,40.704607,13.212608,90,2,99
<=50K,Never-worked,20.571429,4.613644,30,4,40
<=50K,Private,35.113404,13.03373,90,1,99
<=50K,Self-emp-inc,43.206478,13.6647,83,1,99
<=50K,Self-emp-not-inc,44.388553,13.985118,90,1,99
<=50K,State-gov,37.279365,12.582787,81,4,99
<=50K,Without-pay,47.785714,21.07561,72,10,65
>50K,?,55.617801,13.807911,90,1,84


# Agregação com Transform


In [None]:
dataset = dataset.astype({"workclass": "category"})
dataset["workclass"].info()

<class 'pandas.core.series.Series'>
RangeIndex: 32561 entries, 0 to 32560
Series name: workclass
Non-Null Count  Dtype   
--------------  -----   
32561 non-null  category
dtypes: category(1)
memory usage: 32.3 KB


## Exemplo 1

Suponha a criação de um grupo como abaixo, de médias de horas trabalhadas na semana das categorias presentes em workclass.

In [None]:
group_1 = dataset.groupby(["workclass"], as_index=False, observed=False) ["hour-per-week"].mean().round(2).sort_index()
group_1

Unnamed: 0,workclass,hour-per-week
0,?,31.92
1,Federal-gov,41.38
2,Local-gov,40.98
3,Never-worked,28.43
4,Private,40.27
5,Self-emp-inc,48.82
6,Self-emp-not-inc,44.42
7,State-gov,39.03
8,Without-pay,32.71


Caso precise-se adicionar novas colunas a esse grupo já criado, é possível fazê-lo da seguinte forma: <br>
1. `.assign()` esse método permite *atribuir* uma nova coluna ao grupo já criado. assign receberá: nome da nova coluna como uma variável `(assign("nome_coluna" = [...] ))` e uma operação de agregação com groupby.
2. a operação de agregação receberá o nome da ou das colunas usadas no grupo original, depois disso, o nome da coluna numérica onde deve operar e o método numérico deve ser passado a tudo isso usando `.transform()`<br>
O resultado é algo como:<br>
`grupo_original.assign(<nome_nova_coluna> = df.groupby([<nome_coluna_original>])[<nome_col_num>].transform(<metod_num>)` <br>
Um detalhe importante é: caso o grupo original seja composto por mais de uma coluna, essas devem ser escritas no groupby dentro do assign.


In [None]:
group_1.assign(avg_age = dataset.groupby(["workclass"])["age"].transform("mean").round(2),
              avg_education = dataset.groupby(["workclass"]) ["education-num"].transform("mean").round(2))


Unnamed: 0,workclass,hour-per-week,avg_age,avg_education
0,?,31.92,39.44,11.38
1,Federal-gov,41.38,44.97,10.23
2,Local-gov,40.98,36.8,9.88
3,Never-worked,28.43,36.8,9.88
4,Private,40.27,36.8,9.88
5,Self-emp-inc,48.82,36.8,9.88
6,Self-emp-not-inc,44.42,36.8,9.88
7,State-gov,39.03,44.97,10.23
8,Without-pay,32.71,36.8,9.88


### Por que usar transform?
Caso rode o comando abaixo terá um erro onde os valores novos serão NaN, mas por quê?
O que acontece é que a operação groupby dentro do assign está sendo feita num dataframe que o grupo original onde iremos atribuir a nova coluna então há um erro na hora de atribuir

In [None]:
group_1.assign(avg_age = dataset.groupby(["workclass"])["age"].mean())

Unnamed: 0,workclass,hour-per-week,avg_age
0,?,31.92,
1,Federal-gov,41.38,
2,Local-gov,40.98,
3,Never-worked,28.43,
4,Private,40.27,
5,Self-emp-inc,48.82,
6,Self-emp-not-inc,44.42,
7,State-gov,39.03,
8,Without-pay,32.71,


# Tabelas Pivô

## Intro

Esse tipo de tabela é como as planilhas do Excel onde cada célula é localizada por um par de coluna-linha onde, nesse caso é o índice e coluna.<br>
**Parâmetros:**
<ul>
  <li>index = coluna cujos valores se tornarão os índices da tabela pivô</li>
  <li>columns = coluna cujos valores se tornarão as colunas da tabela pivô</li>
  <li>values = coluna cujos valores serão agregados entre index-columns</li>
  <li>aggFunc = função que será aplicada na(s) coluna(s) presente(s) em values</li>

</ul>

### Exemplo 1

In [None]:
dataset.pivot_table(index = "income", columns = "workclass", values =  "age", aggfunc="mean")

workclass,?,Federal-gov,Local-gov,Never-worked,Private,Self-emp-inc,Self-emp-not-inc,State-gov,Without-pay
income,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
<=50K,39.258359,40.624788,40.704607,20.571429,35.113404,43.206478,44.388553,37.279365,47.785714
>50K,55.617801,45.71159,44.254457,,42.815233,48.249196,46.428177,45.209632,


### Parâmetro `Margins = True`
O uso do parâmetro `margins = True` faz com que se gere uma coluna final onde estarão os resultados de todas as colunas, por exemplo, se a `aggFunc` for "mean" então na coluna "All", resultante deste parâmetro margins, terá as médias de todas as colunas.<br>
Observe o exemplo abaixo:

In [None]:
dataset.pivot_table(index = "income", columns = "workclass", values =  "age", aggfunc="mean", margins=True)

workclass,?,Federal-gov,Local-gov,Never-worked,Private,Self-emp-inc,Self-emp-not-inc,State-gov,Without-pay,All
income,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
<=50K,39.258359,40.624788,40.704607,20.571429,35.113404,43.206478,44.388553,37.279365,47.785714,36.783738
>50K,55.617801,45.71159,44.254457,,42.815233,48.249196,46.428177,45.209632,,44.249841
All,40.96024,42.590625,41.751075,20.571429,36.797585,46.017025,44.969697,39.436055,47.785714,38.581647


### Exemplo 3

In [None]:
dataset.pivot_table(index = "marital-status", columns = "income",
                    values = "education-num", aggfunc="mean", margins=True)

income,<=50K,>50K,All
marital-status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Divorced,9.815075,11.88121,10.030385
Married-AF-spouse,9.538462,11.0,10.173913
Married-civ-spouse,9.347055,11.525852,10.320646
Married-spouse-absent,9.0625,12.088235,9.308612
Never-married,9.838795,12.529532,9.962464
Separated,9.095933,12.166667,9.293659
Widowed,8.910793,11.047059,9.093656
All,9.595065,11.611657,10.080679


### Múltiplas aggFunc

É possível passar, em aggFunc, mais de uma função para ser usada na coluna de values bastando passar como parâmetro um iterável, seja lista ou tupla, com os nomes das funções desejadas:

In [None]:
dataset.pivot_table(index = "marital-status", columns = "income",
                    values = "education-num", aggfunc=["mean", "max", "min"])

Unnamed: 0_level_0,mean,mean,max,max,min,min
income,<=50K,>50K,<=50K,>50K,<=50K,>50K
marital-status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Divorced,9.815075,11.88121,16,16,1,5
Married-AF-spouse,9.538462,11.0,12,13,9,9
Married-civ-spouse,9.347055,11.525852,16,16,1,2
Married-spouse-absent,9.0625,12.088235,16,16,1,4
Never-married,9.838795,12.529532,16,16,1,3
Separated,9.095933,12.166667,16,16,1,6
Widowed,8.910793,11.047059,16,16,1,4


### Adicionando estilos à tabela

Usando `.style.background_gradient()` com o parâmetro `cmap = <colormap>` é possível definir um "mapa de cores" para colorir o fundo da tabela de modo que valores semelhantes terão cores semelhantes.

In [None]:
dataset.pivot_table(index = "marital-status", columns = "income",
                    values = "education-num", aggfunc=["mean", "min"]).style.background_gradient(cmap = "YlOrRd", low = 0.1, high=0.9)

Unnamed: 0_level_0,mean,mean,min,min
income,<=50K,>50K,<=50K,>50K
marital-status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Divorced,9.815075,11.88121,1,5
Married-AF-spouse,9.538462,11.0,9,9
Married-civ-spouse,9.347055,11.525852,1,2
Married-spouse-absent,9.0625,12.088235,1,4
Never-married,9.838795,12.529532,1,3
Separated,9.095933,12.166667,1,6
Widowed,8.910793,11.047059,1,4


# Concatenação

Os DataFrames df1 e df2 abaixo têm estruturas semelhantes:

In [None]:
data = {'idvenda': [123, 374, 654, 345],
        'data': ['2024-01-19', '2024-01-20', '2024-01-21', '2024-01-21'],
        'idvendedor': [1, np.nan, 2, 3],
        'valor total': [45.76, 102.34, 56.34, 34.21]}

df1 = pd.DataFrame.from_dict(data)
df1

Unnamed: 0,idvenda,data,idvendedor,valor total
0,123,2024-01-19,1.0,45.76
1,374,2024-01-20,,102.34
2,654,2024-01-21,2.0,56.34
3,345,2024-01-21,3.0,34.21


In [None]:
data2 = {'idvenda': [546, 232, 789, 2345],
        'data': ['2024-01-22', '2024-01-22', '2024-01-23', '2024-01-24'],
        'idvendedor': [3, 2, 1, 2],
        'valor total': [45.76, 102.34, 56.34, 34.21]}
df2 = pd.DataFrame.from_dict(data2)
df2

Unnamed: 0,idvenda,data,idvendedor,valor total
0,546,2024-01-22,3,45.76
1,232,2024-01-22,2,102.34
2,789,2024-01-23,1,56.34
3,2345,2024-01-24,2,34.21


Operação de concatenação consiste em juntar, verticalmente, DataFrames de mesma estrutura.<br>
Isso é feito com o método: `pd.concat([<df1>, <df2>, ...,<dfn>])`.<br>  
É importante usar o parâmetro `ignore_index = True` para que o DataFrame resultante terá os índices ordenados da forma correta.




In [None]:
data_complete = pd.concat([df1, df2],ignore_index=True)
data_complete

Unnamed: 0,idvenda,data,idvendedor,valor total
0,123,2024-01-19,1.0,45.76
1,374,2024-01-20,,102.34
2,654,2024-01-21,2.0,56.34
3,345,2024-01-21,3.0,34.21
4,546,2024-01-22,3.0,45.76
5,232,2024-01-22,2.0,102.34
6,789,2024-01-23,1.0,56.34
7,2345,2024-01-24,2.0,34.21


# Junção


As operações de Junção (ou Merge) são como uma "adição horizontal". O que é feito é adicionar uma ou mais colunas do "DataFrame2" num "DataFrame1", segundo colunas em comum e uma operação qualquer entre tabelas.<br>

In [None]:
data3 = {'idvendedor': [1, 2, 3, 4],
         'nome': ['Júlia', 'Paulo', 'Jéssica', 'Marcos']}

df_vendedor = pd.DataFrame.from_dict(data3)
df_vendedor

Unnamed: 0,idvendedor,nome
0,1,Júlia
1,2,Paulo
2,3,Jéssica
3,4,Marcos


## O merge
O comando `df.merge()` recebe os seguintes parâmetros:
<ul>
<li>right: DataFrame que será unido ao primeiro - esse é interpretado como "left".</li>
<li>how: tipo de operação entre tabelas que será usada. pode ser inner, left, right, etc.</li>
<li>left_on: onde indica-se qual coluna, no DataFrame da esquerda, servirá de base para a operação.</li>
<li>right_on: onde se indica qual coluna no DataFrame da direita será a segunda parte da operação.</li>
</ul>

### Exemplo

No exemplo abaixo, o DataFrame da direira é o "df_vendedor", a operação feita é a left e as colunas com as quais é feita a operação é a "idvendedor" que é comum aos dois DataFrames.

In [None]:
data_complete = data_complete.merge(df_vendedor, how="left", left_on=["idvendedor"], right_on=["idvendedor"])


Index(['idvendedor', 'nome'], dtype='object')

In [None]:
data_complete.columns

Index(['idvenda', 'data', 'idvendedor', 'valor total', 'nome'], dtype='object')

In [None]:
data_complete.query("nome == 'Jéssica'")

Unnamed: 0,idvenda,data,idvendedor,valor total,nome
3,345,2024-01-21,3.0,34.21,Jéssica
4,546,2024-01-22,3.0,45.76,Jéssica


# Conversão e Formatações para Data


Pode ser feito com strings em formato semelhante a datas como por exemplo: "2020-01-12". <br>
É importante que as datas sejam do tipo data por conta do uso de memória que para armazenar strings é muito maior que para armazenar datas.

In [None]:
df_datas = data_complete.copy()
df_datas

Unnamed: 0,idvenda,data,idvendedor,valor total
0,123,2024-01-19,1.0,45.76
1,374,2024-01-20,,102.34
2,654,2024-01-21,2.0,56.34
3,345,2024-01-21,3.0,34.21
4,546,2024-01-22,3.0,45.76
5,232,2024-01-22,2.0,102.34
6,789,2024-01-23,1.0,56.34
7,2345,2024-01-24,2.0,34.21


In [None]:
df_datas.info()

<class 'pandas.core.series.Series'>
RangeIndex: 8 entries, 0 to 7
Series name: data
Non-Null Count  Dtype         
--------------  -----         
8 non-null      datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 196.0 bytes


## Conversão

Para fazer a conversão, acesse a coluna desejada e use `pd.to_datetime(<coluna_de_datas>)`.<br>
No exemplo abaixo, é selecionada a coluna "data" do dataframe "df_datas".

In [None]:
df_datas['data'] = pd.to_datetime(df_datas['data'])
df_datas

## Conversão com valores faltantes

Um problema possível é quando, na coluna selecionada, há valores faltantes como NaN ou qualquer coisa do gênero. Nesses caso o método to_datetime() não funcionará. <br>


In [None]:
df_datas.loc[0, ['data']] = "N/A"
df_datas

  df_datas.loc[0, ['data']] = "N/A"


Unnamed: 0,idvenda,data,idvendedor,valor total
0,123,,1.0,45.76
1,374,2024-01-20 00:00:00,,102.34
2,654,2024-01-21 00:00:00,2.0,56.34
3,345,2024-01-21 00:00:00,3.0,34.21
4,546,2024-01-22 00:00:00,3.0,45.76
5,232,2024-01-22 00:00:00,2.0,102.34
6,789,2024-01-23 00:00:00,1.0,56.34
7,2345,2024-01-24 00:00:00,2.0,34.21


In [None]:
df_datas['data'] = pd.to_datetime(df_datas['data'])
df_datas

  df_datas['data'] = pd.to_datetime(df_datas['data'])


DateParseError: Unknown datetime string format, unable to parse: N/A, at position 0

Para esse caso é preciso usar a função `.assign()` que sobreescreverá a coluna "data".<br>
Dentro do método é passado a coluna "data" usando pd.to_datetime, passando o DataFrame com a coluna da data além do parâmetro`errors = "coerce"`.<br>

errors = "coerce": strings inválidas serão settadas como 'NaT'.



In [None]:
df_datas = df_datas.assign(data = pd.to_datetime(df_datas["data"], errors= "coerce"))
df_datas

Unnamed: 0,idvenda,data,idvendedor,valor total,data2,data_form_br
0,123,2024-01-19,1.0,45.76,19-01-2024,19-01-2024
1,374,2024-01-20,,102.34,20-01-2024,20-01-2024
2,654,2024-01-21,2.0,56.34,21-01-2024,21-01-2024
3,345,2024-01-21,3.0,34.21,21-01-2024,21-01-2024
4,546,2024-01-22,3.0,45.76,22-01-2024,22-01-2024
5,232,2024-01-22,2.0,102.34,22-01-2024,22-01-2024
6,789,2024-01-23,1.0,56.34,23-01-2024,23-01-2024
7,2345,2024-01-24,2.0,34.21,24-01-2024,24-01-2024


## Formatação de Datas

Docs: https://strftime.org/

Usando os comandos corretos, semelhantes à regex, é possível formatar as datas, reordenando ano - mes - dia ou até mostrando o dia da semana.<br>
O comando é usado passando `df[col_name].dt.strftime("cod")`.

In [None]:
df_datas = df_datas.assign(data_form_br = df_datas["data"].dt.strftime("%-d-%m-%Y"))
df_datas

Unnamed: 0,idvenda,data,idvendedor,valor total,data2,data_form_br
0,123,2024-01-19,1.0,45.76,19-01-2024,19-01-2024
1,374,2024-01-20,,102.34,20-01-2024,20-01-2024
2,654,2024-01-21,2.0,56.34,21-01-2024,21-01-2024
3,345,2024-01-21,3.0,34.21,21-01-2024,21-01-2024
4,546,2024-01-22,3.0,45.76,22-01-2024,22-01-2024
5,232,2024-01-22,2.0,102.34,22-01-2024,22-01-2024
6,789,2024-01-23,1.0,56.34,23-01-2024,23-01-2024
7,2345,2024-01-24,2.0,34.21,24-01-2024,24-01-2024


## Preenchendo valores nulos

usando o método `.fillna()` é possível substituir os valores faltantes por algo de sua escolha, como no exemplo abaixo:

In [None]:
df_datas["data"].fillna("2024-01-19", inplace = True)
df_datas

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_datas["data"].fillna("2024-01-19", inplace = True)
  cast_date_col = pd.to_datetime(column, errors="coerce")


Unnamed: 0,idvenda,data,idvendedor,valor total,data2
0,123,2024-01-19,1.0,45.76,
1,374,2024-01-20,,102.34,20-01-2024
2,654,2024-01-21,2.0,56.34,21-01-2024
3,345,2024-01-21,3.0,34.21,21-01-2024
4,546,2024-01-22,3.0,45.76,22-01-2024
5,232,2024-01-22,2.0,102.34,22-01-2024
6,789,2024-01-23,1.0,56.34,23-01-2024
7,2345,2024-01-24,2.0,34.21,24-01-2024


## Acessando atributos específicos

Ao usar o tipo date, é possível acessar somente os anos, meses, dias, horas, minutos e segundos (se tal dado estiver listado). <br>
Veja abaixo o acesso aos anos e meses:

In [None]:
df_datas["data"].dt.year

Unnamed: 0,data
0,2024
1,2024
2,2024
3,2024
4,2024
5,2024
6,2024
7,2024


In [None]:
df_datas["data"].dt.day

Unnamed: 0,data
0,19
1,20
2,21
3,21
4,22
5,22
6,23
7,24


# Datas como Índices

In [None]:
df_datas_2 = df_datas.copy()

In [None]:
df_datas_2.dtypes

Unnamed: 0,0
idvenda,int64
data,datetime64[ns]
idvendedor,float64
valor total,float64
data2,object
data_form_br,object


## Conversão

Usando o método `.set_index()` passando a coluna de data como parâmetro, é feita a conversão para que as datas se tornem o índice do DataFrame.

In [None]:
df_datas_2.set_index("data", inplace=True)


KeyError: "None of ['data'] are in the columns"

Com esse tipo de índice, é possível fazer acessos de forma especial, como apenas certos anos.

In [None]:
df_datas_2.loc["2024"]

Unnamed: 0_level_0,idvenda,idvendedor,valor total
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2024-01-19,123,1.0,45.76
2024-01-20,374,,102.34
2024-01-21,654,2.0,56.34
2024-01-21,345,3.0,34.21
2024-01-22,546,3.0,45.76
2024-01-22,232,2.0,102.34
2024-01-23,789,1.0,56.34
2024-01-24,2345,2.0,34.21


É possível definir um intervalo de datas como abaixo:

In [None]:
df_datas_2.loc["2024-01-21":"2024-01"]

Unnamed: 0_level_0,idvenda,idvendedor,valor total
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2024-01-21,654,2.0,56.34
2024-01-21,345,3.0,34.21
2024-01-22,546,3.0,45.76
2024-01-22,232,2.0,102.34
2024-01-23,789,1.0,56.34
2024-01-24,2345,2.0,34.21


## Agregação com Datas

Datas, por serem valores frequênciais, podem ser agregados usando o método `.resample()` onde é passado 'D', 'M' ou 'Y' de acordo com o que se quer agregar, dia, mês ou ano.<br>
É possível selecionar as colunas que se quer agregar passando em lista após o método.<br>
Observe o uso do método abaixo, com Meses e Dias.

In [None]:
df_datas_2.resample('M')["valor total"].sum(numeric_only=True)

  df_datas_2.resample('M')["valor total"].sum(numeric_only=True)


Unnamed: 0_level_0,valor total
data,Unnamed: 1_level_1
2024-01-31,477.3


In [None]:
df_datas_2.resample('D')["valor total"].sum(numeric_only=True)

Unnamed: 0_level_0,valor total
data,Unnamed: 1_level_1
2024-01-19,45.76
2024-01-20,102.34
2024-01-21,90.55
2024-01-22,148.1
2024-01-23,56.34
2024-01-24,34.21


In [None]:
df_datas_2.resample('D')["valor total"].mean(numeric_only=True)

Unnamed: 0_level_0,valor total
data,Unnamed: 1_level_1
2024-01-19,45.76
2024-01-20,102.34
2024-01-21,45.275
2024-01-22,74.05
2024-01-23,56.34
2024-01-24,34.21


# Importação e Exportação

Há algumas funcionalidades que podem ser efetuadas ao importar um DataFrame.

## .head(x)

É comum exibir a parte inicial do DataFrame para análise uma vez que talvez o todo seja muito grande e cause problemas com a memória.

In [None]:
df_census = pd.read_csv('census.csv').head(3)
df_census

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K


## Parâmetro header

É possível não exibir os nomes das colunas do DataFrame bastando passar o parâmetro `header = None`. O efeito disso é que, caso hajam titulos para as colunas elas virão como valores na primeira linha e as colunas serão nomeadas com valores numéricos: 0, 1, 2, etc.


In [None]:
df_census = pd.read_csv('census.csv', header = None).head(3)
df_census

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
1,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
2,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K


## Nomeando Colunas

Em caso do DataFrame não ter colunas nomeadas é possível usar o parâmetro `names = <lista_de_nomes> ` passando assim uma lista de strings que serão o título do DataFrame.

In [None]:
colunas = ['age', 'workclass', 'final-weight', 'education', 'education-num',
       'marital-status', 'occupation', 'relationship', 'race', 'sex',
       'capital-gain', 'capital-loos', 'hour-per-week', 'native-country',
       'income']
df_census2 = pd.read_csv('census.csv', header = None, names = colunas).head(3)
df_census2

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
1,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
2,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K


## Seleção de colunas para importar

Com o parâmetro `user cols = [<lista_de_colunas>]` define-se quais colunas serão importadas, podendo assim, importar somente uma parte pequena do todo.

In [None]:
df_census3 = pd.read_csv('census.csv', usecols = ["age", 'workclass', 'income']).head(10)
df_census3

Unnamed: 0,age,workclass,income
0,39,State-gov,<=50K
1,50,Self-emp-not-inc,<=50K
2,38,Private,<=50K
3,53,Private,<=50K
4,28,Private,<=50K
5,37,Private,<=50K
6,49,Private,<=50K
7,52,Self-emp-not-inc,>50K
8,31,Private,>50K
9,42,Private,>50K


## Definindo formado de valores NaN

Usando o parâmetro `na_values = [...]` define-se quais valores do DataFrame precisam ser interpretados como NaN vaues.<br>
No caso do df abaixo, esse valor é o `" ?"` e ao checar pela quantidade de valores NaN em cada coluna será possível identificá-los mais facilmente.  

In [None]:
df_census4 = pd.read_csv('census.csv', na_values = [" ?"])
df_census4.isna().sum()

Unnamed: 0,0
age,0
workclass,1836
final-weight,0
education,0
education-num,0
marital-status,0
occupation,1843
relationship,0
race,0
sex,0


## Conversão de valores

Definindo um map com o nome da coluna e o valor para o qual ela será convertido, é possível converter tipos antes mesmo de importar.<br>
Observe abaixo a conversão do tipo da coluna 'final-weight' que era int para 'float', tudo feito com: `dtype = ({'final-weight': 'float'})`.


In [None]:
df_census4.dtypes

Unnamed: 0,0
age,int64
workclass,object
final-weight,int64
education,object
education-num,int64
marital-status,object
occupation,object
relationship,object
race,object
sex,object


In [None]:
df_census5 = pd.read_csv('census.csv', dtype = ({"final-weight": "float"}))
df_census5.dtypes

Unnamed: 0,0
age,int64
workclass,object
final-weight,float64
education,object
education-num,int64
marital-status,object
occupation,object
relationship,object
race,object
sex,object


## Convertendo datas e definindo índices

1. Usando o parâmetro `parse_dates = [<coluna>]` define-se qual coluna é para transferir para o tipo datetime.
2. `index_col = "<coluna>"` é usado para definir qual coluna será o novo índex.
No código abaixo, a coluna "Month" é convertida para data e definida como o novo índice.

In [None]:
df_air = pd.read_csv('AirPassengers.csv', parse_dates = ["Month"], index_col = "Month")
df_air

Unnamed: 0_level_0,#Passengers
Month,Unnamed: 1_level_1
1949-01-01,112
1949-02-01,118
1949-03-01,132
1949-04-01,129
1949-05-01,121
...,...
1960-08-01,606
1960-09-01,508
1960-10-01,461
1960-11-01,390


## Conversão com função personalizada

A conversão também pode ser feita usando uma função, para tal basta usar o parâmetro `converter = {<coluna>: função}`

In [None]:
moeda = lambda x: f"{x} USD"
dataset = pd.read_csv('census.csv', converters = {"capital-gain": moeda})
dataset

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174 USD,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0 USD,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0 USD,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0 USD,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0 USD,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0 USD,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0 USD,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0 USD,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0 USD,0,20,United-States,<=50K


## Lendo Dataset a partir de .txt

Usa-se o mesmo método, read_csv, mas é necessário saber qual o separador dos dados e passá-lo pelo parâmetro `.sep = <separador>` para ter a formatação correta do DataFrame.

In [None]:
df_seeds = pd.read_csv('seeds_dataset.txt', sep = "\t",
                       header = None, names = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
df_seeds

Unnamed: 0,a,b,c,d,e,f,g,h
0,15.26,14.84,0.871,5.763,3.312,2.221,5.22,1
1,14.88,14.57,0.8811,5.554,3.333,1.018,4.956,1
2,14.29,14.09,0.905,5.291,3.337,2.699,4.825,1
3,13.84,13.94,0.8955,5.324,3.379,2.259,4.805,1
4,16.14,14.99,0.9034,5.658,3.562,1.355,5.175,1
5,14.38,14.21,0.8951,5.386,3.312,2.462,4.956,1
6,16.63,15.46,0.8747,6.053,3.465,2.04,5.877,1
7,16.44,15.25,0.888,5.884,3.505,1.969,5.533,1
8,15.26,14.85,0.8696,5.714,3.242,4.543,5.314,1
9,14.03,14.16,0.8796,5.438,3.201,1.717,5.001,1


## Lendo a partir de arquivo do Excel

Para tal, é preciso usar o método read_excel, passando o nome do arquivo xlsx e o nome da planilha:<br> `pd.read_excel("<arquivo>", sheet_name "<planilha>"`.<br>
É possível usar outros parâmetros como `header` e `names`.

In [None]:
df_seeds_excel = pd.read_excel('seeds.xlsx', sheet_name = "Planilha1", header=None, names= ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
df_seeds_excel

Unnamed: 0,a,b,c,d,e,f,g,h
0,15.26,14.84,0.871,5763,3312,2221.0,5.22,1
1,14.88,14.57,0.8811,5554,3333,1018.0,4956.0,1
2,14.29,14.09,0.905,5291,3337,2699.0,4825.0,1
3,13.84,13.94,0.8955,5324,3379,2259.0,4805.0,1
4,16.14,14.99,0.9034,5658,3562,1355.0,5175.0,1
5,14.38,14.21,0.8951,5386,3312,2462.0,4956.0,1
6,16.63,15.46,0.8747,6053,3465,2.04,5877.0,1
7,16.44,15.25,0.888,5884,3505,1969.0,5533.0,1
8,15.26,14.85,0.8696,5714,3242,4543.0,5314.0,1
9,14.03,14.16,0.8796,5438,3201,1717.0,5001.0,1


## Salvando DataFrames

Usando o método `.to_csv` pode-se salvar o DataFrame, escolhendo ou não, salvar com índices (parâmetro index = False).

In [None]:
df_seeds_excel.to_csv('teste.csv')

In [None]:
df_seeds_excel.to_csv('teste.csv', index = False)

## Salvando Arquivos Excel

Com o método `.to_excel` é possível salvar arquvivos .xlsx inclusive definindo o nome da planilha com o parâmetro `sheet_name = "<nome>"`.

In [None]:
df_air.to_excel('teste.xlsx', sheet_name= "Test")