# Aula 3: Pandas I

_Pandas_ é uma das bibliotecas mais utilizadas de Python. Sem sombra de dúvidas uma das mais populares entre iniciantes e usuários avançados. Ela desempenha papel central na análise de dados. O nome pandas não vem dos fofos comedores de bambu e sim da expressão _"Panel Data"_ (Dados em Painel), que é a intersecção de séries temporais com corte transversal.

```
Cortes transversais representa multiplas observações retiradas em um mesmo período de tempo (e.g. o IDH dos Estados brasileiros em 2010). Séreis temporais são observações de um mesmo evento (no sentido estatístico) ao longo de vários períodos (e.g. o PIB anual entre 2000 e 2010).
```

Essa biblioteca permite ler, organizar e transformar dados de uma forma fácil e eficiente. Ao contrário do Excel, que tem um limite de pouco mais de 1,048 milhão de linhas, o _Python_ é apenas limitado pela memória disponível para leitura de dados.

_Pandas_ repete muito dos _idioms_ _Numpy_. Conhecer esse último acelera o aprendizado do primeiro, além de possibilitar combinar ambos, dando um _power-up_ nas análises. Nesta aula vamos conhecer as principais estruturas do _Pandas_: as _Series_ e os _DataFrames_.

## Estruturas de Dados

Existem duas estruturas, _Series_ e _DataFrames_. De modo grosseiro, as _Series_ podem ser entendidas como colunas dos _DataFrames_.

### Series

_Series_ são objetos de uma única dimensão, cuja estrutura lembra muito os _ndarray_ 1D do _Numpy_. A forma de manipular também é muito parecida. As principais diferenças são: a forma de criar e os índices. Vamos começar importando.

In [8]:
!pip install nb_black --quiet
%load_ext nb_black

import pandas as pd
import numpy as np

The nb_black extension is already loaded. To reload it, use:
  %reload_ext nb_black


<IPython.core.display.Javascript object>

Uma convenção entre os _pythonistas_ é importar _pandas_ como _pd_.

Iremos utilizar a função pd.Series() para criar a série:

In [17]:
juros_ao_ano = pd.Series(data=[0.067, 0.081, 0.076])

juros_ao_ano

0    0.067
1    0.081
2    0.076
dtype: float64

<IPython.core.display.Javascript object>

Dados são o primeiro argumento da função. Aqui utilizamos uma lista, mas ele também aceita objetos do tipo _np.ndarray_. Note o modo como o _pd.Series_ imprime os valores na tela. Muito mais apresentável em relação aos _np.darray_.

Dois componentes importantes de uma série são os valores e os índices. Eles podem ser acessados pelos atributos _.values_ e _.index_ respectivamente. Sabemos que são atributos pois não são sucedidos dos parentêses, ao contrário dos métodos. Vamos examiná-los:

In [13]:
juros_ao_ano.values

array([0.067, 0.081, 0.076])

<IPython.core.display.Javascript object>

Os valores são _arrays_. Perceba como conhecer _numpy_ pode ser útil. Eles guardam os valores e cujos indíces indicam sua posição e se encontram na mesma posição que infomarmos ao declarar o objeto. Podemos fatiar esse objeto.

In [14]:
type(juros_ao_ano.values)

numpy.ndarray

<IPython.core.display.Javascript object>

In [15]:
juros_ao_ano.values[1:]

array([0.081, 0.076])

<IPython.core.display.Javascript object>

E os indíces?

In [16]:
juros_ao_ano.index

RangeIndex(start=0, stop=3, step=1)

<IPython.core.display.Javascript object>

Se não dissermos diferente, eles serão um intervalo (_RangeIndex_), começando de zero. Contudo, é possível atribuir um índice customizado para série e essa é uma das maiores diferenças dele para os _np.ndarrays_, cujo índice sempre será um inteiro.

In [25]:
juros_ao_ano_02 = pd.Series(
    [0.067, 0.081, 0.076], index=["Tesouro 1", "Tesouro 2", "Tesouro 3"], name="Juros"
)
juros_ao_ano_02

Tesouro 1    0.067
Tesouro 2    0.081
Tesouro 3    0.076
Name: Juros, dtype: float64

<IPython.core.display.Javascript object>

```
Você pode, mas não deve, usar índices repetidos. Indíces não são chaves primárias.
```

Aqui duas novidades. Declaramos o indíce e o nome da _Series_ e seu nome. Nome é um atributo que pode ser acessado por _.name_. É possível chamar um elemento pelo seu índice:

In [20]:
juros_ao_ano_02["Tesouro 2"]

0.081

<IPython.core.display.Javascript object>

Ou perguntar se um índice esta presente:

In [21]:
"Tesouro 2" in juros_ao_ano_02

True

<IPython.core.display.Javascript object>

E até mesmo reatribuir o índice/nome/valores acessando seus atributos. Veja o exemplo a seguir.

In [35]:
print(juros_ao_ano_02.index)

juros_ao_ano_02.index = ["T1", "T2", "T3"]

juros_ao_ano_02

Index(['Tesouro 1', 'Tesouro 2', 'Tesouro 3'], dtype='object')


T1    0.067
T2    0.081
T3    0.076
Name: Juros, dtype: float64

<IPython.core.display.Javascript object>

In [24]:
juros_ao_ano_02["T1"]

0.067

<IPython.core.display.Javascript object>

In [23]:
juros_ao_ano_02.T1

0.067

<IPython.core.display.Javascript object>

Normalmente, os métodos com os mesmos nomes de métodos do _Numpy_ podem ser utilizados para as _pd.Series_. Teste alguns chamando por exemplo `juros_ao_ano_02.mean()` (média) ou então `juros_ao_ano_02.sum()`.

In [30]:
juros_ao_ano_02.mean()

0.07466666666666667

<IPython.core.display.Javascript object>

Praticamente as mesmas operações disponíveis nos `np.ndarray`s de `Numpy` estão disponíveis aqui. Podemos multiplicar, somar, dividir uma série por outra ou por um eslacar. É importante lembrar que em operações entre séries os índices serão realinhados (mais sobre isso adiante).

Um exemplo de operação contra um escalar:

In [31]:
juros_ao_ano_02 * 100

Tesouro 1    6.7
Tesouro 2    8.1
Tesouro 3    7.6
Name: Juros, dtype: float64

<IPython.core.display.Javascript object>

Vamos defiinir uma série nova e testar uma operação de série por série. Primeiro vamos criar uma série de imposto:

In [33]:
imposto_ao_ano = pd.Series([1, -1, 0], index=["T2", "T1", "T3"])
imposto_ao_ano

T2    1
T1   -1
T3    0
dtype: int64

<IPython.core.display.Javascript object>

Note a posição dos indíces. Agora é só multiplicar uma pela outra:

In [36]:
juros_ao_ano_02 * imposto_ao_ano

T1   -0.067
T2    0.081
T3    0.000
dtype: float64

<IPython.core.display.Javascript object>

Note como a operação ocorre entre as mesmas posições nos índices. Já conhecemos o básico das _Series_, agora vamos para o próximo bloco fundamental de _Pandas_, os _DataFrames_.

### DataFrames

Esses podem ser descritos como tabelas, onde suas colunas são _Series_ que compartilham de um mesmo índice. Existem várias formas de declarar. Normalmente são produto direto da leitura de arquivos _.csv_ ou _.xlsx_. Também é possível declará-los do zero. Talvez a forma mais intuitiva é por meio de dicíonarios, já que eles lembram muito as tabelas.

In [62]:
np.random.seed(2022)

dados = {
    "Taxa de Juros": np.random.randint(40, 70, size=10),
    "Dias": np.random.randint(180, 721, size=10),
}

dados

{'Taxa de Juros': array([69, 68, 53, 56, 57, 57, 56, 63, 64, 58]),
 'Dias': array([204, 324, 489, 191, 327, 306, 639, 228, 327, 346])}

<IPython.core.display.Javascript object>

```
Criar DataFrames partindo de dicionários pode ser particularmente útil. Cientistas de dados fazem isso o tempo todo quando estão reduzindo dados ou guardando dados de um experimento. Lembre-se disso.
```

Esses são os nossos dados.

```
A função np.random.randint() foi utilizada dados pseudo-aleatoriamente. np.random.seed() garante que os sorteios vão seguir o mesmo padrão não importe quantas vezes eu rode o mesmo código. Tente comentar a linha de np.random.seed() e observe que os números sorteados se alteram. Depois descomente, rode novamente e perceba que eles retornam aos valores anteriores.
```

Agora vamos criar o nosso _pd.DataFrame_:

In [63]:
df_cdbs = pd.DataFrame(dados)
df_cdbs

Unnamed: 0,Taxa de Juros,Dias
0,69,204
1,68,324
2,53,489
3,56,191
4,57,327
5,57,306
6,56,639
7,63,228
8,64,327
9,58,346


<IPython.core.display.Javascript object>

No querido _Jupyter notebook_, a impressão da tabela fica formatada utilizando _HTML_ de uma forma muito agradável. Essa mesma tabela poderia ter sido construída de várias outras formas, como por exemplo:

In [65]:
df_exemplo = pd.DataFrame(
    [[1, "a"], [2, "b"], [3, "c"]], columns=["Coluna 1", "Coluna 2"]
)

df_exemplo

Unnamed: 0,Coluna 1,Coluna 2
0,1,a
1,2,b
2,3,c


<IPython.core.display.Javascript object>

Aqui alimentamos a função com uma lista de lista, onde cada lista interior representa uma linha. Também utilizamos o argumento `columns` para informar o nome das colunas. O índice de um `pd.DataFrame` é muito importante. Qualquer operação que fazemos no objeto esta sujeita a realinhamento dos índices.

Para exemplificar vou criar uma nova série cujos os indíces divergem levemente dos indíces de `df_exemplo`.

In [66]:
coluna_3 = pd.Series([4, 5, 6], index=[3, 1, 0])

coluna_3

3    4
1    5
0    6
dtype: int64

<IPython.core.display.Javascript object>

Pronto. Podemos atrelar `coluna_3`a uma nova coluna em um `pd.DataFrame` já existente e depois ver qual foi o resultado. Fazer isso é muito simples:

In [70]:
df_exemplo["Coluna 3"] = coluna_3
df_exemplo

# outra forma de fazer
# df_exemplo["Coluna 3"] = [4, 5, 6] # ps não realinha indice
# df_exemplo

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3
0,1,a,6.0
1,2,b,5.0
2,3,c,


<IPython.core.display.Javascript object>

Note que o último valor da série, 6, se tornou o primeiro. O primeiro valor da série por sua vez nem aparece pois não existe um indíce 3. Também é importante separar o que é uma view de uma série de uma cópia. Vamos modificar a `coluna_3`:

In [71]:
coluna_3[2] = 4

<IPython.core.display.Javascript object>

Pronto, agora examinemos o que aconteceu com `coluna_3`:

In [72]:
coluna_3

3    4
1    5
0    6
2    4
dtype: int64

<IPython.core.display.Javascript object>

Ela afetou `df_exemplo`?

In [73]:
df_exemplo

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3
0,1,a,6.0
1,2,b,5.0
2,3,c,


<IPython.core.display.Javascript object>

Mas ao declarar uma nova variável a partir de `df_exemplo['Coluna 3']` e tentarmos modificar essa nova variável, `df_exemplo`, um alerta é impresso na tela e `df_exemplo` também é modificado. Isso acontece pois a nova variável (`col_3`) é uma view de um objeto existente, e não uma cópia apartada dele.

In [74]:
col_3 = df_exemplo["Coluna 3"]
col_3[2] = 4
df_exemplo

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  col_3[2] = 4


Unnamed: 0,Coluna 1,Coluna 2,Coluna 3
0,1,a,6.0
1,2,b,5.0
2,3,c,4.0


<IPython.core.display.Javascript object>

Note que ao deletar `col_3` no entando apenas a _view_ e não o objeto original é deletado.

In [75]:
del col_3
df_exemplo

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3
0,1,a,6.0
1,2,b,5.0
2,3,c,4.0


<IPython.core.display.Javascript object>

Para evitar a criação de _views_ no lugar de cópias, utilize o método `.copy()`. Note a diferença:

In [76]:
col_1 = df_exemplo["Coluna 1"]
col_2 = df_exemplo["Coluna 2"]
col_3 = df_exemplo["Coluna 3"].copy()

col_1 = -10  # modificamos sem usar uma fatia / slice
col_2[:] = 0  # modificamos usando uma fatia / slice
col_3[:] = -30  # modificamos usando fatia / slice e cópia

df_exemplo

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  col_2[:] = 0   # modificamos usando uma fatia / slice


Unnamed: 0,Coluna 1,Coluna 2,Coluna 3
0,1,0,6.0
1,2,0,5.0
2,3,0,4.0


<IPython.core.display.Javascript object>

In [77]:
col_3

0   -30.0
1   -30.0
2   -30.0
Name: Coluna 3, dtype: float64

<IPython.core.display.Javascript object>

A _view_ da `col_1` foi modificada sem utilizar cópia e fatia, não afetando o dado original. `col_2` foi modificada por meio de um _view_ (sem usar `*.copy()`) selecionando uma fatia (`[:]`). O dado original foi afetado. Por último, `col_3` não era uma _view_ e sim um novo objeto por si só. As alterações que fizemos ali não foram transmitidas ao objeto original.

É muito importante ter em vista esses comportamentos. Saber isso salva vidas. Os anúncios na tela em vermelho são muito importantes, evite ignorá-los. Saber construir tabelas partindo de dados em memória é útil, sobretudo dicionários. Esses exercícios serviram antes de mais nada para conhecermos melhor os tijolos fundamentais que subsidiam o `Pandas`, mas, mais do que isso, é preciso saber ler e escrever dados no disco rígido.

## Lendo e Escrevendo

As principais funções de leitura e escrita são:

* `pd.read_csv()` e `pd.to_csv()` que permite ler e escrever arquivos separados por vírgula;
* `pd.read_excel()` e `pd.to_excel()` suporta os formatos xls, xlsx, xlsm, xlsb, odf, ods e odt;
* `pd.read_sql()` e `pd.read_json()` faz consultas em bases SQL e lê dados escritos em JSON respectivamente;
* minhas favoritas para _big data_ o `pd.read_parquet()` e `pd.to_parquet()`.


Existem inúmeras outras e você pode consultar todas elas aqui:

* https://pandas.pydata.org/docs/reference/io.html

A maioria dos dados de negócio estão escritos em _.csv_ ou _.xlsx_. O modo de usar ambas acaba sendo muito parecido. Vamos começar escrevendo os dados que fabricamos.

In [79]:
df_cdbs.to_csv("cdbs_hipoteticos.csv", index=False, sep=";")

<IPython.core.display.Javascript object>

Primeiro informamos o nome que queremos dar ao arquivo (cuidado para não substituir um arquivo já existente). Também é interessante omitir o índice, se ele não conter nenhuma informação diferente do número da linha (use `index=False`). É bem comum especificar o separador das colunas. O argumento `sep` faz isso. Meus sepadores preferidos são ponto e vírgula e o _pipe_ (`|`). Dessa forma evito confusão com valores de texto. Outro argumento muito utilizado é o `encoding`. Utilizo bastante o `latin1` ou `latin3` em alterantiva ao padrão `utf-8`.

É bem comum se deparar com vários erros nessa etapa, seja resiliente e não êxite em consultar a [documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html#pandas.DataFrame.to_csv) bem como pesquisar os erros na internet.

Agora vamos ler os dados da aula:

In [87]:
df_bank = pd.read_excel("arquivos/bank-full.xlsx", sheet_name="Sheet 1 - bank-full",)
df_bank

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45206,51,technician,married,tertiary,no,825,no,no,cellular,17,nov,977,3,-1,0,unknown
45207,71,retired,divorced,primary,no,1729,no,no,cellular,17,nov,456,2,-1,0,unknown
45208,72,retired,married,secondary,no,5715,no,no,cellular,17,nov,1127,5,184,3,success
45209,57,blue-collar,married,secondary,no,668,no,no,telephone,17,nov,508,4,-1,0,unknown


<IPython.core.display.Javascript object>

O número de linhas e colunas máximos pode ser alterado pelas configurações. Não entrarei em detalhes mas siga para [este link](https://towardsdatascience.com/6-pandas-display-options-you-should-memories-84adf8887bc3) para saber mais. Para examinar as _n_ primeiras linhas de um `pd.DataFrame` basta chamar `<nome do objeto>.head()`. Por padrão ele exibe as 5 primeiras linhas mas esse número pode ser informado:

In [88]:
df_bank.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown


<IPython.core.display.Javascript object>

Outra opção é o `.tail()` que mostra o final das tabelas:

In [167]:
df_bank.tail(2)

Unnamed: 0,age_in_years,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome
45209,57,blue-collar,married,secondary,no,668,no,no,telephone,17,nov,508,4,-1,0,unknown
45210,37,entrepreneur,married,secondary,no,2971,no,no,cellular,17,nov,361,2,188,11,other


<IPython.core.display.Javascript object>

É possível observar o nome das colunas por meio do atributo `.columns`.

In [91]:
df_bank.columns

Index(['age', 'job', 'marital', 'education', 'default', 'balance', 'housing',
       'loan', 'contact', 'day', 'month', 'duration', 'campaign', 'pdays',
       'previous', 'poutcome'],
      dtype='object')

<IPython.core.display.Javascript object>

A seguir usamos um _list comprehension_ para adicional um _underline_ no fim do nome de cada coluna:

In [168]:
df_bank.columns = [coluna + "_" for coluna in df_bank.columns]
df_bank.head(2)

Unnamed: 0,age_in_years_,job_,marital_,education_,default_,balance_,housing_,loan_,contact_,day_,month_,duration_,campaign_,pdays_,previous_,poutcome_
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown


<IPython.core.display.Javascript object>

Reverter o processo é extremamente fácil:

In [169]:
df_bank.columns = [coluna[:-1] for coluna in df_bank.columns]
df_bank.head(2)

Unnamed: 0,age_in_years,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown


<IPython.core.display.Javascript object>

Existe um método para renomear colunas específicas, `rename()`. Informe um dicionário onde as chaves são os nomes atuais e os valores são os novos nomes:

In [170]:
df_bank.rename(columns={"age": "age_in_years"}, inplace=True)

# equivale à
# df_bank = df_bank.rename(columns={"age": "age_in_years"})

df_bank.head(2)

Unnamed: 0,age_in_years,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown


<IPython.core.display.Javascript object>

Você pode usar o argumento `inplace=True` para mudar o nome de forma permanente ou então omitir o argumento e guardar na mesma variável, mas nunca use `inplace=True` e guarde na mesma variável pois ele faz com que o valor devolvido seja um nulo.

Informações gerais de uma tabela podem ser dispostas na tela usando o método `.info()`. Com ele é possível ver:
* número de linhas;
* número de colunas;
* a posição da coluna na tabela;
* nome da coluna;
* número de entradas não nulas;
* tipo da variável;
* memória RAM ocupada.

```
É possível alterar o tipo das variáveis unsando o método .astype(<dicionario colua : novo tipo>). O argumento inplace vale aqui também.
```

Variáveis de texto, ou seja, categóricas, são armazenadas no que chamamos de tipo `Dtype=Object(O)`.

In [100]:
df_bank.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45211 entries, 0 to 45210
Data columns (total 16 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   age_in_years  45211 non-null  int64 
 1   job           45211 non-null  object
 2   marital       45211 non-null  object
 3   education     45211 non-null  object
 4   default       45211 non-null  object
 5   balance       45211 non-null  int64 
 6   housing       45211 non-null  object
 7   loan          45211 non-null  object
 8   contact       45211 non-null  object
 9   day           45211 non-null  int64 
 10  month         45211 non-null  object
 11  duration      45211 non-null  int64 
 12  campaign      45211 non-null  int64 
 13  pdays         45211 non-null  int64 
 14  previous      45211 non-null  int64 
 15  poutcome      45211 non-null  object
dtypes: int64(7), object(9)
memory usage: 5.5+ MB


<IPython.core.display.Javascript object>

Você pode querer ver algumas estatísticas descritivas das variáveis numéricas:

In [101]:
df_bank.describe()

Unnamed: 0,age_in_years,balance,day,duration,campaign,pdays,previous
count,45211.0,45211.0,45211.0,45211.0,45211.0,45211.0,45211.0
mean,40.93621,1362.272058,15.806419,258.16308,2.763841,40.197828,0.580323
std,10.618762,3044.765829,8.322476,257.527812,3.098021,100.128746,2.303441
min,18.0,-8019.0,1.0,0.0,1.0,-1.0,0.0
25%,33.0,72.0,8.0,103.0,1.0,-1.0,0.0
50%,39.0,448.0,16.0,180.0,2.0,-1.0,0.0
75%,48.0,1428.0,21.0,319.0,3.0,-1.0,0.0
max,95.0,102127.0,31.0,4918.0,63.0,871.0,275.0


<IPython.core.display.Javascript object>

Ou apenas das categóricas (`include=["O"]`):

In [102]:
df_bank.describe(include=["O"])

Unnamed: 0,job,marital,education,default,housing,loan,contact,month,poutcome
count,45211,45211,45211,45211,45211,45211,45211,45211,45211
unique,12,3,4,2,2,2,3,12,4
top,blue-collar,married,secondary,no,yes,no,cellular,may,unknown
freq,9732,27214,23202,44396,25130,37967,29285,13766,36959


<IPython.core.display.Javascript object>

Para exibir tudo ao mesmo tempo inclua o argumento `include="all"`.

In [103]:
df_bank.describe(include="all")

Unnamed: 0,age_in_years,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome
count,45211.0,45211,45211,45211,45211,45211.0,45211,45211,45211,45211.0,45211,45211.0,45211.0,45211.0,45211.0,45211
unique,,12,3,4,2,,2,2,3,,12,,,,,4
top,,blue-collar,married,secondary,no,,yes,no,cellular,,may,,,,,unknown
freq,,9732,27214,23202,44396,,25130,37967,29285,,13766,,,,,36959
mean,40.93621,,,,,1362.272058,,,,15.806419,,258.16308,2.763841,40.197828,0.580323,
std,10.618762,,,,,3044.765829,,,,8.322476,,257.527812,3.098021,100.128746,2.303441,
min,18.0,,,,,-8019.0,,,,1.0,,0.0,1.0,-1.0,0.0,
25%,33.0,,,,,72.0,,,,8.0,,103.0,1.0,-1.0,0.0,
50%,39.0,,,,,448.0,,,,16.0,,180.0,2.0,-1.0,0.0,
75%,48.0,,,,,1428.0,,,,21.0,,319.0,3.0,-1.0,0.0,


<IPython.core.display.Javascript object>

Curiosamente, `describe()` retorna outro `pd.DataFrame` em que os índices representam as estatísticas descritivas.

In [106]:
df_bank.isna().sum()

age_in_years    0
job             0
marital         0
education       0
default         0
balance         0
housing         0
loan            0
contact         0
day             0
month           0
duration        0
campaign        0
pdays           0
previous        0
poutcome        0
dtype: int64

<IPython.core.display.Javascript object>

In [107]:
df_bank.isna().mean()

age_in_years    0.0
job             0.0
marital         0.0
education       0.0
default         0.0
balance         0.0
housing         0.0
loan            0.0
contact         0.0
day             0.0
month           0.0
duration        0.0
campaign        0.0
pdays           0.0
previous        0.0
poutcome        0.0
dtype: float64

<IPython.core.display.Javascript object>

In [109]:
df_bank.reset_index(drop=True)

Unnamed: 0,age_in_years,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45206,51,technician,married,tertiary,no,825,no,no,cellular,17,nov,977,3,-1,0,unknown
45207,71,retired,divorced,primary,no,1729,no,no,cellular,17,nov,456,2,-1,0,unknown
45208,72,retired,married,secondary,no,5715,no,no,cellular,17,nov,1127,5,184,3,success
45209,57,blue-collar,married,secondary,no,668,no,no,telephone,17,nov,508,4,-1,0,unknown


<IPython.core.display.Javascript object>

In [111]:
juros_ao_ano_02

T1    0.067
T2    0.081
T3    0.076
Name: Juros, dtype: float64

<IPython.core.display.Javascript object>

In [114]:
pd.DataFrame(juros_ao_ano_02).reset_index()

Unnamed: 0,index,Juros
0,T1,0.067
1,T2,0.081
2,T3,0.076


<IPython.core.display.Javascript object>

In [115]:
pd.DataFrame(juros_ao_ano_02)

Unnamed: 0,Juros
T1,0.067
T2,0.081
T3,0.076


<IPython.core.display.Javascript object>

In [116]:
juros_ao_ano_02.reset_index()

Unnamed: 0,index,Juros
0,T1,0.067
1,T2,0.081
2,T3,0.076


<IPython.core.display.Javascript object>

In [117]:
juros_ao_ano_02.reset_index(drop=True)

0    0.067
1    0.081
2    0.076
Name: Juros, dtype: float64

<IPython.core.display.Javascript object>

In [119]:
df_juros = juros_ao_ano_02.reset_index()
df_juros

Unnamed: 0,index,Juros
0,T1,0.067
1,T2,0.081
2,T3,0.076


<IPython.core.display.Javascript object>

In [120]:
df_juros["index"]

0    T1
1    T2
2    T3
Name: index, dtype: object

<IPython.core.display.Javascript object>

In [121]:
df_juros.index

RangeIndex(start=0, stop=3, step=1)

<IPython.core.display.Javascript object>

In [123]:
df_juros.rename(columns={"index": "nome_titulo"})

Unnamed: 0,nome_titulo,Juros
0,T1,0.067
1,T2,0.081
2,T3,0.076


<IPython.core.display.Javascript object>

In [124]:
df_juros

Unnamed: 0,index,Juros
0,T1,0.067
1,T2,0.081
2,T3,0.076


<IPython.core.display.Javascript object>

In [125]:
df_juros = df_juros.rename(columns={"index": "nome_titulo"}, inplace=False)

df_juros.rename(columns={"index": "nome_titulo"}, inplace=True)

<IPython.core.display.Javascript object>

In [127]:
df_bank["job"]
df_bank.job

0          management
1          technician
2        entrepreneur
3         blue-collar
4             unknown
             ...     
45206      technician
45207         retired
45208         retired
45209     blue-collar
45210    entrepreneur
Name: job, Length: 45211, dtype: object

<IPython.core.display.Javascript object>

In [129]:
type(df_bank.job)

pandas.core.series.Series

<IPython.core.display.Javascript object>

In [128]:
df_bank[["job", "age_in_years"]]

Unnamed: 0,job,age_in_years
0,management,58
1,technician,44
2,entrepreneur,33
3,blue-collar,47
4,unknown,33
...,...,...
45206,technician,51
45207,retired,71
45208,retired,72
45209,blue-collar,57


<IPython.core.display.Javascript object>

In [130]:
type(df_bank[["job", "age_in_years"]])

pandas.core.frame.DataFrame

<IPython.core.display.Javascript object>

In [132]:
juros_ao_ano_02.loc[:3]

TypeError: cannot do slice indexing on Index with these indexers [3] of type int

<IPython.core.display.Javascript object>

In [133]:
df_juros.loc[:3]

Unnamed: 0,nome_titulo,Juros
0,T1,0.067
1,T2,0.081
2,T3,0.076


<IPython.core.display.Javascript object>

In [135]:
df_bank.loc[:5, ["job", "age_in_years"]]

Unnamed: 0,job,age_in_years
0,management,58
1,technician,44
2,entrepreneur,33
3,blue-collar,47
4,unknown,33
5,management,35


<IPython.core.display.Javascript object>

In [143]:
df_bank.shape[0]

45211

<IPython.core.display.Javascript object>

In [144]:
df_bank.loc[df_bank.shape[0] - 10 :, ["job", "age_in_years"]]

Unnamed: 0,job,age_in_years
45201,management,53
45202,admin.,34
45203,student,23
45204,retired,73
45205,technician,25
45206,technician,51
45207,retired,71
45208,retired,72
45209,blue-collar,57
45210,entrepreneur,37


<IPython.core.display.Javascript object>

In [145]:
df_bank.iloc[df_bank.shape[0] - 10 :, ["job", "age_in_years"]]

IndexError: .iloc requires numeric indexers, got ['job' 'age_in_years']

<IPython.core.display.Javascript object>

In [147]:
df_bank.iloc[:, [1, 0]]

Unnamed: 0,job,age_in_years
0,management,58
1,technician,44
2,entrepreneur,33
3,blue-collar,47
4,unknown,33
...,...,...
45206,technician,51
45207,retired,71
45208,retired,72
45209,blue-collar,57


<IPython.core.display.Javascript object>

In [150]:
df_bank.iloc[:, :2]

Unnamed: 0,age_in_years,job
0,58,management
1,44,technician
2,33,entrepreneur
3,47,blue-collar
4,33,unknown
...,...,...
45206,51,technician
45207,71,retired
45208,72,retired
45209,57,blue-collar


<IPython.core.display.Javascript object>

In [151]:
df_bank.iloc[-5:, :2]

Unnamed: 0,age_in_years,job
45206,51,technician
45207,71,retired
45208,72,retired
45209,57,blue-collar
45210,37,entrepreneur


<IPython.core.display.Javascript object>

In [152]:
df_bank.iloc[-5:].loc[:, ["job"]]

Unnamed: 0,job
45206,technician
45207,retired
45208,retired
45209,blue-collar
45210,entrepreneur


<IPython.core.display.Javascript object>

In [153]:
df_bank.columns

Index(['age_in_years', 'job', 'marital', 'education', 'default', 'balance',
       'housing', 'loan', 'contact', 'day', 'month', 'duration', 'campaign',
       'pdays', 'previous', 'poutcome'],
      dtype='object')

<IPython.core.display.Javascript object>

In [157]:
["o" in coluna for coluna in df_bank.columns]

[False,
 True,
 False,
 True,
 False,
 False,
 True,
 True,
 True,
 False,
 True,
 True,
 False,
 False,
 True,
 True]

<IPython.core.display.Javascript object>

In [158]:
df_bank.loc[:, ["o" in coluna for coluna in df_bank.columns]]

Unnamed: 0,job,education,housing,loan,contact,month,duration,previous,poutcome
0,management,tertiary,yes,no,unknown,may,261,0,unknown
1,technician,secondary,yes,no,unknown,may,151,0,unknown
2,entrepreneur,secondary,yes,yes,unknown,may,76,0,unknown
3,blue-collar,unknown,yes,no,unknown,may,92,0,unknown
4,unknown,unknown,no,no,unknown,may,198,0,unknown
...,...,...,...,...,...,...,...,...,...
45206,technician,tertiary,no,no,cellular,nov,977,0,unknown
45207,retired,primary,no,no,cellular,nov,456,0,unknown
45208,retired,secondary,no,no,cellular,nov,1127,3,success
45209,blue-collar,secondary,no,no,telephone,nov,508,0,unknown


<IPython.core.display.Javascript object>

In [159]:
df_bank.dtypes

age_in_years     int64
job             object
marital         object
education       object
default         object
balance          int64
housing         object
loan            object
contact         object
day              int64
month           object
duration         int64
campaign         int64
pdays            int64
previous         int64
poutcome        object
dtype: object

<IPython.core.display.Javascript object>

In [164]:
mask = df_bank["age_in_years"] < df_bank["age_in_years"].mean()
mask

0        False
1        False
2         True
3        False
4         True
         ...  
45206    False
45207    False
45208    False
45209    False
45210     True
Name: age_in_years, Length: 45211, dtype: bool

<IPython.core.display.Javascript object>

In [165]:
mask = df_bank["age_in_years"] < df_bank["age_in_years"].mean()

df_bank.loc[
    mask, [tipo == "int64" for tipo in df_bank.dtypes],
]

Unnamed: 0,age_in_years,balance,day,duration,campaign,pdays,previous
2,33,2,5,76,1,-1,0
4,33,1,5,198,1,-1,0
5,35,231,5,139,1,-1,0
6,28,447,5,217,1,-1,0
11,29,390,5,137,1,-1,0
...,...,...,...,...,...,...,...
45200,38,557,16,1556,4,-1,0
45202,34,557,17,224,1,-1,0
45203,23,113,17,266,1,-1,0
45205,25,505,17,386,2,-1,0


<IPython.core.display.Javascript object>

In [162]:
df_bank["age_in_years"].mean()

40.93621021432837

<IPython.core.display.Javascript object>