# 2.2. DataFrames I - Pandas
---

<img src="https://selecao.letscode.com.br/favicon.png" width="40px" style="position: absolute; top: 15px; right: 40px; border-radius: 5px;" />

## DataFrames

No Pandas, as tabelas são chamadas de `DataFrames`.

<img src="https://s3-sa-east-1.amazonaws.com/lcpi/bb07d871-b4c0-4fb0-b28b-9c308c7b1270.png" style="border-radius: 10px;" />

O Pandas suporta a integração com muitos formatos de arquivo ou fontes de dados prontas para uso (csv, excel, sql, json, parquet, ...). A importação de dados de cada uma dessas fontes de dados é fornecida pela função com o prefixo `read_*`. Da mesma forma, os métodos `to_*` são usados para armazenar dados.

<img src="https://s3-sa-east-1.amazonaws.com/lcpi/e31ee583-51f5-45fb-9b01-0fd20b6922ff.png" style="border-radius: 10px;" />



### Roteiro do Conteúdo

- Criação de DataFrames
- Acessando os dados
- Criando novas colunas
- Carregando e Salvando Datasets
    - Conhecendo o [Kaggle](https://www.kaggle.com/)
    - CSV
    - XLSX
    - HTML  
    - ...
- Principais métodos e atributos
    - `index`
    - `columns`
    - `values`
    - `shape`
    - `dtypes`
    - `head()`
    - `tail()`
    - `describe()`
    - `info()`
    - `min()`, `max()`, `sum()`...
    - `rename()`
    - `reset_index()` e `set_index()`
    - `duplicated()`
    - `drop_duplicates()`
- Deletando linhas/colunas
- Filtrando dados
- Agrupamento de dados
- Ordenação de dados

### Criação de DataFrames

<div style="display: block; margin: 2rem 0; background-color: #1E90FF33; border: 2px solid #1E90FF; border-radius: 7px; padding: 20px 20px 5px; width: 50%">
    <a style="text-align: center; display: block; width: 100%; font-size: 1.2rem" href="https://www.walissonsilva.com/posts/diferentes-formas-de-criar-um-dataframe">Diferentes formas de criar um DataFrame</a>
<div>

In [1]:
import pandas as pd
import numpy as np

### 1. Array bidimensional

In [88]:
dados = np.arange(1, 26, 1).reshape((5, 5))
dados

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25]])

In [89]:
dados.shape[1]

5

In [90]:
df2 = pd.DataFrame(data=dados, index='A B C D E'.split(), columns=[f'Coluna {i + 1}' for i in range(dados.shape[1])])

In [91]:
df2

Unnamed: 0_level_0,Peso,Altura,IMC,Idade
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Fulano,70,1.67,25.099502,17
Ciclano,56,1.7,19.377163,20
Fulana,60,1.55,24.973985,21
Ciclana,68,1.64,25.28257,18


### 2. Dicionários de Listas

In [92]:
pessoas = {
  'Nome': ['Fulano', 'Ciclano', 'Fulana', 'Ciclana'],
  'Peso': [70, 56, 60, 68],
  'Altura': [1.67, 1.7, 1.55, 1.64]
}

In [93]:
df = pd.DataFrame(pessoas)

df

Unnamed: 0,Nome,Peso,Altura
0,Fulano,70,1.67
1,Ciclano,56,1.7
2,Fulana,60,1.55
3,Ciclana,68,1.64


### 3. Lista de dicionários

In [94]:
pessoas_lista_dicionarios = [
  {
    'Nome': 'Fulano',
    'Peso': 70,
    'Altura': 1.67,
  },
  {
    'Nome': 'Ciclano',
    'Peso': 56,
    'Altura': 1.70,
    'Idade': 16
  }
]

In [95]:
pd.DataFrame(pessoas_lista_dicionarios)

Unnamed: 0,Nome,Peso,Altura,Idade
0,Fulano,70,1.67,
1,Ciclano,56,1.7,16.0


### Acessando os elementos

- Acessando coluna(s)
- Acessando um elemento específico
- Acessando linha(s)
- `loc` e `iloc`

In [96]:
df

Unnamed: 0,Nome,Peso,Altura
0,Fulano,70,1.67
1,Ciclano,56,1.7
2,Fulana,60,1.55
3,Ciclana,68,1.64


In [97]:
df['Nome'][2]

'Fulana'

In [98]:
df['Nome']

0     Fulano
1    Ciclano
2     Fulana
3    Ciclana
Name: Nome, dtype: object

In [99]:
type(df)

pandas.core.frame.DataFrame

In [100]:
df['Altura']

0    1.67
1    1.70
2    1.55
3    1.64
Name: Altura, dtype: float64

In [101]:
df.head()

Unnamed: 0,Nome,Peso,Altura
0,Fulano,70,1.67
1,Ciclano,56,1.7
2,Fulana,60,1.55
3,Ciclana,68,1.64


In [102]:
df.loc[0]

Nome      Fulano
Peso          70
Altura      1.67
Name: 0, dtype: object

In [103]:
df2.loc['A']

Coluna 1    1
Coluna 2    2
Coluna 3    3
Coluna 4    4
Coluna 5    5
Name: A, dtype: int64

In [104]:
df.iloc[0,1]

70

In [105]:
df2.iloc[0:2,2:]

Unnamed: 0,Coluna 3,Coluna 4,Coluna 5
A,3,4,5
B,8,9,10


### Criando novas colunas

In [106]:
df

Unnamed: 0,Nome,Peso,Altura
0,Fulano,70,1.67
1,Ciclano,56,1.7
2,Fulana,60,1.55
3,Ciclana,68,1.64


### IMC

$$
IMC = \frac{Peso}{Altura^2}
$$

In [107]:
df['IMC'] = df['Peso'] / df['Altura']**2

In [108]:
df

Unnamed: 0,Nome,Peso,Altura,IMC
0,Fulano,70,1.67,25.099502
1,Ciclano,56,1.7,19.377163
2,Fulana,60,1.55,24.973985
3,Ciclana,68,1.64,25.28257


In [109]:
df['Idade'] = [17, 20, 21, 18]

In [110]:
df

Unnamed: 0,Nome,Peso,Altura,IMC,Idade
0,Fulano,70,1.67,25.099502,17
1,Ciclano,56,1.7,19.377163,20
2,Fulana,60,1.55,24.973985,21
3,Ciclana,68,1.64,25.28257,18


In [111]:
df['Sobrenome'] = pd.Series(['Lalala', 'Banana', 'Abacaxi'], index=[1, 3, 0])

In [112]:
df

Unnamed: 0,Nome,Peso,Altura,IMC,Idade,Sobrenome
0,Fulano,70,1.67,25.099502,17,Abacaxi
1,Ciclano,56,1.7,19.377163,20,Lalala
2,Fulana,60,1.55,24.973985,21,
3,Ciclana,68,1.64,25.28257,18,Banana


In [113]:
df.columns[1:-1]

Index(['Peso', 'Altura', 'IMC', 'Idade'], dtype='object')

In [114]:
df = df[['Nome', 'Sobrenome'] + list(df.columns[1:-1])]

In [115]:
df

Unnamed: 0,Nome,Sobrenome,Peso,Altura,IMC,Idade
0,Fulano,Abacaxi,70,1.67,25.099502,17
1,Ciclano,Lalala,56,1.7,19.377163,20
2,Fulana,,60,1.55,24.973985,21
3,Ciclana,Banana,68,1.64,25.28257,18


### Removendo Linhas/Colunas

In [116]:
df.drop(3) # Por padrão, a remoção será feita na linha (especifica-se o index da linha)

Unnamed: 0,Nome,Sobrenome,Peso,Altura,IMC,Idade
0,Fulano,Abacaxi,70,1.67,25.099502,17
1,Ciclano,Lalala,56,1.7,19.377163,20
2,Fulana,,60,1.55,24.973985,21


In [117]:
df

Unnamed: 0,Nome,Sobrenome,Peso,Altura,IMC,Idade
0,Fulano,Abacaxi,70,1.67,25.099502,17
1,Ciclano,Lalala,56,1.7,19.377163,20
2,Fulana,,60,1.55,24.973985,21
3,Ciclana,Banana,68,1.64,25.28257,18


In [118]:
df.drop('Sobrenome', axis=1, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


In [119]:
df

Unnamed: 0,Nome,Peso,Altura,IMC,Idade
0,Fulano,70,1.67,25.099502,17
1,Ciclano,56,1.7,19.377163,20
2,Fulana,60,1.55,24.973985,21
3,Ciclana,68,1.64,25.28257,18


In [120]:
df_copy = df.copy()

In [121]:
df_copy

Unnamed: 0,Nome,Peso,Altura,IMC,Idade
0,Fulano,70,1.67,25.099502,17
1,Ciclano,56,1.7,19.377163,20
2,Fulana,60,1.55,24.973985,21
3,Ciclana,68,1.64,25.28257,18


In [122]:
df.drop(['Nome', 'Idade', 'Altura'], axis=1)

Unnamed: 0,Peso,IMC
0,70,25.099502
1,56,19.377163
2,60,24.973985
3,68,25.28257


In [123]:
df_aux = df[['Peso', 'IMC']]

In [124]:
df

Unnamed: 0,Nome,Peso,Altura,IMC,Idade
0,Fulano,70,1.67,25.099502,17
1,Ciclano,56,1.7,19.377163,20
2,Fulana,60,1.55,24.973985,21
3,Ciclana,68,1.64,25.28257,18


### `reset_index` e `set_index`

In [125]:
df

Unnamed: 0,Nome,Peso,Altura,IMC,Idade
0,Fulano,70,1.67,25.099502,17
1,Ciclano,56,1.7,19.377163,20
2,Fulana,60,1.55,24.973985,21
3,Ciclana,68,1.64,25.28257,18


In [126]:
df.set_index('Nome', inplace=True)

In [127]:
df

Unnamed: 0_level_0,Peso,Altura,IMC,Idade
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Fulano,70,1.67,25.099502,17
Ciclano,56,1.7,19.377163,20
Fulana,60,1.55,24.973985,21
Ciclana,68,1.64,25.28257,18


In [129]:
df.loc['Fulano']

Peso      70.000000
Altura     1.670000
IMC       25.099502
Idade     17.000000
Name: Fulano, dtype: float64

In [130]:
df.reset_index()

Unnamed: 0,Nome,Peso,Altura,IMC,Idade
0,Fulano,70,1.67,25.099502,17
1,Ciclano,56,1.7,19.377163,20
2,Fulana,60,1.55,24.973985,21
3,Ciclana,68,1.64,25.28257,18


In [131]:
df2

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3,Coluna 4,Coluna 5
A,1,2,3,4,5
B,6,7,8,9,10
C,11,12,13,14,15
D,16,17,18,19,20
E,21,22,23,24,25


In [132]:
df2.reset_index()

Unnamed: 0,index,Coluna 1,Coluna 2,Coluna 3,Coluna 4,Coluna 5
0,A,1,2,3,4,5
1,B,6,7,8,9,10
2,C,11,12,13,14,15
3,D,16,17,18,19,20
4,E,21,22,23,24,25


In [134]:
df.reset_index(inplace=True)

In [135]:
df

Unnamed: 0,Nome,Peso,Altura,IMC,Idade
0,Fulano,70,1.67,25.099502,17
1,Ciclano,56,1.7,19.377163,20
2,Fulana,60,1.55,24.973985,21
3,Ciclana,68,1.64,25.28257,18


In [138]:
df.drop(2, axis=0, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


In [139]:
df

Unnamed: 0,Nome,Peso,Altura,IMC,Idade
0,Fulano,70,1.67,25.099502,17
1,Ciclano,56,1.7,19.377163,20
3,Ciclana,68,1.64,25.28257,18


In [142]:
df.reset_index(drop=True)

Unnamed: 0,Nome,Peso,Altura,IMC,Idade
0,Fulano,70,1.67,25.099502,17
1,Ciclano,56,1.7,19.377163,20
2,Ciclana,68,1.64,25.28257,18


### Carregando e Salvando DataFrames

In [150]:
df = pd.read_csv('../00. Datasets/aluguel.csv', sep=';')

In [151]:
df.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor m2,Tipo Agregado
0,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,53.33,Apartamento
1,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0,16.67,Apartamento
2,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0,26.0,Apartamento
3,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0,21.43,Apartamento
4,Apartamento,Lins de Vasconcelos,3,1,1,90,1500.0,455.0,14.0,16.67,Apartamento


### OBS

É possível que seja necessário instalar o pacote `openpyxl`. Basta utilizar o comando:

```
pip install openpyxl
```

In [154]:
df_excel = pd.read_excel('../00. Datasets/aluguel.xlsx')

In [155]:
df_excel

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800,230.0,
5,Apartamento,Vista Alegre,3,1,0,70,1200,,
6,Apartamento,Cachambi,2,0,0,50,1300,301.0,17.0
7,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000,,
8,Casa de Condomínio,Ramos,2,2,0,65,1000,,
9,Conjunto Comercial/Sala,Centro,0,3,0,695,35000,19193.0,3030.0


In [156]:
pd.read_json('../00. Datasets/aluguel.json')

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800,230.0,
5,Apartamento,Vista Alegre,3,1,0,70,1200,,
6,Apartamento,Cachambi,2,0,0,50,1300,301.0,17.0
7,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000,,
8,Casa de Condomínio,Ramos,2,2,0,65,1000,,
9,Conjunto Comercial/Sala,Centro,0,3,0,695,35000,19193.0,3030.0


In [None]:
pd.read_t

In [159]:
pd.read_table('../00. Datasets/aluguel.txt', sep='\t')

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800,230.0,
5,Apartamento,Vista Alegre,3,1,0,70,1200,,
6,Apartamento,Cachambi,2,0,0,50,1300,301.0,17.0
7,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000,,
8,Casa de Condomínio,Ramos,2,2,0,65,1000,,
9,Conjunto Comercial/Sala,Centro,0,3,0,695,35000,19193.0,3030.0


In [170]:
df_petrobras = pd.read_clipboard()

In [171]:
df_petrobras

Unnamed: 0,Date,Open,High,Low,Close*,Adj Close**,Volume
0,"Jan 14, 2022",30.28,31.25,30.24,31.17,31.17,55342500
1,"Jan 13, 2022",29.53,30.63,29.5,30.32,30.32,76717500
2,"Jan 12, 2022",28.95,29.91,28.95,29.72,29.72,81378200
3,"Jan 11, 2022",28.1,29.07,27.85,28.99,28.99,62315600
4,"Jan 10, 2022",27.99,28.24,27.72,28.01,28.01,37455200
5,"Jan 07, 2022",28.11,28.29,27.82,28.18,28.18,47507600
6,"Jan 06, 2022",28.29,28.65,27.84,28.05,28.05,61163100
7,"Jan 05, 2022",29.19,29.27,27.94,28.07,28.07,78459800
8,"Jan 04, 2022",29.16,29.4,28.91,29.2,29.2,51739200
9,"Jan 03, 2022",28.54,29.22,28.53,29.09,29.09,52704700


### OBS

É possível que seja necessário instalar o pacote `lxml`. Basta utilizar o comando:

```
pip install lxml
```

In [173]:
df_list = pd.read_html('https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/')

In [174]:
len(df_list)

1

In [175]:
df_list[0]

Unnamed: 0,Bank NameBank,CityCity,StateSt,CertCert,Acquiring InstitutionAI,Closing DateClosing,FundFund
0,Almena State Bank,Almena,KS,15426,Equity Bank,"October 23, 2020",10538
1,First City Bank of Florida,Fort Walton Beach,FL,16748,"United Fidelity Bank, fsb","October 16, 2020",10537
2,The First State Bank,Barboursville,WV,14361,"MVB Bank, Inc.","April 3, 2020",10536
3,Ericson State Bank,Ericson,NE,18265,Farmers and Merchants Bank,"February 14, 2020",10535
4,City National Bank of New Jersey,Newark,NJ,21111,Industrial Bank,"November 1, 2019",10534
...,...,...,...,...,...,...,...
558,"Superior Bank, FSB",Hinsdale,IL,32646,"Superior Federal, FSB","July 27, 2001",6004
559,Malta National Bank,Malta,OH,6629,North Valley Bank,"May 3, 2001",4648
560,First Alliance Bank & Trust Co.,Manchester,NH,34264,Southern New Hampshire Bank & Trust,"February 2, 2001",4647
561,National State Bank of Metropolis,Metropolis,IL,3815,Banterra Bank of Marion,"December 14, 2000",4646


In [177]:
pd.read_csv('https://s3-sa-east-1.amazonaws.com/lcpi/164c4740-feb8-4bb2-8595-6423754567fa.csv', sep=';')

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor m2,Tipo Agregado
0,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,53.33,Apartamento
1,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0,16.67,Apartamento
2,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0,26.00,Apartamento
3,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0,21.43,Apartamento
4,Apartamento,Lins de Vasconcelos,3,1,1,90,1500.0,455.0,14.0,16.67,Apartamento
...,...,...,...,...,...,...,...,...,...,...,...
19826,Quitinete,Glória,1,0,0,10,400.0,107.0,10.0,40.00,Apartamento
19827,Quitinete,Flamengo,1,0,0,23,900.0,605.0,0.0,39.13,Apartamento
19828,Quitinete,Centro,1,0,0,24,1100.0,323.0,0.0,45.83,Apartamento
19829,Quitinete,Copacabana,1,0,0,22,1500.0,286.0,200.0,68.18,Apartamento


In [178]:
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv')

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


### Principais métodos e atributos

`index`

Obtendo os índices (label das linhas) do DataFrame.

`columns`

Obtendo o label das colunas do DataFrame.

`values`

Obtendo um array 2D que contém os valores do DataFrame.

`shape`

Obtendo as dimensões do DataFrame (nº de linhas e colunas).

`dtypes`

Obtendo os tipos de cada dado (coluna) do DataFrame.

`head()`

Visualizando as 5 primeiras linhas (ou as `n` primeiras linhas).

`tail()`

Visualizando as 5 últimas linhas (ou as `n` últimas linhas).

`describe()`

Obtendo um resumo das métricas da estatística descritiva dos dados do DataFrame.

`info()`

Obtendo um resumo dos dados que estão guardados no DF.

`min()`, `max()`, `sum()`, ...

Alguns métodos estatísticos.

`rename()`

`duplicated()`

`drop_duplicates()`

`to_*()`

Salvando o DataFrame em um determinado formato (CSV, XLSX, JSON, ...).

### Filtragem de Dados

1. Utilizando máscaras
2. Utilizando o método `query`

### Agrupamento e Ordenação de Dados

#### Agrupamento

#### Ordenação