# Análise Exploratória

Vamos aprender a como utilizar as principais funcionalidades do Pandas para fazer uma análise exploratória inicial dos dados.

A fase de análise exploratória é uma etapa muito importante dentro da análise de dados, pois é nela que vamos entender melhor os dados que iremos analisar e verificar se eles foram carregados corretamente.

**Site oficial:** [https://pandas.pydata.org/](https://pandas.pydata.org/)

**Documentação oficial:** [https://pandas.pydata.org/docs/](https://pandas.pydata.org/docs/)

# Carregando o arquivo CSV

Vamos utilizar nos nossos exemplos o arquivo `base_vendas.csv`, que é uma base de vendas fictícia.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('datasets/base_vendas.csv')

In [3]:
df.head()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,2109,4041,1,,28/09/2020 16:19,05/10/2020 16:31
1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,1,,07/03/2020 12:47,08/03/2020 12:47
2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,21/04/2019 10:48,23/04/2019 15:55
3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,8999,16769,1,,07/05/2020 17:59,08/05/2020 14:31
4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,1,5.0,14/08/2019 16:56,19/08/2019 15:52


# DataFrame

- Estrutura de dados do Pandas
- É uma matriz - possui 2 dimensões (linhas e colunas)
- Pode ter vários tipos de dados, mas cada coluna possui apenas um tipo
- É mutável
- É composto por:
    - Colunas
    - Índices 
    - Valores   

In [4]:
type(df)

pandas.core.frame.DataFrame

In [5]:
df_copia = df

In [6]:
df_copia.head()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,2109,4041,1,,28/09/2020 16:19,05/10/2020 16:31
1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,1,,07/03/2020 12:47,08/03/2020 12:47
2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,21/04/2019 10:48,23/04/2019 15:55
3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,8999,16769,1,,07/05/2020 17:59,08/05/2020 14:31
4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,1,5.0,14/08/2019 16:56,19/08/2019 15:52


In [7]:
type(df_copia)

pandas.core.frame.DataFrame

# Series

Estrutura unidimensional de dados, composta por índices e valores.

In [8]:
df.head()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,2109,4041,1,,28/09/2020 16:19,05/10/2020 16:31
1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,1,,07/03/2020 12:47,08/03/2020 12:47
2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,21/04/2019 10:48,23/04/2019 15:55
3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,8999,16769,1,,07/05/2020 17:59,08/05/2020 14:31
4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,1,5.0,14/08/2019 16:56,19/08/2019 15:52


In [9]:
df['nome_loja']

0       Loja Matriz
1       Loja Matriz
2       Loja Matriz
3       Loja Matriz
4       Loja Matriz
           ...     
2995      Filial ES
2996      Filial ES
2997      Filial ES
2998      Filial ES
2999      Filial ES
Name: nome_loja, Length: 3000, dtype: object

In [10]:
type(df['nome_loja'])

pandas.core.series.Series

In [11]:
type(df['Categoria'])

pandas.core.series.Series

# Index

Serve para indexar e organizar os elementos de um DataFrame.

- é homogêneo
- não precisa ter necessariamente valores únicos
- pode ser criado automaticamente pelo Pandas, especificado no momento do carregamento dos dados ou alterado depois


In [12]:
df.head()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,2109,4041,1,,28/09/2020 16:19,05/10/2020 16:31
1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,1,,07/03/2020 12:47,08/03/2020 12:47
2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,21/04/2019 10:48,23/04/2019 15:55
3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,8999,16769,1,,07/05/2020 17:59,08/05/2020 14:31
4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,1,5.0,14/08/2019 16:56,19/08/2019 15:52


In [13]:
df.index

RangeIndex(start=0, stop=3000, step=1)

# Columns

Rótulo (nome) da coluna do DataFrame.

In [14]:
df.head()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,2109,4041,1,,28/09/2020 16:19,05/10/2020 16:31
1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,1,,07/03/2020 12:47,08/03/2020 12:47
2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,21/04/2019 10:48,23/04/2019 15:55
3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,8999,16769,1,,07/05/2020 17:59,08/05/2020 14:31
4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,1,5.0,14/08/2019 16:56,19/08/2019 15:52


In [15]:
df.columns

Index(['matricula_funcionario', 'Nome Funcionario', 'Cargo', 'codigo_loja',
       'nome_loja', 'codigo_produto', 'descricao_produto', 'Categoria',
       'preco_custo', 'valor_unitario', 'quantidade', 'comissao', 'dt_venda',
       'dt_entrega'],
      dtype='object')

# Values

Valores do DataFrame representados por um array Numpy.

- Documentação oficial recomenda utilizar o método **to_numpy()** ao invés da propriedade **values**.

In [16]:
df.head()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,2109,4041,1,,28/09/2020 16:19,05/10/2020 16:31
1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,1,,07/03/2020 12:47,08/03/2020 12:47
2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,21/04/2019 10:48,23/04/2019 15:55
3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,8999,16769,1,,07/05/2020 17:59,08/05/2020 14:31
4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,1,5.0,14/08/2019 16:56,19/08/2019 15:52


In [17]:
df.values

array([[123456111, 'José Maria', 'Vendedor', ..., nan,
        '28/09/2020 16:19', '05/10/2020 16:31'],
       [123456111, 'José Maria', 'Vendedor', ..., nan,
        '07/03/2020 12:47', '08/03/2020 12:47'],
       [123456111, 'José Maria', 'Vendedor', ..., nan,
        '21/04/2019 10:48', '23/04/2019 15:55'],
       ...,
       [123457113, 'Victor Hugo', 'Vendedor', ..., nan,
        '08/08/2020 14:46', '09/08/2020 14:07'],
       [123457113, 'Victor Hugo', 'Vendedor', ..., nan,
        '19/12/2019 09:21', '19/12/2019 10:51'],
       [123457113, 'Victor Hugo', 'Vendedor', ..., '0,09',
        '18/03/2019 15:40', '23/03/2019 17:52']], dtype=object)

In [18]:
df.to_numpy()

array([[123456111, 'José Maria', 'Vendedor', ..., nan,
        '28/09/2020 16:19', '05/10/2020 16:31'],
       [123456111, 'José Maria', 'Vendedor', ..., nan,
        '07/03/2020 12:47', '08/03/2020 12:47'],
       [123456111, 'José Maria', 'Vendedor', ..., nan,
        '21/04/2019 10:48', '23/04/2019 15:55'],
       ...,
       [123457113, 'Victor Hugo', 'Vendedor', ..., nan,
        '08/08/2020 14:46', '09/08/2020 14:07'],
       [123457113, 'Victor Hugo', 'Vendedor', ..., nan,
        '19/12/2019 09:21', '19/12/2019 10:51'],
       [123457113, 'Victor Hugo', 'Vendedor', ..., '0,09',
        '18/03/2019 15:40', '23/03/2019 17:52']], dtype=object)

# Métodos e propriedades

## head()

Lista as primeiras linhas do DataFrame

In [21]:
df.head()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,2109,4041,1,,28/09/2020 16:19,05/10/2020 16:31
1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,1,,07/03/2020 12:47,08/03/2020 12:47
2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,21/04/2019 10:48,23/04/2019 15:55
3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,8999,16769,1,,07/05/2020 17:59,08/05/2020 14:31
4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,1,5.0,14/08/2019 16:56,19/08/2019 15:52


## tail()

Lista as últimas linhas do DataFrame

In [24]:
df.tail()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
2995,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10006,Aspirador de pó,Casa,889,1899,3,,04/11/2019 15:40,05/11/2019 10:40
2996,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10011,Liquidificador,Cozinha,599,1424,3,,24/06/2019 09:04,24/06/2019 10:50
2997,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10007,Batedeira,Cozinha,499,959,3,,08/08/2020 14:46,09/08/2020 14:07
2998,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10010,Fritadeira elétrica,Cozinha,1879,340,3,,19/12/2019 09:21,19/12/2019 10:51
2999,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,3,9.0,18/03/2019 15:40,23/03/2019 17:52


## shape

Propriedade que mostra as dimensões do DataFrame

In [25]:
df.shape

(3000, 14)

In [26]:
type(df.shape)

tuple

In [28]:
total_linhas = df.shape[0]

In [29]:
print(total_linhas)

3000


In [31]:
total_colunas = df.shape[1]
print(total_colunas)

14


## info()

Mostra informações sobre o DataFrame, como o tipo de dados das colunas.

In [33]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3000 entries, 0 to 2999
Data columns (total 14 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   matricula_funcionario  3000 non-null   int64 
 1   Nome Funcionario       3000 non-null   object
 2   Cargo                  3000 non-null   object
 3   codigo_loja            3000 non-null   object
 4   nome_loja              3000 non-null   object
 5   codigo_produto         3000 non-null   int64 
 6   descricao_produto      3000 non-null   object
 7   Categoria              3000 non-null   object
 8   preco_custo            3000 non-null   object
 9   valor_unitario         3000 non-null   object
 10  quantidade             3000 non-null   int64 
 11  comissao               159 non-null    object
 12  dt_venda               3000 non-null   object
 13  dt_entrega             3000 non-null   object
dtypes: int64(3), object(11)
memory usage: 328.2+ KB


## describe()

Mostra estatísticas descritivas das colunas quantitativas do DataFrame.

In [47]:
df.describe().T.round(1)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
matricula_funcionario,3000.0,123456680.8,349.0,123456111.0,123456333.0,123456666.0,123456999.0,123457113.0
codigo_produto,3000.0,10010.5,5.8,10001.0,10006.0,10011.0,10015.0,10020.0
quantidade,3000.0,2.5,1.1,1.0,1.0,2.0,3.0,4.0


In [54]:
df['codigo_produto'].describe().round(2)

count     3000.00
mean     10010.47
std          5.77
min      10001.00
25%      10006.00
50%      10011.00
75%      10015.00
max      10020.00
Name: codigo_produto, dtype: float64

## isna() / isnull()

Os dois métodos são equivalentes. Verificam se existem valores faltantes do DataFrame.

In [55]:
df.head()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,2109,4041,1,,28/09/2020 16:19,05/10/2020 16:31
1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,1,,07/03/2020 12:47,08/03/2020 12:47
2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,21/04/2019 10:48,23/04/2019 15:55
3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,8999,16769,1,,07/05/2020 17:59,08/05/2020 14:31
4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,1,5.0,14/08/2019 16:56,19/08/2019 15:52


In [60]:
df.isnull().sum()

matricula_funcionario       0
Nome Funcionario            0
Cargo                       0
codigo_loja                 0
nome_loja                   0
codigo_produto              0
descricao_produto           0
Categoria                   0
preco_custo                 0
valor_unitario              0
quantidade                  0
comissao                 2841
dt_venda                    0
dt_entrega                  0
dtype: int64

In [64]:
df.isna().sum() / df.shape[0] * 100

matricula_funcionario     0.0
Nome Funcionario          0.0
Cargo                     0.0
codigo_loja               0.0
nome_loja                 0.0
codigo_produto            0.0
descricao_produto         0.0
Categoria                 0.0
preco_custo               0.0
valor_unitario            0.0
quantidade                0.0
comissao                 94.7
dt_venda                  0.0
dt_entrega                0.0
dtype: float64

## unique() e nunique()

**nunique():** retorna a quantidade de elementos únicos.

**unique():** retorna os elementos únicos

In [65]:
df.nunique()

matricula_funcionario      12
Nome Funcionario           12
Cargo                       1
codigo_loja                 4
nome_loja                   4
codigo_produto             20
descricao_produto          20
Categoria                   4
preco_custo                20
valor_unitario             19
quantidade                  4
comissao                    4
dt_venda                 2994
dt_entrega               2989
dtype: int64

In [66]:
df['matricula_funcionario'].nunique()

12

In [67]:
df['matricula_funcionario'].unique()

array([123456111, 123456222, 123456333, 123456555, 123456444, 123456666,
       123456999, 123456777, 123456888, 123457112, 123457111, 123457113],
      dtype=int64)

In [69]:
df['nome_loja'].unique()

array(['Loja Matriz', 'Filial MG', 'Filial SP', 'Filial ES'], dtype=object)

In [70]:
# DataFrame não possui método unique() - apenas as Series
df.unique()

AttributeError: 'DataFrame' object has no attribute 'unique'

# Acessando linhas e colunas de um DataFrame

## Acessando colunas

In [97]:
df.head()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,2109,4041,1,,28/09/2020 16:19,05/10/2020 16:31
1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,1,,07/03/2020 12:47,08/03/2020 12:47
2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,21/04/2019 10:48,23/04/2019 15:55
3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,8999,16769,1,,07/05/2020 17:59,08/05/2020 14:31
4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,1,5.0,14/08/2019 16:56,19/08/2019 15:52


In [99]:
df['matricula_funcionario'].head()

0    123456111
1    123456111
2    123456111
3    123456111
4    123456111
Name: matricula_funcionario, dtype: int64

In [100]:
df.matricula_funcionario

0       123456111
1       123456111
2       123456111
3       123456111
4       123456111
          ...    
2995    123457113
2996    123457113
2997    123457113
2998    123457113
2999    123457113
Name: matricula_funcionario, Length: 3000, dtype: int64

In [101]:
df['Nome Funcionario']

0        José Maria
1        José Maria
2        José Maria
3        José Maria
4        José Maria
           ...     
2995    Victor Hugo
2996    Victor Hugo
2997    Victor Hugo
2998    Victor Hugo
2999    Victor Hugo
Name: Nome Funcionario, Length: 3000, dtype: object

In [102]:
df.Nome Funcionario

SyntaxError: invalid syntax (Temp/ipykernel_35460/2575889147.py, line 1)

In [106]:
# Acessar várias colunas
df[ ['matricula_funcionario', 'Nome Funcionario', 'valor_unitario'] ]

Unnamed: 0,matricula_funcionario,Nome Funcionario,valor_unitario
0,123456111,José Maria,4041
1,123456111,José Maria,2499
2,123456111,José Maria,13469
3,123456111,José Maria,16769
4,123456111,José Maria,17091
...,...,...,...
2995,123457113,Victor Hugo,1899
2996,123457113,Victor Hugo,1424
2997,123457113,Victor Hugo,959
2998,123457113,Victor Hugo,340


In [107]:
colunas = ['matricula_funcionario', 'Nome Funcionario', 'valor_unitario']
df[colunas]

Unnamed: 0,matricula_funcionario,Nome Funcionario,valor_unitario
0,123456111,José Maria,4041
1,123456111,José Maria,2499
2,123456111,José Maria,13469
3,123456111,José Maria,16769
4,123456111,José Maria,17091
...,...,...,...
2995,123457113,Victor Hugo,1899
2996,123457113,Victor Hugo,1424
2997,123457113,Victor Hugo,959
2998,123457113,Victor Hugo,340


## Método loc

Acessa um grupo de linhas e colunas através do seu **rótulo** (label).

```python
df.loc['rotulo_linha', 'rotulo_coluna']
```

In [109]:
animais = {
    'animal': ['cobra', 'tigre', 'guepardo'],
    'velocidade': [6, 30, 60],
    'veneno': ['sim', 'não', 'não'],
    'tipo': ['réptil', 'felino', 'felino']
}

df_animais = pd.DataFrame(animais)

In [111]:
df_animais.set_index('animal', inplace=True)

In [112]:
df_animais

Unnamed: 0_level_0,velocidade,veneno,tipo
animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
cobra,6,sim,réptil
tigre,30,não,felino
guepardo,60,não,felino


In [116]:
df_animais.loc['cobra', 'tipo']

'réptil'

In [119]:
df_animais.loc['guepardo',['veneno', 'tipo']]

veneno       não
tipo      felino
Name: guepardo, dtype: object

In [124]:
df_animais.loc['cobra':'tigre', 'velocidade':'tipo']

Unnamed: 0_level_0,velocidade,veneno,tipo
animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
cobra,6,sim,réptil
tigre,30,não,felino


In [125]:
df.head()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,2109,4041,1,,28/09/2020 16:19,05/10/2020 16:31
1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,1,,07/03/2020 12:47,08/03/2020 12:47
2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,21/04/2019 10:48,23/04/2019 15:55
3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,8999,16769,1,,07/05/2020 17:59,08/05/2020 14:31
4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,1,5.0,14/08/2019 16:56,19/08/2019 15:52


In [132]:
# acessando as 10 primeiras linhas:
df.loc[:10 , 'Cargo':'descricao_produto']

Unnamed: 0,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto
0,Vendedor,CL001,Loja Matriz,10013,Fogão
1,Vendedor,CL001,Loja Matriz,10018,Colchão
2,Vendedor,CL001,Loja Matriz,10014,Geladeira
3,Vendedor,CL001,Loja Matriz,10001,Smartphone
4,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa
5,Vendedor,CL001,Loja Matriz,10010,Fritadeira elétrica
6,Vendedor,CL001,Loja Matriz,10014,Geladeira
7,Vendedor,CL001,Loja Matriz,10006,Aspirador de pó
8,Vendedor,CL001,Loja Matriz,10010,Fritadeira elétrica
9,Vendedor,CL001,Loja Matriz,10017,Cama Box


In [135]:
# acessando as 10 primeiras linhas:
colunas = ['Cargo','descricao_produto']
df.loc[:10 , colunas]

Unnamed: 0,Cargo,descricao_produto
0,Vendedor,Fogão
1,Vendedor,Colchão
2,Vendedor,Geladeira
3,Vendedor,Smartphone
4,Vendedor,Máquina Lavar Roupa
5,Vendedor,Fritadeira elétrica
6,Vendedor,Geladeira
7,Vendedor,Aspirador de pó
8,Vendedor,Fritadeira elétrica
9,Vendedor,Cama Box


## Método iloc

Acessa um grupo de linhas e colunas através da sua **posição**.

In [136]:
df_animais

Unnamed: 0_level_0,velocidade,veneno,tipo
animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
cobra,6,sim,réptil
tigre,30,não,felino
guepardo,60,não,felino


In [140]:
# acessando a primeira linha
df_animais.iloc[0]

velocidade         6
veneno           sim
tipo          réptil
Name: cobra, dtype: object

In [142]:
# acessando linhas e colunas
df_animais.iloc[0, [0,2]]

velocidade         6
tipo          réptil
Name: cobra, dtype: object

In [145]:
# slicing - 10 primeiras linhas
df.iloc[:10]


Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,2109,4041,1,,28/09/2020 16:19,05/10/2020 16:31
1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,1,,07/03/2020 12:47,08/03/2020 12:47
2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,21/04/2019 10:48,23/04/2019 15:55
3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,8999,16769,1,,07/05/2020 17:59,08/05/2020 14:31
4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,1,5.0,14/08/2019 16:56,19/08/2019 15:52
5,123456111,José Maria,Vendedor,CL001,Loja Matriz,10010,Fritadeira elétrica,Cozinha,1879,340,1,,10/07/2019 15:11,11/07/2019 14:30
6,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,26/06/2019 11:03,28/06/2019 13:37
7,123456111,José Maria,Vendedor,CL001,Loja Matriz,10006,Aspirador de pó,Casa,889,1899,1,,15/03/2020 13:00,16/03/2020 11:15
8,123456111,José Maria,Vendedor,CL001,Loja Matriz,10010,Fritadeira elétrica,Cozinha,1879,340,1,,15/08/2020 11:36,15/08/2020 14:22
9,123456111,José Maria,Vendedor,CL001,Loja Matriz,10017,Cama Box,Casa,11899,18995,1,,06/03/2019 13:01,11/03/2019 12:01


In [149]:
# slicing 10 últimas linhas
df.iloc[-10:]

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
2990,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10014,Geladeira,Eletrodomésticos,6999,13469,3,,04/12/2020 13:24,10/12/2020 11:05
2991,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10016,Guarda Roupa,Casa,4899,999,3,,13/06/2020 16:58,15/06/2020 17:41
2992,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10010,Fritadeira elétrica,Cozinha,1879,340,3,,02/07/2019 16:56,03/07/2019 09:27
2993,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10001,Smartphone,Eletrônicos,8999,16769,3,,18/12/2019 17:59,19/12/2019 16:33
2994,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10001,Smartphone,Eletrônicos,8999,16769,3,,26/01/2019 16:06,26/01/2019 16:16
2995,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10006,Aspirador de pó,Casa,889,1899,3,,04/11/2019 15:40,05/11/2019 10:40
2996,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10011,Liquidificador,Cozinha,599,1424,3,,24/06/2019 09:04,24/06/2019 10:50
2997,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10007,Batedeira,Cozinha,499,959,3,,08/08/2020 14:46,09/08/2020 14:07
2998,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10010,Fritadeira elétrica,Cozinha,1879,340,3,,19/12/2019 09:21,19/12/2019 10:51
2999,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,3,9.0,18/03/2019 15:40,23/03/2019 17:52


In [154]:
# slicing linhas e colunas
df.iloc[10:21, 0:5]

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja
10,123456111,José Maria,Vendedor,CL001,Loja Matriz
11,123456111,José Maria,Vendedor,CL001,Loja Matriz
12,123456111,José Maria,Vendedor,CL001,Loja Matriz
13,123456111,José Maria,Vendedor,CL001,Loja Matriz
14,123456111,José Maria,Vendedor,CL001,Loja Matriz
15,123456111,José Maria,Vendedor,CL001,Loja Matriz
16,123456111,José Maria,Vendedor,CL001,Loja Matriz
17,123456111,José Maria,Vendedor,CL001,Loja Matriz
18,123456111,José Maria,Vendedor,CL001,Loja Matriz
19,123456111,José Maria,Vendedor,CL001,Loja Matriz
