# <font color='blue'>Instituto Federal de São Paulo</font>

## <font color='blue'>Fundamentos de Linguagem Python Para Análise de Dados e Data Science</font>

## <font color='blue'>Manipulação de Dados com Pandas</font>

O <b>Pandas</b> é uma biblioteca open-source (código aberto) para a linguagem Python, amplamente utilizada em ciência de dados, análise de dados e machine learning. Ela fornece estruturas de dados rápidas, flexíveis e expressivas, como DataFrame e Series, que facilitam a manipulação e análise de dados de forma eficiente.<br>
<b>Função principal do Pandas:</b><br>
A principal função do Pandas é trabalhar com dados tabulares (semelhantes a tabelas de Excel ou SQL) e dados de séries temporais.<br>
<b>O que é um DataFrame?</b>
O DataFrame é a principal estrutura de dados da biblioteca Pandas. Ele é uma tabela de dados que possui:<br>
✔️ Linhas (também chamadas de índices)<br>
✔️ Colunas (com nomes)<br>
✔️ Dados organizados em formato tabular (igual a uma planilha ou tabela de banco de dados)<br>
<b>Função do DataFrame:</b><br>
A função do DataFrame é armazenar, organizar, manipular e analisar dados de forma eficiente e flexível. Ele permite realizar operações complexas sobre grande número de dados, como:<br>

✔️ Ler e gravar dados de diferentes fontes: CSV, Excel, SQL, JSON, Parquet, entre outros.

✔️ Limpar e preparar dados: tratamento de valores nulos, filtragem, substituições, transformações.

✔️ Manipular dados: selecionar colunas, agrupar, ordenar, combinar, juntar (merge), pivotar, entre outros.

✔️ Analisar dados: calcular estatísticas, realizar agregações, gerar insights.

✔️ Visualizar dados (em conjunto com outras bibliotecas como Matplotlib ou Seaborn).

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.9.13


Guia de Usuário do Pandas:

https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html#user-guide

In [None]:
# Instala a versão exata do pacote
# !pip install -q pandas==1.5.3

In [2]:
# Importando a biblioteca Pandas
import pandas as pd

In [3]:
# Verificando a Versão do Pandas
pd.__version__

'1.4.4'

## Manipulando Dados em DataFrames do Pandas 

In [4]:
# Cria um dicionário onde existem várias chaves e os valores são listas
# A chave Estado possui como valor uma lista python com 5 estados
# O mesmo com a chave Ano e Taxa de desemprego.
dados = {'Estado': ['Santa Catarina', 'Rio de Janeiro', 'Tocantins', 'Bahia', 'Minas Gerais'],
        'Ano': [2020, 2021, 2022, 2023, 2024], 
        'Taxa Desemprego': [1.5, 1.7, 1.6, 2.4, 2.7]}

In [5]:
# Exibindo dicionário dados
print(dados)

{'Estado': ['Santa Catarina', 'Rio de Janeiro', 'Tocantins', 'Bahia', 'Minas Gerais'], 'Ano': [2020, 2021, 2022, 2023, 2024], 'Taxa Desemprego': [1.5, 1.7, 1.6, 2.4, 2.7]}


In [6]:
# Importa a função DataFrame do Pandas
from pandas import DataFrame

In [7]:
# Converte o dicionário em um dataframe
df = DataFrame(dados)

In [8]:
# Visualiza as 5 primeiras linhas do dataframe
df.head()

Unnamed: 0,Estado,Ano,Taxa Desemprego
0,Santa Catarina,2020,1.5
1,Rio de Janeiro,2021,1.7
2,Tocantins,2022,1.6
3,Bahia,2023,2.4
4,Minas Gerais,2024,2.7


In [9]:
# Verifica o tipo de dados
type(df)

pandas.core.frame.DataFrame

In [10]:
# Reorganizando as colunas
# Alterando as colunas Taxa de Desemprego e Ano para uma nova disposição
DataFrame(dados, columns = ['Estado', 'Taxa Desemprego', 'Ano'])

Unnamed: 0,Estado,Taxa Desemprego,Ano
0,Santa Catarina,1.5,2020
1,Rio de Janeiro,1.7,2021
2,Tocantins,1.6,2022
3,Bahia,2.4,2023
4,Minas Gerais,2.7,2024


In [11]:
# Criando outro dataframe com os mesmo dados anteriores, mas,
# adicionando a coluna Taxa Crescimento e substituindo os índices.
df2 = DataFrame(dados,
               columns = ['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'],
               index = ['estado1', 'estado2', 'estado3', 'estado4', 'estado5'])

In [12]:
# Observe que na coluna Taxa Crescimento foi acrescentado pelo pandas 
# a sigla NaN (Not a Number - Não é um número)
# NaN é um número inválido ou indefinido, ou seja, valor ausente. 
# Isto é um problema em Analise de Dados que tem # que ser resolvido 
# pelo analista. O valor ausente é ausência de informação e não de dados.
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2020
estado2,Rio de Janeiro,1.7,,2021
estado3,Tocantins,1.6,,2022
estado4,Bahia,2.4,,2023
estado5,Minas Gerais,2.7,,2024


In [13]:
# Retornando os valores do Data Frame df2
df2.values

array([['Santa Catarina', 1.5, nan, 2020],
       ['Rio de Janeiro', 1.7, nan, 2021],
       ['Tocantins', 1.6, nan, 2022],
       ['Bahia', 2.4, nan, 2023],
       ['Minas Gerais', 2.7, nan, 2024]], dtype=object)

In [14]:
# Checando os tipos de dados de cada coluna
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [15]:
# Retornando os títulos das colunas do data frame df2 que é uma 
# lista de strings, por isto, dtype='object'
df2.columns

Index(['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'], dtype='object')

In [16]:
# Imprimindo apenas a coluna 'Estado' do Dataframe
df2['Estado']

estado1    Santa Catarina
estado2    Rio de Janeiro
estado3         Tocantins
estado4             Bahia
estado5      Minas Gerais
Name: Estado, dtype: object

In [17]:
# Linguagem Python é case sensitive. 
# Não existe a coluna 'estado' com a letra 'e' minúscula.
# df2['estado']
try:
    df2['estado']
except:
    print("O Python é case sensitive")

O Python é case sensitive


In [18]:
# Imprimindo apenas duas colunas do Dataframe
# São necessários dois colchetes para abrir e fechar porque o pandas 
# não aceita colocar os nomes das colunas separadas por virgulas 
# dentro de um único colchete.
df2[['Taxa Desemprego', 'Ano']]

Unnamed: 0,Taxa Desemprego,Ano
estado1,1.5,2020
estado2,1.7,2021
estado3,1.6,2022
estado4,2.4,2023
estado5,2.7,2024


In [19]:
# Listando os índices do data frame df2
df2.index

Index(['estado1', 'estado2', 'estado3', 'estado4', 'estado5'], dtype='object')

In [20]:
# Filtrando pelo índice 'estado3'. O eixo 0 é horizontal.
df2.filter(items = ['estado3'], axis = 0)

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado3,Tocantins,1.6,,2022


In [21]:
# Filtrando pela coluna 'Estado'. O eixo 1 é vertical.
df2.filter(items = ['Estado'], axis = 1)

Unnamed: 0,Estado
estado1,Santa Catarina
estado2,Rio de Janeiro
estado3,Tocantins
estado4,Bahia
estado5,Minas Gerais


## Usando NumPy e Pandas Para Manipulação de Dados

In [25]:
# Exibindo as primeiras 5 linhas de df2
df2.head()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2020
estado2,Rio de Janeiro,1.7,,2021
estado3,Tocantins,1.6,,2022
estado4,Bahia,2.4,,2023
estado5,Minas Gerais,2.7,,2024


In [24]:
# Exibindo o tipo de dado de cada coluna. 
# Existem duas colunas object (string) e duas númericas (float64 e int64)
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [26]:
# Resumo estatístico do Dataframe
# O resumo estatístico mostra apenas duas colunas porque a estatística 
# trabalha apenas com números
df2.describe()

Unnamed: 0,Taxa Desemprego,Ano
count,5.0,5.0
mean,1.98,2022.0
std,0.535724,1.581139
min,1.5,2020.0
25%,1.6,2021.0
50%,1.7,2022.0
75%,2.4,2023.0
max,2.7,2024.0


In [27]:
# Criando o dataframe ordenado e ordenando pela coluna 'Taxa Desemprego'
df2_ordenado = df2.sort_values(by = 'Taxa Desemprego')

In [29]:
# Exibindo df2_ordenado
df2_ordenado.head()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2020
estado3,Tocantins,1.6,,2022
estado2,Rio de Janeiro,1.7,,2021
estado4,Bahia,2.4,,2023
estado5,Minas Gerais,2.7,,2024


<b>O que é uma Series no Pandas?</b><br>
Uma Series é uma estrutura de dados unidimensional (uma única coluna) que armazena uma sequência de valores (como uma lista ou um array) associada a um índice.

Pense nela como uma coluna de uma planilha ou de um DataFrame isolada, mas com capacidades poderosas de análise e manipulação.

In [32]:
# Extraindo a coluna 'Taxa Desemprego' e armazenando numa serie
serie = pd.Series(df2_ordenado['Taxa Desemprego'])

In [33]:
# Exibindo os dados da serie
print(serie)

estado1    1.5
estado3    1.6
estado2    1.7
estado4    2.4
estado5    2.7
Name: Taxa Desemprego, dtype: float64


<b>Como os quartis se dividem?</b><br>
🔸 Q1 (1º quartil ou 25%)
É o valor que separa os 25% menores valores do restante dos dados.

🔸 Q2 (2º quartil ou 50%)
É a mediana, ou seja, o valor central que divide o conjunto ao meio (50% para cada lado).

🔸 Q3 (3º quartil ou 75%)
É o valor que separa os 75% menores valores dos 25% maiores.

In [35]:
# Exibindo os quartis
# Quartis dividem os dados em 4 partes iguais.
# Q1 = 25%, Q2 = 50%, Q3 = 75%.
q1 = serie.quantile(0.25)
q2 = serie.quantile(0.5)
q3 = serie.quantile(0.75)

In [36]:
# Imprimindo os valores dos quartis
print(f'Q1: {q1} | Q2: {q2} | Q3: {q3}')

Q1: 1.6 | Q2: 1.7 | Q3: 2.4


In [37]:
# O método isna verifica se existe valor não disponível (not available).
# Onde existe valor não disponível o metodo responde como True.
# A coluna taxa Crescimento contém valores ausentes ou não disponíveis. (NaN)
df2.isna()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,False,False,True,False
estado2,False,False,True,False
estado3,False,False,True,False
estado4,False,False,True,False
estado5,False,False,True,False


In [39]:
# Faz o filtro da coluna Taxa Crescimento que contém valores ausentes.
df2['Taxa Crescimento'].isna()

estado1    True
estado2    True
estado3    True
estado4    True
estado5    True
Name: Taxa Crescimento, dtype: bool

In [40]:
# Importando o NumPy
import numpy as np

In [41]:
# Usando o NumPy para alimentar uma das colunas do dataframe.
# O método arrange do numpy cria 5 valores float para taxa de crescimento 
# numerados de 0 a 4 do tipo float. O valor 5. é exclusivo.
df2['Taxa Crescimento'] = np.arange(5.)

In [42]:
# Exibindo o data frame df2 com os valores da coluna Taxa Crescimento
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2020
estado2,Rio de Janeiro,1.7,1.0,2021
estado3,Tocantins,1.6,2.0,2022
estado4,Bahia,2.4,3.0,2023
estado5,Minas Gerais,2.7,4.0,2024


In [43]:
# O atributo dtypes df2 mostra os tipos de dados das colunas.
# Taxa Crescimento foi atribuida como tipo float64.
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento    float64
Ano                   int64
dtype: object

In [44]:
# O método isna() mostra a coluna Taxa Cresimento como False porque 
# não mais existem valores ausentes.
df2['Taxa Crescimento'].isna()

estado1    False
estado2    False
estado3    False
estado4    False
estado5    False
Name: Taxa Crescimento, dtype: bool

In [45]:
# Resumo estatístico do Dataframe, agora, exibe 3 colunas.
df2.describe()

Unnamed: 0,Taxa Desemprego,Taxa Crescimento,Ano
count,5.0,5.0,5.0
mean,1.98,2.0,2022.0
std,0.535724,1.581139,1.581139
min,1.5,0.0,2020.0
25%,1.6,1.0,2021.0
50%,1.7,2.0,2022.0
75%,2.4,3.0,2023.0
max,2.7,4.0,2024.0


In [47]:
# Exibindo o shape
df2.shape

(5, 4)

## Slicing (fatiamento) de DataFrames do Pandas

In [48]:
# Exibindo o dataframe df2
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2020
estado2,Rio de Janeiro,1.7,1.0,2021
estado3,Tocantins,1.6,2.0,2022
estado4,Bahia,2.4,3.0,2023
estado5,Minas Gerais,2.7,4.0,2024


In [49]:
# Exibindo todos os índices (linhas) entre estado2 e estado4, inclusive.
# Atenção: diferente do Numpy, o último índice no pandas é INCLUSIVO.
df2['estado2':'estado4']

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado2,Rio de Janeiro,1.7,1.0,2021
estado3,Tocantins,1.6,2.0,2022
estado4,Bahia,2.4,3.0,2023


In [51]:
# Slicing ou fatiamento de DataFrame
# Quando se abre colchetes após df2, significa que será feito fatiamento. 
# Dentro dos colchetes, insere-se uma condição,
# neste caso, será exibida a coluna Taxa Desemprego onde os valores 
# forem menores que 2.
# Quando filtragem dois dataFrame
df2[df2['Taxa Desemprego'] < 2]

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2020
estado2,Rio de Janeiro,1.7,1.0,2021
estado3,Tocantins,1.6,2.0,2022


In [52]:
# Filtrando uma coluna do dataframe. Coloca-se apenas um colchete abrindo 
# e fechando para a coluna a ser exibida.
df2['Taxa Crescimento']

estado1    0.0
estado2    1.0
estado3    2.0
estado4    3.0
estado5    4.0
Name: Taxa Crescimento, dtype: float64

In [53]:
# Para filtrar duas ou mais colunas, coloca-se o nome das duas ou mais colunas 
# entre dois colchetes abrindo e fechando.
df2[['Estado', 'Taxa Crescimento']]

Unnamed: 0,Estado,Taxa Crescimento
estado1,Santa Catarina,0.0
estado2,Rio de Janeiro,1.0
estado3,Tocantins,2.0
estado4,Bahia,3.0
estado5,Minas Gerais,4.0


In [54]:
# O critério vale para três colunas, ou seja, dois colchetes e os nomes 
# das três colunas a serem exibidas.
df2[['Estado', 'Taxa Crescimento', 'Ano']]

Unnamed: 0,Estado,Taxa Crescimento,Ano
estado1,Santa Catarina,0.0,2020
estado2,Rio de Janeiro,1.0,2021
estado3,Tocantins,2.0,2022
estado4,Bahia,3.0,2023
estado5,Minas Gerais,4.0,2024


## Preenchendo Valores Ausentes em DataFrames do Pandas

A função fillna() é usada para preencher os valores ausentes. A função oferece muitas opções. Podemos usar um valor específico, uma função agregada (por exemplo, média) ou o valor anterior ou seguinte.

Para esse exemplo usaremos a moda, a estatística que representa o valor que aparece mais vezes em uma variável.

In [55]:
# Primeiro importamos um dataset de um arquivo num diretório de disco.
df = pd.read_csv('dataset.csv')

In [56]:
# Exibindo os 15 primeiros registros do dataframe.
# Se retirar o valor entre parêntesis, será exibido o padrão que é 5 registros.
df.head(15)

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.86,7.0
6,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-AR-10002833,Office Supplies,Newell 322,7.28,4.0
7,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,TEC-PH-10002275,Technology,Mitel 5320 IP Phone VoIP phone,907.152,6.0
8,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-BI-10003910,Office Supplies,DXL Angle-View Binders with Locking Rings by S...,18.504,3.0
9,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-AP-10002892,Office Supplies,Belkin F5C206VTEL 6 Outlet Surge,114.9,5.0


In [57]:
# Procura por valores ausentes em todas as colunas do dataframe e se tiver, 
# soma a quantidade de valores ausentes existentes em cada coluna
# Existem dois valores ausentes na coluna quantidade.
df.isna().sum()

ID_Pedido       0
Data_Pedido     0
ID_Cliente      0
Segmento        0
Pais            0
Regiao          0
ID_Produto      0
Categoria       0
Nome_Produto    0
Valor_Venda     0
Quantidade      2
dtype: int64

In [58]:
# Inserindo a moda nos locais onde existem valores ausentes (NaN)
# Extraímos a moda da coluna Quantidade.
# A moda é o valor mais frequente desta coluna. 
# Neste caso será extraído o valor mais frequente na coluna quantidade.
# Resgate o primeiro valor do índice dessa da coluna Quantidade.
# Imagine o seguinte exemplo: [3, 2, 3, 5, 2, 3, 2]
# Temos dois valores mais frequentes, ou seja, 2 e 3. 
# O valor 3 será resgatado por index[0] porque aparece primeiro na sequencia.
moda = df['Quantidade'].value_counts().index[0]

A moda em Estatística é uma medida de tendência central que representa o valor mais frequente em um conjunto de dados. 

A moda é especialmente útil quando queremos saber qual é o valor mais comum ou popular em um conjunto de dados, seja em uma distribuição unimodal (com apenas uma moda) ou em uma distribuição bimodal (com duas modas).

No entanto, a moda pode não ser tão representativa quanto outras medidas de tendência central, como a média e a mediana, especialmente em distribuições assimétricas ou quando há valores extremos. Por essa razão, é importante analisar diferentes medidas de tendência central e usar a que melhor se adequa aos objetivos da análise estatística.

In [60]:
# Exibindo o valor da moda
print(moda)

3.0


In [61]:
# E por fim preenchemos a moda na coluna Quantidade onde estão os valores NaN 
# O método fillna() faz o preenchimento com a moda. 
# O comando implace = True salva os dados modificados no dataframe.
df['Quantidade'].fillna(value = moda, inplace = True)

In [62]:
# Exibe a somatória de valores NaN em cada coluna. 
# Neste caso, nenhuma coluna possui valores ausentes.
df.isna().sum()

ID_Pedido       0
Data_Pedido     0
ID_Cliente      0
Segmento        0
Pais            0
Regiao          0
ID_Produto      0
Categoria       0
Nome_Produto    0
Valor_Venda     0
Quantidade      0
dtype: int64

## Query (Consulta) de Dados no DataFrame do Pandas

Com o Pandas criamos dataframes, que são essencialmente tabelas. Como tal, podemos fazer consultas, ou simplesmente queries. E para isso usamos o método query(). Veja o exemplo abaixo:

In [63]:
# Exibindo os 5 primeiros registros do dataframe
df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0


In [64]:
# Checamos os valores mínimo e máximo da coluna Valor_Venda
# Resumo estatístico de apenas uma coluna, a coluna Valor_Venda.
df.Valor_Venda.describe()

count     9994.000000
mean       229.858001
std        623.245101
min          0.444000
25%         17.280000
50%         54.490000
75%        209.940000
max      22638.480000
Name: Valor_Venda, dtype: float64

O intervalo de vendas (Valor_Venda) é de 0.44 a 22638, ou seja, é muito heterogêneo. Vamos fazer uma consulta e retornar todas as vendas dentro de um range de valores mais homogêneos. Fazemos isso com a instrução abaixo:

In [65]:
# Exibindo a quantidade de linhas e colunas do dataframe
df.shape

(9994, 11)

In [None]:
# Geramos um novo dataframe apenas com o intervalo de vendas entre 229 e 10000
# O método query fará uma consulta ou fatiamento das vendas entre 229 e 10000 
# e a armazena em df2.


In [73]:
# Então confirmamos os valores mínimo e máximo
# Agora, depois do fatiamento, pode-se observar que os valores são 
# mais homogêneos neste intervalo.
df2.Valor_Venda.describe()

AttributeError: 'DataFrame' object has no attribute 'Valor_Venda'

In [67]:
# Geramos um novo dataframe apenas com os valores de venda acima da média 
# de 766.679142 do resumo estatístico anterior.
df3 = df2.query('Valor_Venda > 766')

UndefinedVariableError: name 'Valor_Venda' is not defined

In [69]:
# Mostrando as 5 primeiras linhas de df3
df3.Valor_Venda.describe()

NameError: name 'df3' is not defined

In [None]:
# Os valores da consulta em df3 estão mais homogêneos que df2.


In [70]:
# Exibindo o shape de df3
df3.shape

NameError: name 'df3' is not defined

Consulta executada com sucesso!

## Verificando a Ocorrência de Diversos Valores em Uma Coluna

Em nosso conjunto de dados de exemplo temos a coluna Quantidade que representa a quantidade de itens vendidos em cada uma das vendas. Imagine que precisamos saber em quais vendas foram vendidos 5, 7, 9 ou 11 itens. 

Como aplicaríamos esse tipo de filtro ao nosso dataframe?

Fácil. O Pandas oferece o método <b>isin()</b> para checar diversos valores em uma coluna. Quem conhece Linguagem SQL já deve ter percebido que o método é o mesmo que a cláusula IN em SQL. Vamos ao exemplo.

In [71]:
# O método shape retorna o número de linhas e colunas do dataframe original.
df.shape

(9994, 11)

In [72]:
# Então aplicamos o filtro
# Este filtro irá verificar se na coluna Quantidade do dataframe df, 
# existem os valores 5, 7, 9 e 11 itens vendidos nesta coluna.
# Serão encontradas 2128 linhas que atendem a esta regra.
df[df['Quantidade'].isin([5, 7, 9, 11])]

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.8600,7.0
9,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-AP-10002892,Office Supplies,Belkin F5C206VTEL 6 Outlet Surge,114.9000,5.0
10,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-TA-10001539,Furniture,Chromcraft Rectangular Conference Tables,1706.1840,9.0
14,US-2015-118983,2015-11-22,HP-14815,Home Office,United States,Central,OFF-AP-10002311,Office Supplies,Holmes Replacement Filter for HEPA Air Cleaner...,68.8100,5.0
...,...,...,...,...,...,...,...,...,...,...,...
9974,US-2016-103674,2016-12-06,AP-10720,Home Office,United States,West,OFF-AR-10004752,Office Supplies,Blackstonian Pencils,18.6900,7.0
9977,US-2016-103674,2016-12-06,AP-10720,Home Office,United States,West,OFF-FA-10003467,Office Supplies,"Alliance Big Bands Rubber Bands, 12/Pack",13.8600,7.0
9981,CA-2017-163566,2017-08-03,TB-21055,Consumer,United States,East,OFF-LA-10004484,Office Supplies,Avery 476,16.5200,5.0
9982,US-2016-157728,2016-09-22,RC-19960,Consumer,United States,Central,OFF-PA-10002195,Office Supplies,"RSVP Cards & Envelopes, Blank White, 8-1/2"" X ...",35.5600,7.0


Na instrução acima estamos filtrando o dataframe chamado df, retornando todas as linhas onde a coluna Quantidade for igual aos valores 5, 7, 9 ou 11. Passamos uma lista de valores como argumento para o método isin().

Vamos deixar um pouquinho mais divertido. Se você executou a instrução acima, percebeu que foram retornadas 2.128 linhas. E se quisermos retornar somente 10 linhas? É só fatiar o resultado assim:

In [74]:
# Este Shape mostra a quantidade de linhas e colunas da quantidade de 
# itens vendidos do critério anterior.
df[df['Quantidade'].isin([5, 7, 9, 11])].shape

(2128, 11)

In [76]:
# Aplicando o mesmo critério do filtro anterior, mas, exibindo apenas os 
# 10 primeiros registros da filtragem
df[df['Quantidade'].isin([5, 7, 9, 11])][:10]

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.86,7.0
9,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-AP-10002892,Office Supplies,Belkin F5C206VTEL 6 Outlet Surge,114.9,5.0
10,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-TA-10001539,Furniture,Chromcraft Rectangular Conference Tables,1706.184,9.0
14,US-2015-118983,2015-11-22,HP-14815,Home Office,United States,Central,OFF-AP-10002311,Office Supplies,Holmes Replacement Filter for HEPA Air Cleaner...,68.81,5.0
21,CA-2016-137330,2016-12-09,KB-16585,Corporate,United States,Central,OFF-AR-10000246,Office Supplies,Newell 318,19.46,7.0
22,CA-2016-137330,2016-12-09,KB-16585,Corporate,United States,Central,OFF-AP-10001492,Office Supplies,"Acco Six-Outlet Power Strip, 4' Cord Length",60.34,7.0
27,US-2015-150630,2015-09-17,TB-21520,Consumer,United States,East,FUR-BO-10004834,Furniture,"Riverside Palais Royal Lawyers Bookcase, Royal...",3083.43,7.0
35,CA-2016-117590,2016-12-08,GH-14485,Corporate,United States,Central,TEC-PH-10004977,Technology,GE 30524EE4,1097.544,7.0
36,CA-2016-117590,2016-12-08,GH-14485,Corporate,United States,Central,FUR-FU-10003664,Furniture,"Electrix Architect's Clamp-On Swing Arm Lamp, ...",190.92,5.0


## Operadores Lógicos Para Manipulação de Dados com Pandas

Os operadores lógicos são excelentes para filtrar dataframes e retornar exatamente os dados que precisamos para nosso trabalho. Para conhecer mais sobre as regras dos operadores lógicos, acesse aqui:

https://pt.wikipedia.org/wiki/Operador_l%C3%B3gico

Primeiro usaremos o operador lógico <b>AND</b> para checar duas condições. Serão retornados os registros quando as duas condições forem simultaneamente verdadeiras.

In [78]:
# Filtrando as vendas que ocorreram para o segmento de Home Office e na 
# região South:
# Este comando filtra os dados entre colchetes onde a coluna segmento deve 
# ser verdadeiro para igual a Home Office.
# O segundo filtro será na coluna Região deve ser verdadeiro para igual a Sul.
# Para que os dois filtros sejam verdadeiros ao mesmo tempo usa-se o operador 
# lógico &.
# O métiodo head() exibirá apenas os 5 primeiros registros deste filtro.
# Usa-se apenas um colchete no dataframe porque é uma condição e não
# uma apresentação de colunas.
df[(df.Segmento == 'Home Office') & (df.Regiao == 'South')].head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
182,CA-2014-158274,2014-11-19,RM-19675,Home Office,United States,South,TEC-PH-10003273,Technology,AT&T TR1909W,503.96,4.0
183,CA-2014-158274,2014-11-19,RM-19675,Home Office,United States,South,TEC-PH-10004896,Technology,Nokia Lumia 521 (T-Mobile),149.95,5.0
184,CA-2014-158274,2014-11-19,RM-19675,Home Office,United States,South,TEC-AC-10002345,Technology,HP Standard 104 key PS/2 Keyboard,29.0,2.0
231,US-2017-100930,2017-04-07,CS-12400,Home Office,United States,South,FUR-TA-10001705,Furniture,Bush Advantage Collection Round Conference Table,233.86,2.0
232,US-2017-100930,2017-04-07,CS-12400,Home Office,United States,South,FUR-TA-10003473,Furniture,Bretford Rectangular Conference Table Tops,620.6145,3.0


Mas pode ser necessário checar duas condições e retornar os registros se pelo menos uma for verdadeira. Nesse caso usamos o operador <b>OR</b>, conforme abaixo.

In [81]:
# Filtrando as vendas que ocorreram para o segmento de Home Office ou 
# região South
# Neste caso o retorno do filtro será quando apenas uma das condições for 
# verdadeira.
# Usa-se o operador lógico | (ou).
# O método tail() irá mostrar os ultimos 5 registros do dataframe, ao 
# contrario do método head() que mostra os 5 primeiros.
df[(df.Segmento == 'Home Office') | (df.Regiao == 'South')].tail()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
9979,US-2016-103674,2016-12-06,AP-10720,Home Office,United States,West,OFF-BI-10002026,Office Supplies,Ibico Recycled Linen-Style Covers,437.472,14.0
9980,US-2015-151435,2015-09-06,SW-20455,Consumer,United States,South,FUR-TA-10001029,Furniture,KI Adjustable-Height Table,85.98,1.0
9987,CA-2017-163629,2017-11-17,RA-19885,Corporate,United States,South,TEC-AC-10001539,Technology,Logitech G430 Surround Sound Gaming Headset wi...,79.99,1.0
9988,CA-2017-163629,2017-11-17,RA-19885,Corporate,United States,South,TEC-PH-10004006,Technology,Panasonic KX - TS880B Telephone,206.1,5.0
9989,CA-2014-110422,2014-01-21,TB-21400,Consumer,United States,South,FUR-FU-10001889,Furniture,Ultra Door Pull Handle,25.248,3.0


O operador de negação é o contrário do primeiro exemplo.

In [96]:
# Filtrando as vendas que não ocorreram para o segmento de Home Office 
# e nem na região South
# Neste filtro é utilizado o operador != (diferente) nas duas condições, 
# ou seja, a coluna segmento é diferente de Home Office
# e coluna Regiao diferente de South. O método sample irá mostrar 5 registros 
# aleatórios do dataframe.
# A cada vez que executarmos esta célula, novos registros serão mostrados 
# porque sample é aleatório.
df[(df.Segmento != 'Home Office') & (df.Regiao != 'South')].sample(5)

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
41,CA-2017-120999,2017-09-10,LC-16930,Corporate,United States,Central,TEC-PH-10004093,Technology,Panasonic Kx-TS550,147.168,4.0
4560,CA-2015-118871,2015-12-04,HM-14860,Corporate,United States,West,OFF-EN-10003296,Office Supplies,Tyvek Side-Opening Peel & Seel Expanding Envel...,271.44,3.0
8351,CA-2017-132199,2017-05-03,BO-11350,Corporate,United States,East,FUR-FU-10004245,Furniture,"Career Cubicle Clock, 8 1/4"", Black",32.448,2.0
4147,CA-2017-106068,2017-10-23,RB-19330,Consumer,United States,Central,OFF-BI-10000962,Office Supplies,Acco Flexible ACCOHIDE Square Ring Data Binder...,9.762,3.0
742,US-2016-146710,2016-08-27,SS-20875,Consumer,United States,Central,OFF-SU-10004498,Office Supplies,Martin-Yale Premier Letter Opener,51.52,5.0


## Agrupamento de Dados em DataFrames com Group By

A função Pandas Groupby é uma função versátil e fácil de usar que ajuda a obter uma visão geral dos dados. Isso torna mais fácil explorar o conjunto de dados e revelar os relacionamentos entre as variáveis.

O código a seguir agrupará as linhas com base nas combinações Segmento/Regiao/Valor_Venda e nos dará a taxa média de vendas de cada grupo.<br>

O Segmento possui três grupos (Consumer, Corporate e Home Office) que irá conter uma Região com quatro grupos (Central, East, South e West). Assim, o comando a seguir irá calcular a média para cada grupo das regiões (Central, East, South e West) em cada grupo de Segmento (Consumer, Corporate e Home Office).

In [103]:
# Aplicamos o group by
df[['Segmento', 'Regiao', 'Valor_Venda']].groupby(['Segmento', 'Regiao']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Valor_Venda
Segmento,Regiao,Unnamed: 2_level_1
Consumer,Central,207.946728
Consumer,East,238.875539
Consumer,South,233.39018
Consumer,West,217.033955
Corporate,Central,234.763466
Corporate,East,228.516929
Corporate,South,238.992025
Corporate,West,235.265911
Home Office,Central,208.248046
Home Office,East,253.911805


Na instrução acima, primeiro filtramos os dados extraindo 3 colunas: ['Segmento','Regiao','Valor_Venda']. Na sequência, agrupamos por duas colunas: ['Segmento','Regiao']. E então calculamos a média para a coluna que ficou de fora do group by, nesse caso a coluna Sales.

O comportamento do group by com Pandas é o mesmo observado na Linguagem SQL.

## Agregação Múltipla com Group By

Vamos explorar mais a função <b>groupby()</b> pois temos diversas opções de sumarização dos dados de forma simples. No exemplo abaixo uniremos a função <b>groupby()</b> com a função <b>agg()</b> para realizar agregação múltipla.

In [106]:
# Aplicamos o group by
df[['Segmento', 'Regiao', 'Valor_Venda']].groupby(['Segmento', 'Regiao']).agg(['mean', 'std', 'count'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Valor_Venda,Valor_Venda,Valor_Venda
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,count
Segmento,Regiao,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Consumer,Central,207.946728,587.906523,1212
Consumer,East,238.875539,633.371169,1469
Consumer,South,233.39018,559.346824,838
Consumer,West,217.033955,551.997547,1672
Corporate,Central,234.763466,818.947521,673
Corporate,East,228.516929,530.001654,877
Corporate,South,238.992025,586.176947,510
Corporate,West,235.265911,471.288764,960
Home Office,Central,208.248046,371.00918,438
Home Office,East,253.911805,722.777318,502


Na instrução acima, primeiro filtramos os dados extraindo 3 colunas: ['Segmento','Regiao','Valor_Venda']. Na sequência, agrupamos por duas colunas: ['Segmento','Regiao']. E então agregamos os dados calculando a média, desvio padrão e contagem de elementos para a coluna que ficou fora do <b>group by</b>, nesse caso a coluna <b>Valor_Venda</b>.

A função <b>agg()</b> recebe como argumento uma lista de funções para agregação.

## Filtrando DataFrame do Pandas com Base em Strings

O Pandas oferece diversas funções para manipulação de strings. Começaremos com o filtros de strings com base nas letras iniciais e finais.

In [110]:
# Mostra os 5 primeiros registros do dataframe
df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0


In [111]:
# Filtramos o dataframe pela coluna Segmento, procurando strings (str) 
# com valores que iniciam (startwith) com as letras 'Con' e exibindo os 
# 5 primeiros registros.
df[df.Segmento.str.startswith('Con')].head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.86,7.0


In [113]:
# Mostra a quantidade de registros existentes para cada Segmento.
df.Segmento.value_counts()

Consumer       5191
Corporate      3020
Home Office    1783
Name: Segmento, dtype: int64

In [114]:
# Filtramos o dataframe pela coluna Segmento, procurando strings, 
# com valores que terminam (endswith) com as letras 'mer' e mostram 
# os cinco primeiros registros.
df[df.Segmento.str.endswith('mer')].head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.86,7.0


As funções <b>startswith()</b> e <b>endswith()</b> são muito úteis para quando for necessário filtrar strings por caracteres que apareçam no começo e/ou final.

## Split de Strings em DataFrames do Pandas

Com Pandas podemos realizar diversas tarefas de split de strings dividindo uma coluna ou extraindo elementos do nosso interesse. Vamos ao exemplo!

In [115]:
# Exibindo os 5 primeiros registros
# Observe os registros da coluna ID_PEDIDO
df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0


In [117]:
# Mostra os 5 primeiros registros apenas da coluna ID_PEDIDO.
df['ID_Pedido'].head()

0    CA-2016-152156
1    CA-2016-152156
2    CA-2016-138688
3    US-2015-108966
4    US-2015-108966
Name: ID_Pedido, dtype: object

Este é o formato dos dados da coluna "ID_Pedido":

- CA-2016-152156
- US-2015-108966

Temos o país, o ano e o id do pedido. Vamos dividir essa coluna e extrair o ano para gravar em uma nova coluna:

In [119]:
# Split (divisão) da coluna pelo caracter '-'
# O retorno será através de listas. A coluna ID_PEDIDO estará dividida em 
# três dados de informações (país, ano, id) separados por vírgula.
# Cada dado dentro da lista está armazenado num índice (0, 1 e 2)
df['ID_Pedido'].str.split('-')

0       [CA, 2016, 152156]
1       [CA, 2016, 152156]
2       [CA, 2016, 138688]
3       [US, 2015, 108966]
4       [US, 2015, 108966]
               ...        
9989    [CA, 2014, 110422]
9990    [CA, 2017, 121258]
9991    [CA, 2017, 121258]
9992    [CA, 2017, 121258]
9993    [CA, 2017, 119914]
Name: ID_Pedido, Length: 9994, dtype: object

Observe que o resultado são as listas em Python. Para extrair o ano precisamos especificar o índice da posição que queremos extrair (em nosso caso a posição 2, logo, índice 1 em Python):

In [120]:
# Será extraido o Ano da coluna ID_PEDIDO onde serão procuradas strings 
# separadas por hífen na posição 1 de cada lista.
# Serão mostradas os 5 primeiros registros.
df['ID_Pedido'].str.split('-').str[1].head()

0    2016
1    2016
2    2016
3    2015
4    2015
Name: ID_Pedido, dtype: object

In [121]:
# Criando a coluna 'Ano' ao final do dataframe
# Fazemos o split (divisão) da coluna 'ID_PEDIDO' e extraímos o item na 
# posição 2 (índice 1) e o armazenamos na coluna Ano que será 
# acrescentada ao dataframe.
df['Ano'] = df['ID_Pedido'].str.split('-').str[1]

In [122]:
# Então conferimos a nova coluna Ano criada na última posição do dataframe.
df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0,2016
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0,2016
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0,2015
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0,2015


## Strip de Strings em DataFrames do Pandas

Cuidado para não confundir. Vimos o Split e agora veremos o Strip. São funções diferentes.

O Split divide a string. O Strip remove caracteres da string. Veja os exemplos.

In [123]:
# Mostra 3 registros do dataframe
df.head(3)

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0,2016
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0,2016
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016


In [124]:
# Mostra os 3 registros da coluna Data_Pedido
df['Data_Pedido'].head(3)

0    2016-11-08
1    2016-11-08
2    2016-06-12
Name: Data_Pedido, dtype: object

A coluna 'Data_Pedido' é a data de envio do produto no formato YYYY-MM-DD. Imagine que seja necessário deixar o ano apenas com 2 dígitos sem alterar o tipo da variável. Fazemos isso com a função <b>lstrip()</b>, ou seja, <b>left strip</b>.

In [126]:
# Vamos remover os dígitos à esquerda do valor da variável 'Data_Pedido', 
# ou seja, os valores 2 e 0 (20).
df['Data_Pedido'].str.lstrip('20')

0       16-11-08
1       16-11-08
2       16-06-12
3       15-10-11
4       15-10-11
          ...   
9989    14-01-21
9990    17-02-26
9991    17-02-26
9992    17-02-26
9993    17-05-04
Name: Data_Pedido, Length: 9994, dtype: object

Como não usamos o inplace = True a mudança é somente na memória e não altera o dataframe. Podemos usar ainda as funções rstrip() e strip() com diferentes variações de strip de strings.

## Replace de Strings em DataFrames do Pandas

Se for necessário substituir caracteres dentro de uma string o Pandas oferece uma função para isso também.

Por exemplo, vamos substituir 2 caracteres em uma das colunas.

In [None]:
# Exibindo os 5 primeiros registros
# Observe a coluna ID_Cliente


In [127]:
# Substituímos os caracteres CG por AX na coluna 'ID_Cliente'
# Esta substituição ocorre muitas vezes em decorrência da mudanção 
# de padrão ou de código.
df['ID_Cliente'] = df['ID_Cliente'].str.replace('CG', 'X')

In [128]:
# Exibindo os 5 primeiros registros depois da modificação em ID_Cliente
df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano
0,CA-2016-152156,2016-11-08,X-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0,2016
1,CA-2016-152156,2016-11-08,X-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0,2016
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0,2015
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0,2015


E pronto. Fácil assim.

## Combinação de Strings em DataFrames do Pandas

A função <b>cat()</b> pode ser usada para concatenar strings em um dataframe do Pandas.

Vamos criar uma nova coluna concatenando as colunas “ID_Pedido” e “Segmento” com o separador “-”.

In [129]:
# Exibindo os 5 primeiros registros
df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano
0,CA-2016-152156,2016-11-08,X-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0,2016
1,CA-2016-152156,2016-11-08,X-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0,2016
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0,2015
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0,2015


In [131]:
# Concatenando com str.cat() strings das colunas ID_PEDIDO e Segmento do 
# dataframe e inserindo um separador do tipo hifen entre os dados e 
# armazenando na nova coluna Pedido_Segmento que será criada ao final 
# do dataframe.
df['Pedido_Segmento'] = df['ID_Pedido'].str.cat(df['Segmento'], sep = '-')

In [132]:
# Exibindo os 5 primeiros registros
df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano,Pedido_Segmento
0,CA-2016-152156,2016-11-08,X-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0,2016,CA-2016-152156-Consumer
1,CA-2016-152156,2016-11-08,X-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0,2016,CA-2016-152156-Consumer
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016,CA-2016-138688-Corporate
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0,2015,US-2015-108966-Consumer
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0,2015,US-2015-108966-Consumer


## Construção de Gráficos a Partir de DataFrames do Pandas

Vimos até aqui diversas funcionalidades do Pandas que tornam o processo de manipulação de dados realmente simples. E para concluir este capítulo vamos estudar as opções que o Pandas oferece para criação de gráficos diretamente a partir de dataframes, sem a necessidade de usar qualquer outra biblioteca. 

Acompanhe os exemplos.

In [None]:
# Instala a versão exata do Scikit-learn
# Biblioteca para Aprendizado de Máquina


In [None]:
# Importando o pacote sklearn do Scikit-learn
# Verificando sua versão
import sklearn
sklearn.__version__

In [None]:
# Vamos começar importando o dataset iris que vem junto com o 
# pacote Scikit-learn e armazenamos o dataframe na variável data.


In [None]:
# E então carregamos o dataset iris como dataframe do Pandas
# O dataset iris são medidas de plantas.
# O comando data estrai os dados ['data'] do dataframe iris.
# Extrai os nomes das colunas ('features_names') e os atributos do datafreme.
# Depois, cria a coluna 'species' que será a coluna alvo ['target'] da pesquisa.


In [None]:
# Para criar um gráfico de linhas com todas as variáveis do dataframe, 
# basta fazer isso:


In [None]:
# Que tal um scatter plot com duas variáveis que faz um gráfico de 
# dispersão entre duas variáveis x e y, ou seja, tamanho e comprimento.
# sepal são folhas.


In [None]:
# E mesmo gráficos mais complexos, como um gráfico de área, pode ser criado:
# Neste caso está sendo criado a variável columns e armazenando nela os dados 
# de 4 colunas do dataset.


In [None]:
# Calculamos a média das colunas agrupando pela coluna species e criamos 
# um gráfico de barras com o resultado


In [None]:
# Ou então, fazemos a contagem de classes da coluna species 
# e plotamos em um gráfico de pizza


A lista de possibilidades é imensa. Aqui tem muitos outros exemplos:

https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html


In [None]:
# Gráfico KDE (Kernel Density Function) para cada variável do dataframe
# Gráfico KDE é um gráfico de distribuição normal (parece um sino)


In [None]:
# Boxplot de cada variável numérica
# O Boxplot é um gráfico que permite identificar outliers.


<b>O que é um Boxplot?</b><br>
Um boxplot (gráfico de caixa) é uma representação gráfica que resume a distribuição de um conjunto de dados. Ele exibe:<br>

Mediana (linha dentro da caixa)<br>
Quartis:<br>
Q1 (25%) → Primeiro quartil (limite inferior da caixa)<br>
Q3 (75%) → Terceiro quartil (limite superior da caixa)<br>
Intervalo interquartil (IQR = Q3 - Q1)<br>
Outliers (pontos fora do intervalo típico dos dados)<br>
Valores mínimo e máximo dentro do intervalo esperado<br>

O gráfico mostra a distribuição de cada variável no dataset Iris:

A linha central dentro da caixa representa a mediana.<br>
As extremidades da caixa representam Q1 e Q3.<br>
Pontos fora dos bigodes são outliers.<br>

O Pandas é uma verdadeira caixa de ferramentas para manipulação de dados em Python.

# Fim

### Obrigado