# <font color='blue'>Instituto Federal de S√£o Paulo</font>

## <font color='blue'>Fundamentos de Linguagem Python Para An√°lise de Dados e Data Science</font>

## <font color='blue'>Manipula√ß√£o de Dados com Pandas</font>

O <b>Pandas</b> √© uma biblioteca open-source (c√≥digo aberto) para a linguagem Python, amplamente utilizada em ci√™ncia de dados, an√°lise de dados e machine learning. Ela fornece estruturas de dados r√°pidas, flex√≠veis e expressivas, como DataFrame e Series, que facilitam a manipula√ß√£o e an√°lise de dados de forma eficiente.<br>
<b>Fun√ß√£o principal do Pandas:</b><br>
A principal fun√ß√£o do Pandas √© trabalhar com dados tabulares (semelhantes a tabelas de Excel ou SQL) e dados de s√©ries temporais.<br>
<b>O que √© um DataFrame?</b>
O DataFrame √© a principal estrutura de dados da biblioteca Pandas. Ele √© uma tabela de dados que possui:<br>
‚úîÔ∏è Linhas (tamb√©m chamadas de √≠ndices)<br>
‚úîÔ∏è Colunas (com nomes)<br>
‚úîÔ∏è Dados organizados em formato tabular (igual a uma planilha ou tabela de banco de dados)<br>
<b>Fun√ß√£o do DataFrame:</b><br>
A fun√ß√£o do DataFrame √© armazenar, organizar, manipular e analisar dados de forma eficiente e flex√≠vel. Ele permite realizar opera√ß√µes complexas sobre grande n√∫mero de dados, como:<br>

‚úîÔ∏è Ler e gravar dados de diferentes fontes: CSV, Excel, SQL, JSON, Parquet, entre outros.

‚úîÔ∏è Limpar e preparar dados: tratamento de valores nulos, filtragem, substitui√ß√µes, transforma√ß√µes.

‚úîÔ∏è Manipular dados: selecionar colunas, agrupar, ordenar, combinar, juntar (merge), pivotar, entre outros.

‚úîÔ∏è Analisar dados: calcular estat√≠sticas, realizar agrega√ß√µes, gerar insights.

‚úîÔ∏è Visualizar dados (em conjunto com outras bibliotecas como Matplotlib ou Seaborn).

In [1]:
# Vers√£o da Linguagem Python
from platform import python_version
print('Vers√£o da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Vers√£o da Linguagem Python Usada Neste Jupyter Notebook: 3.9.13


Guia de Usu√°rio do Pandas:

https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html#user-guide

In [None]:
# Instala a vers√£o exata do pacote
# !pip install -q pandas==1.5.3

In [2]:
# Importando a biblioteca Pandas
import pandas as pd

In [3]:
# Verificando a Vers√£o do Pandas
pd.__version__

'1.4.4'

## Manipulando Dados em DataFrames do Pandas 

In [4]:
# Cria um dicion√°rio onde existem v√°rias chaves e os valores s√£o listas
# A chave Estado possui como valor uma lista python com 5 estados
# O mesmo com a chave Ano e Taxa de desemprego.
dados = {'Estado': ['Santa Catarina', 'Rio de Janeiro', 'Tocantins', 'Bahia', 'Minas Gerais'],
        'Ano': [2020, 2021, 2022, 2023, 2024], 
        'Taxa Desemprego': [1.5, 1.7, 1.6, 2.4, 2.7]}

In [5]:
# Exibindo dicion√°rio dados
print(dados)

{'Estado': ['Santa Catarina', 'Rio de Janeiro', 'Tocantins', 'Bahia', 'Minas Gerais'], 'Ano': [2020, 2021, 2022, 2023, 2024], 'Taxa Desemprego': [1.5, 1.7, 1.6, 2.4, 2.7]}


In [6]:
# Importa a fun√ß√£o DataFrame do Pandas
from pandas import DataFrame

In [7]:
# Converte o dicion√°rio em um dataframe
df = DataFrame(dados)

In [8]:
# Visualiza as 5 primeiras linhas do dataframe
df.head()

Unnamed: 0,Estado,Ano,Taxa Desemprego
0,Santa Catarina,2020,1.5
1,Rio de Janeiro,2021,1.7
2,Tocantins,2022,1.6
3,Bahia,2023,2.4
4,Minas Gerais,2024,2.7


In [9]:
# Verifica o tipo de dados
type(df)

pandas.core.frame.DataFrame

In [10]:
# Reorganizando as colunas
# Alterando as colunas Taxa de Desemprego e Ano para uma nova disposi√ß√£o
DataFrame(dados, columns = ['Estado', 'Taxa Desemprego', 'Ano'])

Unnamed: 0,Estado,Taxa Desemprego,Ano
0,Santa Catarina,1.5,2020
1,Rio de Janeiro,1.7,2021
2,Tocantins,1.6,2022
3,Bahia,2.4,2023
4,Minas Gerais,2.7,2024


In [11]:
# Criando outro dataframe com os mesmo dados anteriores, mas,
# adicionando a coluna Taxa Crescimento e substituindo os √≠ndices.
df2 = DataFrame(dados,
               columns = ['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'],
               index = ['estado1', 'estado2', 'estado3', 'estado4', 'estado5'])

In [12]:
# Observe que na coluna Taxa Crescimento foi acrescentado pelo pandas 
# a sigla NaN (Not a Number - N√£o √© um n√∫mero)
# NaN √© um n√∫mero inv√°lido ou indefinido, ou seja, valor ausente. 
# Isto √© um problema em Analise de Dados que tem # que ser resolvido 
# pelo analista. O valor ausente √© aus√™ncia de informa√ß√£o e n√£o de dados.
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2020
estado2,Rio de Janeiro,1.7,,2021
estado3,Tocantins,1.6,,2022
estado4,Bahia,2.4,,2023
estado5,Minas Gerais,2.7,,2024


In [13]:
# Retornando os valores do Data Frame df2
df2.values

array([['Santa Catarina', 1.5, nan, 2020],
       ['Rio de Janeiro', 1.7, nan, 2021],
       ['Tocantins', 1.6, nan, 2022],
       ['Bahia', 2.4, nan, 2023],
       ['Minas Gerais', 2.7, nan, 2024]], dtype=object)

In [14]:
# Checando os tipos de dados de cada coluna
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [15]:
# Retornando os t√≠tulos das colunas do data frame df2 que √© uma 
# lista de strings, por isto, dtype='object'
df2.columns

Index(['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'], dtype='object')

In [16]:
# Imprimindo apenas a coluna 'Estado' do Dataframe
df2['Estado']

estado1    Santa Catarina
estado2    Rio de Janeiro
estado3         Tocantins
estado4             Bahia
estado5      Minas Gerais
Name: Estado, dtype: object

In [17]:
# Linguagem Python √© case sensitive. 
# N√£o existe a coluna 'estado' com a letra 'e' min√∫scula.
# df2['estado']
try:
    df2['estado']
except:
    print("O Python √© case sensitive")

O Python √© case sensitive


In [18]:
# Imprimindo apenas duas colunas do Dataframe
# S√£o necess√°rios dois colchetes para abrir e fechar porque o pandas 
# n√£o aceita colocar os nomes das colunas separadas por virgulas 
# dentro de um √∫nico colchete.
df2[['Taxa Desemprego', 'Ano']]

Unnamed: 0,Taxa Desemprego,Ano
estado1,1.5,2020
estado2,1.7,2021
estado3,1.6,2022
estado4,2.4,2023
estado5,2.7,2024


In [19]:
# Listando os √≠ndices do data frame df2
df2.index

Index(['estado1', 'estado2', 'estado3', 'estado4', 'estado5'], dtype='object')

In [20]:
# Filtrando pelo √≠ndice 'estado3'. O eixo 0 √© horizontal.
df2.filter(items = ['estado3'], axis = 0)

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado3,Tocantins,1.6,,2022


In [21]:
# Filtrando pela coluna 'Estado'. O eixo 1 √© vertical.
df2.filter(items = ['Estado'], axis = 1)

Unnamed: 0,Estado
estado1,Santa Catarina
estado2,Rio de Janeiro
estado3,Tocantins
estado4,Bahia
estado5,Minas Gerais


## Usando NumPy e Pandas Para Manipula√ß√£o de Dados

In [25]:
# Exibindo as primeiras 5 linhas de df2
df2.head()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2020
estado2,Rio de Janeiro,1.7,,2021
estado3,Tocantins,1.6,,2022
estado4,Bahia,2.4,,2023
estado5,Minas Gerais,2.7,,2024


In [24]:
# Exibindo o tipo de dado de cada coluna. 
# Existem duas colunas object (string) e duas n√∫mericas (float64 e int64)
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [26]:
# Resumo estat√≠stico do Dataframe
# O resumo estat√≠stico mostra apenas duas colunas porque a estat√≠stica 
# trabalha apenas com n√∫meros
df2.describe()

Unnamed: 0,Taxa Desemprego,Ano
count,5.0,5.0
mean,1.98,2022.0
std,0.535724,1.581139
min,1.5,2020.0
25%,1.6,2021.0
50%,1.7,2022.0
75%,2.4,2023.0
max,2.7,2024.0


In [27]:
# Criando o dataframe ordenado e ordenando pela coluna 'Taxa Desemprego'
df2_ordenado = df2.sort_values(by = 'Taxa Desemprego')

In [29]:
# Exibindo df2_ordenado
df2_ordenado.head()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2020
estado3,Tocantins,1.6,,2022
estado2,Rio de Janeiro,1.7,,2021
estado4,Bahia,2.4,,2023
estado5,Minas Gerais,2.7,,2024


<b>O que √© uma Series no Pandas?</b><br>
Uma Series √© uma estrutura de dados unidimensional (uma √∫nica coluna) que armazena uma sequ√™ncia de valores (como uma lista ou um array) associada a um √≠ndice.

Pense nela como uma coluna de uma planilha ou de um DataFrame isolada, mas com capacidades poderosas de an√°lise e manipula√ß√£o.

In [32]:
# Extraindo a coluna 'Taxa Desemprego' e armazenando numa serie
serie = pd.Series(df2_ordenado['Taxa Desemprego'])

In [33]:
# Exibindo os dados da serie
print(serie)

estado1    1.5
estado3    1.6
estado2    1.7
estado4    2.4
estado5    2.7
Name: Taxa Desemprego, dtype: float64


<b>Como os quartis se dividem?</b><br>
üî∏ Q1 (1¬∫ quartil ou 25%)
√â o valor que separa os 25% menores valores do restante dos dados.

üî∏ Q2 (2¬∫ quartil ou 50%)
√â a mediana, ou seja, o valor central que divide o conjunto ao meio (50% para cada lado).

üî∏ Q3 (3¬∫ quartil ou 75%)
√â o valor que separa os 75% menores valores dos 25% maiores.

In [35]:
# Exibindo os quartis
# Quartis dividem os dados em 4 partes iguais.
# Q1 = 25%, Q2 = 50%, Q3 = 75%.
q1 = serie.quantile(0.25)
q2 = serie.quantile(0.5)
q3 = serie.quantile(0.75)

In [36]:
# Imprimindo os valores dos quartis
print(f'Q1: {q1} | Q2: {q2} | Q3: {q3}')

Q1: 1.6 | Q2: 1.7 | Q3: 2.4


In [37]:
# O m√©todo isna verifica se existe valor n√£o dispon√≠vel (not available).
# Onde existe valor n√£o dispon√≠vel o metodo responde como True.
# A coluna taxa Crescimento cont√©m valores ausentes ou n√£o dispon√≠veis. (NaN)
df2.isna()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,False,False,True,False
estado2,False,False,True,False
estado3,False,False,True,False
estado4,False,False,True,False
estado5,False,False,True,False


In [39]:
# Faz o filtro da coluna Taxa Crescimento que cont√©m valores ausentes.
df2['Taxa Crescimento'].isna()

estado1    True
estado2    True
estado3    True
estado4    True
estado5    True
Name: Taxa Crescimento, dtype: bool

In [40]:
# Importando o NumPy
import numpy as np

In [41]:
# Usando o NumPy para alimentar uma das colunas do dataframe.
# O m√©todo arrange do numpy cria 5 valores float para taxa de crescimento 
# numerados de 0 a 4 do tipo float. O valor 5. √© exclusivo.
df2['Taxa Crescimento'] = np.arange(5.)

In [42]:
# Exibindo o data frame df2 com os valores da coluna Taxa Crescimento
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2020
estado2,Rio de Janeiro,1.7,1.0,2021
estado3,Tocantins,1.6,2.0,2022
estado4,Bahia,2.4,3.0,2023
estado5,Minas Gerais,2.7,4.0,2024


In [43]:
# O atributo dtypes df2 mostra os tipos de dados das colunas.
# Taxa Crescimento foi atribuida como tipo float64.
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento    float64
Ano                   int64
dtype: object

In [44]:
# O m√©todo isna() mostra a coluna Taxa Cresimento como False porque 
# n√£o mais existem valores ausentes.
df2['Taxa Crescimento'].isna()

estado1    False
estado2    False
estado3    False
estado4    False
estado5    False
Name: Taxa Crescimento, dtype: bool

In [45]:
# Resumo estat√≠stico do Dataframe, agora, exibe 3 colunas.
df2.describe()

Unnamed: 0,Taxa Desemprego,Taxa Crescimento,Ano
count,5.0,5.0,5.0
mean,1.98,2.0,2022.0
std,0.535724,1.581139,1.581139
min,1.5,0.0,2020.0
25%,1.6,1.0,2021.0
50%,1.7,2.0,2022.0
75%,2.4,3.0,2023.0
max,2.7,4.0,2024.0


In [47]:
# Exibindo o shape
df2.shape

(5, 4)

## Slicing (fatiamento) de DataFrames do Pandas

In [48]:
# Exibindo o dataframe df2
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2020
estado2,Rio de Janeiro,1.7,1.0,2021
estado3,Tocantins,1.6,2.0,2022
estado4,Bahia,2.4,3.0,2023
estado5,Minas Gerais,2.7,4.0,2024


In [49]:
# Exibindo todos os √≠ndices (linhas) entre estado2 e estado4, inclusive.
# Aten√ß√£o: diferente do Numpy, o √∫ltimo √≠ndice no pandas √© INCLUSIVO.
df2['estado2':'estado4']

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado2,Rio de Janeiro,1.7,1.0,2021
estado3,Tocantins,1.6,2.0,2022
estado4,Bahia,2.4,3.0,2023


In [51]:
# Slicing ou fatiamento de DataFrame
# Quando se abre colchetes ap√≥s df2, significa que ser√° feito fatiamento. 
# Dentro dos colchetes, insere-se uma condi√ß√£o,
# neste caso, ser√° exibida a coluna Taxa Desemprego onde os valores 
# forem menores que 2.
# Quando filtragem dois dataFrame
df2[df2['Taxa Desemprego'] < 2]

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2020
estado2,Rio de Janeiro,1.7,1.0,2021
estado3,Tocantins,1.6,2.0,2022


In [52]:
# Filtrando uma coluna do dataframe. Coloca-se apenas um colchete abrindo 
# e fechando para a coluna a ser exibida.
df2['Taxa Crescimento']

estado1    0.0
estado2    1.0
estado3    2.0
estado4    3.0
estado5    4.0
Name: Taxa Crescimento, dtype: float64

In [53]:
# Para filtrar duas ou mais colunas, coloca-se o nome das duas ou mais colunas 
# entre dois colchetes abrindo e fechando.
df2[['Estado', 'Taxa Crescimento']]

Unnamed: 0,Estado,Taxa Crescimento
estado1,Santa Catarina,0.0
estado2,Rio de Janeiro,1.0
estado3,Tocantins,2.0
estado4,Bahia,3.0
estado5,Minas Gerais,4.0


In [54]:
# O crit√©rio vale para tr√™s colunas, ou seja, dois colchetes e os nomes 
# das tr√™s colunas a serem exibidas.
df2[['Estado', 'Taxa Crescimento', 'Ano']]

Unnamed: 0,Estado,Taxa Crescimento,Ano
estado1,Santa Catarina,0.0,2020
estado2,Rio de Janeiro,1.0,2021
estado3,Tocantins,2.0,2022
estado4,Bahia,3.0,2023
estado5,Minas Gerais,4.0,2024


## Preenchendo Valores Ausentes em DataFrames do Pandas

A fun√ß√£o fillna() √© usada para preencher os valores ausentes. A fun√ß√£o oferece muitas op√ß√µes. Podemos usar um valor espec√≠fico, uma fun√ß√£o agregada (por exemplo, m√©dia) ou o valor anterior ou seguinte.

Para esse exemplo usaremos a moda, a estat√≠stica que representa o valor que aparece mais vezes em uma vari√°vel.

In [55]:
# Primeiro importamos um dataset de um arquivo num diret√≥rio de disco.
df = pd.read_csv('dataset.csv')

In [56]:
# Exibindo os 15 primeiros registros do dataframe.
# Se retirar o valor entre par√™ntesis, ser√° exibido o padr√£o que √© 5 registros.
df.head(15)

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.86,7.0
6,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-AR-10002833,Office Supplies,Newell 322,7.28,4.0
7,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,TEC-PH-10002275,Technology,Mitel 5320 IP Phone VoIP phone,907.152,6.0
8,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-BI-10003910,Office Supplies,DXL Angle-View Binders with Locking Rings by S...,18.504,3.0
9,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-AP-10002892,Office Supplies,Belkin F5C206VTEL 6 Outlet Surge,114.9,5.0


In [57]:
# Procura por valores ausentes em todas as colunas do dataframe e se tiver, 
# soma a quantidade de valores ausentes existentes em cada coluna
# Existem dois valores ausentes na coluna quantidade.
df.isna().sum()

ID_Pedido       0
Data_Pedido     0
ID_Cliente      0
Segmento        0
Pais            0
Regiao          0
ID_Produto      0
Categoria       0
Nome_Produto    0
Valor_Venda     0
Quantidade      2
dtype: int64

In [58]:
# Inserindo a moda nos locais onde existem valores ausentes (NaN)
# Extra√≠mos a moda da coluna Quantidade.
# A moda √© o valor mais frequente desta coluna. 
# Neste caso ser√° extra√≠do o valor mais frequente na coluna quantidade.
# Resgate o primeiro valor do √≠ndice dessa da coluna Quantidade.
# Imagine o seguinte exemplo: [3, 2, 3, 5, 2, 3, 2]
# Temos dois valores mais frequentes, ou seja, 2 e 3. 
# O valor 3 ser√° resgatado por index[0] porque aparece primeiro na sequencia.
moda = df['Quantidade'].value_counts().index[0]

A moda em Estat√≠stica √© uma medida de tend√™ncia central que representa o valor mais frequente em um conjunto de dados. 

A moda √© especialmente √∫til quando queremos saber qual √© o valor mais comum ou popular em um conjunto de dados, seja em uma distribui√ß√£o unimodal (com apenas uma moda) ou em uma distribui√ß√£o bimodal (com duas modas).

No entanto, a moda pode n√£o ser t√£o representativa quanto outras medidas de tend√™ncia central, como a m√©dia e a mediana, especialmente em distribui√ß√µes assim√©tricas ou quando h√° valores extremos. Por essa raz√£o, √© importante analisar diferentes medidas de tend√™ncia central e usar a que melhor se adequa aos objetivos da an√°lise estat√≠stica.

In [60]:
# Exibindo o valor da moda
print(moda)

3.0


In [61]:
# E por fim preenchemos a moda na coluna Quantidade onde est√£o os valores NaN 
# O m√©todo fillna() faz o preenchimento com a moda. 
# O comando implace = True salva os dados modificados no dataframe.
df['Quantidade'].fillna(value = moda, inplace = True)

In [62]:
# Exibe a somat√≥ria de valores NaN em cada coluna. 
# Neste caso, nenhuma coluna possui valores ausentes.
df.isna().sum()

ID_Pedido       0
Data_Pedido     0
ID_Cliente      0
Segmento        0
Pais            0
Regiao          0
ID_Produto      0
Categoria       0
Nome_Produto    0
Valor_Venda     0
Quantidade      0
dtype: int64

## Query (Consulta) de Dados no DataFrame do Pandas

Com o Pandas criamos dataframes, que s√£o essencialmente tabelas. Como tal, podemos fazer consultas, ou simplesmente queries. E para isso usamos o m√©todo query(). Veja o exemplo abaixo:

In [63]:
# Exibindo os 5 primeiros registros do dataframe
df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0


In [64]:
# Checamos os valores m√≠nimo e m√°ximo da coluna Valor_Venda
# Resumo estat√≠stico de apenas uma coluna, a coluna Valor_Venda.
df.Valor_Venda.describe()

count     9994.000000
mean       229.858001
std        623.245101
min          0.444000
25%         17.280000
50%         54.490000
75%        209.940000
max      22638.480000
Name: Valor_Venda, dtype: float64

O intervalo de vendas (Valor_Venda) √© de 0.44 a 22638, ou seja, √© muito heterog√™neo. Vamos fazer uma consulta e retornar todas as vendas dentro de um range de valores mais homog√™neos. Fazemos isso com a instru√ß√£o abaixo:

In [65]:
# Exibindo a quantidade de linhas e colunas do dataframe
df.shape

(9994, 11)

In [None]:
# Geramos um novo dataframe apenas com o intervalo de vendas entre 229 e 10000
# O m√©todo query far√° uma consulta ou fatiamento das vendas entre 229 e 10000 
# e a armazena em df2.


In [73]:
# Ent√£o confirmamos os valores m√≠nimo e m√°ximo
# Agora, depois do fatiamento, pode-se observar que os valores s√£o 
# mais homog√™neos neste intervalo.
df2.Valor_Venda.describe()

AttributeError: 'DataFrame' object has no attribute 'Valor_Venda'

In [67]:
# Geramos um novo dataframe apenas com os valores de venda acima da m√©dia 
# de 766.679142 do resumo estat√≠stico anterior.
df3 = df2.query('Valor_Venda > 766')

UndefinedVariableError: name 'Valor_Venda' is not defined

In [69]:
# Mostrando as 5 primeiras linhas de df3
df3.Valor_Venda.describe()

NameError: name 'df3' is not defined

In [None]:
# Os valores da consulta em df3 est√£o mais homog√™neos que df2.


In [70]:
# Exibindo o shape de df3
df3.shape

NameError: name 'df3' is not defined

Consulta executada com sucesso!

## Verificando a Ocorr√™ncia de Diversos Valores em Uma Coluna

Em nosso conjunto de dados de exemplo temos a coluna Quantidade que representa a quantidade de itens vendidos em cada uma das vendas. Imagine que precisamos saber em quais vendas foram vendidos 5, 7, 9 ou 11 itens. 

Como aplicar√≠amos esse tipo de filtro ao nosso dataframe?

F√°cil. O Pandas oferece o m√©todo <b>isin()</b> para checar diversos valores em uma coluna. Quem conhece Linguagem SQL j√° deve ter percebido que o m√©todo √© o mesmo que a cl√°usula IN em SQL. Vamos ao exemplo.

In [71]:
# O m√©todo shape retorna o n√∫mero de linhas e colunas do dataframe original.
df.shape

(9994, 11)

In [72]:
# Ent√£o aplicamos o filtro
# Este filtro ir√° verificar se na coluna Quantidade do dataframe df, 
# existem os valores 5, 7, 9 e 11 itens vendidos nesta coluna.
# Ser√£o encontradas 2128 linhas que atendem a esta regra.
df[df['Quantidade'].isin([5, 7, 9, 11])]

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.8600,7.0
9,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-AP-10002892,Office Supplies,Belkin F5C206VTEL 6 Outlet Surge,114.9000,5.0
10,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-TA-10001539,Furniture,Chromcraft Rectangular Conference Tables,1706.1840,9.0
14,US-2015-118983,2015-11-22,HP-14815,Home Office,United States,Central,OFF-AP-10002311,Office Supplies,Holmes Replacement Filter for HEPA Air Cleaner...,68.8100,5.0
...,...,...,...,...,...,...,...,...,...,...,...
9974,US-2016-103674,2016-12-06,AP-10720,Home Office,United States,West,OFF-AR-10004752,Office Supplies,Blackstonian Pencils,18.6900,7.0
9977,US-2016-103674,2016-12-06,AP-10720,Home Office,United States,West,OFF-FA-10003467,Office Supplies,"Alliance Big Bands Rubber Bands, 12/Pack",13.8600,7.0
9981,CA-2017-163566,2017-08-03,TB-21055,Consumer,United States,East,OFF-LA-10004484,Office Supplies,Avery 476,16.5200,5.0
9982,US-2016-157728,2016-09-22,RC-19960,Consumer,United States,Central,OFF-PA-10002195,Office Supplies,"RSVP Cards & Envelopes, Blank White, 8-1/2"" X ...",35.5600,7.0


Na instru√ß√£o acima estamos filtrando o dataframe chamado df, retornando todas as linhas onde a coluna Quantidade for igual aos valores 5, 7, 9 ou 11. Passamos uma lista de valores como argumento para o m√©todo isin().

Vamos deixar um pouquinho mais divertido. Se voc√™ executou a instru√ß√£o acima, percebeu que foram retornadas 2.128 linhas. E se quisermos retornar somente 10 linhas? √â s√≥ fatiar o resultado assim:

In [74]:
# Este Shape mostra a quantidade de linhas e colunas da quantidade de 
# itens vendidos do crit√©rio anterior.
df[df['Quantidade'].isin([5, 7, 9, 11])].shape

(2128, 11)

In [76]:
# Aplicando o mesmo crit√©rio do filtro anterior, mas, exibindo apenas os 
# 10 primeiros registros da filtragem
df[df['Quantidade'].isin([5, 7, 9, 11])][:10]

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.86,7.0
9,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-AP-10002892,Office Supplies,Belkin F5C206VTEL 6 Outlet Surge,114.9,5.0
10,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-TA-10001539,Furniture,Chromcraft Rectangular Conference Tables,1706.184,9.0
14,US-2015-118983,2015-11-22,HP-14815,Home Office,United States,Central,OFF-AP-10002311,Office Supplies,Holmes Replacement Filter for HEPA Air Cleaner...,68.81,5.0
21,CA-2016-137330,2016-12-09,KB-16585,Corporate,United States,Central,OFF-AR-10000246,Office Supplies,Newell 318,19.46,7.0
22,CA-2016-137330,2016-12-09,KB-16585,Corporate,United States,Central,OFF-AP-10001492,Office Supplies,"Acco Six-Outlet Power Strip, 4' Cord Length",60.34,7.0
27,US-2015-150630,2015-09-17,TB-21520,Consumer,United States,East,FUR-BO-10004834,Furniture,"Riverside Palais Royal Lawyers Bookcase, Royal...",3083.43,7.0
35,CA-2016-117590,2016-12-08,GH-14485,Corporate,United States,Central,TEC-PH-10004977,Technology,GE 30524EE4,1097.544,7.0
36,CA-2016-117590,2016-12-08,GH-14485,Corporate,United States,Central,FUR-FU-10003664,Furniture,"Electrix Architect's Clamp-On Swing Arm Lamp, ...",190.92,5.0


## Operadores L√≥gicos Para Manipula√ß√£o de Dados com Pandas

Os operadores l√≥gicos s√£o excelentes para filtrar dataframes e retornar exatamente os dados que precisamos para nosso trabalho. Para conhecer mais sobre as regras dos operadores l√≥gicos, acesse aqui:

https://pt.wikipedia.org/wiki/Operador_l%C3%B3gico

Primeiro usaremos o operador l√≥gico <b>AND</b> para checar duas condi√ß√µes. Ser√£o retornados os registros quando as duas condi√ß√µes forem simultaneamente verdadeiras.

In [78]:
# Filtrando as vendas que ocorreram para o segmento de Home Office e na 
# regi√£o South:
# Este comando filtra os dados entre colchetes onde a coluna segmento deve 
# ser verdadeiro para igual a Home Office.
# O segundo filtro ser√° na coluna Regi√£o deve ser verdadeiro para igual a Sul.
# Para que os dois filtros sejam verdadeiros ao mesmo tempo usa-se o operador 
# l√≥gico &.
# O m√©tiodo head() exibir√° apenas os 5 primeiros registros deste filtro.
# Usa-se apenas um colchete no dataframe porque √© uma condi√ß√£o e n√£o
# uma apresenta√ß√£o de colunas.
df[(df.Segmento == 'Home Office') & (df.Regiao == 'South')].head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
182,CA-2014-158274,2014-11-19,RM-19675,Home Office,United States,South,TEC-PH-10003273,Technology,AT&T TR1909W,503.96,4.0
183,CA-2014-158274,2014-11-19,RM-19675,Home Office,United States,South,TEC-PH-10004896,Technology,Nokia Lumia 521 (T-Mobile),149.95,5.0
184,CA-2014-158274,2014-11-19,RM-19675,Home Office,United States,South,TEC-AC-10002345,Technology,HP Standard 104 key PS/2 Keyboard,29.0,2.0
231,US-2017-100930,2017-04-07,CS-12400,Home Office,United States,South,FUR-TA-10001705,Furniture,Bush Advantage Collection Round Conference Table,233.86,2.0
232,US-2017-100930,2017-04-07,CS-12400,Home Office,United States,South,FUR-TA-10003473,Furniture,Bretford Rectangular Conference Table Tops,620.6145,3.0


Mas pode ser necess√°rio checar duas condi√ß√µes e retornar os registros se pelo menos uma for verdadeira. Nesse caso usamos o operador <b>OR</b>, conforme abaixo.

In [81]:
# Filtrando as vendas que ocorreram para o segmento de Home Office ou 
# regi√£o South
# Neste caso o retorno do filtro ser√° quando apenas uma das condi√ß√µes for 
# verdadeira.
# Usa-se o operador l√≥gico | (ou).
# O m√©todo tail() ir√° mostrar os ultimos 5 registros do dataframe, ao 
# contrario do m√©todo head() que mostra os 5 primeiros.
df[(df.Segmento == 'Home Office') | (df.Regiao == 'South')].tail()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
9979,US-2016-103674,2016-12-06,AP-10720,Home Office,United States,West,OFF-BI-10002026,Office Supplies,Ibico Recycled Linen-Style Covers,437.472,14.0
9980,US-2015-151435,2015-09-06,SW-20455,Consumer,United States,South,FUR-TA-10001029,Furniture,KI Adjustable-Height Table,85.98,1.0
9987,CA-2017-163629,2017-11-17,RA-19885,Corporate,United States,South,TEC-AC-10001539,Technology,Logitech G430 Surround Sound Gaming Headset wi...,79.99,1.0
9988,CA-2017-163629,2017-11-17,RA-19885,Corporate,United States,South,TEC-PH-10004006,Technology,Panasonic KX - TS880B Telephone,206.1,5.0
9989,CA-2014-110422,2014-01-21,TB-21400,Consumer,United States,South,FUR-FU-10001889,Furniture,Ultra Door Pull Handle,25.248,3.0


O operador de nega√ß√£o √© o contr√°rio do primeiro exemplo.

In [96]:
# Filtrando as vendas que n√£o ocorreram para o segmento de Home Office 
# e nem na regi√£o South
# Neste filtro √© utilizado o operador != (diferente) nas duas condi√ß√µes, 
# ou seja, a coluna segmento √© diferente de Home Office
# e coluna Regiao diferente de South. O m√©todo sample ir√° mostrar 5 registros 
# aleat√≥rios do dataframe.
# A cada vez que executarmos esta c√©lula, novos registros ser√£o mostrados 
# porque sample √© aleat√≥rio.
df[(df.Segmento != 'Home Office') & (df.Regiao != 'South')].sample(5)

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
41,CA-2017-120999,2017-09-10,LC-16930,Corporate,United States,Central,TEC-PH-10004093,Technology,Panasonic Kx-TS550,147.168,4.0
4560,CA-2015-118871,2015-12-04,HM-14860,Corporate,United States,West,OFF-EN-10003296,Office Supplies,Tyvek Side-Opening Peel & Seel Expanding Envel...,271.44,3.0
8351,CA-2017-132199,2017-05-03,BO-11350,Corporate,United States,East,FUR-FU-10004245,Furniture,"Career Cubicle Clock, 8 1/4"", Black",32.448,2.0
4147,CA-2017-106068,2017-10-23,RB-19330,Consumer,United States,Central,OFF-BI-10000962,Office Supplies,Acco Flexible ACCOHIDE Square Ring Data Binder...,9.762,3.0
742,US-2016-146710,2016-08-27,SS-20875,Consumer,United States,Central,OFF-SU-10004498,Office Supplies,Martin-Yale Premier Letter Opener,51.52,5.0


## Agrupamento de Dados em DataFrames com Group By

A fun√ß√£o Pandas Groupby √© uma fun√ß√£o vers√°til e f√°cil de usar que ajuda a obter uma vis√£o geral dos dados. Isso torna mais f√°cil explorar o conjunto de dados e revelar os relacionamentos entre as vari√°veis.

O c√≥digo a seguir agrupar√° as linhas com base nas combina√ß√µes Segmento/Regiao/Valor_Venda e nos dar√° a taxa m√©dia de vendas de cada grupo.<br>

O Segmento possui tr√™s grupos (Consumer, Corporate e Home Office) que ir√° conter uma Regi√£o com quatro grupos (Central, East, South e West). Assim, o comando a seguir ir√° calcular a m√©dia para cada grupo das regi√µes (Central, East, South e West) em cada grupo de Segmento (Consumer, Corporate e Home Office).

In [103]:
# Aplicamos o group by
df[['Segmento', 'Regiao', 'Valor_Venda']].groupby(['Segmento', 'Regiao']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Valor_Venda
Segmento,Regiao,Unnamed: 2_level_1
Consumer,Central,207.946728
Consumer,East,238.875539
Consumer,South,233.39018
Consumer,West,217.033955
Corporate,Central,234.763466
Corporate,East,228.516929
Corporate,South,238.992025
Corporate,West,235.265911
Home Office,Central,208.248046
Home Office,East,253.911805


Na instru√ß√£o acima, primeiro filtramos os dados extraindo 3 colunas: ['Segmento','Regiao','Valor_Venda']. Na sequ√™ncia, agrupamos por duas colunas: ['Segmento','Regiao']. E ent√£o calculamos a m√©dia para a coluna que ficou de fora do group by, nesse caso a coluna Sales.

O comportamento do group by com Pandas √© o mesmo observado na Linguagem SQL.

## Agrega√ß√£o M√∫ltipla com Group By

Vamos explorar mais a fun√ß√£o <b>groupby()</b> pois temos diversas op√ß√µes de sumariza√ß√£o dos dados de forma simples. No exemplo abaixo uniremos a fun√ß√£o <b>groupby()</b> com a fun√ß√£o <b>agg()</b> para realizar agrega√ß√£o m√∫ltipla.

In [106]:
# Aplicamos o group by
df[['Segmento', 'Regiao', 'Valor_Venda']].groupby(['Segmento', 'Regiao']).agg(['mean', 'std', 'count'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Valor_Venda,Valor_Venda,Valor_Venda
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,count
Segmento,Regiao,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Consumer,Central,207.946728,587.906523,1212
Consumer,East,238.875539,633.371169,1469
Consumer,South,233.39018,559.346824,838
Consumer,West,217.033955,551.997547,1672
Corporate,Central,234.763466,818.947521,673
Corporate,East,228.516929,530.001654,877
Corporate,South,238.992025,586.176947,510
Corporate,West,235.265911,471.288764,960
Home Office,Central,208.248046,371.00918,438
Home Office,East,253.911805,722.777318,502


Na instru√ß√£o acima, primeiro filtramos os dados extraindo 3 colunas: ['Segmento','Regiao','Valor_Venda']. Na sequ√™ncia, agrupamos por duas colunas: ['Segmento','Regiao']. E ent√£o agregamos os dados calculando a m√©dia, desvio padr√£o e contagem de elementos para a coluna que ficou fora do <b>group by</b>, nesse caso a coluna <b>Valor_Venda</b>.

A fun√ß√£o <b>agg()</b> recebe como argumento uma lista de fun√ß√µes para agrega√ß√£o.

## Filtrando DataFrame do Pandas com Base em Strings

O Pandas oferece diversas fun√ß√µes para manipula√ß√£o de strings. Come√ßaremos com o filtros de strings com base nas letras iniciais e finais.

In [110]:
# Mostra os 5 primeiros registros do dataframe
df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0


In [111]:
# Filtramos o dataframe pela coluna Segmento, procurando strings (str) 
# com valores que iniciam (startwith) com as letras 'Con' e exibindo os 
# 5 primeiros registros.
df[df.Segmento.str.startswith('Con')].head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.86,7.0


In [113]:
# Mostra a quantidade de registros existentes para cada Segmento.
df.Segmento.value_counts()

Consumer       5191
Corporate      3020
Home Office    1783
Name: Segmento, dtype: int64

In [114]:
# Filtramos o dataframe pela coluna Segmento, procurando strings, 
# com valores que terminam (endswith) com as letras 'mer' e mostram 
# os cinco primeiros registros.
df[df.Segmento.str.endswith('mer')].head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.86,7.0


As fun√ß√µes <b>startswith()</b> e <b>endswith()</b> s√£o muito √∫teis para quando for necess√°rio filtrar strings por caracteres que apare√ßam no come√ßo e/ou final.

## Split de Strings em DataFrames do Pandas

Com Pandas podemos realizar diversas tarefas de split de strings dividindo uma coluna ou extraindo elementos do nosso interesse. Vamos ao exemplo!

In [115]:
# Exibindo os 5 primeiros registros
# Observe os registros da coluna ID_PEDIDO
df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0


In [117]:
# Mostra os 5 primeiros registros apenas da coluna ID_PEDIDO.
df['ID_Pedido'].head()

0    CA-2016-152156
1    CA-2016-152156
2    CA-2016-138688
3    US-2015-108966
4    US-2015-108966
Name: ID_Pedido, dtype: object

Este √© o formato dos dados da coluna "ID_Pedido":

- CA-2016-152156
- US-2015-108966

Temos o pa√≠s, o ano e o id do pedido. Vamos dividir essa coluna e extrair o ano para gravar em uma nova coluna:

In [119]:
# Split (divis√£o) da coluna pelo caracter '-'
# O retorno ser√° atrav√©s de listas. A coluna ID_PEDIDO estar√° dividida em 
# tr√™s dados de informa√ß√µes (pa√≠s, ano, id) separados por v√≠rgula.
# Cada dado dentro da lista est√° armazenado num √≠ndice (0, 1 e 2)
df['ID_Pedido'].str.split('-')

0       [CA, 2016, 152156]
1       [CA, 2016, 152156]
2       [CA, 2016, 138688]
3       [US, 2015, 108966]
4       [US, 2015, 108966]
               ...        
9989    [CA, 2014, 110422]
9990    [CA, 2017, 121258]
9991    [CA, 2017, 121258]
9992    [CA, 2017, 121258]
9993    [CA, 2017, 119914]
Name: ID_Pedido, Length: 9994, dtype: object

Observe que o resultado s√£o as listas em Python. Para extrair o ano precisamos especificar o √≠ndice da posi√ß√£o que queremos extrair (em nosso caso a posi√ß√£o 2, logo, √≠ndice 1 em Python):

In [120]:
# Ser√° extraido o Ano da coluna ID_PEDIDO onde ser√£o procuradas strings 
# separadas por h√≠fen na posi√ß√£o 1 de cada lista.
# Ser√£o mostradas os 5 primeiros registros.
df['ID_Pedido'].str.split('-').str[1].head()

0    2016
1    2016
2    2016
3    2015
4    2015
Name: ID_Pedido, dtype: object

In [121]:
# Criando a coluna 'Ano' ao final do dataframe
# Fazemos o split (divis√£o) da coluna 'ID_PEDIDO' e extra√≠mos o item na 
# posi√ß√£o 2 (√≠ndice 1) e o armazenamos na coluna Ano que ser√° 
# acrescentada ao dataframe.
df['Ano'] = df['ID_Pedido'].str.split('-').str[1]

In [122]:
# Ent√£o conferimos a nova coluna Ano criada na √∫ltima posi√ß√£o do dataframe.
df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0,2016
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0,2016
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0,2015
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0,2015


## Strip de Strings em DataFrames do Pandas

Cuidado para n√£o confundir. Vimos o Split e agora veremos o Strip. S√£o fun√ß√µes diferentes.

O Split divide a string. O Strip remove caracteres da string. Veja os exemplos.

In [123]:
# Mostra 3 registros do dataframe
df.head(3)

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0,2016
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0,2016
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016


In [124]:
# Mostra os 3 registros da coluna Data_Pedido
df['Data_Pedido'].head(3)

0    2016-11-08
1    2016-11-08
2    2016-06-12
Name: Data_Pedido, dtype: object

A coluna 'Data_Pedido' √© a data de envio do produto no formato YYYY-MM-DD. Imagine que seja necess√°rio deixar o ano apenas com 2 d√≠gitos sem alterar o tipo da vari√°vel. Fazemos isso com a fun√ß√£o <b>lstrip()</b>, ou seja, <b>left strip</b>.

In [126]:
# Vamos remover os d√≠gitos √† esquerda do valor da vari√°vel 'Data_Pedido', 
# ou seja, os valores 2 e 0 (20).
df['Data_Pedido'].str.lstrip('20')

0       16-11-08
1       16-11-08
2       16-06-12
3       15-10-11
4       15-10-11
          ...   
9989    14-01-21
9990    17-02-26
9991    17-02-26
9992    17-02-26
9993    17-05-04
Name: Data_Pedido, Length: 9994, dtype: object

Como n√£o usamos o inplace = True a mudan√ßa √© somente na mem√≥ria e n√£o altera o dataframe. Podemos usar ainda as fun√ß√µes rstrip() e strip() com diferentes varia√ß√µes de strip de strings.

## Replace de Strings em DataFrames do Pandas

Se for necess√°rio substituir caracteres dentro de uma string o Pandas oferece uma fun√ß√£o para isso tamb√©m.

Por exemplo, vamos substituir 2 caracteres em uma das colunas.

In [None]:
# Exibindo os 5 primeiros registros
# Observe a coluna ID_Cliente


In [127]:
# Substitu√≠mos os caracteres CG por AX na coluna 'ID_Cliente'
# Esta substitui√ß√£o ocorre muitas vezes em decorr√™ncia da mudan√ß√£o 
# de padr√£o ou de c√≥digo.
df['ID_Cliente'] = df['ID_Cliente'].str.replace('CG', 'X')

In [128]:
# Exibindo os 5 primeiros registros depois da modifica√ß√£o em ID_Cliente
df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano
0,CA-2016-152156,2016-11-08,X-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0,2016
1,CA-2016-152156,2016-11-08,X-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0,2016
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0,2015
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0,2015


E pronto. F√°cil assim.

## Combina√ß√£o de Strings em DataFrames do Pandas

A fun√ß√£o <b>cat()</b> pode ser usada para concatenar strings em um dataframe do Pandas.

Vamos criar uma nova coluna concatenando as colunas ‚ÄúID_Pedido‚Äù e ‚ÄúSegmento‚Äù com o separador ‚Äú-‚Äù.

In [129]:
# Exibindo os 5 primeiros registros
df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano
0,CA-2016-152156,2016-11-08,X-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0,2016
1,CA-2016-152156,2016-11-08,X-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0,2016
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0,2015
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0,2015


In [131]:
# Concatenando com str.cat() strings das colunas ID_PEDIDO e Segmento do 
# dataframe e inserindo um separador do tipo hifen entre os dados e 
# armazenando na nova coluna Pedido_Segmento que ser√° criada ao final 
# do dataframe.
df['Pedido_Segmento'] = df['ID_Pedido'].str.cat(df['Segmento'], sep = '-')

In [132]:
# Exibindo os 5 primeiros registros
df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano,Pedido_Segmento
0,CA-2016-152156,2016-11-08,X-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0,2016,CA-2016-152156-Consumer
1,CA-2016-152156,2016-11-08,X-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0,2016,CA-2016-152156-Consumer
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016,CA-2016-138688-Corporate
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0,2015,US-2015-108966-Consumer
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0,2015,US-2015-108966-Consumer


## Constru√ß√£o de Gr√°ficos a Partir de DataFrames do Pandas

Vimos at√© aqui diversas funcionalidades do Pandas que tornam o processo de manipula√ß√£o de dados realmente simples. E para concluir este cap√≠tulo vamos estudar as op√ß√µes que o Pandas oferece para cria√ß√£o de gr√°ficos diretamente a partir de dataframes, sem a necessidade de usar qualquer outra biblioteca. 

Acompanhe os exemplos.

In [None]:
# Instala a vers√£o exata do Scikit-learn
# Biblioteca para Aprendizado de M√°quina


In [None]:
# Importando o pacote sklearn do Scikit-learn
# Verificando sua vers√£o
import sklearn
sklearn.__version__

In [None]:
# Vamos come√ßar importando o dataset iris que vem junto com o 
# pacote Scikit-learn e armazenamos o dataframe na vari√°vel data.


In [None]:
# E ent√£o carregamos o dataset iris como dataframe do Pandas
# O dataset iris s√£o medidas de plantas.
# O comando data estrai os dados ['data'] do dataframe iris.
# Extrai os nomes das colunas ('features_names') e os atributos do datafreme.
# Depois, cria a coluna 'species' que ser√° a coluna alvo ['target'] da pesquisa.


In [None]:
# Para criar um gr√°fico de linhas com todas as vari√°veis do dataframe, 
# basta fazer isso:


In [None]:
# Que tal um scatter plot com duas vari√°veis que faz um gr√°fico de 
# dispers√£o entre duas vari√°veis x e y, ou seja, tamanho e comprimento.
# sepal s√£o folhas.


In [None]:
# E mesmo gr√°ficos mais complexos, como um gr√°fico de √°rea, pode ser criado:
# Neste caso est√° sendo criado a vari√°vel columns e armazenando nela os dados 
# de 4 colunas do dataset.


In [None]:
# Calculamos a m√©dia das colunas agrupando pela coluna species e criamos 
# um gr√°fico de barras com o resultado


In [None]:
# Ou ent√£o, fazemos a contagem de classes da coluna species 
# e plotamos em um gr√°fico de pizza


A lista de possibilidades √© imensa. Aqui tem muitos outros exemplos:

https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html


In [None]:
# Gr√°fico KDE (Kernel Density Function) para cada vari√°vel do dataframe
# Gr√°fico KDE √© um gr√°fico de distribui√ß√£o normal (parece um sino)


In [None]:
# Boxplot de cada vari√°vel num√©rica
# O Boxplot √© um gr√°fico que permite identificar outliers.


<b>O que √© um Boxplot?</b><br>
Um boxplot (gr√°fico de caixa) √© uma representa√ß√£o gr√°fica que resume a distribui√ß√£o de um conjunto de dados. Ele exibe:<br>

Mediana (linha dentro da caixa)<br>
Quartis:<br>
Q1 (25%) ‚Üí Primeiro quartil (limite inferior da caixa)<br>
Q3 (75%) ‚Üí Terceiro quartil (limite superior da caixa)<br>
Intervalo interquartil (IQR = Q3 - Q1)<br>
Outliers (pontos fora do intervalo t√≠pico dos dados)<br>
Valores m√≠nimo e m√°ximo dentro do intervalo esperado<br>

O gr√°fico mostra a distribui√ß√£o de cada vari√°vel no dataset Iris:

A linha central dentro da caixa representa a mediana.<br>
As extremidades da caixa representam Q1 e Q3.<br>
Pontos fora dos bigodes s√£o outliers.<br>

O Pandas √© uma verdadeira caixa de ferramentas para manipula√ß√£o de dados em Python.

# Fim

### Obrigado