## Maninpulação com Pandas

In [None]:
import pandas as pd

In [None]:
pd.__version__

###Manipulando dados em Dataframes do Pandas

In [None]:
# Cria um dicionário
dados = {'Estado': ['Santa Catarina', 'Rio de Janeiro', 'Tocantins', 'Bahia', "Minas Gerais"],
         'Ano': [2004, 2005, 2006, 2007, 2008],
         'Taxa Desemprego': [1.5, 1.7, 1.6, 2.4, 2.7]}

In [None]:
#Importa a função Dataframe do Pandas
from pandas import DataFrame

In [None]:
# Converte o dicionário em um dataframe
df = DataFrame(dados)

In [None]:
df.head()

In [None]:
type(df)

In [None]:
# Reorganizando as colunas
DataFrame(dados, columns=['Estado', 'Taxa Desemprego', 'Ano'])

In [None]:
# Criando outro dataframe com os mesmos dados anteriores, mas adicionando uma coluna
df2 = DataFrame(dados, 
                columns=['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'],
                index = ['Estado1', 'Estado2', 'Estado3', 'Estado4', 'Estado5'])

In [None]:
df2

In [None]:
df2.columns

In [None]:
# Imprimindo apenas uma coluna do Dataframe
df2['Estado']

In [None]:
# Imprimindo apenas duas colunad do Dataframe
df2[['Taxa Desemprego', 'Ano']]

In [None]:
df2.index

In [None]:
df2.dtypes

In [None]:
# Filtrando pelo índice
df2.filter(items=['Estado3'], axis=0)

###Usando NumPy e Pandas para manipulação de Dados

In [None]:
import numpy as np

In [None]:
df2.isna()

In [None]:
df2['Taxa Crescimento'].isna()

In [None]:
df2.describe()

In [None]:
df2['Taxa Crescimento'] = np.arange(5.)

In [None]:
df2.describe()

In [None]:
df2

### Slicing de Dataframes do Pandas

In [None]:
df2

In [None]:
df2['Estado2' : 'Estado4']

In [None]:
df2[df2['Taxa Desemprego'] < 2]

In [None]:
df2[['Estado', 'Taxa Crescimento']]

### Preenchendo Valores Ausentes em Dataframes do Pandas
A função fillna() é usada para preencher os valores ausentes. A função oferece muitas opções. Podemos usar um valor específico, uma função agregada (por exemplo , média) ou o valor anterior ou seguinte.
Para esse exemplo usaremos a moda, a estatística que representa o valor que aparece mais vezes em uma variável.

In [1]:
import pandas as pd

In [2]:
# Primeiro importamos um dataset
dsa_df = pd.read_csv("dataset.csv")

In [None]:
dsa_df.head(5)

In [None]:
dsa_df.isna().sum()

In [None]:
# Extraimos a moda da coluna Quantity
moda = dsa_df['Quantidade'].value_counts().index[0]

A moda em estatística é uma medida de tendência central que representa o valor mais frequente em um conjunto de dados.
A moda é especialmente útil quando queremos savber qual é o valor mais comum ou popular em um conjunto de dados, seja em uma distribuição unimodal (com apenas uma moda) ou em uma distribuição ( com duas modas).
No entanto, a moda pode não ser tão representativa quanto outras medidas de tendência central, como a média e a mediana, especialmente em distribuições assimétricas ou quando há valores extremos. Por essa razão, é importante analisar medidas de tendência central e usar a que melhor se sdequaadequa aos objetivos da análise estatística

In [None]:
print(moda)

In [None]:
# e por fim preenchemos os valores NA com a moda
dsa_df['Quantidade'].fillna(value = moda, inplace=True)

In [None]:
dsa_df.isna().sum()

###Query(Consulta) de Dados no Dataframe do Pandas
Com o Pandas criamos dataframes, que são essencialmente tabelas. Como tal, podemos fazer consultas, ou simplesmente queries. E para isso usamos o método query(). Veja o exemplo abaixo:

In [None]:
#Checamos os valores mínimos e máximo da coluna Valor_Venda
dsa_df.Valor_Venda.describe()

O intervalo de vendas (Valor_Venda) é de 0.44 a 22638. Vamos fazer uma consulta para retornar todas as vendas dentro de um range de valores. Fazemos isso com a instrução abaixo:

In [None]:
# Gerando um novo dataframe apenas com o intervalo de vendas entr 229 e 10000
df2 = dsa_df.query('229 < Valor_Venda < 10000')

In [None]:
#Então confirmamos os valores mínimos e máximo
df2.Valor_Venda.describe()

In [None]:
# Geramos um novo dataframe apenas com os valores de venda acima da média
df3 = df2.query('Valor_Venda > 766')

In [None]:
df3.head()

###Verificando a Ocorrência de diversos valores em uma coluna
Em nosso conjunto de dados de exemplo temos a coluna Quantidade que representa a quantidade de itens vendidos em cada uma das vendas. Imagine que precisamos savber em quais vendas foram vendidos 5, 7, 9 ou 11 itens.
Como aplicaríamos esse tipo de filtro ao nosso dataframe ?
Fácil. O Pandas oferece um método isin() ára checar diversos valores em uma coluna. Quem conhece Linguagem SQL já deve ter percebido que o método é o mesmo que a cláusula IN em SQL. Vamos ao exemplo

In [None]:
# Shape - Retorna o numero de linhas e numero de colunas
dsa_df.shape

In [None]:
# Então aplicamos o filtro
dsa_df[dsa_df['Quantidade'].isin([5, 7, 9, 11])]

Na instrução acima estamos filtrando o dataframe chamando df, retornando todas as linhas onde a coluna Quantiadade for igujal aos valores 5, 7, 9 ou 11.
Passamos uma lista de valores como argumento para o médoto isin().
Vamos deixar um pouquinho mais divertido. Se voce executou a instrução acima, percebeu que foram retornadas 2.128 linhas. E se quisermos retornar somente 10 linhas? É só fatiar o resulta assim:

In [None]:
# shape
dsa_df[dsa_df['Quantidade'].isin([5, 7, 9, 11])].shape

In [None]:
dsa_df[dsa_df['Quantidade'].isin([5, 7, 9, 11])][:10]

###Operadores Lógicos para manipulação de dados com pandas
Os operadores lógicos são excelentes para filtrar dataframes e retornar exatamente os dados que precisamos para nosso trabalho. Para conhecer mais sobre as regras dos operadores lógicos, acessi aqui:
https://pt.wikipedia.org/wiki/Operator_I%C3%B3gico

Primeiro usaremos o operador lógico AND para checar duas condições. SErão retornados os registros quando duas condições forem verdadeiras.

In [None]:
# Filtrando as vendas que ocorreram para o segmento de Home Office e na Região South
dsa_df[ (dsa_df.Segmento == 'Home Office') & (dsa_df.Regiao == 'South')].head()

Mas pode ser necessário checar duas condições e retornar os registros se pelo menos uma for verdadeira. NEsse caso usamos o operador OR, conforme abaixo.

In [None]:
# Filtrando as vendas que ocorreram para o segmento Home office ou região South
dsa_df[ (dsa_df.Segmento == 'Home Office') | (dsa_df.Regiao == 'South')].tail()

Operador de negação é o contrário do primeiro exemplo

In [None]:
# Filtrando as vendas que não ocorreram para o segmento de Home Office e nem a região South
dsa_df[ (dsa_df.Segmento != 'Home Office') & (dsa_df.Regiao != 'South')].sample(5)

###Agrupamento de Dados em Dataframes com Grou By

A função Pandfas Groupby é uma função versátil e fácil de usar que ajuda a obter uma visão geral dos dados. Isso torna mais fácil explorar o conjunto de dados e revelar os relacionamentos entre as variáveis.
O código a seguir agrupará as linhas com base nas combinações Segmento/Regiao/Valor_Venda e nos dará a taxa média de vendas de cada grupo.

In [None]:
#Aplicamos o group by
dsa_df[ ['Segmento', 'Regiao', 'Valor_Venda']].groupby(['Segmento', 'Regiao']).mean()

Na instrução acima, primeiro filtramos os dados extraindo 3 colunas: ['Segmento', 'Regiao, 'Valor_venda']. Na sequência, agrupamos por duas colunas:
['Segmento', 'Regiao']. E então calculamos a média para a coluna quie ficou foram do group by, nesse caso a coluna Sales.
O comportamento do Group by com pandas é o mesmo observado na Linguagem SQL.

### Agregação Múltipla com Group By
Vamos explorar mais uma função groupby() pois temos diversas oppções de sumarização dos dados de forma simples,. No exemplo abaixo uniremos a função groupby() com a função agg() para realizar agragação múltipla.

In [None]:
# Aplicando o group by
dsa_df[ ['Segmento', 'Regiao', 'Valor_Venda'] ].groupby(['Segmento', 'Regiao']).agg(['mean', 'std', 'count'])

Na instrução acima, primeiro filtramos os dados extraindo 3 colunas: ['Segmento', 'Regiao', 'Valor_venda']. Na sequência, agrupamos por duas colunas:
['Segmento', 'Regiao']. E então agragamos os dados calculando a média, desvio padrão e contagem de elementos para a coluna que ficou de gora dos group by, nesse caso a coluna Valor_venda.
A gunção agg() recebe como argumento uma lista de funções para agregação.

### Filtrando Dataframe do Pandas com Base em Strings
O Pandas oferece diversas funções para minipulação de sgtrings. Começaremos com os filtros de strings com base nas letras iniciais e finais.

In [3]:
dsa_df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0


In [4]:
# Filtramos o dataframe pela coluna Segmento com valores que iniciam com as letras 'Con'
dsa_df[dsa_df.Segmento.str.startswith('Con')].head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.86,7.0


In [6]:
# Filtramos o dataframe pela coluna Segmento com valores que iniciam com as letras 'mer'
dsa_df[dsa_df.Segmento.str.endswith('mer')].head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.86,7.0


As funções startswith() e endswith() são muito úteis quando for necessário filtrar strings por caracteres que pareçam no começo e/ou final.

## Split de Strings em Dataframe do Pandas

Com Pasndas podemos realizar diversas tarefas de split de strings dividindo uma coluna ou extraindo elementos do nosso interesse. Vamos ao exemplo!

Este é o formato dos dados da coluna "ID_Pedido":
CA-2016-152156
US-2015-108966
Temos o país, o ano e o id do pedido. Vamos dividir essa coluna e extrair o ano para gravar em uma nova coluna:


In [9]:
dsa_df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0


In [10]:
dsa_df["ID_Pedido"].head()

0    CA-2016-152156
1    CA-2016-152156
2    CA-2016-138688
3    US-2015-108966
4    US-2015-108966
Name: ID_Pedido, dtype: object

In [7]:
# Split da coluna pelo caracter "-"
dsa_df['ID_Pedido'].str.split('-')

0       [CA, 2016, 152156]
1       [CA, 2016, 152156]
2       [CA, 2016, 138688]
3       [US, 2015, 108966]
4       [US, 2015, 108966]
               ...        
9989    [CA, 2014, 110422]
9990    [CA, 2017, 121258]
9991    [CA, 2017, 121258]
9992    [CA, 2017, 121258]
9993    [CA, 2017, 119914]
Name: ID_Pedido, Length: 9994, dtype: object

observe que o resultado são as listas em Puthon. Para extrair o ano precisamos especificar o índice da posição que queremos extrair (em nosso caso a posição 2, logo, índice 1 em Python)

In [8]:
dsa_df["ID_Pedido"].str.split("-").str[1].head()

0    2016
1    2016
2    2016
3    2015
4    2015
Name: ID_Pedido, dtype: object

In [11]:
# Fazemos o split da coluna e extraímos o item na posição 2 (índice 1)
dsa_df["Ano"] = dsa_df['ID_Pedido'].str.split("-").str[1]

In [12]:
# Então conferimos a nova coluna criada
dsa_df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,,2016
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,,2016
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0,2015
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0,2015


###Strip de Strings em Dataframes do Pandas

Cuidado para não confundir. Vimos o split e agora veremos o Strip. São funções diferentes.
O Split divide a string. O Strip remove caracteres da string. Veja os exemplos.

In [14]:
dsa_df.head(3)

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,,2016
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,,2016
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016


A coluna "Data_Pedido" é a data de envio do produto no formato YYY-MM-DD. Imagine que seja necessário deisar o ano apenas com 2 digitos sem alterar o tipo da variável. Famos isto com a função lstrip(), ou seja, left strip.

In [15]:
# Vamos remover os dígitos 2 a 0 à esqueda do valor da variável "Data_Pedido"
dsa_df['Data_Pedido'].str.lstrip('20')

0       16-11-08
1       16-11-08
2       16-06-12
3       15-10-11
4       15-10-11
          ...   
9989    14-01-21
9990    17-02-26
9991    17-02-26
9992    17-02-26
9993    17-05-04
Name: Data_Pedido, Length: 9994, dtype: object

Como não usamos o inplace = True a mudança é somente na memótria e não altera o dataframe. Podemos usar ainda as funções rstrip() e strip() com diferentes variaçãoes de strip de strings.

### Replace de Strings em DataFrames do Pandas.
Se for necessário sujbstituir caracteres dentro de uma string do Pandas oferece uma função para isto também. 
Por exemplo, vamos substituir 2 caracteres em uma das colunas.

In [16]:
dsa_df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,,2016
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,,2016
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0,2015
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0,2015


In [17]:
# Substituímos os caracteres CG por AX na coluna 'ID_Cliente'
dsa_df['ID_Cliente'] = dsa_df['ID_Cliente'].str.replace('CG', 'AX')

In [18]:
dsa_df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano
0,CA-2016-152156,2016-11-08,AX-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,,2016
1,CA-2016-152156,2016-11-08,AX-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,,2016
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0,2015
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0,2015


E pronto. Fácil assim.

### Combinação de Strings em Dataframes do Pandas
A função cat() pode ser usada para concatenar strings em um dataframe do pandas.
Vamos criar uma novs coluna concatenando as colunas 'ID_Pedido' e 'Segmento' com o separador '-'.

In [19]:
dsa_df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano
0,CA-2016-152156,2016-11-08,AX-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,,2016
1,CA-2016-152156,2016-11-08,AX-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,,2016
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0,2015
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0,2015


In [20]:
# Concatenando strings
dsa_df['Pedido_Segmento'] = dsa_df['ID_Pedido'].str.cat(dsa_df['Segmento'], sep="-")

In [21]:
dsa_df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano,Pedido_Segmento
0,CA-2016-152156,2016-11-08,AX-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,,2016,CA-2016-152156-Consumer
1,CA-2016-152156,2016-11-08,AX-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,,2016,CA-2016-152156-Consumer
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016,CA-2016-138688-Corporate
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0,2015,US-2015-108966-Consumer
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0,2015,US-2015-108966-Consumer


### Consturção de Gráficos a partir de Dataframes do Pandas

Vimos até aqui diversas funcionalidades do Pandas que tornam o processo de manipulação de dados realmente simples. E para concluir este capítulo vamos esturadar opções que o pandas oferece papara criação de gráficos diretamente a partir de dataframes, sem a necessidade de usar qualquer outra bibioteca.

Acompanhe os exemplos.

In [None]:
# Primeiro importamos um dataset
dsa_df = pd.read_csv("dataset.csv")

In [22]:
import sklearn

