In [1]:
!pip install -q pandas==1.5.3

In [2]:
import pandas as pd

In [3]:
pd.__version__  

'1.5.3'

manipulando dados em dataframes do pandas

In [4]:
# Cria um dicionario
dados = {'Estado': ['Santa Catarina', 'Rio de Janeiro', 'Tocantins', 'Bahia', 'Minas Gerais'],
        'Ano': [2004,2005,2006,2007,2008],
        'Taxa Desemprego':[1.5,1.7,1.6,2.4,2.7]}

In [5]:
# Importa a função dataframe do pandas
from pandas import DataFrame

In [6]:
#Converter o dicionario em um dataframe
df = DataFrame(dados)

In [7]:
# Visualiza as 5 primeiras linhas 
df.head()

Unnamed: 0,Estado,Ano,Taxa Desemprego
0,Santa Catarina,2004,1.5
1,Rio de Janeiro,2005,1.7
2,Tocantins,2006,1.6
3,Bahia,2007,2.4
4,Minas Gerais,2008,2.7


In [8]:
type(df)

pandas.core.frame.DataFrame

In [9]:
# Reorganizando as colunas
DataFrame(dados, columns = ['Estado', 'Taxa Desemprego', 'Ano'])

Unnamed: 0,Estado,Taxa Desemprego,Ano
0,Santa Catarina,1.5,2004
1,Rio de Janeiro,1.7,2005
2,Tocantins,1.6,2006
3,Bahia,2.4,2007
4,Minas Gerais,2.7,2008


In [10]:
# Criando outro dataframe com os mesmos dados anteriores mas adicionando uma coluna
df2 = DataFrame(dados, 
                columns = ['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'],
                index = ['estado1', 'estado2', 'estado3', 'estado4', 'estado5'])

In [11]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2004
estado2,Rio de Janeiro,1.7,,2005
estado3,Tocantins,1.6,,2006
estado4,Bahia,2.4,,2007
estado5,Minas Gerais,2.7,,2008


In [12]:
df2.values

array([['Santa Catarina', 1.5, nan, 2004],
       ['Rio de Janeiro', 1.7, nan, 2005],
       ['Tocantins', 1.6, nan, 2006],
       ['Bahia', 2.4, nan, 2007],
       ['Minas Gerais', 2.7, nan, 2008]], dtype=object)

In [13]:
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [14]:
df2.columns

Index(['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'], dtype='object')

In [15]:
# Imprimindo apenas uma coluna do DataFrame
df2['Estado']

estado1    Santa Catarina
estado2    Rio de Janeiro
estado3         Tocantins
estado4             Bahia
estado5      Minas Gerais
Name: Estado, dtype: object

In [16]:
# Linguagem python é case sensitive
# df2['estado']

In [17]:
# Imprimindo apenas duas colunas do DataFrame
df2[['Taxa Desemprego', 'Ano']]

Unnamed: 0,Taxa Desemprego,Ano
estado1,1.5,2004
estado2,1.7,2005
estado3,1.6,2006
estado4,2.4,2007
estado5,2.7,2008


In [18]:
df2.index

Index(['estado1', 'estado2', 'estado3', 'estado4', 'estado5'], dtype='object')

In [19]:
# Filtrando pelo indice
df2.filter(items = ['estado3'], axis = 0)

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado3,Tocantins,1.6,,2006


# Usando NumPy e pandas para manipulação de dados

In [20]:
df2.head()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2004
estado2,Rio de Janeiro,1.7,,2005
estado3,Tocantins,1.6,,2006
estado4,Bahia,2.4,,2007
estado5,Minas Gerais,2.7,,2008


In [21]:
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [22]:
# Resumo estatistico do DataFrame
# O describe lê somente dados no formato numerico, seja float ou int
df2.describe()

Unnamed: 0,Taxa Desemprego,Ano
count,5.0,5.0
mean,1.98,2006.0
std,0.535724,1.581139
min,1.5,2004.0
25%,1.6,2005.0
50%,1.7,2006.0
75%,2.4,2007.0
max,2.7,2008.0


In [23]:
df2.isna()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,False,False,True,False
estado2,False,False,True,False
estado3,False,False,True,False
estado4,False,False,True,False
estado5,False,False,True,False


In [24]:
df2['Taxa Crescimento'].isna()

estado1    True
estado2    True
estado3    True
estado4    True
estado5    True
Name: Taxa Crescimento, dtype: bool

In [25]:
# Importando o NumPy
import numpy as np

In [26]:
# Usando o NumPy para alimentar uma das colunas do dataframe
df2['Taxa Crescimento'] = np.arange(5.)

In [27]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2004
estado2,Rio de Janeiro,1.7,1.0,2005
estado3,Tocantins,1.6,2.0,2006
estado4,Bahia,2.4,3.0,2007
estado5,Minas Gerais,2.7,4.0,2008


In [28]:
df2['Taxa Crescimento'].isna()

estado1    False
estado2    False
estado3    False
estado4    False
estado5    False
Name: Taxa Crescimento, dtype: bool

In [29]:
# Resumo estatistico do DataFrame
df2.describe()

Unnamed: 0,Taxa Desemprego,Taxa Crescimento,Ano
count,5.0,5.0,5.0
mean,1.98,2.0,2006.0
std,0.535724,1.581139,1.581139
min,1.5,0.0,2004.0
25%,1.6,1.0,2005.0
50%,1.7,2.0,2006.0
75%,2.4,3.0,2007.0
max,2.7,4.0,2008.0


# Slicing de DataFrame do Pandas

In [30]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2004
estado2,Rio de Janeiro,1.7,1.0,2005
estado3,Tocantins,1.6,2.0,2006
estado4,Bahia,2.4,3.0,2007
estado5,Minas Gerais,2.7,4.0,2008


In [31]:
df2['estado2':'estado4']

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado2,Rio de Janeiro,1.7,1.0,2005
estado3,Tocantins,1.6,2.0,2006
estado4,Bahia,2.4,3.0,2007


In [32]:
df2[df2['Taxa Desemprego'] < 2]

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2004
estado2,Rio de Janeiro,1.7,1.0,2005
estado3,Tocantins,1.6,2.0,2006


In [33]:
df2[['Estado', 'Taxa Crescimento']]

Unnamed: 0,Estado,Taxa Crescimento
estado1,Santa Catarina,0.0
estado2,Rio de Janeiro,1.0
estado3,Tocantins,2.0
estado4,Bahia,3.0
estado5,Minas Gerais,4.0


In [34]:
# Ao selecionar mais de uma coluna para ser exibida, deve-se utilzar 2 chaves, caso seja somente uma, usa-se uma chave
df2[['Estado', 'Taxa Crescimento', 'Ano']]

Unnamed: 0,Estado,Taxa Crescimento,Ano
estado1,Santa Catarina,0.0,2004
estado2,Rio de Janeiro,1.0,2005
estado3,Tocantins,2.0,2006
estado4,Bahia,3.0,2007
estado5,Minas Gerais,4.0,2008


In [35]:
df2['Ano']

estado1    2004
estado2    2005
estado3    2006
estado4    2007
estado5    2008
Name: Ano, dtype: int64

# Preenchendo valores ausentes em dataframes do pandas
A função fillna() é usada para preencher os valores ausentes, a função oferece muitas opções. podemos usar um valor especifico, uma função agregada (por exemplo, media) ou o valor anterior ou seguinte

In [36]:
# primeiro importamos um dataset
dsa_df = pd.read_csv("dataset.csv")

FileNotFoundError: [Errno 2] No such file or directory: 'dataset.csv'

In [None]:
dsa_df.head(5)

In [None]:
dsa_df.isna().sum()

In [None]:
# Extraimos a moda da coluna quantity
moda = dsa_df['Quantidade'].value_counts().index[0]

A moda em estatistica é uma medida de tendencia central que representa o valor mais frequente em um conjunto de dados.
A moda é especialmente util quando queremos saber qual é o valor mais comum ou popular em um conjunto de dados, seha uma distribuição unimodal (com apenas umamoda) ou em uma distribuição bomodal (com duas modas).

No entanto, a moda pode não ser tão representativa quanto outras medidas de tendencia central, como a media e a mediana, especialmente em distribuições assimetricas ou quando há valores extremos. Por essa razão, é importante analisar difrentes medidas de tendencia central e usar a que melhor se adequa aos objetivos da analise estatistica.

In [None]:
print(moda)

In [None]:
# E por fim preenchemos os valores NA com a moda
dsa_df["Quantidade".fillna(value = moda, inplace = True)]

In [None]:
dsa_df.isna().sum()

# Query  (consulta) de dados no dataframe do pandas

com o pandas criamos dataframes que são essencialmente tabelas. como tal, podemos fazer consultas, ou simplesmente queries, para isso usamos o moetodo query(). veja o exemplo abaixo:

In [None]:
# Checamos os valores minimo e maximo da coluna valor_venda
dsa_df.head(5)

In [None]:
dsa_df.valor_venda.describe()

O intervalo de vendas (Valor_venda) é de 0.44 a 22368. Vamos fazer uma consulta e retornar todas as vendas dentro de uma range de valores. Fazemos isso com a instrução abaixo:

In [None]:
# Geramos um novo dataframe apenas com o intervalo de vendas entre 229 e 10000
df2 = dsa_df.query('229 < Valor_venda < 10000')

In [None]:
# Então confirmamos os valores minimo e maximo
df2.Valor_venda.describe()

In [None]:
# Geramos um novo dataframe apenas com os valores de venda acima da media
df3 = df2.query('Valor_venda > 766')

In [None]:
df3.head()

# Verificando a ocorrencia de diversos valores em uma coluna

Em nosso conjunto de dados de exemplo temos a coluna quantidade que representa a quantidade de itens vendidos em cada uma das vendas. Imagine que precisamos saber em quais vendas foram vendidos 5,7,9,11 itens.
Como aplicariamos esse tipo de filtro ao nosso dataframe?
Fácil, o pandas oferece o metodo isin() oara checar diversos valores em uma coluna, quem conhece linguagem SQL já deve ter percebido que o metodo é o mesmo que a clasula IN em SQL. vamos ao exemplo.

In [None]:
dsa_df.shape

In [None]:
# Então aplicamos o filtro
dsa_df[dsa_df['Quantidade'].isin([5,7,9,11])]

Na instrução acima estamos filtrando o dataframe chamado df, retornando todas as linhas onde a coluna Quantidade for igual aos valores 5,7,9 ou 11.
Passamos uma lista de valores como argumento para o metodo isin()
Vamos deixar um pouco mais diveritido, se voce executou a instrução acimia, percebeu que foram retornadas 2128 linhas, e se quisermos retornar somente 10 linhas? é spi fatiar o resultado assim:

In [None]:
# shape
dsa_df[dsa_df['Quantidade'].isin([5,7,9,11])].shape

In [None]:
dsa_df[dsa_df['Quantidade'].isin([5,7,9,11])]:[:10]

# Operadores logicos para manipulação de dados com pandas
Os operadores logicos são excelentes para filtrar dataframes e trornar exatamente os dados que precisamos para nosso trabalho.Para conhecer mais sobre as regras dos operadores logicos, acesse aqui:


Primeiro usaremos o operador logico and para checar duas condições. Serão retornados os registros quando as duas condições forem verdadeiras.

In [None]:
# Condicional de e ou and
# Filtrando as vendas que ocorreram para o segmento de Home Office e na região South
dsa_df[ (dsa_df.Segmento == 'Home Office') & (dsa_df.Regiao == 'South')].head()

Mas pode ser necessario checar duas condições e retornar os registros se pelo menos uma for verdadeira. Nesse caso usamos o operador OR, conforme abaixo.

In [None]:
# Condicional de ou ou or
# Filtrando as vendas que ocorreram para o segmento de Home Office ou região South
dsa_df[(dsa_df.Segmento == 'Home Office') | (dsa_df.Regiao == 'South')].tail()

O operador de negação  é o contrario do primeiro exemplo

In [None]:
# Condição de negação
# Filtrando as vendas que nao ocorreram para o segmento de home office e nem região south
dsa_df[ (dsa_df.Segmento != 'Home Office') & (dsa_df.Regiao != 'South')].sample(5)

head = imprime somente o começo da tabela 

tail = imprime somente o final 

sample = imprime as linhas da tabela de forma aleatoria

# Agrupamento de dados em dataframse com group By
A função pandas Groupby é uma função versatil e facil de usar que ajuda a obter uma visão geral dos dados. isso torna mais facil explorar o conjunto de dados e revelar os relacionamento entre as variaveis
O codigo a seguir agrupara as linhas com base nas combinações segmento/região/valor_venda e nos dará a taca media de vendas de cada grupo

In [None]:
# Aplicamos o groupby
dsa_df[['Segmento', 'Regiao', 'Valor_Venda']].groupby(['Segmento', 'Regiao']).mean()

Na instrução acima, primeiro filtramos os dados extraindo 3 colunas: ['Segmento', 'regiao', 'Valor_Venda']. Na sequandia, agrupamos por duas colunas: ['Segmento', 'Regiao']. E então calculamos a media para a coluna que ficou foram do groupbu, nesse caso a coluna Sales.

O comportamento do group by com Pandas é o mesmo observado na linguagem SQL

# AgregaçãO  Multipla com GroupBy
Vamos explorar mais funçãoi groupby() pois temos diversas opções de sumarização dos dados de forma simples. No exemplo abaixc uniremos a função groupby() com a função agg() para realiza agregação multipla

In [None]:
# Aplicamos o groupby
dsa_df[['Segmento', 'Regiao', 'Valor_Venda']].groupby(['Segmento', 'Regiao']).agg(['mean', 'std', 'count'])

Na instrução acima, primeiro filtramos os dados extraindo 3 colunas. ['Segmento', 'Regiao', 'Valor_Venda'].Na sequencia, agrupamso por duas colunas: ['Segmento', 'Regiao'].E então agregamos os dados calculando a media, desvio padrão e contagem de elemtros para a coluna que ficou fora do group by, nesse caso a coluna Valor_Venda

A função agg() recebe como argumento uma lista de funções para agregação

# Filtrando 

In [None]:
dsa_df.head()

In [None]:
# Filtrando o dataframe pela coluna Segmento com valores que iniciam com as letras 'Con'
dsa_df[dsa_df.Segmento.str.startswith('Con')].head()

In [None]:
dsa_df;Segmento.value_counts()

In [None]:
# Filtramos o dataframe pela coluna Segmento com valores que terminam com as letras 'mer'
dsa_df[dsa_df.Segmento.str.endswith('mer')].head.()

As funções starswith() e endswith() são muito uteis quando for necessario filtrar strings por caracteres que apareçam no começo e/ ou final

# Split de Strings em DataFrames do Pandas
Com Pandas podemos realizar diversas tarefas de split de strings dividindo uma coluna ou extraindo elementos do nosso interesse. Vamos ao exemplo!

In [None]:
dsa_df.head()

In [None]:
dsa_df['ID_Pedido'].head()

Este é o formato dos dados da coluna "ID_Pedido":

- CA-2016-152156
- CA-2015-108966

Temos o país, o ano e o id do pedido. Vamos dividir essa coluna e extrair o ano para gravar em uma nova coluna:

In [None]:
# Split da coluna pelo caracter '-'
dsa_df['ID_Pedido'].str.split('-')

Observe que o resultado são as listas em python. Para extrair o ano precisamos especificar o indice da posição que queremos extrair (em nosso caso a posição 2, logo, indice 1 em python):

In [None]:
dsa_df['ID_Pedido'].str.split('-').str[1].head()

In [None]:
# Fazemos o split da coluna e extraimos o item na posição 2 (indice 1)
dsa_df['Ano'] = dsa_df['ID_Pedido'].str.split('-').str[1]

In [None]:
# Então conferimos a nova coluna criada
dsa_df.head()

# Strip do Strings em DataFrames do Pnadas
Cuidado para nao confundir. Vimos o split e agora veremos o strip. São funções diferentes.
O split divide a string. O strip remove caracteres da string. Veja os exemplos.

In [None]:
dsa_df.head()

In [None]:
dsa_df['Data_Pedido'].head(3)

A coluna 'DataFrame' é a data de envio do produto no formato YYYY-MM-DD. Imagine que seja necessario deixar o ano apenas com 2 digitos sem alterar o tipo da variavel. Fazemos isso com função lstrip(), ou seja, left strip.

In [None]:
# Vamos remover os digitos 2 e 0 à esquerda do valor da variavel 'Data_Pedido'
dsa_df['Data_Pedido'].str.lstrip('20')

Como não usamos o inplace = True a mudança é somente na memoria e não altera o dataframe. Podemos usar ainda as funções rstrip() e strio() com diferentes variações de strip de strings.

In [None]:
dsa_df.['Data_Pedido'].head(3)

# Replace de Strings em DataFrames do Pandas
se for necesario substituir carcteres dentro de uma string o Pnadas oferece uma função para isso tambem
Por exemplo, vamos substituir 2 caracteres em uma das colunas.

In [None]:
dsa_df.head()

In [None]:
# Substituimos os caracteres CG por AX na coluna 'ID_Cliente'
dsa_df['ID_Cliente'] = dsa_df['ID_Cliente'].str.replace('CG', 'AX')

In [None]:
dsa_df.head()