In [1]:
import pandas as pd
from pandas import DataFrame

# Manipulação Dados em DataFrames do Pandas
#### Documentação do pandas: pandas.pydata.org

In [2]:

# Criar um dicionario
dados_original = {'Estado':['São Paulo','Rio De Janeiro','Tocantins','Bahia','Minas Gerais'],
        'Ano':[2004,2005,2006,2007,2008],
        'Taxa Desemprego':[1.5,1.7,1.6,2.4,2.7]
        }

In [3]:
# Converte um dicionario como um dataframe:
df = DataFrame(dados_original)

In [4]:
# Visualiza as 5 primeiras linhas
df.head()


Unnamed: 0,Estado,Ano,Taxa Desemprego
0,São Paulo,2004,1.5
1,Rio De Janeiro,2005,1.7
2,Tocantins,2006,1.6
3,Bahia,2007,2.4
4,Minas Gerais,2008,2.7


In [5]:
print(type(df))

<class 'pandas.core.frame.DataFrame'>


In [6]:
# Reorganizando as colunas
DataFrame(dados_original, 
        columns=[
            'Estado',
            'Taxa Desemprego'
            ,'Ano'
])

Unnamed: 0,Estado,Taxa Desemprego,Ano
0,São Paulo,1.5,2004
1,Rio De Janeiro,1.7,2005
2,Tocantins,1.6,2006
3,Bahia,2.4,2007
4,Minas Gerais,2.7,2008


In [7]:
# Criando outro dataframe com o mesmo dados anteriores mas adicionando um coluna
df2 = DataFrame(dados_original,
                columns=['Estado','Taxa Desemprego','Taxa Crescimento','Ano'],
                index=['estado1','estado2','estado3','estado4','estado5']
                )

In [8]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,São Paulo,1.5,,2004
estado2,Rio De Janeiro,1.7,,2005
estado3,Tocantins,1.6,,2006
estado4,Bahia,2.4,,2007
estado5,Minas Gerais,2.7,,2008


In [9]:
# Mostrar os valores dentro de um dataFrame
df2.values

array([['São Paulo', 1.5, nan, 2004],
       ['Rio De Janeiro', 1.7, nan, 2005],
       ['Tocantins', 1.6, nan, 2006],
       ['Bahia', 2.4, nan, 2007],
       ['Minas Gerais', 2.7, nan, 2008]], dtype=object)

In [10]:
# Verificando o tipo de dados no nosso dataframe
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [11]:
# Retorn as  colunas
df2.columns

Index(['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'], dtype='object')

In [12]:
# Imprimindo apenas uma coluna do dataframe
df2['Estado']

estado1         São Paulo
estado2    Rio De Janeiro
estado3         Tocantins
estado4             Bahia
estado5      Minas Gerais
Name: Estado, dtype: object

In [13]:
# Imprimindo apenas duas colunas do dataframe, para cada coluna adicione um colchete:
df2[['Taxa Desemprego','Ano']]

Unnamed: 0,Taxa Desemprego,Ano
estado1,1.5,2004
estado2,1.7,2005
estado3,1.6,2006
estado4,2.4,2007
estado5,2.7,2008


In [14]:
df2.index

Index(['estado1', 'estado2', 'estado3', 'estado4', 'estado5'], dtype='object')

In [15]:
#Filtrando pelo indice
df2.filter(items = ['estado3'], axis=0)

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado3,Tocantins,1.6,,2006


# Slicing de DataFrames do Pandas

In [16]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,São Paulo,1.5,,2004
estado2,Rio De Janeiro,1.7,,2005
estado3,Tocantins,1.6,,2006
estado4,Bahia,2.4,,2007
estado5,Minas Gerais,2.7,,2008


In [17]:
# Pegando todas as linhas do estado2 ao estado4
df2['estado2':'estado4']

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado2,Rio De Janeiro,1.7,,2005
estado3,Tocantins,1.6,,2006
estado4,Bahia,2.4,,2007


In [18]:
# Retorne para mim de df2, todas as taxas de desemprego que são < 2:
df2[df2['Taxa Desemprego']<2]

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,São Paulo,1.5,,2004
estado2,Rio De Janeiro,1.7,,2005
estado3,Tocantins,1.6,,2006


In [19]:
#Incluindo 2 colunas na busca:
df2[['Estado','Taxa Crescimento']]

Unnamed: 0,Estado,Taxa Crescimento
estado1,São Paulo,
estado2,Rio De Janeiro,
estado3,Tocantins,
estado4,Bahia,
estado5,Minas Gerais,


# Preenchando Valores Ausentes em DataFrames do Pandas

A função fillna() é usada para preencher os valores ausentes. A função oferece mais opções. Podemos usar um valor especifico, uma função agregada (por exemplo,media) ou o valor anterior ou seguinte.

Para esse exemplo usaremos a moda, a estatística que representa o valor que aparece mais vezes em uma variavél.

In [44]:
#Primeiro importamos um dataset
dsa_df = pd.read_csv(r'C:\\Users\\plati\\DataScienceAcademy\\Pandas\\dataset.csv',encoding='latin1')

In [45]:
dsa_df.head(5)

Unnamed: 0,ï»¿ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0


In [47]:
# Some todos os valores ausentes se houver na base de dados:
dsa_df.isna().sum()

ï»¿ID_Pedido    0
Data_Pedido     0
ID_Cliente      0
Segmento        0
Pais            0
Regiao          0
ID_Produto      0
Categoria       0
Nome_Produto    0
Valor_Venda     0
Quantidade      2
dtype: int64

In [48]:
#Checar em quais colunas temos valores ausentes:
dsa_df['Quantidade']

0       NaN
1       NaN
2       2.0
3       5.0
4       2.0
       ... 
9989    3.0
9990    2.0
9991    2.0
9992    4.0
9993    2.0
Name: Quantidade, Length: 9994, dtype: float64

In [49]:
# Extraimos a moda da coluna Quantity
moda = dsa_df['Quantidade'].value_counts().index[0]

A moda em Estatistica é uma medida de tendencia central que representa o valor mais frequente em um conjunto de dados.

A moda é especilamenye útil quando queremos saber qual o valor mais comum ou popular em um conjubto de dados, seja em uma distribuição unimodal(com apenass uma moda)ou em uma distribuição bimodal(comduas modas)

In [50]:
moda

np.float64(3.0)

In [51]:
#E por fim preenchemos os valores NA com a moda
#inplace => nos fala que esta salvando, se deixarmos False ele vai salvar numa copia.
dsa_df['Quantidade'].fillna(value=moda, inplace=True)

In [52]:
dsa_df.isna().sum()

ï»¿ID_Pedido    0
Data_Pedido     0
ID_Cliente      0
Segmento        0
Pais            0
Regiao          0
ID_Produto      0
Categoria       0
Nome_Produto    0
Valor_Venda     0
Quantidade      0
dtype: int64

# Query(Consulta) de Dados no DataFrame no Pandas

Com pandas criamos dataframes, que são essencialmente tabelas. Como tal, podemos fazer consultas, ou simplesmente queries. E para isso usamo o metodo query(). VEjamos um exemplo abaixo.

In [60]:
#Checamos os valores maximos e minimos de uma coluna Valor_Venda
checando_max_and_min = dsa_df.Valor_Venda.describe()
checando_max_and_min.round(2)

count     9994.00
mean       229.86
std        623.25
min          0.44
25%         17.28
50%         54.49
75%        209.94
max      22638.48
Name: Valor_Venda, dtype: float64

O intervalo de vendas (Valr_Vendas) é de 0.44 a 22638. Vamos fazer uma consulta e retornar todas as vendas dentro de um range de valores. FAzemos isso com a instrução abaixo:


In [61]:
# Geramos um novo dataframe apenas com o intervaloo de vendas entre 229 e 1000
df2 = dsa_df.query('299 < Valor_Venda < 10000')

In [62]:
df2.Valor_Venda.describe()

count    1912.000000
mean      884.435472
std       911.295107
min       299.520000
25%       407.998500
50%       593.154000
75%       977.679000
max      9892.740000
Name: Valor_Venda, dtype: float64

In [63]:
# Geramos um novo dataframe apenas com os valores de venda acima da media:
df3 = df2.query('Valor_Venda > 766')

In [64]:
df3.head()

Unnamed: 0,ï»¿ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
7,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,TEC-PH-10002275,Technology,Mitel 5320 IP Phone VoIP phone,907.152,6.0
10,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-TA-10001539,Furniture,Chromcraft Rectangular Conference Tables,1706.184,9.0
11,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,TEC-PH-10002033,Technology,Konftel 250 ConferenceÂ phoneÂ - Charcoal black,911.424,4.0
24,CA-2015-106320,2015-09-25,EB-13870,Consumer,United States,West,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,1044.63,3.0


# Verificando a Ocorrencia de Diversos Valores em Uma Coluna

Em nosso conjunto de dados de exemplo temos a coluna Quantidade que representa a quantidade de itens vendidos em cada uma das vendas. Imagine que precisamos saber em quais vendas foram vendidos 5,7,9 ou 11 itens.

Como aplicariamos esse tipo de filtro ao nosso dataframe?

Fácil. O Pandas oferece o método isin() para checar diversos valores em uma coluna. Quem conhece Linguagem SQL ja deve ter percebido que o método é o mesmo que a cláusula IN em SQL. Vamos ao exemplo.

In [66]:
# Lembrando esse método representa a quantidade de linha, coluna e dimensão da um serie de informações:
dsa_df.shape

(9994, 11)

In [70]:
#Então aplicamos o filtro
#Inin => Nos fala que temos que buscar esses numeros dentro da nossa base de dados:
result = dsa_df[dsa_df['Quantidade'].isin([5,7,9,11])]

Unnamed: 0,ï»¿ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.86,7.0
9,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-AP-10002892,Office Supplies,Belkin F5C206VTEL 6 Outlet Surge,114.9,5.0
10,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-TA-10001539,Furniture,Chromcraft Rectangular Conference Tables,1706.184,9.0
14,US-2015-118983,2015-11-22,HP-14815,Home Office,United States,Central,OFF-AP-10002311,Office Supplies,Holmes Replacement Filter for HEPA Air Cleaner...,68.81,5.0
21,CA-2016-137330,2016-12-09,KB-16585,Corporate,United States,Central,OFF-AR-10000246,Office Supplies,Newell 318,19.46,7.0
22,CA-2016-137330,2016-12-09,KB-16585,Corporate,United States,Central,OFF-AP-10001492,Office Supplies,"Acco Six-Outlet Power Strip, 4' Cord Length",60.34,7.0
27,US-2015-150630,2015-09-17,TB-21520,Consumer,United States,East,FUR-BO-10004834,Furniture,"Riverside Palais Royal Lawyers Bookcase, Royal...",3083.43,7.0
35,CA-2016-117590,2016-12-08,GH-14485,Corporate,United States,Central,TEC-PH-10004977,Technology,GE 30524EE4,1097.544,7.0
36,CA-2016-117590,2016-12-08,GH-14485,Corporate,United States,Central,FUR-FU-10003664,Furniture,"Electrix Architect's Clamp-On Swing Arm Lamp, ...",190.92,5.0


Na instrução asima filtramos o dataframe chamado df, retornando todas as linhas onde a coluna quantidade for igual aos valores 5,7,9 ou 11. Passamos uma lista de valores com o arqumento para o método isin()

Vamos deixar um pouco mais divertido. Sevocê executou a instrução acima, percebeu que foram retornadas 2.128 linhas. E se quisermos retornar somente 10 linhas ? É só fatiar o resultado assim:

In [74]:
# Shape
dsa_df[dsa_df['Quantidade'].isin([5,7,9,11])].shape

(2128, 11)

In [75]:
#Fatiando uma lista para retorna somene 10 linhas com a query:
dsa_df[dsa_df['Quantidade'].isin([5,7,9,11])][:10]

Unnamed: 0,ï»¿ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.86,7.0
9,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-AP-10002892,Office Supplies,Belkin F5C206VTEL 6 Outlet Surge,114.9,5.0
10,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-TA-10001539,Furniture,Chromcraft Rectangular Conference Tables,1706.184,9.0
14,US-2015-118983,2015-11-22,HP-14815,Home Office,United States,Central,OFF-AP-10002311,Office Supplies,Holmes Replacement Filter for HEPA Air Cleaner...,68.81,5.0
21,CA-2016-137330,2016-12-09,KB-16585,Corporate,United States,Central,OFF-AR-10000246,Office Supplies,Newell 318,19.46,7.0
22,CA-2016-137330,2016-12-09,KB-16585,Corporate,United States,Central,OFF-AP-10001492,Office Supplies,"Acco Six-Outlet Power Strip, 4' Cord Length",60.34,7.0
27,US-2015-150630,2015-09-17,TB-21520,Consumer,United States,East,FUR-BO-10004834,Furniture,"Riverside Palais Royal Lawyers Bookcase, Royal...",3083.43,7.0
35,CA-2016-117590,2016-12-08,GH-14485,Corporate,United States,Central,TEC-PH-10004977,Technology,GE 30524EE4,1097.544,7.0
36,CA-2016-117590,2016-12-08,GH-14485,Corporate,United States,Central,FUR-FU-10003664,Furniture,"Electrix Architect's Clamp-On Swing Arm Lamp, ...",190.92,5.0


In [76]:
dsa_df[dsa_df['Quantidade'].isin([5,7,9,11])][:10].shape

(10, 11)