### Manipulação de Dados com Pandas

In [1]:
import pandas as pd

In [3]:
dados = {'Estado': ['Santa Catarina', 'Rio de Janeiro', 'São Paulo', 'Bahia', 'Minas Gerais'],
         'Ano': [2004, 2005, 2006, 2007, 2008],
         'Taxa Desemprego': [1.5, 1.7, 2.4, 2.7, 1.6]}

In [4]:
print(dados)

{'Estado': ['Santa Catarina', 'Rio de Janeiro', 'São Paulo', 'Bahia', 'Minas Gerais'], 'Ano': [2004, 2005, 2006, 2007, 2008], 'Taxa Desemprego': [1.5, 1.7, 2.4, 2.7, 1.6]}


In [5]:
from pandas import DataFrame

In [7]:
# Convertendo um dicionário em um dataframe
df = DataFrame(dados)

In [8]:
df.head()

Unnamed: 0,Estado,Ano,Taxa Desemprego
0,Santa Catarina,2004,1.5
1,Rio de Janeiro,2005,1.7
2,São Paulo,2006,2.4
3,Bahia,2007,2.7
4,Minas Gerais,2008,1.6


In [9]:
type(df)

pandas.core.frame.DataFrame

In [11]:
#Reorganizando as colunas
DataFrame(dados, columns = ['Estado', 'Taxa Desemprego', 'Ano'])

Unnamed: 0,Estado,Taxa Desemprego,Ano
0,Santa Catarina,1.5,2004
1,Rio de Janeiro,1.7,2005
2,São Paulo,2.4,2006
3,Bahia,2.7,2007
4,Minas Gerais,1.6,2008


In [12]:
df2 = DataFrame(dados,
                columns = ['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'],
                index = ['estado1', 'estado2', 'estado3', 'estado4', 'estado5'])

In [13]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2004
estado2,Rio de Janeiro,1.7,,2005
estado3,São Paulo,2.4,,2006
estado4,Bahia,2.7,,2007
estado5,Minas Gerais,1.6,,2008


In [18]:
df2.values

array([['Santa Catarina', 1.5, nan, 2004],
       ['Rio de Janeiro', 1.7, nan, 2005],
       ['São Paulo', 2.4, nan, 2006],
       ['Bahia', 2.7, nan, 2007],
       ['Minas Gerais', 1.6, nan, 2008]], dtype=object)

In [14]:
df2.columns

Index(['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'], dtype='object')

In [15]:
df2['Estado']

estado1    Santa Catarina
estado2    Rio de Janeiro
estado3         São Paulo
estado4             Bahia
estado5      Minas Gerais
Name: Estado, dtype: object

In [17]:
df2[['Taxa Desemprego', 'Ano']]

Unnamed: 0,Taxa Desemprego,Ano
estado1,1.5,2004
estado2,1.7,2005
estado3,2.4,2006
estado4,2.7,2007
estado5,1.6,2008


In [19]:
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [20]:
df2.index

Index(['estado1', 'estado2', 'estado3', 'estado4', 'estado5'], dtype='object')

In [21]:
df2.filter(items = ['estado3'], axis = 0)

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado3,São Paulo,2.4,,2006


### Usando NumPy

In [22]:
df2.head()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2004
estado2,Rio de Janeiro,1.7,,2005
estado3,São Paulo,2.4,,2006
estado4,Bahia,2.7,,2007
estado5,Minas Gerais,1.6,,2008


In [23]:
#Resumo Estatístico
df2.describe()

Unnamed: 0,Taxa Desemprego,Ano
count,5.0,5.0
mean,1.98,2006.0
std,0.535724,1.581139
min,1.5,2004.0
25%,1.6,2005.0
50%,1.7,2006.0
75%,2.4,2007.0
max,2.7,2008.0


Apenas 2 colunas possuem valores do tipo numérico, e o método describe() faz o cálculo estatístico apenas com variáveis numéricas

In [24]:
df2.isna() #tem valor ausente?

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,False,False,True,False
estado2,False,False,True,False
estado3,False,False,True,False
estado4,False,False,True,False
estado5,False,False,True,False


In [25]:
df2['Taxa Crescimento'].isna()

estado1    True
estado2    True
estado3    True
estado4    True
estado5    True
Name: Taxa Crescimento, dtype: bool

In [26]:
import numpy as np

In [27]:
#Usando o NumPy para alimentar uma das colunas do dataframe
df2['Taxa Crescimento'] = np.arange(5.)

In [28]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2004
estado2,Rio de Janeiro,1.7,1.0,2005
estado3,São Paulo,2.4,2.0,2006
estado4,Bahia,2.7,3.0,2007
estado5,Minas Gerais,1.6,4.0,2008


In [30]:
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento    float64
Ano                   int64
dtype: object

In [31]:
df2['Taxa Crescimento'].isna()

estado1    False
estado2    False
estado3    False
estado4    False
estado5    False
Name: Taxa Crescimento, dtype: bool

In [32]:
df2.describe()

Unnamed: 0,Taxa Desemprego,Taxa Crescimento,Ano
count,5.0,5.0,5.0
mean,1.98,2.0,2006.0
std,0.535724,1.581139,1.581139
min,1.5,0.0,2004.0
25%,1.6,1.0,2005.0
50%,1.7,2.0,2006.0
75%,2.4,3.0,2007.0
max,2.7,4.0,2008.0


### Slicing de DataFrames

In [34]:
df2['estado2':'estado4'] #tudo nesse intervalo será retornado. Observe que neste caso o estado4 NÃO É EXCLUSIVO!

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado2,Rio de Janeiro,1.7,1.0,2005
estado3,São Paulo,2.4,2.0,2006
estado4,Bahia,2.7,3.0,2007


In [36]:
#filtrando o próprio df2 na coluna Taxa Desemprego onde o valor é menor que 2, usando o valor operacional, retornando valor booleano
df2[df2['Taxa Desemprego'] < 2] 

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2004
estado2,Rio de Janeiro,1.7,1.0,2005
estado5,Minas Gerais,1.6,4.0,2008


In [37]:
df2[['Estado', 'Taxa Crescimento']]

Unnamed: 0,Estado,Taxa Crescimento
estado1,Santa Catarina,0.0
estado2,Rio de Janeiro,1.0
estado3,São Paulo,2.0
estado4,Bahia,3.0
estado5,Minas Gerais,4.0


### Preenchendo Valores Ausentes

A função fillna() é usada para preencher os valores ausentes. A função oferece muitas opções. Podemos usar um valor específico, uma função agregada (ex. média) ou o valor anterior ou seguinte

In [38]:
df3 = pd.read_csv("dataset.csv")

In [39]:
df3.head(5)

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0


In [40]:
#Somar os valores ausentes
df3.isna().sum()

ID_Pedido       0
Data_Pedido     0
ID_Cliente      0
Segmento        0
Pais            0
Regiao          0
ID_Produto      0
Categoria       0
Nome_Produto    0
Valor_Venda     0
Quantidade      2
dtype: int64

In [41]:
#Calculando a moda da coluna Quantidade
moda = df3['Quantidade'].value_counts().index[0]

A moda em Estatística é uma medida de tendência central que representa o valor mais frequente em um conjunto de dados
A moda é especialmente útil quando querermos saber qual é o valor mais comum ou popular em um conjunto de dados, seja em uma distribuição unimodal (com apenas uma moda) ou em uma distribuição bimodal (com duas modas)

A moda não pode ser representativa quanto outras medidas de tendência central, como a média e a mediana, especialmente em distribuições assimétricas ou quando há valores extremos.

In [42]:
print(moda)

3.0


In [45]:
# Preenchendo os valores NaN com a moda
df3.fillna({'Quantidade': moda}, inplace=True)

In [46]:
df3.isna().sum()

ID_Pedido       0
Data_Pedido     0
ID_Cliente      0
Segmento        0
Pais            0
Regiao          0
ID_Produto      0
Categoria       0
Nome_Produto    0
Valor_Venda     0
Quantidade      0
dtype: int64