In [13]:
import pandas as pd

In [14]:
df1 = pd.read_excel("datasets/Aracaju.xlsx")
df2 = pd.read_excel("datasets/Fortaleza.xlsx")
df3 = pd.read_excel("datasets/Natal.xlsx")
df4 = pd.read_excel("datasets/Recife.xlsx")
df5 = pd.read_excel("datasets/Salvador.xlsx")

In [15]:
df = pd.concat([df1, df2, df3, df4, df5])

In [16]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


In [17]:
df.columns

Index(['Cidade', 'Data', 'Vendas', 'LojaID', 'Qtde'], dtype='object')

In [18]:
df['Cidade'].unique()

array(['Aracaju', 'Fortaleza', 'Natal', 'Recife', 'Salvador'],
      dtype=object)

In [19]:
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID             int64
Qtde               int64
dtype: object

In [20]:
#mudando o tipo de dado de uma coluna
df['LojaID'] = df['LojaID'].astype('object')

In [21]:
#pegando amostras
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
237,Natal,2019-01-03,38.06,1036,3
20,Natal,2018-06-08,608.0,852,4
106,Salvador,2019-01-01,149.19,1035,2
170,Natal,2019-01-02,9.26,1035,3
150,Salvador,2019-01-02,11.13,1035,2


In [22]:
#consultando valores nulos
df.isnull().sum()

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [23]:
#substituindo valores nulos pela média
df['Vendas'].fillna(df['Vendas'].mean(), inplace=True)

In [24]:
#substituindo valores nulos por zero
df['Vendas'].fillna(0, inplace=True)

In [25]:
#apagando linhas com valores nulos
df.dropna(inplace=True)

In [26]:
#apagando linhas com valores nulos com base em uma coluna
df.dropna(subset=['Vendas'], inplace=True)

In [27]:
#removendo linhas que estejam com valores faltantes em todas as colunas
df.dropna(how='all', inplace=True)

In [28]:
#criando colunas novas
df['Receita'] = df['Vendas'].mul(df['Qtde'])

In [29]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
0,Aracaju,2018-01-01,142.0,1520,1,142.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26
2,Aracaju,2018-01-01,71.55,1520,1,71.55
3,Aracaju,2018-01-01,3.01,1521,7,21.07
4,Aracaju,2018-01-01,24.51,1522,8,196.08


In [30]:
df['Receita'].max()

3544.0

In [31]:
df['Receita'].min()

3.34

In [32]:
#nlargest - retorna os n maiores valores de uma coluna
df.nlargest(3, 'Receita')

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
7,Natal,2019-03-18,886.0,853,4,3544.0
51,Natal,2018-01-21,859.0,852,4,3436.0
55,Natal,2019-01-08,859.0,854,4,3436.0


In [33]:
#nsmallest - retorna os n menores valores de uma coluna
df.nsmallest(3, 'Receita')

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
118,Aracaju,2018-01-01,3.34,1522,1,3.34
65,Recife,2019-01-01,4.01,981,1,4.01
92,Natal,2019-01-02,4.57,1035,1,4.57


In [34]:
#agrupamento por cidade
df.groupby('Cidade')['Receita'].sum()

Cidade
Aracaju       48748.25
Fortaleza     37913.97
Natal        167227.52
Recife        51936.51
Salvador      40596.73
Name: Receita, dtype: float64

In [35]:
df.groupby('Cidade')['Receita'].nsmallest(3)

Cidade        
Aracaju    118     3.34
           102     7.29
           8      12.16
Fortaleza  81     10.68
           92     13.96
           34     15.50
Natal      92      4.57
           95      5.13
           161     5.80
Recife     65      4.01
           1      11.44
           15     14.90
Salvador   92      4.57
           95      5.13
           161     5.80
Name: Receita, dtype: float64

In [36]:
df.groupby('Cidade')['Receita'].nlargest(3)

Cidade        
Aracaju    41     1837.12
           94     1784.16
           23     1662.50
Fortaleza  141    1462.00
           69     1299.90
           27     1274.22
Natal      7      3544.00
           51     3436.00
           55     3436.00
Recife     46     1913.36
           141    1462.00
           19     1396.01
Salvador   127     721.83
           155     713.43
           98      695.28
Name: Receita, dtype: float64

In [37]:
df.sort_values('Receita', ascending=False).head(10)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
7,Natal,2019-03-18,886.0,853,4,3544.0
55,Natal,2019-01-08,859.0,854,4,3436.0
51,Natal,2018-01-21,859.0,852,4,3436.0
30,Natal,2018-10-02,856.0,853,4,3424.0
41,Natal,2018-05-20,835.0,852,4,3340.0
38,Natal,2018-02-25,828.0,852,4,3312.0
10,Natal,2018-10-27,828.0,852,4,3312.0
69,Natal,2019-03-24,817.0,852,4,3268.0
62,Natal,2018-02-10,793.0,854,4,3172.0
52,Natal,2018-04-27,778.0,854,4,3112.0
