# Agregando DataFrames

Estatísticas resumidas - Resumem números em um estatística, por exemplo, média, mediana, mínimo, máximo e desvio padrão. Permitem que tenhamos uma noção melhor dos dados mesmos que sejam muitos.

In [1]:
#Importando pandas
import pandas as pd

#Realizando a leitura do arquivo .csv e armazenando em sales
sales = pd.read_csv("datasets/sales_subset.csv")

#Deletando a coluna Unnamed: 0
sales = sales.drop("Unnamed: 0",axis=1)

sales.head()

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
1,1,A,1,2010-03-05,21827.9,False,8.055556,0.693452,8.106
2,1,A,1,2010-04-02,57258.43,False,16.816667,0.718284,7.808
3,1,A,1,2010-05-07,17413.94,False,22.527778,0.748928,7.808
4,1,A,1,2010-06-04,17558.09,False,27.05,0.714586,7.808


Iremos trabalhar com dados de lojas do Walmart, o DataFrame contém vendas semanais em dólares em várias lojas. Cada loja possui um número de identificação e um tipo de loja específico. As vendas também são separadas por ID de departamento e junto com as vendas semanais, há informações sobre se foi uma semana de feriádo ou não, a temperatura média durante a semana naqueles local, a média de preço do combustível em dólares por litro naquela semana, e a taxa nacional de desemprego naquela semana.

In [2]:
#Exibindo as informações sobre sales DataFrame
sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10774 entries, 0 to 10773
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   store                 10774 non-null  int64  
 1   type                  10774 non-null  object 
 2   department            10774 non-null  int64  
 3   date                  10774 non-null  object 
 4   weekly_sales          10774 non-null  float64
 5   is_holiday            10774 non-null  bool   
 6   temperature_c         10774 non-null  float64
 7   fuel_price_usd_per_l  10774 non-null  float64
 8   unemployment          10774 non-null  float64
dtypes: bool(1), float64(4), int64(2), object(2)
memory usage: 684.0+ KB


In [3]:
#Exibindo a média de weekly_sales
sales["weekly_sales"].mean()

23843.950148505668

In [4]:
#Exibindo a mediana de weekly_sales
sales["weekly_sales"].median()

12049.064999999999

Resumindo datas

In [5]:
#Exibindo o valor máximo da coluna date (venda mais recente)
sales["date"].max()

'2012-10-26'

In [6]:
#exibindo o valor mínimo da coluna date (primeira venda)
sales["date"].min()

'2010-02-05'

Resumos eficiente

O método .agg() permite aplicar suas próprias funções personalizadas a um DataFrame.

In [7]:
#Função IQR adaptada
def iqr (column):
    return column.quantile(0.75) - column.quantile(0.25)
#Exibindo IQR da coluna temperature_c
sales["temperature_c"].agg(iqr)

16.583333333333336

# Estatísticas cumulativas

As estatísticas cumulativas também podem ser úteis no rastreamento de estatísticas resumidas ao longo do tempo.

In [8]:
#Inicialmente filtra-se os dados de store 1 e departament 1, e criamos o dataframe sale_1_1
sales_1_1 = sales[ (sales["store"] == 1) & (sales["department"] == 1)]
sales_1_1.head()

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
1,1,A,1,2010-03-05,21827.9,False,8.055556,0.693452,8.106
2,1,A,1,2010-04-02,57258.43,False,16.816667,0.718284,7.808
3,1,A,1,2010-05-07,17413.94,False,22.527778,0.748928,7.808
4,1,A,1,2010-06-04,17558.09,False,27.05,0.714586,7.808


Calculando a soma acumulada e o máximo acumulado das vendas semanais de um departamento, o que permitirá identificar quais foram as vendas totais até o momento, bem como quais foram as vendas semanais mais altas até o momento.

In [9]:
#Ordenando por data
sales_1_1 = sales_1_1.sort_values("date")

#Calculando o somatório acumalitivo de weekly_sales e adicionando os dados em uma nova coluna cum_weekly_sales
sales_1_1["cum_weekly_sales"] = sales_1_1["weekly_sales"].cumsum()

#Obtendo o máximo cumulativo de weekly_sales, e adicione-o como uma coluna chamada cum_max_sales.
sales_1_1["cum_max_sales"] = sales_1_1["weekly_sales"].cummax()

#Exibindo apenas colunas calculadas 
sales_1_1[["date", "weekly_sales", "cum_weekly_sales", "cum_max_sales"]].head()

Unnamed: 0,date,weekly_sales,cum_weekly_sales,cum_max_sales
0,2010-02-05,24924.5,24924.5,24924.5
1,2010-03-05,21827.9,46752.4,24924.5
2,2010-04-02,57258.43,104010.83,57258.43
3,2010-05-07,17413.94,121424.77,57258.43
4,2010-06-04,17558.09,138982.86,57258.43


# Descartando valores duplicados

A remoção de duplicatas é uma habilidade essencial para obter contagens precisas porque, muitas vezes, você não deseja contar a mesma coisa várias vezes. 

In [14]:
#Descartando valores duplicados das colunas store e type
store_types = sales.drop_duplicates(subset=["store", "type"])
store_types

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
901,2,A,1,2010-02-05,35034.06,False,4.55,0.679451,8.324
1798,4,A,1,2010-02-05,38724.42,False,6.533333,0.686319,8.623
2699,6,A,1,2010-02-05,25619.0,False,4.683333,0.679451,7.259
3593,10,B,1,2010-02-05,40212.84,False,12.411111,0.782478,9.765
4495,13,A,1,2010-02-05,46761.9,False,-0.261111,0.704283,8.316
5408,14,A,1,2010-02-05,32842.31,False,-2.605556,0.735455,8.992
6293,19,A,1,2010-02-05,21500.58,False,-6.133333,0.780365,8.35
7199,20,A,1,2010-02-05,46021.21,False,-3.377778,0.735455,8.187
8109,27,A,1,2010-02-05,32313.79,False,-2.672222,0.780365,8.237


In [17]:
#Descartando valores duplicados das colunas store e departament 
store_depts = sales.drop_duplicates(subset=["store", "department"])
store_depts.head()

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
12,1,A,2,2010-02-05,50605.27,False,5.727778,0.679451,8.106
24,1,A,3,2010-02-05,13740.12,False,5.727778,0.679451,8.106
36,1,A,4,2010-02-05,39954.04,False,5.727778,0.679451,8.106
48,1,A,5,2010-02-05,32229.38,False,5.727778,0.679451,8.106


In [18]:
#Criando subset de linhas que contém is_holiday como true e datas duplicadas
holiday_dates = sales[sales["is_holiday"]].drop_duplicates(subset=["date"])
holiday_dates

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
498,1,A,45,2010-09-10,11.47,True,25.938889,0.677602,7.787
691,1,A,77,2011-11-25,1431.0,True,15.633333,0.854861,7.866
2315,4,A,47,2010-02-12,498.0,True,-1.755556,0.679715,8.623
6735,19,A,39,2012-09-07,13.41,True,22.333333,1.076766,8.193
6810,19,A,47,2010-12-31,-449.0,True,-1.861111,0.881278,8.067
6815,19,A,47,2012-02-10,15.0,True,0.338889,1.010723,7.943
6820,19,A,48,2011-09-09,197.0,True,20.155556,1.038197,7.806


# Contando variáveis categóricas

A função counting é uma ótima maneira de obter uma visão geral de seus dados e identificar informações que você pode não perceber de outra forma.  

In [21]:
#Contagem do número de lojas por tipo
store_counts = store_types["type"].value_counts()
store_counts

A    11
B     1
Name: type, dtype: int64

In [22]:
#Proporção de lojas de cada tipo
store_props = store_types["type"].value_counts(normalize=True)
store_props

A    0.916667
B    0.083333
Name: type, dtype: float64

In [24]:
#Contagem de números de cada departamento em ordem crescente.
dept_props_sorted = store_depts["department"].value_counts(sort=True)
dept_props_sorted.head()

1     12
55    12
72    12
71    12
67    12
Name: department, dtype: int64

In [26]:
#Proporção de cada departamentos em ordem descrecente.
depts_props_sorted = store_depts["department"].value_counts(normalize=True, sort=False)
depts_props_sorted.head()

1    0.012917
2    0.012917
3    0.012917
4    0.012917
5    0.012917
Name: department, dtype: float64