# Projeto Final

Você fazem parte do time de Data Science e Analytics da Popolishoshop e receberam uma base de dados contendo as infromações sobre a última Black Friday que ocorreu. O time de negócio solicitou para vocês um relatório, onde especificaram algumas informações e também um estudo para que vocês respondessem utilizando as bases fornecidas.

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo. Esse dataset está quebrado em diferentes arquivos e é sua função entender como cada um se relaciona com o outro.

Vamos utilizá-lo para praticar a exploração utilizando pandas.

Na tabela a seguir podemos ver os nomes das colunas e as descrições dos campos.

| Coluna                 | Descrição                                                 |
|------------------------|-----------------------------------------------------------|
| User_ID                | ID do usuário                                             |
| Product_ID             | ID do produto                                             |
| Gender                 | Sexo do usuário                                           |
| Age                    | Ano em intervalos                                         |
| Occupation             | Ocupação (mascarada)                                      |
| City_Category          | Categoria da cidade (A, B, C)                             |
| StayInCurrentCityYears | Número de anos de permanência na cidade atual             |
| Marital_Status         | Estado civil                                              |
| ProductCategory1       | Categoria do produto (Mascarada)                          |
| ProductCategory2       | Categoria que o produto pode pertencer também (Mascarada) |
| ProductCategory3       | Categoria que o produto pode pertencer também (Mascarada) |
| Purchase               | Valor da compra                                           | 

Todo o código desenvolvido deve ser pensado para ser reutilizado. A avaliação se dará executando todo o notebook com outra tabela, de mesmas colunas. Sendo assim, pensem na qualidade e reprodução do código.

## _Set up_ da análise

Faça a leitura das três bases fornecidas e junte-as em um único DataFrame.

Read the three files given and merge them in only one DataFrame.

In [1]:
# Importação das bibliotecas a serem utilizadas.
# Importing Pandas library to be use.

import pandas as pd
#from pandas_profiling import ProfileReport

In [2]:
# Leitura dos arquivos para DataFrame.
# Reading files to DataFrame.
product_info = pd.read_csv('product_info.csv',sep = ';')
purchase = pd.read_csv('purchase.csv', sep = ',')
user_profile = pd.read_csv('user_profile.csv', sep = '|')

In [3]:
# Mesclando os Dataframes product_info e purchase através da coluna em comum Product_ID, pelo método inner.
# Merging Dataframes product_info and purchase with common columnProduct_ID by inner.
first_merge = pd.merge(left = purchase, right = product_info,  on = 'Product_ID', how = 'inner')

In [4]:
# Mesclando os Dataframes user_profile com mergeDuasTabelas através da coluna em comum User_ID, pelo método inner.
# Merging Dataframes user_profile and first_merge with common column User_ID by inner.
dataset = pd.merge(left = first_merge, right = user_profile, on = 'User_ID', how = 'inner')


In [5]:
#dataset = pd.read_csv('base_avaliacao.csv')

## Questão 1

Quantas observações e quantas colunas há no dataset completo (todas as bases juntas)? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

How many observations e columns there are in the complete dataset (all files together)? The answer must given in a tuple `(n_observations, n_columns)`

In [6]:
#Respondendo à pergunta
#Finding how many rows and columns in dataset
rows = dataset.shape[0]
columns = dataset.shape[1]

rows,columns

(537577, 12)

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

How many women with age between 26 and 35 years there are in dataset? Answer in a unique scalar.

In [7]:
#Fazendo filtro do DataFrame nas colunas Gender, para separa apenas as mulheres, e Age, para separa o intervalo de idade.
#Finding women with age between 26 and 36 years, doing a filter in columns Gender and Age
women_age = dataset[(dataset['Gender'] == 'F') & (dataset['Age'] == "26-35")]

women_age.shape[0]

49348

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

Haw many unique users there are in the dataset? Answer in a unique scalar.

In [8]:
#Usando a função unique para descobrir os usuários únicos no dataset.
#Using unique function to find the unique user in dataset
unique_user = dataset["User_ID"].dropna().unique().shape[0]
unique_user

5891

## Questão 4

Qual porcentagem dos registros (percentual de linhas) possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

What the percentage of the registrys (percentage per rows) that have the least null value (`None`, `ǸaN` etc)? Answer in a scalar between 0 and 1.

In [9]:
# Utilizando as funções  dropna e shape para saber a porcentagem de linhas com NAN, Null ou None no dataset. 
# Using shape and dropna functions to know the rows percentage with NAN, null ou None value in dataset.

dataset_with_NAN = dataset.shape[0]
dataset_without_NAN = dataset.dropna(axis = 0).shape[0]

percentage_with_NAN = 1 - (dataset_without_NAN/dataset_with_NAN)

percentage_with_NAN

0.6944102891306734

## Questão 5

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

How many null values there are in a biggest null number variable (columns)? Answer in a unique scalar.

In [10]:
# Usando a função isnull() descobrimos quais valores do dataset são nulos ou não. Com a função sum() somamos
# a quantidade de valores nulos por coluna. Para saber o valor máximo de nulos por coluna usamos a função max().
# 
# To find how many null there is in dataset, we used the isnull() function, to know what values is null or not, then 
# make used a sum() function to sum the aumont of nulls. At least, we used the function max() to know the maximun null
# value there is in dataset.

dataset.isnull().sum().max()

373299

## Questão 6

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

What is the most frequence value (without nulls) in  `Product_Category_3`column? Answer with a unique scalar.

In [11]:
# Usamos a função value_counts() no dataset para saber o valor que mais se repete.A função retorna de forma decrescente
# quantas vezes os valores foram repetidos na coluna.
# Assim, para retornar o mais repetido, nós transformamos o retorno do value_counts() em um dataframe, usamos o 
# reset_index(), para trazer devolta a coluna da categoria e resgatamos o valor através da função iloc[]

# We used the value_counts() function in dataset to know the the most repeat value. The function gives in a descending form 
# how many times the value  in the column were repeat. 
# So, to return only the most repeat, we transform the value_counts() return in dataframe, used the function reset_index()
# to take back the column of categorys, then pick the wante value using the function iloc[index = 0, column = 0]. 

most_repeat_value = pd.DataFrame(dataset["Product_Category_3"].value_counts())
most_repeat_value.reset_index(inplace=True)
most_repeat_value.iloc[0, 0]

16.0

## Questão 7

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também é em `Product_Category_3`? Responda com um bool (`True`, `False`).

Can we say that if an observation is null in `Product_Category_2`, it will be in `Product_Category_3` too? Aswer with a bool (`True`, `False`).

In [12]:
# Para responder a pergunta, devemos verificar se há valor nulo em ambas as colunas, depois comparar com o dataset.

# To answer the question, we must take the null values in both columns, then compare to dataset. 


null_Category_2_AND_Category_3 = dataset[dataset["Product_Category_2"].isna() & dataset["Product_Category_3"].isna()]

dataset[dataset["Product_Category_2"].isna()].equals(null_Category_2_AND_Category_3)

True

## Questão 8

Qual o ID do usuário que mais gastou na Black Friday?

What User ID spent more in Black Friday?

In [13]:
# Agrupando as colunas User_ID com Purchase e transformando o resultado em DataFrame
# Gruping and summing up User_ID with Purchase and turning the result into a DataFrame
spent1 = pd.DataFrame(dataset.groupby('User_ID')['Purchase'].sum())

# Selecionando o valor máximo e atribuindo à variável spent2
# Selecting the max value and putting in a variable spent2
spent2 = dataset.groupby('User_ID')['Purchase'].sum().max()

# Filtranso os valores para ver a linha do usuário que mais gastou.
# Filtering the values to see the row of the spender user.
spender = spent1.loc[spent1["Purchase"] == spent2]

# Isolando o ID do usuário que mais gastou.
# isolating the ID of the spender.
spender.reset_index(inplace=True)
spender.iloc[0, 0]

1004277

## Questão 9

Qual grupo (homens ou mulheres) mais gastou na Black Friday?

Which group (men or women) spent the most on Black Friday?

In [14]:
# Usamos a função groupby() para agrupar e somar os valores das colunas para combiná-los, em seguida foi utilizada a 
# função max() e pd.DataFrame() para obter um DataFrame com o gênero que mais gastou.

# We used the groupby() function to agrup and sum the columns values and combine them. Then we use the max() function
# an pd.DataFrame() to get a DataFrame of spender Gender.

grouped_dataset = dataset.groupby('Gender')['Purchase'].sum()
grouped_dataset_df = pd.DataFrame(grouped_dataset.reset_index())
pd.DataFrame(grouped_dataset_df.max())

Unnamed: 0,0
Gender,M
Purchase,3853044357


## Questão 10

Faça uma nova tabela com a categoria mais comprada por cada cliente.

Do a new DataFrame with most bought category per client.

Obs: se ele comprou um produto que possuir valores nas três colunas de categorias, então deve-se considerar todas as categorias.

Note: If the client bought a product that have values in the three categorys, you have to consider all of them.

In [15]:
#Categoria_1 é um intervalo de 1 a 12
#Categoria_2 é um intervalo de 1 a 12
#Categoria_3 é um intervalo de 1 a 12

#Categoria_1: 2
#Categoria_2: 4
#Categoria_3: 1

In [16]:
# Fazendo uma cópia do dataframe original.

# Doing a dataframe copy from original.
new_dataset = dataset.copy()

In [17]:
# Separando as colunas necessárias para a análise.
# Separating the necessary columns for the analysis.

category_columns = new_dataset[["User_ID", "Product_Category_1", "Product_Category_2", "Product_Category_3"]]
category_columns

Unnamed: 0,User_ID,Product_Category_1,Product_Category_2,Product_Category_3
0,1000001,3,,
1,1000001,1,6.0,14.0
2,1000001,12,,
3,1000001,12,14.0,
4,1000001,1,8.0,17.0
...,...,...,...,...
537572,1002204,15,,
537573,1002204,11,15.0,
537574,1002204,11,15.0,
537575,1002204,15,16.0,


In [18]:
# Usando a função melt para organização dos dados.
# Using melt() function to organize the data.

melted_category_columns = pd.melt(category_columns, id_vars=["User_ID"])
melted_category_columns

Unnamed: 0,User_ID,variable,value
0,1000001,Product_Category_1,3.0
1,1000001,Product_Category_1,1.0
2,1000001,Product_Category_1,12.0
3,1000001,Product_Category_1,12.0
4,1000001,Product_Category_1,1.0
...,...,...,...
1612726,1002204,Product_Category_3,
1612727,1002204,Product_Category_3,
1612728,1002204,Product_Category_3,
1612729,1002204,Product_Category_3,


In [19]:
# Usando groupby() para obter informação de quantas compras foram feitas por categoria e usuário.
# Using groupby() to get the information about number of purchases was done per category and user.

grouped_melted_category_columns = melted_category_columns.groupby(["User_ID", "value"]).count()
grouped_melted_category_columns.head(30)


Unnamed: 0_level_0,Unnamed: 1_level_0,variable
User_ID,value,Unnamed: 2_level_1
1000001,1.0,4
1000001,2.0,3
1000001,3.0,11
1000001,4.0,13
1000001,5.0,5
1000001,6.0,2
1000001,8.0,13
1000001,9.0,2
1000001,12.0,8
1000001,14.0,3


In [20]:
# Organização do dataframe para melhor visualização dos dados.
# Organizing the dataframe to take a better data view.

UserID_Categorys = pd.pivot_table(grouped_melted_category_columns, index="User_ID", columns="value", aggfunc=sum).fillna(0)
UserID_Categorys.rename(columns = {'variable' : 'Category'}, inplace = True)

In [21]:
# Incluindo a coluna da categoria mais comprada ao dataframe resultante.
#Including the Most_Bought column to dataframe.

UserID_Categorys["Most_Bought"] = UserID_Categorys.idxmax(axis=1)
UserID_Categorys

Unnamed: 0_level_0,Category,Category,Category,Category,Category,Category,Category,Category,Category,Category,Category,Category,Category,Category,Category,Category,Category,Category,Most_Bought
value,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0,10.0,11.0,12.0,13.0,14.0,15.0,16.0,17.0,18.0,Unnamed: 19_level_1
User_ID,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2
1000001,4.0,3.0,11.0,13.0,5.0,2.0,0.0,13.0,2.0,0.0,0.0,8.0,0.0,3.0,1.0,2.0,2.0,0.0,"(Category, 4.0)"
1000002,31.0,9.0,0.0,0.0,15.0,9.0,0.0,46.0,1.0,1.0,2.0,0.0,3.0,10.0,7.0,14.0,7.0,1.0,"(Category, 8.0)"
1000003,15.0,15.0,1.0,1.0,15.0,0.0,0.0,6.0,0.0,0.0,2.0,0.0,0.0,3.0,1.0,2.0,0.0,4.0,"(Category, 1.0)"
1000004,13.0,4.0,0.0,0.0,0.0,1.0,0.0,2.0,1.0,0.0,2.0,0.0,0.0,2.0,5.0,3.0,1.0,0.0,"(Category, 1.0)"
1000005,18.0,5.0,2.0,4.0,26.0,9.0,5.0,57.0,0.0,1.0,5.0,2.0,4.0,13.0,6.0,21.0,2.0,0.0,"(Category, 8.0)"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1006036,81.0,41.0,14.0,26.0,140.0,34.0,7.0,209.0,8.0,11.0,39.0,9.0,16.0,73.0,79.0,65.0,15.0,6.0,"(Category, 8.0)"
1006037,14.0,5.0,0.0,2.0,25.0,12.0,0.0,61.0,4.0,4.0,4.0,1.0,8.0,16.0,14.0,38.0,9.0,1.0,"(Category, 8.0)"
1006038,0.0,0.0,2.0,0.0,6.0,0.0,0.0,6.0,0.0,0.0,1.0,0.0,0.0,4.0,0.0,0.0,3.0,0.0,"(Category, 5.0)"
1006039,7.0,6.0,11.0,9.0,36.0,1.0,0.0,13.0,3.0,3.0,1.0,20.0,12.0,11.0,2.0,7.0,2.0,1.0,"(Category, 5.0)"


In [22]:
# Construindo a nova tabela solicitada pela questão.
# Building the new dataframe requested by que question.

pd.DataFrame(UserID_Categorys.loc[1000001:,'Most_Bought'])

Unnamed: 0_level_0,Most_Bought
User_ID,Unnamed: 1_level_1
1000001,"(Category, 4.0)"
1000002,"(Category, 8.0)"
1000003,"(Category, 1.0)"
1000004,"(Category, 1.0)"
1000005,"(Category, 8.0)"
...,...
1006036,"(Category, 8.0)"
1006037,"(Category, 8.0)"
1006038,"(Category, 5.0)"
1006039,"(Category, 5.0)"


In [23]:
#        1 2 3 4 5 6 7 8 9 10 11 12
# 739273 1 1 0 1 0 0 0 0 0 0  0  0

## Questão 11

Normalize a coluna Purchase. A fórmula de normalização é:

Normalize the Purchase column. The formula is:

$$x_{norm} = \frac{x - x_{min}}{x_{max} - x_{min}} $$

In [24]:
# Aplicação da fórmula dada ao dataset
# Application of the formula given to the dataset.

x = dataset['Purchase']

normalizar = (x-x.min())/(x.max()-x.min())
pd.DataFrame(normalizar).head(20)

Unnamed: 0,Purchase
0,0.344255
1,0.631519
2,0.052027
3,0.036676
4,0.800555
5,0.532344
6,0.487214
7,0.457015
8,0.282848
9,0.410204


## Questão 12
O estado civil influencia no valor gasto e na categoria de produto comprada? Mostre!

The Marital Status influences in spent value and product category bought? Show it!

Se eu quisesse vender mais produtos da categoria 14, deveria investir em propagandas para qual estado civil?

If I wanna sell more products do category 14, should I invest in advertisements for which marital status?

In [25]:
# Demonstrando que o estado civil influencia SIM no valor gasto e na categoria de produto comprada. 
# Para análise dos dados, admitimos que o valor 0 da coluna Marital_Status é referente ao estado civil solteiro e 
# o valor 1 refere-se ao estado civil casado.

# Demonstrating that marital status does influence the amount spent and the category of product purchased.
# For data analysis, we assume that the value 0 of the Marital_Status column refers to single marital status and
# the value 1 refers to married marital status.

In [26]:
# Separação para análise das colunas Marital_Status, Product_Category_1, Product_Category_2 e Product_Category_3.
# Separation for analysis of columns Marital_Status, Product_Category_1, Product_Category_2 and Product_Category_3.

categorysXstatus = dataset[["Marital_Status", "Product_Category_1", "Product_Category_2", "Product_Category_3"]]
categorysXstatus

Unnamed: 0,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3
0,0,3,,
1,0,1,6.0,14.0
2,0,12,,
3,0,12,14.0,
4,0,1,8.0,17.0
...,...,...,...,...
537572,1,15,,
537573,1,11,15.0,
537574,1,11,15.0,
537575,1,15,16.0,


In [27]:
# Utilização da função melt() para facilitar a análise entre o estado civil e as categorias dos produtos comprados.
# Use of the melt() function to facilitate the analysis between marital status and categories of products purchased.

melted_categorysXstatus = pd.melt(categorysXstatus, id_vars=["Marital_Status"])
melted_categorysXstatus.head(5)

Unnamed: 0,Marital_Status,variable,value
0,0,Product_Category_1,3.0
1,0,Product_Category_1,1.0
2,0,Product_Category_1,12.0
3,0,Product_Category_1,12.0
4,0,Product_Category_1,1.0


In [28]:
# Agrupando das colunas Marital_Status e value (representa as categorias dos produtos comprados), em seguida somando o
# número de vezes que que cada value apareceu no DataFrame melted_categorysXstatus e retirando os valores nulos.

# Grouping the Marital_Status and value columns (represents the categories of purchased products), then adding the
# number of times each value appeared in the DataFrame melted_categorysXstatus and stripping the null values.

grouped_status_value = melted_categorysXstatus.groupby(["Marital_Status", "value"]).count().dropna()
grouped_status_value.head(5)

Unnamed: 0_level_0,Unnamed: 1_level_0,variable
Marital_Status,value,Unnamed: 2_level_1
0,1.0,83230
0,2.0,43401
0,3.0,14314
0,4.0,23823
0,5.0,114206


In [29]:
# Organizando os dados em DataFrame para melhor visualização dos dados, facilitando sua análise.

# Organizing the data in DataFrame for better visualization of the data, facilitating its analysis.

pivot_status_value = pd.pivot_table(grouped_status_value, index="Marital_Status", columns="value")
pivot_status_value

Unnamed: 0_level_0,variable,variable,variable,variable,variable,variable,variable,variable,variable,variable,variable,variable,variable,variable,variable,variable,variable,variable
value,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0,10.0,11.0,12.0,13.0,14.0,15.0,16.0,17.0,18.0
Marital_Status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
0,83230,43401,14314,23823,114206,24685,2369,108569,10672,5300,24066,10569,12208,43271,42129,50525,17234,5773
1,55123,28579,8970,14809,76640,16548,1914,79005,6737,4421,15612,7819,8986,30508,29002,33922,12912,4595


In [30]:
# Separação dos valores máximos de gastos por categoria e o estado civil que os realizou.

# Separation of the maximum amounts of expenditure by category and the marital status that incurred them.

max_spent_category = pd.DataFrame(pivot_status_value.max())
max_spent_category


Unnamed: 0_level_0,Unnamed: 1_level_0,0
Unnamed: 0_level_1,value,Unnamed: 2_level_1
variable,1.0,83230
variable,2.0,43401
variable,3.0,14314
variable,4.0,23823
variable,5.0,114206
variable,6.0,24685
variable,7.0,2369
variable,8.0,108569
variable,9.0,10672
variable,10.0,5300


In [31]:
# Visualização dos valores totais gastos por cada estado civil.

marital_status_spent = dataset.groupby('Marital_Status')['Purchase'].sum()
df_marital_status_spent = pd.DataFrame(marital_status_spent)
df_marital_status_spent


Unnamed: 0_level_0,Purchase
Marital_Status,Unnamed: 1_level_1
0,2966289500
1,2051378878


In [32]:
# Certificação de qual estado civil mais gastou.

# Certification of which marital status you spent the most.

Max_spent_Marital_Status = pd.DataFrame(df_marital_status_spent.max())
Max_spent_Marital_Status

Unnamed: 0,0
Purchase,2966289500


In [33]:
# Certificação de qual estado civil menos gastou.

# Certification of which marital status you spent the least.

min_spent_Marital_Status = pd.DataFrame(df_marital_status_spent.min())
min_spent_Marital_Status


Unnamed: 0,0
Purchase,2051378878


In [34]:
# Analisando em conjunto os DataFrames max_spent_category, que resultou nos maiores gastos pelo estado civil 0 (solteiro)
# e Max_spent_Marital_Status, que resultou em gasto maior do estado civil 0 (solteiro), conclui-se que
# o estado civil influencia tanto no total de gastos quanto nos gastos por categoria de produto comprado.

# Analyzing the max_spent_category DataFrames together, which resulted in the highest spending by marital status 0 (single)
# and Max_spent_Marital_Status, which resulted in higher spending of marital status 0 (single), it is concluded that
# Marital status influences both total expenses and expenses by category of product purchased.

Se eu quisesse vender mais produtos da categoria 14, deveria investir em propagandas para qual estado civil?

If I wanna sell more products do category 14, should I invest in advertisements for which marital status?

In [35]:
# Obtendo gastos do estado civil em relação ao produto da categoria 14.

# Obtaining marital status expenses in relation to category 14 product.

pd.DataFrame(pivot_status_value['variable', 14.0])

Unnamed: 0_level_0,variable
Unnamed: 0_level_1,14.0
Marital_Status,Unnamed: 1_level_2
0,43271
1,30508


In [36]:
# Analisando os dados acima apresentados, verificamos que o estado civil que menos comprou itens da categoria 14 foi
# o de valor 1 (casados), dessa forma, a fim de promover incremento nas compras de tal categoria, é  aconselhável realizar
# investimento maior em propagandas para tal público.

# Analyzing the data presented above, we found that the marital status that purchased the least items in category 14 was
# the value 1 (married), thus, in order to promote an increase in purchases of this category, it is advisable to carry out
# greater investment in advertisements for such an audience.

## Questão 13
Quais as variáveis que mais impactaram no valor da compra? Como você chegou a essa conclusão?

What variables most impacted the purchase price? How did you reach that conclusion?

In [37]:
dataset.head(40)


Unnamed: 0,User_ID,Product_ID,Purchase,Product_Category_1,Product_Category_2,Product_Category_3,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status
0,1000001,P00069042,8370,3,,,F,0-17,10,A,2,0
1,1000001,P00248942,15200,1,6.0,14.0,F,0-17,10,A,2,0
2,1000001,P00087842,1422,12,,,F,0-17,10,A,2,0
3,1000001,P00085442,1057,12,14.0,,F,0-17,10,A,2,0
4,1000001,P00184942,19219,1,8.0,17.0,F,0-17,10,A,2,0
5,1000001,P00085942,12842,2,4.0,8.0,F,0-17,10,A,2,0
6,1000001,P00110842,11769,1,2.0,5.0,F,0-17,10,A,2,0
7,1000001,P00058142,11051,3,4.0,12.0,F,0-17,10,A,2,0
8,1000001,P00258742,6910,5,,,F,0-17,10,A,2,0
9,1000001,P00051442,9938,8,17.0,,F,0-17,10,A,2,0


In [38]:
grouped_dataset = dataset.groupby('Gender')['Purchase'].sum()
grouped_dataset_Gender = pd.DataFrame(grouped_dataset.reset_index())
Gender = grouped_dataset_Gender.sort_values(by = 'Purchase', ascending=False)
Gender


Unnamed: 0,Gender,Purchase
1,M,3853044357
0,F,1164624021


In [39]:
# a = dataset.groupby('User_ID')['Gender'].unique().count()
# pd.DataFrame(dataset.groupby('Gender')['User_ID'].sum())
dataset_copy = dataset.copy()
dataset_copy.drop_duplicates(subset = ['User_ID'], ignore_index = True)
# dataset.groupby('Gender')['User_ID']
pd.DataFrame(dataset.groupby('Gender')['User_ID'].count())

Unnamed: 0_level_0,User_ID
Gender,Unnamed: 1_level_1
F,132197
M,405380


In [40]:
grouped_dataset = dataset.groupby('Age')['Purchase'].sum()
grouped_dataset_Age = pd.DataFrame(grouped_dataset.reset_index())
Age = grouped_dataset_Age.sort_values(by = 'Purchase', ascending=False)
Age


Unnamed: 0,Age,Purchase
2,26-35,1999749106
3,36-45,1010649565
1,18-25,901669280
4,46-50,413418223
5,51-55,361908356
6,55+,197614842
0,0-17,132659006


In [41]:
grouped_dataset = dataset.groupby('Occupation')['Purchase'].sum()
grouped_dataset_Occupation = pd.DataFrame(grouped_dataset.reset_index())

#ordenando do maior para o menor, usando como chavea coluna purchase
Occupation = grouped_dataset_Occupation.sort_values(by = 'Purchase', ascending=False)
Occupation


Unnamed: 0,Occupation,Purchase
4,4,657530393
0,0,625814811
7,7,549282744
1,1,414552829
17,17,387240355
12,12,300672105
20,20,292276985
14,14,255594745
16,16,234442330
2,2,233275393


In [42]:
grouped_dataset = dataset.groupby('City_Category')['Purchase'].sum()
grouped_dataset_City_Category = pd.DataFrame(grouped_dataset.reset_index())
City_Category = grouped_dataset_City_Category.sort_values(by = 'Purchase', ascending=False)
City_Category


Unnamed: 0,City_Category,Purchase
1,B,2083431612
2,C,1638567969
0,A,1295668797


In [46]:
grouped_dataset = dataset.groupby('Marital_Status')['Purchase'].sum()
grouped_dataset_Marital_Status = pd.DataFrame(grouped_dataset.reset_index())
Marital_Status = grouped_dataset_Marital_Status.sort_values(by = 'Purchase', ascending=False)

In [47]:
Marital_Status


Unnamed: 0,Marital_Status,Purchase
0,0,2966289500
1,1,2051378878


In [49]:
Marital_Status
City_Category
Stay_In_Current_City_Years
Occupation
Age
Gender



Unnamed: 0,Gender,Purchase
1,M,3853044357
0,F,1164624021


## Projeto em grupo feito com.

https://github.com/MariMilk
    
https://github.com/matheusgit1
