<img src=codenation.png>

### AceleraDev - Data Science, 2020

# Desafio 1

Para esse desafio, vamos trabalhar com o dataset [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas.  
Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [1]:
import pandas as pd
import numpy as np

#### Importando os dados

In [2]:
black_friday = pd.read_csv("black_friday.csv")

#### Resumo

In [3]:
print("-----------Information-----------")
print(black_friday.info())

-----------Information-----------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   User_ID                     537577 non-null  int64  
 1   Product_ID                  537577 non-null  object 
 2   Gender                      537577 non-null  object 
 3   Age                         537577 non-null  object 
 4   Occupation                  537577 non-null  int64  
 5   City_Category               537577 non-null  object 
 6   Stay_In_Current_City_Years  537577 non-null  object 
 7   Marital_Status              537577 non-null  int64  
 8   Product_Category_1          537577 non-null  int64  
 9   Product_Category_2          370591 non-null  float64
 10  Product_Category_3          164278 non-null  float64
 11  Purchase                    537577 non-null  int64  
dtypes: float64(2), int64(5), object(5)
mem

In [4]:
print("-----------Data Types-----------")
print(black_friday.dtypes)

-----------Data Types-----------
User_ID                         int64
Product_ID                     object
Gender                         object
Age                            object
Occupation                      int64
City_Category                  object
Stay_In_Current_City_Years     object
Marital_Status                  int64
Product_Category_1              int64
Product_Category_2            float64
Product_Category_3            float64
Purchase                        int64
dtype: object


In [5]:
print("----------Missing value-----------")
print(black_friday.isnull().sum())

----------Missing value-----------
User_ID                            0
Product_ID                         0
Gender                             0
Age                                0
Occupation                         0
City_Category                      0
Stay_In_Current_City_Years         0
Marital_Status                     0
Product_Category_1                 0
Product_Category_2            166986
Product_Category_3            373299
Purchase                           0
dtype: int64


In [6]:
print("----------Null value-----------")
print(black_friday.isna().sum())

----------Null value-----------
User_ID                            0
Product_ID                         0
Gender                             0
Age                                0
Occupation                         0
City_Category                      0
Stay_In_Current_City_Years         0
Marital_Status                     0
Product_Category_1                 0
Product_Category_2            166986
Product_Category_3            373299
Purchase                           0
dtype: int64


In [7]:
print("----------Shape of Data----------")
print(black_friday.shape)

----------Shape of Data----------
(537577, 12)


O dataset contém 537577 linhas e 12 colunas, sendo que as colunas ```Product_Category_2``` e ```Product_Category_3``` contém dados faltantes.

## Inicie sua análise a partir daqui

In [8]:
# Utilização da função head() para visualizar os elementos do dataframe:
black_friday.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [9]:
# a função info() fornece uma visão geral do dataset, colunas, tipos de objetos, número de entradas, valores nulos
black_friday.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   User_ID                     537577 non-null  int64  
 1   Product_ID                  537577 non-null  object 
 2   Gender                      537577 non-null  object 
 3   Age                         537577 non-null  object 
 4   Occupation                  537577 non-null  int64  
 5   City_Category               537577 non-null  object 
 6   Stay_In_Current_City_Years  537577 non-null  object 
 7   Marital_Status              537577 non-null  int64  
 8   Product_Category_1          537577 non-null  int64  
 9   Product_Category_2          370591 non-null  float64
 10  Product_Category_3          164278 non-null  float64
 11  Purchase                    537577 non-null  int64  
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


In [10]:
# Solução da questão 1: 
# Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple (n_observacoes, n_colunas).
# Para responder diretamente a questão, é necessário chamar a função return:
black_friday.shape

(537577, 12)

In [11]:
# Utilizando a função value_counts para agrupar por idade
black_friday['Age'].value_counts()

26-35    214690
36-45    107499
18-25     97634
46-50     44526
51-55     37618
55+       20903
0-17      14707
Name: Age, dtype: int64

In [12]:
# Porém, para responder a questão 2, é necessário filtrar também por "gênero":
women = black_friday.query("Age == '26-35' & Gender == 'F'")
print (women['User_ID'].shape[0])

49348


In [13]:
# Checando o número de usuários únicos no dataset:
black_friday['User_ID'].nunique()

5891

In [14]:
# Somando o número de células com valores null:
print(black_friday.isnull().sum())

User_ID                            0
Product_ID                         0
Gender                             0
Age                                0
Occupation                         0
City_Category                      0
Stay_In_Current_City_Years         0
Marital_Status                     0
Product_Category_1                 0
Product_Category_2            166986
Product_Category_3            373299
Purchase                           0
dtype: int64


In [15]:
# Utilizando value_counts para agrupar o total de itens do "Product Category 3"
black_friday['Product_Category_3'].value_counts()

16.0    32148
15.0    27611
14.0    18121
17.0    16449
5.0     16380
8.0     12384
9.0     11414
12.0     9094
13.0     5385
6.0      4818
18.0     4563
4.0      1840
11.0     1773
10.0     1698
3.0       600
Name: Product_Category_3, dtype: int64

In [16]:
# Utilizando value_counts para agrupar os valores de "Purchase"
black_friday['Purchase'].value_counts()

6855     186
7011     185
6891     182
7193     182
6879     181
        ... 
10355      1
11303      1
18208      1
9516       1
3326       1
Name: Purchase, Length: 17959, dtype: int64

In [17]:
# Utilizando a função mean em "Purchase"
black_friday['Purchase'].mean().round(2)

9333.86

In [18]:
# Calculando standard deviation em "Purchase"
black_friday['Purchase'].std().round(2)

4981.02

In [19]:
# Calculando a porcentagem de registros com ao menos um valor null:
q5 = black_friday.isna().sum() / black_friday.shape[0]
print (float(q5.max().round(2)))

0.69


In [20]:
# Calculando a média após a normalização:
purch_norm = black_friday['Purchase']
purch_norm = (purch_norm - purch_norm.min()) / (purch_norm.max() - purch_norm.min())
print (float(purch_norm.mean().round(2)))

0.38


In [21]:
# Utilizando between para encontrar ocorrências entre -1 e 1 após a normalização de purchase:
purch_pad = black_friday['Purchase']
purch_pad = (purch_pad - purch_pad.mean()) / purch_pad.std()
    
print (purch_pad[purch_pad.between(-1, 1)].shape[0])

348631


In [22]:
# Verificando se null em Product Category 2 é num em Product Category 3:
category_null = black_friday[black_friday['Product_Category_2'].isna()][['Product_Category_2','Product_Category_3']]
print (bool(category_null.isnull().values.all()))

True


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [23]:
def q1():
    return black_friday.shape
print('RESPOSTA: No dataset há ' + str(q1()) + ' linhas e colunas, respectivamente.')

RESPOSTA: No dataset há (537577, 12) linhas e colunas, respectivamente.


## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [24]:
def q2():
    mulh_age = black_friday.query("Age == '26-35' & Gender == 'F'")
    return (mulh_age['User_ID'].shape[0])
print('RESPOSTA: Há '+ str(q2()) + ' mulheres com idades entre 26 e 35 anos.')

RESPOSTA: Há 49348 mulheres com idades entre 26 e 35 anos.


## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [25]:
def q3():
    return black_friday['User_ID'].nunique()
print('RESPOSTA: Há '+ str(q3()) + ' usuários únicos no dataset.')

RESPOSTA: Há 5891 usuários únicos no dataset.


## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [26]:
def q4():
    return black_friday.dtypes.nunique()
print('RESPOSTA: Há ' + str(q4()) + ' tipos de dados diferentes no dataset.') 

RESPOSTA: Há 3 tipos de dados diferentes no dataset.


## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [27]:
def q5():
    q5 = black_friday.isna().sum() / black_friday.shape[0]
    return float(q5.max().round(2))
print('RESPOSTA: ' + str(q5()*100) + '% dos registros possuem ao menos um valor nulo.')

RESPOSTA: 69.0% dos registros possuem ao menos um valor nulo.


## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [28]:
def q6():
    return int (black_friday.isnull().sum().max())
print('RESPOSTA: Na variável com o maior número de valores nulos, existe um total de ' + str(q6()) + ' valores nulos.')

RESPOSTA: Na variável com o maior número de valores nulos, existe um total de 373299 valores nulos.


## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [29]:
def q7():
    return float(black_friday['Product_Category_3'].dropna().mode())
print('RESPOSTA: O valor mais frequente (sem contar nulls) em Product_Category_3 é ' + str(q7())+ '.')

RESPOSTA: O valor mais frequente (sem contar nulls) em Product_Category_3 é 16.0.


## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [30]:
def q8():
    purch_norm = black_friday['Purchase']
    purch_norm = (purch_norm - purch_norm.min()) / (purch_norm.max() - purch_norm.min())
    return float(purch_norm.mean().round(2))
q8()

0.38

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [31]:
def q9():
    purch_pad = black_friday['Purchase']
    purch_pad = (purch_pad - purch_pad.mean()) / purch_pad.std()
    return purch_pad[purch_pad.between(-1, 1)].shape[0]
print('RESPOSTA: Existem ' + str(q9()) + ' ocorrências entre -1 e 1 da variável Purchase após a sua padronização.' )

RESPOSTA: Existem 348631 ocorrências entre -1 e 1 da variável Purchase após a sua padronização.


## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [32]:
def q10():
    category_null = black_friday[black_friday['Product_Category_2'].isna()][['Product_Category_2','Product_Category_3']]
    return bool(category_null.isnull().values.all())
print('Podemos afirmar que se uma observação é null em Product_Category_2, ela também é em Product_Category_3? RESPOSTA : ' + str(q10()))

Podemos afirmar que se uma observação é null em Product_Category_2, ela também é em Product_Category_3? RESPOSTA : True
