# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

Importando as Bibliotecas Pandas e Numpy e lendo a base de dados "black_friday.csv"

In [1]:
import pandas as pd
import numpy as np

pd.options.display.float_format = '{:,.2f}'.format

In [2]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [3]:
black_friday.head(5)

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [4]:
black_friday.describe()

Unnamed: 0,User_ID,Occupation,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
count,537577.0,537577.0,537577.0,537577.0,370591.0,164278.0,537577.0
mean,1002991.85,8.08,0.41,5.3,9.84,12.67,9333.86
std,1714.39,6.52,0.49,3.75,5.09,4.12,4981.02
min,1000001.0,0.0,0.0,1.0,2.0,3.0,185.0
25%,1001495.0,2.0,0.0,1.0,5.0,9.0,5866.0
50%,1003031.0,7.0,0.0,5.0,9.0,14.0,8062.0
75%,1004417.0,14.0,1.0,8.0,15.0,16.0,12073.0
max,1006040.0,20.0,1.0,18.0,18.0,18.0,23961.0


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [5]:
black_friday.shape

(537577, 12)

In [6]:
def q1():
    # Retorne aqui o resultado da questão 1.
    return (537577, 12)
    pass

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [7]:
# Utilizando a função query para pesquisar a quantidade de registros de mulheres de 26 à 36 anos.

woman_count = black_friday.query("Gender == 'F' & Age == '26-35' ")
print(f'Há no total {woman_count.shape[0]} registros de mulheres entre 26 e 35 anos')

Há no total 49348 registros de mulheres entre 26 e 35 anos


In [8]:
# É possivel agrupar todas as categorias para uma analise geral.

black_friday.groupby(by="Gender")["Age"].value_counts()

Gender  Age  
F       26-35     49348
        36-45     26420
        18-25     24057
        46-50     12856
        51-55      9634
        0-17       4953
        55+        4929
M       26-35    165342
        36-45     81079
        18-25     73577
        46-50     31670
        51-55     27984
        55+       15974
        0-17       9754
Name: Age, dtype: int64

* nota: A questão 2 pergunta quantas mulheres de 26 à 35 anos há na base de dados oque deveria levar a crer quantos ID unicos teria que é 545, entretanto o exercicio interpreta como o registro total.

In [9]:
woman_count[['User_ID', 'Gender', 'Age']].head(4)

Unnamed: 0,User_ID,Gender,Age
47,1000011,F,26-35
48,1000011,F,26-35
49,1000011,F,26-35
124,1000024,F,26-35


In [10]:
filtro = black_friday[(black_friday['Gender'] == 'F') & (black_friday['Age'] == '26-35')]
filtro['User_ID'].nunique()

545

In [11]:
def q2():
    # Retorne aqui o resultado da questão 2.
    return 49348
    pass

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [12]:
# df.nunique() retorna a quantidade de numeros unicos da variavel, df.unique() retorna os valaroes da coluna

black_friday['User_ID'].nunique()

5891

In [13]:
def q3():
    # Retorne aqui o resultado da questão 3.
    return 5891
    pass

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [14]:
black_friday.dtypes

User_ID                         int64
Product_ID                     object
Gender                         object
Age                            object
Occupation                      int64
City_Category                  object
Stay_In_Current_City_Years     object
Marital_Status                  int64
Product_Category_1              int64
Product_Category_2            float64
Product_Category_3            float64
Purchase                        int64
dtype: object

In [15]:
black_friday.dtypes.nunique()

3

In [16]:
def q4():
    # Retorne aqui o resultado da questão 4.
    return 3 
    pass

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [17]:
black_friday.columns

Index(['User_ID', 'Product_ID', 'Gender', 'Age', 'Occupation', 'City_Category',
       'Stay_In_Current_City_Years', 'Marital_Status', 'Product_Category_1',
       'Product_Category_2', 'Product_Category_3', 'Purchase'],
      dtype='object')

In [18]:
# df.isna retorna em valores boleanos (falso e verdadeiro) para valores nulos e df.sum() soma os valores verdadeiros.

black_friday.isna().sum()

User_ID                            0
Product_ID                         0
Gender                             0
Age                                0
Occupation                         0
City_Category                      0
Stay_In_Current_City_Years         0
Marital_Status                     0
Product_Category_1                 0
Product_Category_2            166986
Product_Category_3            373299
Purchase                           0
dtype: int64

In [19]:
# Usando a função query para pesquisar valores nulos usando o operador "!=" na coluna 2 "ou" 3.

na_lines = black_friday.query(
    'Product_Category_2 != Product_Category_2 | Product_Category_3 != Product_Category_3')
print(na_lines.shape)
na_lines[['Product_Category_2', 'Product_Category_3']].head(4)

(373299, 12)


Unnamed: 0,Product_Category_2,Product_Category_3
0,,
2,,
3,14.0,
4,,


In [20]:
# calculando a taxa de valores nulos sobre a quantidade de registro total.

na_rate = na_lines.shape[0] / black_friday.shape[0]
na_rate

0.6944102891306734

In [21]:
def q5():
    # Retorne aqui o resultado da questão 5.
    return 0.6944102891306734
    pass

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [22]:
# Resposta na questão 5, "Product_category_3"

def q6():
    # Retorne aqui o resultado da questão 6.
    return 373299
    pass

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [35]:
black_friday['Product_Category_3'].mode()

0   16.00
dtype: float64

In [36]:
black_friday['Product_Category_3'].mode()[0]

16.0

In [24]:
def q7():
    # Retorne aqui o resultado da questão 7.
    return 16
    pass

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

Aqui começa uma outra dúvida. Oque de fato significa a Normalização? 
Na biblioteca do SkLearn há o [*Normalizer*](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Normalizer.html#:~:text=Normalizer,-class%20sklearn.preprocessing&text=Normalize%20samples%20individually%20to%20unit,dense%20numpy%20arrays%20and%20scipy.).

Mas com alguns teste e com a ajuda da [comunidade](https://comunidade.codenation.dev/codenation/channels/ds-online-2), descobriu que se tratava do MinMaxScaler que é calcula com:

`X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min`.

* nota: A normalização é recomendada onde os valores se encontra fora da escala ou por exemplo em unidades diferentes, para não dar uma importancia maior para alguns dados.

In [25]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

#É nescessario transformar a serie do pandas numa serie do numpy com o df.to_numpy().reshape(-1,1) fazer a normalização.
purchase = black_friday['Purchase'].to_numpy().reshape(-1,1)

scaler_data = MinMaxScaler().fit_transform(purchase)
scaler_data

array([[0.34425471],
       [0.63151918],
       [0.05202725],
       ...,
       [0.33050135],
       [0.29386777],
       [0.28137618]])

In [26]:
scaler_mean = scaler_data.mean()
scaler_mean

0.3847939036269795

In [27]:
def q8():
    # Retorne aqui o resultado da questão 8.
    return 0.3847939036269795
    pass

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

* nota: Mesma situação da 8, só que aqui se utiliza o StandardScaler (que também se traduz como normalização escalar) com a formula `z = (x - u) / s` onde "u"(mi) é a media dos dados e "s"(sgima) assim puxando a media para 0.

In [28]:
transformer = StandardScaler().fit_transform(purchase)
transformer

array([[-0.19350662],
       [ 1.17769916],
       [-1.58840234],
       ...,
       [-0.25915586],
       [-0.43401973],
       [-0.4936461 ]])

In [29]:
transformer = pd.DataFrame(transformer, columns=['purchase'])
transformer.mean()

purchase   -0.00
dtype: float64

In [30]:
count_scaler = transformer.query('purchase >= -1 & purchase <= 1')
print(f'São {len(count_scaler)} ocorrências entre -1 e 1')

São 348631 ocorrências entre -1 e 1


In [31]:
def q9():
    # Retorne aqui o resultado da questão 9. resp = 348631
    return 348631
    pass

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

* note: Aqui eu selecionei todos os valores nulos da categoria 2. 
        O sinal de "=!" representa os nulos, o sinal "==" representa os inteiros.
* note: Utilizo a soma para verifica se há um numero inteiro nas duas colunas.
        Se ambas derem 0 é porque a afirmaão é verdadeira.

In [32]:
question10 = black_friday[(black_friday['Product_Category_2'] != black_friday['Product_Category_2'])][
    ['Product_Category_2', 'Product_Category_3']].sum()
question10

Product_Category_2   0.00
Product_Category_3   0.00
dtype: float64

In [33]:
if question10[0] == question10[1]:
    print(True)
else:
    print(False)

True


In [34]:
def q10():
    # Retorne aqui o resultado da questão 10.
    return True
    pass

# **Bonus** - EasterEgg
*Para quem estiver lendo até aqui, hoje dia **18/06** é meu **aniversário** =), se quiser comenta aí!!*