# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [133]:
import pandas as pd
import numpy as np

In [134]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

Analisando a estrutura dos dados que serão utilizados nesse exercício:

In [135]:
black_friday.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   User_ID                     537577 non-null  int64  
 1   Product_ID                  537577 non-null  object 
 2   Gender                      537577 non-null  object 
 3   Age                         537577 non-null  object 
 4   Occupation                  537577 non-null  int64  
 5   City_Category               537577 non-null  object 
 6   Stay_In_Current_City_Years  537577 non-null  object 
 7   Marital_Status              537577 non-null  int64  
 8   Product_Category_1          537577 non-null  int64  
 9   Product_Category_2          370591 non-null  float64
 10  Product_Category_3          164278 non-null  float64
 11  Purchase                    537577 non-null  int64  
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


In [136]:
black_friday.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [141]:
print('Observações:', black_friday.shape[0], 'Colunas: ', black_friday.shape[1])
(n_observacoes, n_colunas) = black_friday.shape

Observações: 537577 Colunas:  12


In [140]:
def q1():
    return (n_observacoes, n_colunas)

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

1) Analisando como estão os dados na coluna `Age`:

In [27]:
print('Número de valores null: ', black_friday['Age'].isna().sum())
black_friday['Age'].unique()

Número de valores null:  0


array(['0-17', '55+', '26-35', '46-50', '51-55', '36-45', '18-25'],
      dtype=object)

2) Analisando como estão os dados na coluna `Gender`

In [28]:
print('Número de valores null: ', black_friday['Gender'].isna().sum())
black_friday['Gender'].unique()

Número de valores null:  0


array(['F', 'M'], dtype=object)

3) Para esse caso, resolvi criar uma codificação para os sexos, para me permitir somar os valores e descobrir o número de mulheres entre 26-35 anos. Assim, 'M' recebeu o valor 0 e 'F' recebeu o valor 1

In [17]:
black_friday['Gender_code'] = [1 if x == 'F'else 0 for x in black_friday['Gender']]
black_friday['Gender_code']

0         1
1         1
2         1
3         1
4         0
         ..
537572    0
537573    0
537574    0
537575    0
537576    0
Name: Gender_code, Length: 537577, dtype: int64

4) Agrupando os resultados pela faixa de idade e somando os valores da coluna `Gender_code`

In [19]:
Age_Gender = black_friday.groupby('Age')['Gender_code'].sum()
Age_Gender

Age
0-17      4953
18-25    24057
26-35    49348
36-45    26420
46-50    12856
51-55     9634
55+       4929
Name: Gender_code, dtype: int64

In [5]:
def q2():
    return int(Age_Gender['26-35'])

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [31]:
print('Numero de usuarios unicos:' ,black_friday['User_ID'].unique().shape[0])

Numero de usuarios unicos: 5891


In [25]:
def q3():
    return black_friday['User_ID'].unique().shape[0]

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

Contando os tipos diferentes de dados existem no dataset 

A tabela info no início mostra os detalhes de cada dado

In [32]:
print('Numero de dados diferentes: ', black_friday.dtypes.value_counts().shape[0])

Numero de dados diferentes:  3


In [7]:
def q4():
    return black_friday.dtypes.value_counts().shape[0]

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

1) Analisando a porcentagem de valores null no dataset

In [36]:
(black_friday.isna().sum()/black_friday.shape[0])*100

User_ID                        0.000000
Product_ID                     0.000000
Gender                         0.000000
Age                            0.000000
Occupation                     0.000000
City_Category                  0.000000
Stay_In_Current_City_Years     0.000000
Marital_Status                 0.000000
Product_Category_1             0.000000
Product_Category_2            31.062713
Product_Category_3            69.441029
Purchase                       0.000000
Gender_code                    0.000000
dtype: float64

2) Contando quantas linhas distintas apresentam não apresentam valores null

In [55]:
print('Linhas sem o valor null:',black_friday.dropna().shape[0])

Linhas sem o valor null: 164278


3) Calculando qual a porcentagem de registros possuem pelo menos um valor null

In [43]:
print('Porcentagem:', 1-(black_friday.dropna().shape[0]/black_friday.shape[0]))

Porcentagem: 0.6944102891306734


In [41]:
def q5():
    return 1-(black_friday.dropna().shape[0]/black_friday.shape[0])

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [50]:
print('Numero de valores:',black_friday.isna().sum().max())

Numero de valores: 373299


In [45]:
def q6():
    return int(black_friday.isna().sum().max())

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [52]:
print('Valor mais frequente:', int(black_friday['Product_Category_3'].mode()[0]))

Valor mais frequente: 16


In [53]:
def q7():
    return int(black_friday['Product_Category_3'].mode()[0])

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

1) Avaliando a média atual da coluna `Purchase`

In [57]:
print('Media da coluna Purchase:', black_friday['Purchase'].mean())

Media da coluna Purchase: 9333.859852635065


2) Realizando a normalização dos dados

In [64]:
num = black_friday['Purchase']-black_friday['Purchase'].min()
den = black_friday['Purchase'].max()-black_friday['Purchase'].min()
norm = num/den

3) Calculando a nova média

In [65]:
print('Media da coluna Purchase apos normalizacao:', norm.mean())

Media da coluna Purchase apos normalizacao: 0.3847939036269795


In [66]:
def q8():
    return float(norm.mean())

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

1) Realizando a padronização dos itens da coluna `Purchase`

In [117]:
padr = (black_friday['Purchase'] - black_friday['Purchase'].mean())/black_friday['Purchase'].std()

2) Analisando quais valores estão entre -1 e 1

In [120]:
conjunto = [x for x in padr if abs(x)<=1] # a função abs retorna o módulo do numero
print('Numero de itens entre 1 e -1:',len(conjunto))

Numero de itens entre 1 e -1: 348631


In [121]:
def q9():
    return len(conjunto)

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

1) Filtrando o dataset com os registros que tem o valor null na coluna `Product_Category_2`

In [124]:
null_cat2 = black_friday.loc[lambda black_friday: black_friday['Product_Category_2'].isna() == True]

2) No dataset filtrado `null_cat2`, conta-se quantos valores null existem na coluna `Product_Category_3`. Após isso, dividi o valor de null encontrados pelo número total de registros que temos no dataset `null_cat2`.
Se o número de linhas com null for igual ao total de linhas no novo dataset isso implica que todas as linhas com null da coluna `Product_Category_2` também são null em `Product_Category_3`

In [130]:
number = null_cat2['Product_Category_3'].isna().sum()/len(null_cat2['Product_Category_3'])
if number ==1:
    print('Observação null em Prd_Cat2 é em Prd_Cat3?', True)
else:
   print('Observação null em Prd_Cat2 é em Prd_Cat3?', False)

Observação null em Prd_Cat2 é em Prd_Cat3? True


In [126]:
def q10():
    if number == 1:
        return True
    else:
        return False