# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [37]:
import numpy as np
import pandas as pd

In [38]:
df = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [39]:
df.head(5)

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [40]:
# colunas do dataset
df.columns

Index(['User_ID', 'Product_ID', 'Gender', 'Age', 'Occupation', 'City_Category',
       'Stay_In_Current_City_Years', 'Marital_Status', 'Product_Category_1',
       'Product_Category_2', 'Product_Category_3', 'Purchase'],
      dtype='object')

In [41]:
# informações sobre os dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   User_ID                     537577 non-null  int64  
 1   Product_ID                  537577 non-null  object 
 2   Gender                      537577 non-null  object 
 3   Age                         537577 non-null  object 
 4   Occupation                  537577 non-null  int64  
 5   City_Category               537577 non-null  object 
 6   Stay_In_Current_City_Years  537577 non-null  object 
 7   Marital_Status              537577 non-null  int64  
 8   Product_Category_1          537577 non-null  int64  
 9   Product_Category_2          370591 non-null  float64
 10  Product_Category_3          164278 non-null  float64
 11  Purchase                    537577 non-null  int64  
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


In [42]:
# verificados as colunas de categoria de produto
df[['Product_Category_1','Product_Category_2','Product_Category_3']].head(5)

Unnamed: 0,Product_Category_1,Product_Category_2,Product_Category_3
0,3,,
1,1,6.0,14.0
2,12,,
3,12,14.0,
4,8,,


In [43]:
# dados faltantes em todo dataset
df.isna().sum()

User_ID                            0
Product_ID                         0
Gender                             0
Age                                0
Occupation                         0
City_Category                      0
Stay_In_Current_City_Years         0
Marital_Status                     0
Product_Category_1                 0
Product_Category_2            166986
Product_Category_3            373299
Purchase                           0
dtype: int64

In [44]:
# verificando as dimensões do dataframe
df.shape

(537577, 12)

In [45]:
# contando o genero das pessoas
df.Gender.value_counts()

M    405380
F    132197
Name: Gender, dtype: int64

In [46]:
# contando faixe etaria 
df.Age.value_counts()

26-35    214690
36-45    107499
18-25     97634
46-50     44526
51-55     37618
55+       20903
0-17      14707
Name: Age, dtype: int64

In [47]:
df.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [48]:
# tipos de dados no dataframe
df.dtypes.unique()

array([dtype('int64'), dtype('O'), dtype('float64')], dtype=object)

In [49]:
# criando um novo dataframe
aux = pd.DataFrame({'Colunas': df.columns, 'Tipos':df.dtypes, 'ausentes': df.isna().sum()})

In [50]:
#percentual dados faltantes
aux['percentual'] = aux['ausentes'] / df.shape[0]

In [51]:
# valor que mais se repete no na coluna Product_Category_3
df.Product_Category_3.value_counts().head(1)

16.0    32148
Name: Product_Category_3, dtype: int64

In [52]:
# somando todos os valores da coluna ausentes
aux['ausentes'].sum()

540285

In [53]:
# percentual da coluna ausentes
aux['ausentes']/df.shape[0]

User_ID                       0.000000
Product_ID                    0.000000
Gender                        0.000000
Age                           0.000000
Occupation                    0.000000
City_Category                 0.000000
Stay_In_Current_City_Years    0.000000
Marital_Status                0.000000
Product_Category_1            0.000000
Product_Category_2            0.310627
Product_Category_3            0.694410
Purchase                      0.000000
Name: ausentes, dtype: float64

In [54]:
# soma dos valores ausentes
df.Product_Category_3.isna().sum()  

373299

In [55]:
df.Purchase

0          8370
1         15200
2          1422
3          1057
4          7969
          ...  
537572    11664
537573    19196
537574     8043
537575     7172
537576     6875
Name: Purchase, Length: 537577, dtype: int64

In [56]:
# novo dataframe
aux = pd.DataFrame({'Colunas': df.columns, 'Tipos':df.dtypes, 'ausentes': df.isna().sum()})

In [57]:
print(aux)

                                               Colunas    Tipos  ausentes
User_ID                                        User_ID    int64         0
Product_ID                                  Product_ID   object         0
Gender                                          Gender   object         0
Age                                                Age   object         0
Occupation                                  Occupation    int64         0
City_Category                            City_Category   object         0
Stay_In_Current_City_Years  Stay_In_Current_City_Years   object         0
Marital_Status                          Marital_Status    int64         0
Product_Category_1                  Product_Category_1    int64         0
Product_Category_2                  Product_Category_2  float64    166986
Product_Category_3                  Product_Category_3  float64    373299
Purchase                                      Purchase    int64         0


In [58]:
aux['ausentes']/df.shape[0]

User_ID                       0.000000
Product_ID                    0.000000
Gender                        0.000000
Age                           0.000000
Occupation                    0.000000
City_Category                 0.000000
Stay_In_Current_City_Years    0.000000
Marital_Status                0.000000
Product_Category_1            0.000000
Product_Category_2            0.310627
Product_Category_3            0.694410
Purchase                      0.000000
Name: ausentes, dtype: float64

In [59]:
result = df.shape

In [60]:
print(result)

(537577, 12)


In [61]:
df.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [62]:
def q1():
    return df.shape

In [63]:
q1()

(537577, 12)

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [64]:
def q2():
    faixa_etaria = df[df.Age == '26-35']
    mulheres = faixa_etaria[faixa_etaria.Gender == 'F']
    return len(mulheres.Gender)

In [65]:
q2()

49348

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [66]:
def q3():
    return df.User_ID.nunique()

In [67]:
q3()

5891

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [68]:
def q4():
    return df.dtypes.nunique()

In [69]:
q4()

3

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [70]:
def q5():
    return (df.shape[0] - df.dropna().shape[0])/df.shape[0]  

In [71]:
q5()

0.6944102891306734

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [72]:
def q6():
    return df.Product_Category_3.isna().sum()  

In [73]:
q6()

373299

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [74]:
def q7():
    return df['Product_Category_3'].value_counts().idxmax()

In [75]:
q7()

16.0

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [76]:
def q8():
    maximo = df['Purchase'].max()
    minimo = df['Purchase'].min()
    normalizado = (df['Purchase'] - minimo)/(maximo - minimo)
    return float(normalizado.mean())

In [77]:
q8()

0.3847939036269795

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [78]:
def q9():
    df['Purchase_nor'] = (df.Purchase - df.Purchase.mean())/df.Purchase.std()
    return len([i for i in df['Purchase_nor'] if i > -1 and i <1])

In [79]:
q9()

348631

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [80]:
def q10():
    soma = df['Product_Category_2'].isnull() != df['Product_Category_3'].isnull()
    result = soma.sum()> 0
    return result

In [81]:
q10()

True