# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [1]:
import pandas as pd
import numpy as np

In [2]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [3]:
#Visualização do dataframe
df = black_friday
df.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [4]:
df.shape

(537577, 12)

In [5]:
df.dtypes

User_ID                         int64
Product_ID                     object
Gender                         object
Age                            object
Occupation                      int64
City_Category                  object
Stay_In_Current_City_Years     object
Marital_Status                  int64
Product_Category_1              int64
Product_Category_2            float64
Product_Category_3            float64
Purchase                        int64
dtype: object

In [6]:
df.nunique()

User_ID                        5891
Product_ID                     3623
Gender                            2
Age                               7
Occupation                       21
City_Category                     3
Stay_In_Current_City_Years        5
Marital_Status                    2
Product_Category_1               18
Product_Category_2               17
Product_Category_3               15
Purchase                      17959
dtype: int64

In [33]:
#Verificando o número de mulheres entre 26 e 35 anos
df['User_ID'][(df['Age'] == '26-35') & (df['Gender'] == 'F')].count()

49348

In [9]:
#Tipos de dados diferentes no dataframe
df.dtypes.nunique()

3

In [10]:
#Número de dados faltantes em cada coluna
df.isna().sum()

User_ID                            0
Product_ID                         0
Gender                             0
Age                                0
Occupation                         0
City_Category                      0
Stay_In_Current_City_Years         0
Marital_Status                     0
Product_Category_1                 0
Product_Category_2            166986
Product_Category_3            373299
Purchase                           0
dtype: int64

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
User_ID                       537577 non-null int64
Product_ID                    537577 non-null object
Gender                        537577 non-null object
Age                           537577 non-null object
Occupation                    537577 non-null int64
City_Category                 537577 non-null object
Stay_In_Current_City_Years    537577 non-null object
Marital_Status                537577 non-null int64
Product_Category_1            537577 non-null int64
Product_Category_2            370591 non-null float64
Product_Category_3            164278 non-null float64
Purchase                      537577 non-null int64
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


In [12]:
#Quantidade de registros com ao menos um dado faltante
df[df.isna().any(1)].shape[0]/df.shape[0]

0.6944102891306734

In [13]:
#Número de dados faltantes na coluna com maior quantidade de 'null'
df.isna().sum().max()

373299

In [14]:
#Dado com maior frequência na coluna 'Product_Category_3'
df['Product_Category_3'].value_counts().idxmax()

16.0

In [15]:
#Média da variável 'Purchase' após normalização pelo min e max
((df['Purchase'] - df['Purchase'].min()) / (df['Purchase'].max() - df['Purchase'].min())).mean()

0.3847939036269795

In [17]:
#Padronização da variável 'Purchase'
df_std = (df['Purchase'] - df['Purchase'].mean()) / df['Purchase'].std()
df_std.head()

0   -0.193506
1    1.177698
2   -1.588401
3   -1.661679
4   -0.274012
Name: Purchase, dtype: float64

In [18]:
#Quantidade de dados da variável 'Purchase' entre -1 e 1 após padronização
df_std[(df_std >= -1) & (df_std <= 1)].count()

348631

In [34]:
#Verificando se todos as observações 'null' de 'Product_Category_2' estão contidas no conjunto de observações 'null' de 'Product_Category_3'
df[df['Product_Category_2'].isnull()].index.isin(df[df['Product_Category_3'].isnull()].index).all()

True

## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [21]:
def q1():
    return df.shape

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [22]:
def q2():
    #int(black_friday[(black_friday['Age'] == '26-35') & (black_friday['Gender'] == 'F')].nunique()[0])
    return df['User_ID'][(df['Age'] == '26-35') & (df['Gender'] == 'F')].count()

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [23]:
def q3():
    return int(df.nunique()[0])

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [24]:
def q4():
    return df.dtypes.nunique()

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [25]:
def q5():
    return df[df.isna().any(1)].shape[0]/df.shape[0]

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [26]:
def q6():
    return int(df.isna().sum().max())

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [27]:
def q7():
    return df['Product_Category_3'].value_counts().idxmax()

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [28]:
def q8():
    mean_norm = ((df['Purchase'] - df['Purchase'].min()) / (df['Purchase'].max() - df['Purchase'].min())).mean()
    return float(mean_norm)

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [29]:
def q9():
    df_std = (df['Purchase'] - df['Purchase'].mean()) / df['Purchase'].std()
    return int(df_std[(df_std >= -1) & (df_std <= 1)].count())

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [30]:
def q10():
    comp = df[df['Product_Category_2'].isnull()].index.isin(df[df['Product_Category_3'].isnull()].index).all()
    return bool(comp)