# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [1]:
import pandas as pd
import numpy as np

In [2]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [3]:
black_friday.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [4]:
black_friday.shape

(537577, 12)

In [5]:
black_friday.columns

Index(['User_ID', 'Product_ID', 'Gender', 'Age', 'Occupation', 'City_Category',
       'Stay_In_Current_City_Years', 'Marital_Status', 'Product_Category_1',
       'Product_Category_2', 'Product_Category_3', 'Purchase'],
      dtype='object')

In [6]:
black_friday.dtypes

User_ID                         int64
Product_ID                     object
Gender                         object
Age                            object
Occupation                      int64
City_Category                  object
Stay_In_Current_City_Years     object
Marital_Status                  int64
Product_Category_1              int64
Product_Category_2            float64
Product_Category_3            float64
Purchase                        int64
dtype: object

In [7]:
black_friday.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   User_ID                     537577 non-null  int64  
 1   Product_ID                  537577 non-null  object 
 2   Gender                      537577 non-null  object 
 3   Age                         537577 non-null  object 
 4   Occupation                  537577 non-null  int64  
 5   City_Category               537577 non-null  object 
 6   Stay_In_Current_City_Years  537577 non-null  object 
 7   Marital_Status              537577 non-null  int64  
 8   Product_Category_1          537577 non-null  int64  
 9   Product_Category_2          370591 non-null  float64
 10  Product_Category_3          164278 non-null  float64
 11  Purchase                    537577 non-null  int64  
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


In [8]:
#mudando o nome do DF original para mexer sem estragar
dados = black_friday
dados.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


### Questão 1: Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple (n_observacoes, n_colunas).

In [9]:
#usando o shape do pandas
dados.shape

(537577, 12)

### Questão 2: Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [10]:
#verificando qual a porcentagem de mulheres e homens, just because
#o dataset tem aproximadamente 75% de homens e 25% de mulheres
dados['Gender'].value_counts(normalize=True)

M    0.754087
F    0.245913
Name: Gender, dtype: float64

In [11]:
#conferindo os tipos de Age
dados['Age'].unique()

array(['0-17', '55+', '26-35', '46-50', '51-55', '36-45', '18-25'],
      dtype=object)

In [12]:
#fazendo uma query do Pandas
mulheres_jovens = dados.query("Gender == 'F' and Age == '26-35'")
mulheres_jovens.shape[0]

49348

In [13]:
#incluindo a resposta numa variável
q2 = mulheres_jovens.shape[0]
q2

49348

### Questão 3: Quantos usuários únicos há no dataset? Responda como um único escalar.

In [14]:
#somando os usuários únicos usando a função nunique do pandas na coluna User_ID
#dados['User_ID'].nunique()
#colocando a resposta numa variável
q3 = dados['User_ID'].nunique()
q3

5891

### Questão 4: Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [15]:
#tentando usar o nunique com o dtypes
dados.dtypes.nunique()

3

In [16]:
#incluindo numa variável
q4 = dados.dtypes.nunique()
q4

3

### Questão 5: Qual porcentagem dos registros possui ao menos um valor null (None, ǸaN etc)? Responda como um único escalar entre 0 e 1.

In [17]:
#vamos ver um trem aqui
dados.isna()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,False,False,False,False,False,False,False,False,False,True,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,True,True,False
3,False,False,False,False,False,False,False,False,False,False,True,False
4,False,False,False,False,False,False,False,False,False,True,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...
537572,False,False,False,False,False,False,False,False,False,False,True,False
537573,False,False,False,False,False,False,False,False,False,False,False,False
537574,False,False,False,False,False,False,False,False,False,False,True,False
537575,False,False,False,False,False,False,False,False,False,True,True,False


In [None]:
#somando os dados não nulos
nao_nulos = dados.count().sum()
nao_nulos

In [None]:
#somando os dados nulos
nulos = dados.isna().sum().sum()
nulos

In [None]:
total_de_dados = nulos + nao_nulos

In [None]:
percentual = nulos/total_de_dados

## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [None]:
def q1():
    # Retorne aqui o resultado da questão 1.
    return black_friday.shape

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [None]:
def q2():
    # Retorne aqui o resultado da questão 2.
    return q2

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [None]:
def q3():
    # Retorne aqui o resultado da questão 3.
    return q3

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [None]:
def q4():
    # Retorne aqui o resultado da questão 4.
    return q4

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [None]:
def q5():
    # Retorne aqui o resultado da questão 5.
    return q5

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [None]:
def q6():
    # Retorne aqui o resultado da questão 6.
    return q6

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [None]:
def q7():
    # Retorne aqui o resultado da questão 7.
    return q7

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [None]:
def q8():
    # Retorne aqui o resultado da questão 8.
    return q8

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [None]:
def q9():
    # Retorne aqui o resultado da questão 9.
    return q9

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [None]:
def q10():
    # Retorne aqui o resultado da questão 10.
    return q10