# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [231]:
import pandas as pd
import numpy as np

In [232]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [233]:
black_friday.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [234]:
black_friday.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   User_ID                     537577 non-null  int64  
 1   Product_ID                  537577 non-null  object 
 2   Gender                      537577 non-null  object 
 3   Age                         537577 non-null  object 
 4   Occupation                  537577 non-null  int64  
 5   City_Category               537577 non-null  object 
 6   Stay_In_Current_City_Years  537577 non-null  object 
 7   Marital_Status              537577 non-null  int64  
 8   Product_Category_1          537577 non-null  int64  
 9   Product_Category_2          370591 non-null  float64
 10  Product_Category_3          164278 non-null  float64
 11  Purchase                    537577 non-null  int64  
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


In [235]:
black_friday.describe()

Unnamed: 0,User_ID,Occupation,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
count,537577.0,537577.0,537577.0,537577.0,370591.0,164278.0,537577.0
mean,1002992.0,8.08271,0.408797,5.295546,9.842144,12.66984,9333.859853
std,1714.393,6.52412,0.491612,3.750701,5.087259,4.124341,4981.022133
min,1000001.0,0.0,0.0,1.0,2.0,3.0,185.0
25%,1001495.0,2.0,0.0,1.0,5.0,9.0,5866.0
50%,1003031.0,7.0,0.0,5.0,9.0,14.0,8062.0
75%,1004417.0,14.0,1.0,8.0,15.0,16.0,12073.0
max,1006040.0,20.0,1.0,18.0,18.0,18.0,23961.0


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

Referências:
- [pandas.DataFrame.shape](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html)

In [236]:
def q1():
    return black_friday.shape

# visualização do retorno
q1()

(537577, 12)

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

Referências:
- [select a subset of a DataFrame](https://pandas.pydata.org/pandas-docs/stable/getting_started/intro_tutorials/03_subset_data.html)

In [237]:
# quais são as idades das mulheres disponíveis no dataset?
black_friday[black_friday['Gender'] == 'F']['Age'].unique()

array(['0-17', '51-55', '36-45', '26-35', '18-25', '46-50', '55+'],
      dtype=object)

In [238]:
# filtro de gênero e filtro de idade sobre gênero
black_friday_female = black_friday[black_friday['Gender'] == 'F']
black_friday_female_age_26_35 = black_friday_female[black_friday_female['Age'] == '26-35']

In [239]:
def q2():
    return int(black_friday_female_age_26_35['Age'].count())

# visualização do retorno
q2()

49348

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

Referências:
- [pandas.DataFrame.nunique](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.nunique.html)

In [240]:
def q3():
    return black_friday['User_ID'].nunique()

# visualização do retorno
q3()

5891

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

Referências:
- [pandas.DataFrame.dtypes](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dtypes.html)
- [pandas.DataFrame.nunique](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.nunique.html)

In [241]:
def q4():
    return int(black_friday.dtypes.nunique()) 

# visualização do retorno
q4()

3

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

Referências:
- [pandas.DataFrame.dropna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html)
- [pandas.DataFrame.shape](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html)

In [242]:
def q5():
    # (total - quantidade_nao_nulos) = quantidade_nulos
    # (total - quantidade_nao_nulos) / total = porcentagens_nulos
    return (black_friday.shape[0] - black_friday.dropna().shape[0]) / black_friday.shape[0]

# visualização do retorno
q5()

0.6944102891306734

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

Referências: 
- [pandas.DataFrame.isna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isna.html)
- [pandas.DataFrame.sum](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sum.html)
- [pandas.DataFrame.max](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.max.html)

In [243]:
def q6():
    # Retorne aqui o resultado da questão 6.
    return int(black_friday.isna().sum().max())

# visualização do retorno
q6()

373299

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

Referências: 
- [pandas.Series.mode](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.mode.html)

In [244]:
def q7():
    # basta retornar a moda da coluna
    return float(black_friday['Product_Category_3'].mode())

# visualização do retorno
q7()

16.0

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

Referências: 
- [pandas.Series.min](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.min.html)
- [pandas.Series.max](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.max.html)
- [pandas.Series.mean](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.mean.html)

In [245]:
purchases_series = black_friday['Purchase'].copy()

In [246]:
def q8():
    # normalização pelo mínimo e máximo
    normalized_purchases = (purchases_series - purchases_series.min()) \
                        / (purchases_series.max() - purchases_series.min())
    return float(normalized_purchases.mean())

# visualização do retorno
q8()

0.3847939036269795

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

Referências: 
- [pandas.Series.mean](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.mean.html)
- [pandas.Series.std](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.std.html)
- [pandas.Series.between](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.between.html)

In [247]:
def q9():
    # (valor - media) / desvio_padrao
    standardized_purchases = (purchases_series - purchases_series.mean()) / purchases_series.std()
    
    return int(standardized_purchases.between(-1, 1).sum())

# visualização do retorno
q9()

348631

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

Referências: 
- [pandas.Series.isna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.isna.html)
- [pandas.Series.equals](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.equals.html)

In [248]:
def q10():
    # basta comparar as duas séries de nan
    return black_friday['Product_Category_2'].isna().equals(black_friday['Product_Category_2'].isna())
    
# visualização do retorno
q10()

True