# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [46]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

In [47]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

## VISUALIZAÇÃO DO DATASET

In [48]:
df=pd.read_csv('black_friday.csv')
df.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


## QUESTÃO 1: NÚMERO DE OBSERVAÇÕES, NÚMERO DE COLUNAS

In [49]:
df.shape

(537577, 12)

In [50]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   User_ID                     537577 non-null  int64  
 1   Product_ID                  537577 non-null  object 
 2   Gender                      537577 non-null  object 
 3   Age                         537577 non-null  object 
 4   Occupation                  537577 non-null  int64  
 5   City_Category               537577 non-null  object 
 6   Stay_In_Current_City_Years  537577 non-null  object 
 7   Marital_Status              537577 non-null  int64  
 8   Product_Category_1          537577 non-null  int64  
 9   Product_Category_2          370591 non-null  float64
 10  Product_Category_3          164278 non-null  float64
 11  Purchase                    537577 non-null  int64  
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


## VERIFICAÇÃO  DOS TIPOS DE ENTRADAS DE CADA FEATURE

In [51]:
col = df.columns

for i in col:
    print(f'{i}\n {df[i].value_counts()}\n')

User_ID
 1001680    1025
1004277     978
1001941     898
1001181     861
1000889     822
           ... 
1005810       6
1005391       6
1005608       6
1002111       6
1000708       5
Name: User_ID, Length: 5891, dtype: int64

Product_ID
 P00265242    1858
P00110742    1591
P00025442    1586
P00112142    1539
P00057642    1430
             ... 
P00143442       1
P00056542       1
P00133042       1
P00299042       1
P00338242       1
Name: Product_ID, Length: 3623, dtype: int64

Gender
 M    405380
F    132197
Name: Gender, dtype: int64

Age
 26-35    214690
36-45    107499
18-25     97634
46-50     44526
51-55     37618
55+       20903
0-17      14707
Name: Age, dtype: int64

Occupation
 4     70862
0     68120
7     57806
1     45971
17    39090
20    32910
12    30423
14    26712
2     25845
16    24790
6     19822
3     17366
10    12623
5     11985
15    11812
11    11338
19     8352
13     7548
18     6525
9      6153
8      1524
Name: Occupation, dtype: int64

City_Category
 B  

## ADEQUAÇÃO DO "TIPO" DE CADA FEATURE (DTYPE)

In [52]:
df.dtypes

User_ID                         int64
Product_ID                     object
Gender                         object
Age                            object
Occupation                      int64
City_Category                  object
Stay_In_Current_City_Years     object
Marital_Status                  int64
Product_Category_1              int64
Product_Category_2            float64
Product_Category_3            float64
Purchase                        int64
dtype: object

In [53]:
df2 = df.copy()
df2['Occupation'] = df2['Occupation'].astype('object')
df2['Stay_In_Current_City_Years'] = df2['Stay_In_Current_City_Years'].astype('object')
df2['Marital_Status'] = df2['Marital_Status'].astype('object')
df2['Product_Category_1'] = df2['Product_Category_1'].astype('object')
df2['Product_Category_2'] = df2['Product_Category_2'].astype('object')
df2['Product_Category_3'] = df2['Product_Category_3'].astype('object')
df2['Purchase'] = df2['Purchase'].astype('float64')
df2.dtypes

User_ID                         int64
Product_ID                     object
Gender                         object
Age                            object
Occupation                     object
City_Category                  object
Stay_In_Current_City_Years     object
Marital_Status                 object
Product_Category_1             object
Product_Category_2             object
Product_Category_3             object
Purchase                      float64
dtype: object

## QUESTÃO 2: NÚMERO DE MULHERES COM IDADE ENTRE 26 E 35

In [54]:
df_female = df['Gender']=='F'
df_26_35 = df['Age']=='26-35'
df_q2 = df[df_female & df_26_35]
df_q2.shape[0]

49348

## QUESTÃO 3: NÚMERO DE USUÁRIOS ÚNICOS

In [55]:
df['User_ID'].nunique()

5891

## QUESTÃO 4: NÚMERO DE TIPOS DE DADOS DIFERENTES NO DATASET

In [56]:
df.dtypes.nunique()

3

## QUESTÃO 5: PORCENTAGEM DE OBSERVAÇÕES COM PELO MENOS UM VALOR NULO

In [57]:
df_prod2_notnull = df['Product_Category_2'].notna()
df_prod3_notnull = df['Product_Category_3'].notna()
df_prod2_3_notnull = df[df_prod2_notnull & df_prod3_notnull]

#Qtd observações com pelo menos 1 valor nulo:
obs_nulos = len (df) - len(df_prod2_3_notnull)

#Porcentagem de observações com pelo menos 1 valor nulo:
percent_nulos = obs_nulos / len(df)
percent_nulos



0.6944102891306734

## QUESTÃO 6: NÚMERO DE NULL NA VARIÁVEL COM MAIOR NÚMERO DE NULL

In [58]:
df['Product_Category_3'].isnull().sum()

373299

# QUESTÃO 7: VALOR MAIS FREQUENTE (NOTNULL) NA VARIÁVEL Product_Category_3 

In [59]:
df['Product_Category_3'].value_counts()

16.0    32148
15.0    27611
14.0    18121
17.0    16449
5.0     16380
8.0     12384
9.0     11414
12.0     9094
13.0     5385
6.0      4818
18.0     4563
4.0      1840
11.0     1773
10.0     1698
3.0       600
Name: Product_Category_3, dtype: int64

## QUESTÃO 8: MÉDIA DA VARIÁVEL PURCHASE APÓS UMA NORMALIZAÇÃO

In [60]:
purchase = np.array(df.Purchase)
xmin=df['Purchase'].min()
xmax=df['Purchase'].max()

x_normalizado=[]

for x in purchase:
    xn = (x-xmin)/(xmax-xmin)
    x_normalizado.append(xn)
purchase_norm = pd.DataFrame(x_normalizado)
purchase_norm.describe()

Unnamed: 0,0
count,537577.0
mean,0.384794
std,0.209498
min,0.0
25%,0.238938
50%,0.3313
75%,0.5
max,1.0


## QUESTÃO 9: Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [61]:
purchase = np.array(df.Purchase)
media=df['Purchase'].mean()
desvio=df['Purchase'].std()

x_std=[]

for x in purchase:
    xs = (x-media)/desvio
    x_std.append(xs)
df['purchase_std'] = pd.DataFrame(x_std)
df.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase,purchase_std
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370,-0.193506
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200,1.177698
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422,-1.588401
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057,-1.661679
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969,-0.274012


In [62]:
p_maiormenos1 = df['purchase_std']>-1
p_menorigual1 = df['purchase_std']<=1
questao9 = df[p_maiormenos1 & p_menorigual1]
len(questao9['purchase_std'])

348631

## QUESTÃO 10: Podemos afirmar que se uma observação é null em Product_Category_2 ela também o é em Product_Category_3 ?

In [63]:
prod2_null = df['Product_Category_2'].isnull()
prod3_notnull = df['Product_Category_3'].notnull()
len(df[prod2_null & prod3_notnull])

0

## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [75]:
def q1():
    return (537577, 12)

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [65]:
def q2():
    return 49348

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [66]:
def q3():
    return 891

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [67]:
def q4():
    return 3

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [68]:
def q5():
    return 0.6944102891306734

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [69]:
def q6():
    return 373299

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [70]:
def q7():
    return 16

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [71]:
def q8():
    return 0.384794

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [72]:
def q9():
    return 348631

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [73]:
def q10():
    return True