# Codenation - Data Science
<pre>Autor: Leonardo Simões</pre>

## Desafio 1 - Pré-processamento de dados em Python

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo. 

Neste desafio vamos praticar a manipulação de dados utilizando a biblioteca pandas. Manipulação de dados é uma das tarefas mais fundamentais para um cientista de dados e o pandas - biblioteca mais popular do Python no assunto - ajuda a tornar essa tarefa mais agradável.


### Objetivo

O objetivo deste desafio é extrair algumas informações quantitativas que nos ajudem a compreender a natureza dos dados à disposição e ganhar alguns insights sobre o data set.

Para isso, utilizaremos o data set Black Friday disponibilizado originalmente pela Analytics Vidhya e acessível publicamente através do Kaggle. O data set traz algumas variáveis relativas à transações comerciais realizadas durante a Black Friday em uma determinada loja de varejo. Cada observação é relativa a um determinado item comprado por um usuário e um usuário pode ter comprado mais de um item.
Tópicos

Neste desafios nós vamos explorar:

- Python
- Pandas
- Jupyter notebook

### Questões
<pre>
1) Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple (n_observacoes, n_colunas).
2) Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.
3) Quantos usuários únicos há no dataset? Responda como um único escalar.
4) Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.
5) Qual porcentagem dos registros possui ao menos um valor null (None, ǸaN etc)? Responda como um único escalar entre 0 e 1.
6) Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.
7) Qual o valor mais frequente (sem contar nulls) em Product_Category_3? Responda como um único escalar.
8) Qual a nova média da variável (coluna) Purchase após sua normalização? Responda como um único escalar.
9) Quantas ocorrências entre -1 e 1 inclusive existem da variáel Purchase após sua padronização? Responda como um único escalar.
10) Podemos afirmar que se uma observação é null em Product_Category_2 ela também o é em Product_Category_3? Responda com um bool (True, False).
</pre>


## Análise dos dados

In [1]:
import pandas as pd
import numpy as np

In [2]:
df_black_friday = pd.read_csv("black_friday.csv")
df_black_friday.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [3]:
df_black_friday.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   User_ID                     537577 non-null  int64  
 1   Product_ID                  537577 non-null  object 
 2   Gender                      537577 non-null  object 
 3   Age                         537577 non-null  object 
 4   Occupation                  537577 non-null  int64  
 5   City_Category               537577 non-null  object 
 6   Stay_In_Current_City_Years  537577 non-null  object 
 7   Marital_Status              537577 non-null  int64  
 8   Product_Category_1          537577 non-null  int64  
 9   Product_Category_2          370591 non-null  float64
 10  Product_Category_3          164278 non-null  float64
 11  Purchase                    537577 non-null  int64  
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [4]:
def q1():
    return df_black_friday.shape
q1()

(537577, 12)

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [5]:
def q2():
    return len(df_black_friday.query('Gender =="F" & Age=="26-35"'))
q2()

49348

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [6]:
def q3():
    return df_black_friday['User_ID'].nunique()
q3()

5891

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [7]:
def q4():
    return df_black_friday.dtypes.nunique()
q4()

3

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [8]:
def q5():
    num_valor_total = len(df_black_friday)
    num_valor_null = df_black_friday.shape[0] - df_black_friday.dropna().shape[0]
    return num_valor_null/num_valor_total
q5()

0.6944102891306734

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [9]:
def q6():
    return df_black_friday.isnull().sum().max()
q6()

373299

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [10]:
def q7():
    modes = df_black_friday.dropna()['Product_Category_3'].mode()
    return modes[0]
q7()

16.0

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [11]:
def normalizarColuna(coluna):
    c_max = coluna.max()
    c_min = coluna.min()
    return (coluna - c_min)/(c_max - c_min)

In [12]:
def q8():
    coluna_normalizada = normalizarColuna(df_black_friday['Purchase'])
    return coluna_normalizada.mean()
q8()

0.38479390362696736

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [13]:
def padronizarColuna(coluna):
    c_mean = coluna.mean()
    c_std = coluna.std()
    return (coluna - c_mean)/c_std

In [14]:
def q9():
    coluna_padronizada = padronizarColuna(df_black_friday['Purchase'])
    return ((coluna_padronizada >= -1) & (coluna_padronizada <= 1)).sum()
q9()

348631

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [15]:
def q10():
    df_aux = df_black_friday.query('Product_Category_2.isnull() & Product_Category_3.notnull()', engine='python')
    return len(df_aux) == 0
q10()

True