# Business Case - Desafio Ifood

## Introdução

O conjunto de dados é composto por clientes da empresa Ifood com dados sobre:

* Perfis de clientes
* Preferências do produto
* Sucessos/fracassos da campanha
* Desempenho do canal

O objetivo do Case é fazer uma análise exploratória destes dados e entender melhor o perfil de clientes da base.

## Entendimento do Case

### Objetivo

Os dados disponibilizados no case representam dados de campanha do aplicativo Ifood. Neste contexto, serei a pessoa responsável por análisar os dados para a empresa. O meu objetivo é:

* Fazer uma análise exploratória sobre os dados disponibilizados.
* Entender o perfil dos clientes da base disponibilizada.

### Premissas

## Entendimento dos Dados

### Setup Inicial

#### Bibliotecas

In [9]:
import pandas as pd

#### Funções

In [21]:
def soma_linhas_nao_nulas_por_prefixo(df: pd.DataFrame, prefixo: str) -> int:
    """
    Soma a quantidade de linhas não nulas de variáveis com prefixo determinado em argumento em um dataframe.

    Args:
      :df: Dataframe Pandas
      :prefixo: Prefixo das variáveis que serão somadas

    Returns:
      Soma das linhas não nulas das variáveis que contém o mesmo prefixo
    """

    colunas_com_prefixo = [coluna for coluna in df.columns if coluna.startswith(prefixo)]
    soma_linhas_nao_nulas = df[colunas_com_prefixo].count().sum()
    
    return soma_linhas_nao_nulas

### Coleta e Inspeção dos Dados

Os dados foram disponibilizados em um arquivo `csv`. Vamos carregar esse arquivo em um Dataframe e fazer inspeções para ter um entendimento inicial sobre os dados.

In [10]:
df = pd.read_csv('data/mkt_data.csv', encoding= 'utf-8')

In [11]:
df.head()

Unnamed: 0.1,Unnamed: 0,Income,Kidhome,Teenhome,Recency,MntWines,MntFruits,MntMeatProducts,MntFishProducts,MntSweetProducts,...,education_Graduation,education_Master,education_PhD,MntTotal,MntRegularProds,AcceptedCmpOverall,marital_status,education_level,kids,expenses
0,0,58138.0,0,0,58,635,88,546,172,88,...,3.0,,,1529,1441,0,Single,Graduation,0,1529
1,1,46344.0,1,1,38,11,1,6,2,1,...,3.0,,,21,15,0,Single,Graduation,2,21
2,2,71613.0,0,0,26,426,49,127,111,21,...,3.0,,,734,692,0,Together,Graduation,0,734
3,3,26646.0,1,0,26,11,4,20,10,3,...,3.0,,,48,43,0,Together,Graduation,1,48
4,4,58293.0,1,0,94,173,43,118,46,27,...,,,5.0,407,392,0,Married,PhD,1,407


* Quantidade de linhas e colunas

In [12]:
print(f"O dataframe tem {df.shape[0]} linhas e {df.shape[1]} colunas")

O dataframe tem 2205 linhas e 44 colunas


* Tipos de dados

In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2205 entries, 0 to 2204
Data columns (total 44 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Unnamed: 0            2205 non-null   int64  
 1   Income                2205 non-null   float64
 2   Kidhome               2205 non-null   int64  
 3   Teenhome              2205 non-null   int64  
 4   Recency               2205 non-null   int64  
 5   MntWines              2205 non-null   int64  
 6   MntFruits             2205 non-null   int64  
 7   MntMeatProducts       2205 non-null   int64  
 8   MntFishProducts       2205 non-null   int64  
 9   MntSweetProducts      2205 non-null   int64  
 10  MntGoldProds          2205 non-null   int64  
 11  NumDealsPurchases     2205 non-null   int64  
 12  NumWebPurchases       2205 non-null   int64  
 13  NumCatalogPurchases   2205 non-null   int64  
 14  NumStorePurchases     2205 non-null   int64  
 15  NumWebVisitsMonth    

As únicas variáveis que tem valores nulos, são as variáveis com prefixo marital e education, que se tratam de Estado Cívil e Grau de Educação. 

Vamos validar a hipótese de que a soma das variáveis com o mesmo prefixo vai retornar 2205, o número total de linhas. Para isso foi criada a função `soma_linhas_nao_nulas_por_prefixo` no **Setup Inicial** do projeto.

In [27]:
print(f"Linhas prefixo marital: {soma_linhas_nao_nulas_por_prefixo(df, 'marital') - 2205}")
print(f"Linhas prefixo education: {soma_linhas_nao_nulas_por_prefixo(df, 'education') - 2205}")


Linhas prefixo marital: 2205
Linhas prefixo education: 2205
