Análise inicial

In [1]:
import pandas as pd
import plotly.express as px

In [None]:
df = pd.read_excel('../data/raw/iFood.xlsx')

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.info()

In [None]:
df.shape

In [None]:
df.columns

In [None]:
df.isnull().sum()

In [None]:
df.value_counts()

In [None]:
df.describe(include='object')

---

Preprocessamento e Limpeza

In [None]:
df.columns

In [None]:
df['MntRegularProds'].head()

In [None]:
# removendo os produtos regulares comprados e os registros da aceitação do cliente

df.drop(columns=['MntRegularProds','AcceptedCmp1', 'AcceptedCmp2', 'AcceptedCmp3',
       'AcceptedCmp4', 'AcceptedCmp5', 'AcceptedCmpOverall'], inplace=True)

In [None]:
df.columns

In [None]:
df.head()

In [None]:
df.rename(columns={
    'Index': 'ID',
    'Income': 'Salario',
    'Age': 'Idade',
    'Customer_Days': 'Dias-Cliente',
    'marital_status': 'Estado_Civil',
    'education': 'Formação',
    'Kidhome': 'Criancas-Casa',
    'Teenhome': 'Adolescentes-Casa',
    'Recency': 'Recencia',
    'MntWines': 'Qtde-Vinhos',
    'MntFruits': 'Qtde-Frutas',
    'MntMeatProducts': 'Qtde-Carnes',
    'MntFishProducts': 'Qtde-Peixes',
    'MntSweetProducts': 'Qtde-Doces',
    'MntGoldProds': 'Qtde-Premium',
    'MntTotal': 'Gasto-Cliente',
    'NumDealsPurchases': 'Qtde-Compras',
    'NumWebPurchases': 'Qtde-Compras-Web',
    'NumCatalogPurchases': 'Qtde-Compras-Catalogo',
    'NumStorePurchases': 'Qtde-Compras-Loja',
    'NumWebVisitsMonth': 'Visitas-Site-Mes',
    'Complain': 'Reclamacoes',
}, inplace=True)

In [None]:
df['ID'] = df['ID'] - 1000

df['ID'].unique()

In [None]:
df.columns

In [None]:
df['Formação'].unique()

In [None]:
df['Formação'] = df['Formação'].replace({
    'Graduation': 'Graduação',
    'PHD': 'Doutorado',
    'Master': 'Mestrado',
    'Basic': 'Fundamental',
    '2n Cycle': 'Medio'
})

In [None]:
df['Estado_Civil'].unique()

In [None]:
df['Estado_Civil'] = df['Estado_Civil'].replace({
    'Single': 'Solteiro',
    'Together': 'Namorando',
    'Married': 'Casado',
    'Divorced': 'Divorciado',
    'Widow': 'Viúvo(a)'
})

In [None]:
caixas = [20, 30, 40, 50, 60, 70, 80]

rotulos = [
    '21-30', '31-40','41-50','51-60','61-70','71-80'
]

df['Faixa-Etaria'] = pd.cut(df['Idade'], bins=caixas, labels=rotulos, right=True, include_lowest=True)

In [None]:
df.columns

In [None]:
ordem = [
    'ID', 'Salario', 'Idade', 'Faixa-Etaria', 'Estado_Civil', 'Formação', 'Criancas-Casa',
    'Adolescentes-Casa', 'Recencia', 'Qtde-Vinhos', 'Qtde-Frutas', 'Qtde-Carnes', 'Qtde-Peixes',
    'Qtde-Doces', 'Qtde-Premium', 'Qtde-Compras', 'Qtde-Compras-Web','Qtde-Compras-Catalogo',
    'Qtde-Compras-Loja', 'Visitas-Site-Mes', 'Reclamacoes', 'Gasto-Cliente'
]

df = df[ordem]

In [None]:
df.head()

In [None]:
df.to_csv('../data/processed/iFood.csv')

In [None]:
df.to_parquet('../data/processed/iFood.parquet')

---

Análise Exploratória

In [2]:
df = pd.read_parquet('../data/processed/iFood.parquet')

In [3]:
df.columns

Index(['ID', 'Salario', 'Idade', 'Faixa-Etaria', 'Estado_Civil', 'Formação',
       'Criancas-Casa', 'Adolescentes-Casa', 'Recencia', 'Qtde-Vinhos',
       'Qtde-Frutas', 'Qtde-Carnes', 'Qtde-Peixes', 'Qtde-Doces',
       'Qtde-Premium', 'Qtde-Compras', 'Qtde-Compras-Web',
       'Qtde-Compras-Catalogo', 'Qtde-Compras-Loja', 'Visitas-Site-Mes',
       'Reclamacoes', 'Gasto-Cliente'],
      dtype='object')

In [5]:
# Hipótese 1. Clientes abaixo dos 30 anos gastam mais com produtos do iFood do que as outras
# faixas etárias.

gasto_etario = pd.pivot_table(
    df,
    index='Faixa-Etaria',
    values='Gasto-Cliente',
    aggfunc='sum'
).reset_index()

gasto_etario['Percentual'] = (gasto_etario['Gasto-Cliente'] / gasto_etario['Gasto-Cliente'].sum()) * 100

gasto_etario['Percentual'] = gasto_etario['Percentual'].apply(lambda x: f"{x:.2f}%")

fig = px.bar(
    gasto_etario,
    x='Faixa-Etaria',
    y='Gasto-Cliente',
    text=gasto_etario['Gasto-Cliente'].apply(lambda x: f"R$ {x:,.2f}".replace(",", "X").replace(".", ",").replace("X", ".")),
    color_discrete_sequence=['royalblue']
)

fig.update_layout(
    title={
        'text': 'Clientes abaixo dos 30 anos gastam menos com produtos do iFood do que as outras faixas etárias.',
        'x': 0.5
    },
    xaxis_title='Faixa-Etaria',
    yaxis_title='SUM de Gasto-Cliente',
    yaxis_tickprefix='R$ ',
    yaxis_tickformat=',.0f',
    plot_bgcolor='white',
    showlegend=False
)

fig.show()





In [6]:
# Hipótese 2. Clientes solteiros gastam menos do que os outros segmentos de clientes.

gasto_civil = pd.pivot_table(
    df,
    index='Estado_Civil',
    values='Gasto-Cliente',
    aggfunc='sum'
).reset_index()

gasto_civil['Percentual'] = (gasto_civil['Gasto-Cliente'] / gasto_civil['Gasto-Cliente'].sum()) * 100

gasto_civil['Percentual'] = gasto_civil['Percentual'].apply(lambda x: f"{x:.2f}%")

gasto_civil['Estado_Civil'] = pd.Categorical(
    gasto_civil['Estado_Civil'],
    categories=['Solteiro', 'Namorando', 'Casado', 'Divorciado', 'Viúvo(a)', 'Total'],
    ordered=True
)

gasto_civil = gasto_civil.sort_values('Estado_Civil')

fig = px.bar(
    gasto_civil,
    x='Estado_Civil',
    y='Gasto-Cliente',
    text=gasto_civil['Gasto-Cliente'].apply(lambda x: f"R$ {x:,.2f}".replace(",", "X").replace(".", ",").replace("X", ".")),
    color_discrete_sequence=['royalblue']
)

fig.update_layout(
    title={
        'text': 'Clientes solteiros gastam menos do que os outros segmentos de clientes.',
        'x': 0.5
    },
    xaxis_title='Estado Civil',
    yaxis_title='SUM de Gasto-Cliente',
    yaxis_tickprefix='R$ ',
    yaxis_tickformat=',.0f',
    plot_bgcolor='white',
    showlegend=False
)

fig.show()

In [7]:
# Hipótese 3. Clientes solteiros abaixo dos 30 anos gastam mais com produtos do iFood
# do que as outras faixas etárias.

gasto_etario_civil = pd.pivot_table(
    df,
    index='Faixa-Etaria',
    columns='Estado_Civil',
    values='Gasto-Cliente',
    aggfunc='sum'
)

gasto_etario_civil['Total'] = gasto_etario_civil.sum(axis=1)

ordem = ['Solteiro', 'Namorando', 'Casado', 'Divorciado', 'Viúvo(a)', 'Total']

gasto_etario_civil = gasto_etario_civil[ordem]

gasto_etario_civil_reset = gasto_etario_civil.reset_index().melt(
    id_vars='Faixa-Etaria',
    var_name='Estado_Civil',
    value_name='Gasto-Cliente'
)

# Remover Total
gasto_etario_civil_reset = gasto_etario_civil_reset[gasto_etario_civil_reset['Estado_Civil'] != 'Total']

# Criar o gráfico
fig = px.bar(
    gasto_etario_civil_reset,
    x='Faixa-Etaria',
    y='Gasto-Cliente',
    color='Estado_Civil',
    barmode='group',
    color_discrete_sequence=px.colors.qualitative.Set2
)

fig.update_layout(
    title={
        'text': 'Clientes solteiros abaixo dos 30 anos gastam mais com produtos do iFood do que as outras faixas etárias.',
        'x': 0.5
    },
    xaxis_title='Faixa Etária',
    yaxis_title='SUM de Gasto-Cliente',
    yaxis_tickprefix='R$ ',
    yaxis_tickformat=',.0f',
    plot_bgcolor='white',
    bargap=0.15
)

fig.show()





In [8]:
# Hipótese 4. Clientes com crianças em casa compram mais pelo ifood.

gasto_criancas = pd.pivot_table(
    df,
    index='Criancas-Casa',
    values='Gasto-Cliente',
    aggfunc='sum'
)

gasto_criancas
gasto_criancas_reset = gasto_criancas.reset_index()

fig = px.pie(
    gasto_criancas_reset,
    names='Criancas-Casa',
    values='Gasto-Cliente',
    color_discrete_sequence=px.colors.qualitative.Set2
)

fig.update_traces(
    # textposition='inside',
    # textinfo='percent+label',
    hovertemplate='Crianças em Casa: %{label}<br>Gasto: R$ %{value:,.0f}<extra></extra>'
)

fig.add_annotation(
    text='Clientes sem filgos em casa representam 86% de todo o faturamento da campanha',
    xref="paper", yref="paper",
    x=0.5, y=-0.15,
    showarrow=False,
    font=dict(size=12),
    align="center"
)

fig.update_layout(
    legend_title_text='Qtde de Crianças em Casa',
    title={
        'text': 'Clientes com crianças em casa compram mais pelo iFood.',
        'x': 0.5
    }
)

fig.show()

In [9]:
# Hipótese 5. Clientes que compram mais carne também compram mais vinho.

gasto_carne_vinho = df.groupby('ID')[['Qtde-Carnes','Qtde-Vinhos']].sum()

fig = px.scatter(
    gasto_carne_vinho.reset_index(),
    x='Qtde-Carnes',
    y='Qtde-Vinhos',
    title='Clientes que compram mais carne também compram mais vinho.',
    labels={
        'Qtde-Carnes': 'Quantidade de Carne',
        'Qtde-Vinhos': 'Quantidade de Vinho'
    },
    trendline='ols'
)

fig.data[1].update(
    line=dict(color='red', width=3)
)

fig.show()

---

---