# Análise dos Dados

In [None]:
import pandas as pd
import plotly.express as px
import numpy as np

Leitura do arquivo

In [None]:
data = pd.read_csv('dataset-case-iqvia.csv', sep=',', chunksize=1000)
df = pd.concat(data)

In [None]:
df = pd.read_csv('dataset-case-iqvia.csv', sep=',')

Colunas que tem no arquivo

In [None]:
df.columns

**week_dt**: data correspondente ao primeiro dia da semana.

**dsupp_id**: código de identificação do distribuidor do produto.

**product_id**: código de identificação do produto.

**region_nm**: macrorregião do ibge cuja loja na qual o produto foi vendido está situada.

**units_qty**: quantidade de unidades vendidas na semana.

**product_attr_1 , product_attr_2 e product_attr_3**: atributos específicos dos produtos.

In [None]:
df.info()

In [None]:
df['week_dt'] = pd.to_datetime(df['week_dt']).dt.date
df['region_nm'] = df['region_nm'].astype(str)
df['product_id'] = df['product_id'].astype(str)
df['dsupp_id'] = df['dsupp_id'].astype(str)
df['product_attr_1'] = df['product_attr_1'].astype(str)
df['product_attr_2'] = df['product_attr_2'].astype(str)
df['product_attr_3'] = df['product_attr_3'].astype(str)

In [None]:
df.info()

Quantidade de linhas e colunas

In [None]:
df.shape

Vendo os cinco primeiros e ultimos dados

In [None]:
df.head()

In [None]:
df.tail()

Contagem de valores ausentes

In [None]:
df[df.isna()].count()

In [None]:
df[df.isnull()].count()

Não há valores ausentes

Valores unicos de cada coluna

In [None]:
for col in df.columns:
    print(f"Coluna: {col}")
    print(f"valores: {sorted(df[col].unique().tolist())}")

Anos de 2022-2024

27 Distribuidores

390 produtos id

5 Regiões

3 atributos para atributo 1 e 2

44 atributos para atributo 3

Attr

In [None]:
df.groupby(by='product_attr_1')["product_attr_2"].describe()

Produto com **product_attr_1** *'A'* só tem **product_attr_2** *'A'*

Produto com **product_attr_1** *'B'* só tem **product_attr_2** *'C'*

Produto com **product_attr_1** *'C'* só tem **product_attr_2** *'A', 'B' e 'C'*

In [None]:
print(df.groupby(by='product_attr_1')["units_qty"].describe())

In [None]:
print(df.groupby(by='product_attr_2')["units_qty"].describe())

In [None]:
print(df.groupby(by='product_attr_3')["units_qty"].describe())

In [None]:
for attr in ["A","B","C"]:
    for attr_2 in df.query(f"product_attr_1 == '{attr}'")["product_attr_2"].unique().tolist():
        df_filtro = df.query(f"product_attr_1 == '{attr}' and product_attr_2 == '{attr_2}'")
        print(f"Attr_1: {attr}\nAttr_2: {attr_2}\nAttr_3: {df_filtro['product_attr_3'].unique().tolist()}\nproduct_id: {df_filtro['product_id'].unique().tolist()}")
    print("*********************************************************************************************")

In [None]:
for attr in ["A","B","C"]:
    for attr_2 in df.query(f"product_attr_1 == '{attr}'")["product_attr_2"].unique().tolist():
        df_filtro = df.query(f"product_attr_1 == '{attr}' and product_attr_2 == '{attr_2}'")["product_attr_3"]
        ordem = df.query(f"product_attr_1 == '{attr}' and product_attr_2 == '{attr_2}'")["product_attr_3"].value_counts().index
        fig = px.histogram(df_filtro, title=f"Attr_1 - '{attr}' | Attr_2 - '{attr_2}'",x="product_attr_3",category_orders={"product_attr_3":ordem})
        fig.update_xaxes(title='Attrs_3')
        fig.update_yaxes(title='Quantidade')
        fig.update_layout(showlegend=False)
        fig.write_html(f"product_att/{attr}_{attr_2}.html")

product_id

In [None]:
df.groupby(by='product_id')["product_attr_1"].describe()

In [None]:
df.groupby(by='product_id')["product_attr_2"].describe()

In [None]:
df.groupby(by='product_id')["product_attr_3"].describe()

In [None]:
df.groupby(by='product_id')["region_nm"].describe()

In [None]:
df.groupby(by='product_id')["dsupp_id"].describe()

In [None]:
df.groupby(by='product_id')["units_qty"].describe()

Regiao

In [None]:
df.groupby(by='region_nm')['product_attr_1'].describe()

In [None]:
df.groupby(by='region_nm')['product_attr_2'].describe()

In [None]:
df.groupby(by='region_nm')['product_attr_3'].describe()

In [None]:
df.groupby(by='region_nm')['units_qty'].describe()

In [None]:
for region in df["region_nm"].unique().tolist():
    df_filtro = df.query(f"region_nm == '{region}'")
    ordem = sorted(df["product_id"].unique().tolist())
    fig = px.histogram(df_filtro, title=f"Região - '{region}'",x="product_id",category_orders={"product_id":ordem})
    fig.update_xaxes(title='region_nm')
    fig.update_yaxes(title='Quantidade')
    fig.update_layout(showlegend=False)
    fig.write_html(f"product/{region}.html")
    del df_filtro
    del ordem

In [None]:
df.groupby(by=['region_nm'])['units_qty'].sum()

Nordeste tem 2ª maior frequência(gráfico de barra), mas é a 3ª que mais vendeu em quantidade de produto

Norte que foi última na frequência(gráfico de barra), mais foi a 4ª que mais vendeu

grafico/bar_region_nm.html

In [None]:
for region in df["region_nm"].unique().tolist():
    df_filtro = df.query(f"region_nm == '{region}'")
    freq_df = df_filtro["dsupp_id"].value_counts().reset_index()
    freq_df.columns = ["dsupp_id", "count"]
    ordem = sorted(df["dsupp_id"].unique().tolist())
    fig = px.bar(freq_df, title=f"Região - '{region}'",x="dsupp_id",y='count',category_orders={"dsupp_id":ordem})
    fig.update_xaxes(title='dsupp_id')
    fig.update_yaxes(title='Quantidade')
    fig.update_layout(showlegend=False)
    fig.write_html(f"dsupp_id/{region}.html")
    del df_filtro
    del freq_df
    del ordem

In [None]:
import scipy.stats as ss
import numpy as np

In [None]:
def test_chi2(a: object,b: object):
    chi2, p, _, _  = ss.chi2_contingency(pd.crosstab(a, b))
    if p > 0.05:
        print(f"Variaveis independentes. \nchi2: {chi2}\np: {p}")
    else:
        print(f"Variaveis independentes. \nchi2: {chi2}\np: {p}")

In [None]:
test_chi2(df['dsupp_id'],df['product_id'])
print("***************************************")
test_chi2(df['dsupp_id'],df['region_nm'])
print("***************************************")
test_chi2(df['dsupp_id'],df['product_attr_1'])
print("***************************************")
test_chi2(df['dsupp_id'],df['product_attr_2'])
print("***************************************")
test_chi2(df['dsupp_id'],df['product_attr_3'])

In [None]:
test_chi2(df['product_id'],df['region_nm'])
print("***************************************")
test_chi2(df['product_id'],df['product_attr_1'])
print("***************************************")
test_chi2(df['product_id'],df['product_attr_2'])
print("***************************************")
test_chi2(df['product_id'],df['product_attr_3'])

In [None]:
test_chi2(df['region_nm'],df['product_attr_1'])
print("***************************************")
test_chi2(df['region_nm'],df['product_attr_2'])
print("***************************************")
test_chi2(df['region_nm'],df['product_attr_3'])

Análise de Variância

In [None]:
def test_anova(df: object,col_a:object,col_b:object):    
    grupos = [df[df[col_a] == p][col_b] for p in df[col_a].unique()]
    f_stat, p_value = ss.f_oneway(*grupos)
    if p_value > 0.05:
        print(f"Não há diferença significativas. \nEstatística F: {f_stat}\np: {p_value}")
    else:
        print(f"Há diferença significativas. \nEstatística F: {f_stat}\np: {p_value}")


In [None]:
test_anova(df,'product_id','units_qty')
print("***************************************")
test_anova(df,'dsupp_id','units_qty')
print("***************************************")
test_anova(df,'region_nm','units_qty')

In [None]:
for col in df.columns:
    ordem = df[col].value_counts().index    

    if pd.api.types.is_datetime64_any_dtype(df[col]):
        df[col] = df[col].astype(str)
        ordem = df[col].value_counts().index
        df[col] = pd.Categorical(df[col], categories=ordem, ordered=True)
    elif pd.api.types.is_numeric_dtype(df[col]):
        df[col] = df[col].astype(str)
        ordem = df[col].value_counts().index
        df[col] = pd.Categorical(df[col], categories=ordem, ordered=True)
    else:
        df[col] = pd.Categorical(df[col], categories=ordem, ordered=True)

    fig = px.histogram(df,x=col,title=f"Gráfico de Barra da Coluna - '{col}'", 
                        category_orders={col: ordem})    
    fig.update_xaxes(title=col, tickangle=45)
    fig.update_yaxes(title='Quantidade')
    fig.update_layout(showlegend=False)    
    fig.write_html(f"grafico/bar_{col}.html")
    del ordem