# Exploração Dados

In [35]:
import sqlalchemy as sa
import polars as pl
from pathlib import Path

DB_PATH = Path().resolve().parent / "data" / "olist.db"
engine  = sa.create_engine(f"sqlite:///{DB_PATH}")

Verificando as colunas da tabela

In [36]:
insp = sa.inspect(engine)
for col in insp.get_columns("order_reviews"):
    print(col["name"], col["type"])

review_id VARCHAR(50)
order_id VARCHAR(50)
review_score INTEGER
review_comment_title VARCHAR(50)
review_comment_message VARCHAR(256)
review_creation_date VARCHAR(50)
review_answer_timestamp VARCHAR(50)


In [37]:
df_reviews = pl.read_database("SELECT * FROM order_reviews", connection=engine)
df_reviews.head()

review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
str,str,i64,str,str,str,str
"""7bc2406110b926393aa56f80a40eba…","""73fc7af87114b39712e6da79b0a377…",4,,,"""2018-01-18 00:00:00""","""2018-01-18 21:46:59"""
"""80e641a11e56f04c1ad469d5645fdf…","""a548910a1c6147796b98fdf73dbeba…",5,,,"""2018-03-10 00:00:00""","""2018-03-11 03:05:13"""
"""228ce5500dc1d8e020d8d1322874b6…","""f9e4b658b201a9f2ecdecbb34bed03…",5,,,"""2018-02-17 00:00:00""","""2018-02-18 14:36:24"""
"""e64fb393e7b32834bb789ff8bb3075…","""658677c97b385a9be170737859d351…",5,,"""Recebi bem antes do prazo esti…","""2017-04-21 00:00:00""","""2017-04-21 22:02:06"""
"""f7c4243c7fe1938f181bec41a392bd…","""8e6bfb81e283fa7e4f11123a3fb894…",5,,"""Parabéns lojas lannister adore…","""2018-03-01 00:00:00""","""2018-03-02 10:26:53"""


## Exploração dos dados

In [38]:
df_reviews.shape
df_reviews.describe()

statistic,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
str,str,str,f64,str,str,str,str
"""count""","""77916""","""77916""",77916.0,"""9203""","""32215""","""77916""","""77916"""
"""null_count""","""0""","""0""",0.0,"""68713""","""45701""","""0""","""0"""
"""mean""",,,4.084732,,,,
"""std""",,,1.348519,,,,
"""min""","""0001239bc1de2e33cb583967c2ca4c…","""00010242fe8c5a6d1ba2dd792cb162…",1.0,"""!!!!!!!""","""!!!!!!""","""2016-10-02 00:00:00""","""2016-10-07 18:32:28"""
"""25%""",,,4.0,,,,
"""50%""",,,5.0,,,,
"""75%""",,,5.0,,,,
"""max""","""fffefe7a48d22f7b32046421062219…","""fffe18544ffabc95dfada21779c964…",5.0,"""🔟""","""😍😍👧💅 amei e chegou até antes d…","""2018-08-31 00:00:00""","""2018-10-26 21:36:41"""


> Existem pedidos sem comentários

In [62]:
df_reviews.group_by("review_id").len().sort("len")

review_id,len
str,u32
"""1da977ddd6ff906abadbc858ad0f8c…",1
"""e71d03b24e7694b4bf626123f55f4f…",1
"""98ac0edcf4401c2087a8258023bf7c…",1
"""b9c3397cf16b3986da2b31865d62ad…",1
"""216c748e504c4bc25804d97340c9e2…",1
…,…
"""2d6ac45f859465b5c185274a1c9296…",3
"""0c76e7a547a531e7bf9f0b99cba071…",3
"""4d0e6dd087008d1f992d25ef6e1f61…",3
"""308316408775d1600dad81bd318455…",3


In [63]:
df_reviews.group_by("review_id", "order_id").len().sort("len")

review_id,order_id,len
str,str,u32
"""65df5361954f24e35a37da0f5eff9f…","""ba57c0b9e68de2a41c388368fcf0db…",1
"""de4e9ecdf4084e83c67821cbea388c…","""2059a6cad3cfd50e2f7904f250eb85…",1
"""cf3fcabff34b05cf4edb8e4c550056…","""f23bef5ff346873476747ab073a438…",1
"""679908e3991c84ed3c7fb0bd5bcac3…","""85e7df94996cce9657127b63f379ac…",1
"""b14e168def5a296c365fa88768ed51…","""388815a1ed5c112e3588771ca6d8b2…",1
…,…,…
"""a83759f3cf587d14dc5d6be6d8c786…","""2543c6a3c6b09c5f720768e3d6f464…",1
"""a6d2829ee00cd3e7b03d9dd0c585ce…","""191869a6145f8263366f4158ddcf3b…",1
"""5deed99db44235ee8de14e21a431b4…","""20a1b5b821806e87157587550af9d5…",1
"""4742655b1e39dd8f4ae75fa947d35b…","""0a8f35ef46160ef897c27ba8c423d8…",1


> Review ID não parece ser único, o que é estranho já que review_id em conjunto com order_id é único, ou seja existem pedidos com o mesmo review_id

In [39]:
# distribuição de notas
df_reviews.group_by("review_score").len().sort("review_score")

review_score,len
i64,u32
1,9001
2,2468
3,6413
4,15080
5,44954


> A distribuição dos scores é desbalanceada (como esperado)

In [40]:
dedup_keys = [
    "order_id",
    "review_score",
    "review_comment_message"
]

df_dupes = (
    df_reviews
    .group_by(dedup_keys)
    .len()
    .filter(
        pl.col("len") > 1, 
        pl.col("review_comment_message").is_not_null()
    )
)
print(f"Total grupos duplicados: {df_dupes.height}")


Total grupos duplicados: 7


> Existe um pequeno número de pedidos duplicados (order_id + score + review não nulo)

## Removendo pedidos duplicados do banco de dados
Essa etapa só está sendo feita dado que fizemos a importação do dataset. Em um cenário real, onde o banco de dados está sanitizado, não é necessário fazer essa etapa.

No caso do banco em produção estiver com duplicadas seria necessário fazer uma análise mais profunda para entender o que causou as duplicadas e adicionar essa validação na hora da ingestão dos dados para o modelo


In [41]:
from sqlalchemy import text

dedup_sql = """
WITH to_rank AS (
    SELECT
        review_id,
        ROW_NUMBER() OVER (
            PARTITION BY order_id, review_score, review_comment_message
            ORDER BY review_creation_date DESC
        ) AS rn
    FROM order_reviews
)
DELETE FROM order_reviews
WHERE review_id IN (
    SELECT review_id FROM to_rank WHERE rn > 1
);
"""

with engine.begin() as conn:
    result = conn.execute(text(dedup_sql))

In [42]:
df_cleaned_reviews = pl.read_database("SELECT * FROM order_reviews", engine)

df_dupes = (
    df_cleaned_reviews
    .group_by(dedup_keys)
    .len()
    .filter(
        pl.col("len") > 1, 
        pl.col("review_comment_message").is_not_null()
    )
)
print(f"Total grupos duplicados: {df_dupes.height}")

Total grupos duplicados: 0


In [48]:
df_cleaned_reviews.filter(
    pl.col("review_comment_message").is_not_null()
).shape

(32207, 7)

> Existem ao todo 32.207 reviews

## Verificando a relação de review e produtos

In [74]:
review_product = """
        SELECT order_reviews.review_id,
            order_reviews.order_id,
            order_items.product_id,
            order_reviews.review_score,
            order_reviews.review_comment_message AS review_text
        FROM order_reviews
        JOIN order_items ON order_items.order_id = order_reviews.order_id
        WHERE order_reviews.review_comment_message IS NOT NULL
        AND order_reviews.review_comment_message != ''
        """

df_review_product = pl.read_database(review_product, engine)

Verificando a quantidade de produtos por pedido

In [76]:
products_per_order = df_review_product.group_by("order_id").agg(
    pl.n_unique("product_id").alias("num_products")
)

print(products_per_order.group_by("num_products").len().sort("num_products"))
print(f"Pedidos com 1 produto: {products_per_order.filter(pl.col('num_products') == 1).height/products_per_order.height:.2%}")

shape: (7, 2)
┌──────────────┬───────┐
│ num_products ┆ len   │
│ ---          ┆ ---   │
│ u32          ┆ u32   │
╞══════════════╪═══════╡
│ 1            ┆ 30342 │
│ 2            ┆ 1207  │
│ 3            ┆ 135   │
│ 4            ┆ 39    │
│ 5            ┆ 2     │
│ 6            ┆ 5     │
│ 7            ┆ 2     │
└──────────────┴───────┘
Pedidos com 1 produto: 95.62%


> Existem pedidos com mais de 1 produto. Isso pode interferir no comentário, por isso vamos considerar apenas comentários de pedidos com apenas 1 produto (que representa +95% dos pedidos)

In [86]:
# Apenas pedidos que tenham 1 produto no pedido
review_product = """
    SELECT order_reviews.review_id,
        order_reviews.order_id,
        order_items.product_id,
        order_reviews.review_score,
        order_reviews.review_comment_message AS review_text,
        order_reviews.review_creation_date,
        order_reviews.review_answer_timestamp
        
    FROM order_reviews
    JOIN order_items ON order_items.order_id = order_reviews.order_id
    WHERE order_reviews.review_comment_message IS NOT NULL
      AND order_reviews.review_comment_message != ''
      AND order_reviews.order_id IN (
          SELECT order_id
          FROM order_items
          GROUP BY order_id
          HAVING COUNT(DISTINCT product_id) = 1
      )
"""

df_review_product = pl.read_database(review_product, engine)

Verificando se existem comentários duplicados para o mesmo produto no mesmo pedido

In [87]:
df_review_product = df_review_product.with_columns(
    pl.struct(["order_id", "product_id"])
    .map_elements(
        lambda s: f"{s['order_id']}_{s['product_id']}", return_dtype=pl.Utf8
    )
    .alias("doc_id")
)

df_review_product.group_by(
    "doc_id", "review_text"
).len().sort("len", descending=True)

doc_id,review_text,len
str,str,u32
"""9bdc4d4c71aa1de4606060929dee88…","""Comprei 14 unidades e recebi s…",14
"""3a213fcdfe7d98be74ea0dc05a8b31…","""bom dia ainda não recebi toa a…",12
"""6c355e2913545fa6f72c40cbca5772…","""Ao comprar 11 lixeiras, tive q…",11
"""a483ffe0ce133740ab12ebcba8a3cc…","""Pessimo vendedor, foi entregue…",10
"""c52c7fbe316b5b9d549e8a25206b8a…","""Zero""",9
…,…,…
"""a9ad04772c6cf0d63efb9444ea80bb…","""A caixa do relógio que comprei…",1
"""8cb4af66a9f35f0578f7fe7f325bb0…","""O conector USB que entregaram …",1
"""9f7db45b6f8cc96acdf9c10d8a56bf…","""Quero o meu produto onde está?""",1
"""61af52f7cc6266b9aead2cc464aa48…","""Respondi que sim para ""recebi …",1


> Existem casos onde o usuário comprou o mesmo produto mais de uma vez e isso causa a duplicação do comentário. Vamos considerar apenas o primeiro comentário de cada produto por pedido

Total final de reviews considerados para o modelo

In [89]:
df_review_product.unique(subset=["doc_id"]).shape


(30342, 8)

Reviews por produto

In [95]:
df_review_product.group_by("product_id").len().describe()

statistic,product_id,len
str,str,f64
"""count""","""14755""",14755.0
"""null_count""","""0""",0.0
"""mean""",,2.30837
"""std""",,4.944458
"""min""","""000b8f95fcb9e0096488278317764d…",1.0
"""25%""",,1.0
"""50%""",,1.0
"""75%""",,2.0
"""max""","""fffdb2d0ec8d6a61f0a0a0db3f25b4…",155.0


> Há uma distribuição muito assimétrica de quantidade de reviews por produto o que fará com que alguns produtos tenham poucas informações a serem consideradas