# 📊 Análise Pré-Transformação dos Dados de Livros

## 🎯 Objetivo
Este notebook realiza uma **análise exploratória detalhada** dos dados brutos extraídos do dataset de livros, com foco em:

- **Qualidade dos dados**: Verificação de valores nulos, duplicatas e inconsistências
- **Distribuições estatísticas**: Análise de variáveis numéricas e categóricas  
- **Padrões identificados**: Descoberta de insights para feature engineering
- **Validação**: Detecção de outliers e valores anômalos
- **Recomendações**: Orientações para o pipeline de transformação

📋 **Dataset**: `all_books_with_images.csv` - Dados brutos de 1000 livros
🔍 **Próximo passo**: Pipeline ETL baseado nos insights desta análise

### Pré análise dos dados extraídos

In [1]:
import polars as pl

In [2]:
df = pl.read_csv("../data/raw/all_books_with_images.csv")
df.head(5)

title,price,rating,category,image,product_page,availability,stock,image_base64
str,f64,i64,str,str,str,str,i64,str
"""It's Only the Himalayas""",45.17,2,"""Travel""","""https://books.toscrape.com/med…","""https://books.toscrape.com/cat…","""yes""",19,"""/9j/4AAQSkZJRgABAQAAAQABAAD/2w…"
"""Full Moon over Noah’s Ark: An …",49.43,4,"""Travel""","""https://books.toscrape.com/med…","""https://books.toscrape.com/cat…","""yes""",15,"""/9j/4AAQSkZJRgABAQAAAQABAAD/2w…"
"""See America: A Celebration of …",48.87,3,"""Travel""","""https://books.toscrape.com/med…","""https://books.toscrape.com/cat…","""yes""",14,"""/9j/4AAQSkZJRgABAQAAAQABAAD/2w…"
"""Vagabonding: An Uncommon Guide…",36.94,2,"""Travel""","""https://books.toscrape.com/med…","""https://books.toscrape.com/cat…","""yes""",8,"""/9j/4AAQSkZJRgABAQAAAQABAAD/2w…"
"""Under the Tuscan Sun""",37.33,3,"""Travel""","""https://books.toscrape.com/med…","""https://books.toscrape.com/cat…","""yes""",7,"""/9j/4AAQSkZJRgABAQAAAQABAAD/2w…"


#### Análise inicial do DataFrame

In [3]:
print("=== Quantidade de registros ===")
print(f"Total de registros: {df.height}")

=== Quantidade de registros ===
Total de registros: 1000


In [9]:
print("\n=== Tipos de dados por coluna ===")
for col in df.columns:
    print(f"{col}: {df[col].dtype}")
print("\n=== Tipos únicos de dados presente no dataset ===")
print(set(df.dtypes))


=== Tipos de dados por coluna ===
title: String
price: Float64
rating: Int64
category: String
image: String
product_page: String
availability: String
stock: Int64
image_base64: String

=== Tipos únicos de dados presente no dataset ===
{Int64, String, Float64}


In [38]:
print("\n=== Contagem de valores nulos por coluna ===")
print("\nINSIGHT: Nenhuma coluna possui valores nulos.")
df.null_count()


=== Contagem de valores nulos por coluna ===

INSIGHT: Nenhuma coluna possui valores nulos.


title,price,rating,category,image,product_page,availability,stock,image_base64
u32,u32,u32,u32,u32,u32,u32,u32,u32
0,0,0,0,0,0,0,0,0


In [36]:
print("\n=== ANÁLISE DE VALORES ZERO NAS COLUNAS NUMÉRICAS ===")
for col in ['price', 'stock', 'rating']:
    zero_count = df.filter(pl.col(col) == 0).height
    total_count = df.height
    percentage = (zero_count / total_count) * 100
    print(f"{col}: {zero_count} valores zero ({percentage:.1f}% do total)")
    
    if zero_count > 0:
        print(f"  Exemplos de registros com {col} = 0:")
        examples = df.filter(pl.col(col) == 0).select(['title', col]).head(3)
        for row in examples.iter_rows():
            print(f"    - {row[0][:50]}..." if len(row[0]) > 50 else f"    - {row[0]}")

print("\nINSIGHT: Nenhuma das colunas numéricas possui valores zero, indicando que os dados estão completos nesse aspecto.")


=== ANÁLISE DE VALORES ZERO NAS COLUNAS NUMÉRICAS ===
price: 0 valores zero (0.0% do total)
stock: 0 valores zero (0.0% do total)
rating: 0 valores zero (0.0% do total)

INSIGHT: Nenhuma das colunas numéricas possui valores zero, indicando que os dados estão completos nesse aspecto.


In [30]:
print("\n=== ANÁLISE DE VALORES NULOS E PROBLEMÁTICOS NAS COLUNAS CATEGÓRICAS ===")

# Colunas categóricas para análise
categorical_columns = ['title', 'category', 'image', 'product_page', 'availability', 'image_base64']

for col in categorical_columns:
    print(f"\n--- Análise da coluna '{col}' ---")
    
    # Valores nulos
    null_count = df.filter(pl.col(col).is_null()).height
    print(f"Valores nulos: {null_count}")
    
    # Strings vazias
    empty_count = df.filter(pl.col(col) == "").height
    print(f"Strings vazias: {empty_count}")
    
    # Valores '0' como string
    zero_string_count = df.filter(pl.col(col) == "0").height
    print(f"Valores '0' (string): {zero_string_count}")
    
    # Valores 'null' como string
    null_string_count = df.filter(pl.col(col).str.to_lowercase() == "null").height
    print(f"Valores 'null' (string): {null_string_count}")
    
    # Valores 'n/a' ou 'na'
    na_count = df.filter(
        (pl.col(col).str.to_lowercase() == "n/a") | 
        (pl.col(col).str.to_lowercase() == "na")
    ).height
    print(f"Valores 'N/A' ou 'NA': {na_count}")
    
    # Total de valores problemáticos
    total_problematic = null_count + empty_count + zero_string_count + null_string_count + na_count
    percentage = (total_problematic / df.height) * 100
    print(f"Total problemático: {total_problematic} ({percentage:.1f}%)")
    
    # Mostrar exemplos se houver valores problemáticos
    if total_problematic > 0:
        print("Exemplos de registros problemáticos:")
        problematic_mask = (
            pl.col(col).is_null() |
            (pl.col(col) == "") |
            (pl.col(col) == "0") |
            (pl.col(col).str.to_lowercase() == "null") |
            (pl.col(col).str.to_lowercase() == "n/a") |
            (pl.col(col).str.to_lowercase() == "na")
        )
        examples = df.filter(problematic_mask).select(['title', col]).head(3)
        for row in examples.iter_rows():
            title_display = row[0][:30] + "..." if len(row[0]) > 30 else row[0]
            print(f"  - '{title_display}' → {col}: '{row[1]}'")


=== ANÁLISE DE VALORES NULOS E PROBLEMÁTICOS NAS COLUNAS CATEGÓRICAS ===

--- Análise da coluna 'title' ---
Valores nulos: 0
Strings vazias: 0
Valores '0' (string): 0
Valores 'null' (string): 0
Valores 'N/A' ou 'NA': 0
Total problemático: 0 (0.0%)

--- Análise da coluna 'category' ---
Valores nulos: 0
Strings vazias: 0
Valores '0' (string): 0
Valores 'null' (string): 0
Valores 'N/A' ou 'NA': 0
Total problemático: 0 (0.0%)

--- Análise da coluna 'image' ---
Valores nulos: 0
Strings vazias: 0
Valores '0' (string): 0
Valores 'null' (string): 0
Valores 'N/A' ou 'NA': 0
Total problemático: 0 (0.0%)

--- Análise da coluna 'product_page' ---
Valores nulos: 0
Strings vazias: 0
Valores '0' (string): 0
Valores 'null' (string): 0
Valores 'N/A' ou 'NA': 0
Total problemático: 0 (0.0%)

--- Análise da coluna 'availability' ---
Valores nulos: 0
Strings vazias: 0
Valores '0' (string): 0
Valores 'null' (string): 0
Valores 'N/A' ou 'NA': 0
Total problemático: 0 (0.0%)

--- Análise da coluna 'image_base

In [11]:
print("\n=== Estatísticas descritivas das colunas numéricas ===")
df.describe()


=== Estatísticas descritivas das colunas numéricas ===


statistic,title,price,rating,category,image,product_page,availability,stock,image_base64
str,str,f64,f64,str,str,str,str,f64,str
"""count""","""1000""",1000.0,1000.0,"""1000""","""1000""","""1000""","""1000""",1000.0,"""1000"""
"""null_count""","""0""",0.0,0.0,"""0""","""0""","""0""","""0""",0.0,"""0"""
"""mean""",,35.07035,2.923,,,,,8.585,
"""std""",,14.44669,1.434967,,,,,5.654622,
"""min""","""""Most Blessed of the Patriarch…",10.0,1.0,"""Academic""","""https://books.toscrape.com/med…","""https://books.toscrape.com/cat…","""yes""",1.0,"""/9j/4AAQSkZJRgABAQAAAQABAAD/2w…"
"""25%""",,22.11,2.0,,,,,3.0,
"""50%""",,36.0,3.0,,,,,7.0,
"""75%""",,47.44,4.0,,,,,14.0,
"""max""","""salt.""",59.99,5.0,"""Young Adult""","""https://books.toscrape.com/med…","""https://books.toscrape.com/cat…","""yes""",22.0,"""/9j/4AAQSkZJRgABAQAAAQABAAD/2w…"


#### Análise mais detalhada dos campos numéricos

In [34]:
print("=== ESTATÍSTICAS DE PREÇO ===")
print(f"Preço mínimo: ${df['price'].min():.2f}")
print(f"Preço máximo: ${df['price'].max():.2f}")
print(f"Preço médio: ${df['price'].mean():.2f}")
print(f"Preço mediano: ${df['price'].median():.2f}")

print("\nINSIGHT: Como a média está próxima da mediana, não há uma assimetria significativa nos preços (outliers).")

=== ESTATÍSTICAS DE PREÇO ===
Preço mínimo: $10.00
Preço máximo: $59.99
Preço médio: $35.07
Preço mediano: $35.98

INSIGHT: Como a média está próxima da mediana, não há uma assimetria significativa nos preços (outliers).


In [35]:
print("\n=== DISTRIBUIÇÃO DE RATINGS ===")
rating_dist = df['rating'].value_counts().sort("rating")
print(rating_dist)

print("\nINSIGHT: As categorias estão bem distribuídas, com uma leve concentração em ratings mais altos (1 e 3).")


=== DISTRIBUIÇÃO DE RATINGS ===
shape: (5, 2)
┌────────┬───────┐
│ rating ┆ count │
│ ---    ┆ ---   │
│ i64    ┆ u32   │
╞════════╪═══════╡
│ 1      ┆ 226   │
│ 2      ┆ 196   │
│ 3      ┆ 203   │
│ 4      ┆ 179   │
│ 5      ┆ 196   │
└────────┴───────┘

INSIGHT: As categorias estão bem distribuídas, com uma leve concentração em ratings mais altos (1 e 3).


In [54]:
print("\n=== ESTATÍSTICAS DE CATEGORIAS ===")
print(f"Total de categorias únicas: {df['category'].n_unique()}")


=== ESTATÍSTICAS DE CATEGORIAS ===
Total de categorias únicas: 50


In [45]:
print("\n=== DISTRIBUIÇÃO DE CATEGORIAS (TOP 10) ===")
category_dist = df['category'].value_counts().sort("count", descending=True)
print(category_dist.head(10))


=== DISTRIBUIÇÃO DE CATEGORIAS (TOP 10) ===
shape: (10, 2)
┌────────────────┬───────┐
│ category       ┆ count │
│ ---            ┆ ---   │
│ str            ┆ u32   │
╞════════════════╪═══════╡
│ Default        ┆ 152   │
│ Nonfiction     ┆ 110   │
│ Sequential Art ┆ 75    │
│ Add a comment  ┆ 67    │
│ Fiction        ┆ 65    │
│ Young Adult    ┆ 54    │
│ Fantasy        ┆ 48    │
│ Romance        ┆ 35    │
│ Mystery        ┆ 32    │
│ Food and Drink ┆ 30    │
└────────────────┴───────┘


In [50]:
print(category_dist[10:20])

shape: (10, 2)
┌────────────────────┬───────┐
│ category           ┆ count │
│ ---                ┆ ---   │
│ str                ┆ u32   │
╞════════════════════╪═══════╡
│ Childrens          ┆ 29    │
│ Historical Fiction ┆ 26    │
│ Classics           ┆ 19    │
│ Poetry             ┆ 19    │
│ History            ┆ 18    │
│ Horror             ┆ 17    │
│ Womens Fiction     ┆ 17    │
│ Science Fiction    ┆ 16    │
│ Science            ┆ 14    │
│ Music              ┆ 13    │
└────────────────────┴───────┘


In [51]:
print(category_dist[20:30])

shape: (10, 2)
┌───────────────┬───────┐
│ category      ┆ count │
│ ---           ┆ ---   │
│ str           ┆ u32   │
╞═══════════════╪═══════╡
│ Business      ┆ 12    │
│ Travel        ┆ 11    │
│ Thriller      ┆ 11    │
│ Philosophy    ┆ 11    │
│ Humor         ┆ 10    │
│ Autobiography ┆ 9     │
│ Art           ┆ 8     │
│ Religion      ┆ 7     │
│ Psychology    ┆ 7     │
│ Spirituality  ┆ 6     │
└───────────────┴───────┘


In [52]:
print(category_dist[30:40])

shape: (10, 2)
┌───────────────────┬───────┐
│ category          ┆ count │
│ ---               ┆ ---   │
│ str               ┆ u32   │
╞═══════════════════╪═══════╡
│ New Adult         ┆ 6     │
│ Christian Fiction ┆ 6     │
│ Self Help         ┆ 5     │
│ Sports and Games  ┆ 5     │
│ Biography         ┆ 5     │
│ Health            ┆ 4     │
│ Christian         ┆ 3     │
│ Politics          ┆ 3     │
│ Contemporary      ┆ 3     │
│ Historical        ┆ 2     │
└───────────────────┴───────┘


In [55]:
print("\n=== BOTTOM 10 CATEGORIAS ===")
print(category_dist.tail(10))


=== BOTTOM 10 CATEGORIAS ===
shape: (10, 2)
┌───────────────┬───────┐
│ category      ┆ count │
│ ---           ┆ ---   │
│ str           ┆ u32   │
╞═══════════════╪═══════╡
│ Crime         ┆ 1     │
│ Parenting     ┆ 1     │
│ Erotica       ┆ 1     │
│ Novels        ┆ 1     │
│ Paranormal    ┆ 1     │
│ Suspense      ┆ 1     │
│ Cultural      ┆ 1     │
│ Adult Fiction ┆ 1     │
│ Academic      ┆ 1     │
│ Short Stories ┆ 1     │
└───────────────┴───────┘


In [58]:
print("\n=== DISPONIBILIDADE ===")
availability_dist = df['availability'].value_counts()
print(availability_dist)
print("\nINSIGHT: 100% dos livros estão disponíveis, quando for pensar em modelagem de dados, talvez não faça sentido manter essa coluna.")


=== DISPONIBILIDADE ===
shape: (1, 2)
┌──────────────┬───────┐
│ availability ┆ count │
│ ---          ┆ ---   │
│ str          ┆ u32   │
╞══════════════╪═══════╡
│ yes          ┆ 1000  │
└──────────────┴───────┘

INSIGHT: 100% dos livros estão disponíveis, quando for pensar em modelagem de dados, talvez não faça sentido manter essa coluna.


#### Análise de qualidade dos dados

In [59]:
print("\n=== TÍTULOS DUPLICADOS ===")
duplicate_titles = df.filter(df['title'].is_duplicated())
print(f"Títulos duplicados: {duplicate_titles.height}")


=== TÍTULOS DUPLICADOS ===
Títulos duplicados: 2


In [60]:
duplicate_titles

title,price,rating,category,image,product_page,availability,stock,image_base64
str,f64,i64,str,str,str,str,i64,str
"""The Star-Touched Queen""",46.02,5,"""Fantasy""","""https://books.toscrape.com/med…","""https://books.toscrape.com/cat…","""yes""",14,"""/9j/4AAQSkZJRgABAQAAAQABAAD/2w…"
"""The Star-Touched Queen""",32.3,5,"""Fantasy""","""https://books.toscrape.com/med…","""https://books.toscrape.com/cat…","""yes""",12,"""/9j/4AAQSkZJRgABAQAAAQABAAD/2w…"


In [63]:
print("INSIGHT: Os livros duplicados tem preços e estoques diferentes, indicando que são edições ou versões distintas do mesmo título")

INSIGHT: Os livros duplicados tem preços e estoques diferentes, indicando que são edições ou versões distintas do mesmo título


In [18]:
print("\n=== URLs DUPLICADAS ===")
duplicate_urls = df.filter(df['product_page'].is_duplicated())
print(f"URLs duplicadas: {duplicate_urls.height}")


=== URLs DUPLICADAS ===
URLs duplicadas: 0


In [19]:
print("\n=== ANÁLISE DE COMPRIMENTO DOS TÍTULOS ===")
print(f"\nTamanho médio dos títulos: {df['title'].str.len_chars().mean():.1f} caracteres")
print(f"Título mais longo: {df['title'].str.len_chars().max()} caracteres")
print(f"Título mais curto: {df['title'].str.len_chars().min()} caracteres")


=== ANÁLISE DE COMPRIMENTO DOS TÍTULOS ===

Tamanho médio dos títulos: 39.1 caracteres
Título mais longo: 204 caracteres
Título mais curto: 2 caracteres


In [71]:
print("\n=== TÍTULO MAIS LONGO ===")
longest_title_row = df.with_columns(
    pl.col("title").str.len_chars().alias("title_length")
).sort("title_length", descending=True).select(["title", "title_length"])
print(longest_title_row['title'][0])


=== TÍTULO MAIS LONGO ===
At The Existentialist Café: Freedom, Being, and apricot cocktails with: Jean-Paul Sartre, Simone de Beauvoir, Albert Camus, Martin Heidegger, Edmund Husserl, Karl Jaspers, Maurice Merleau-Ponty and others


In [72]:
print("\n=== TÍTULO MAIS CURTO ===")
shortest_title_row = df.with_columns(
    pl.col("title").str.len_chars().alias("title_length")
).sort("title_length", descending=False).select(["title", "title_length"])
print(shortest_title_row['title'][0])


=== TÍTULO MAIS CURTO ===
It


In [21]:
print("\n=== ANÁLISE DE CATEGORIAS ===")
print("\nCategorias que podem ser problemáticas:")
problematic_categories = df.filter(
    pl.col('category').str.to_lowercase().str.contains('comment') | 
    pl.col('category').str.to_lowercase().str.contains('default')
)
print(f"Livros com categorias 'Add a comment' ou 'Default': {problematic_categories.height}")


=== ANÁLISE DE CATEGORIAS ===

Categorias que podem ser problemáticas:
Livros com categorias 'Add a comment' ou 'Default': 219


In [57]:
print("\n=== ANÁLISE DE STOCK ===")
print(f"Stock mínimo: {df['stock'].min()}")
print(f"Stock máximo: {df['stock'].max()}")
print(f"Stock médio: {df['stock'].mean():.1f}")
print(f"Stock mediano: {df['stock'].median()}")
print(f"Livros com stock zero: {(df['stock'] == 0).sum()}")

print("\nINSIGHT: A média dos stocks é puxada para cima por alguns poucos livros com estoque muito alto. A mediana indica que a maioria dos livros tem um stock baixo, mas sem outliers.")


=== ANÁLISE DE STOCK ===
Stock mínimo: 1
Stock máximo: 22
Stock médio: 8.6
Stock mediano: 7.0
Livros com stock zero: 0

INSIGHT: A média dos stocks é puxada para cima por alguns poucos livros com estoque muito alto. A mediana indica que a maioria dos livros tem um stock baixo, mas sem outliers.


In [73]:
print("\n=== TAMANHO DA IMAGEM ===")
print(f"\nTamanho médio da URL da imagem: {df['image'].str.len_chars().mean():.0f} caracteres")
print(f"\nTamanho médio do image_base64: {df['image_base64'].str.len_chars().mean():.0f} caracteres")


=== TAMANHO DA IMAGEM ===

Tamanho médio da URL da imagem: 81 caracteres

Tamanho médio do image_base64: 54829 caracteres


In [22]:
print("\n=== ANÁLISE DE VALORES ANÔMALOS ===")
print("\nRanges de valores:")
print(f"Ratings fora do range 1-5: {df.filter((pl.col('rating') < 1) | (pl.col('rating') > 5)).height}")
print(f"Preços negativos ou zero: {df.filter(pl.col('price') <= 0).height}")
print(f"Stock negativo: {df.filter(pl.col('stock') < 0).height}")


=== ANÁLISE DE VALORES ANÔMALOS ===

Ranges de valores:
Ratings fora do range 1-5: 0
Preços negativos ou zero: 0
Stock negativo: 0


#### Análises Complementares

In [None]:
print("\nOBS: Verificar se há correlações significativas que possam influenciar na criação de features.")

print("=== ANÁLISE DE CORRELAÇÃO ENTRE VARIÁVEIS NUMÉRICAS ===")
numeric_cols = ['price', 'rating', 'stock']
correlation_matrix = df.select(numeric_cols).corr()
print(correlation_matrix)

=== ANÁLISE DE CORRELAÇÃO ENTRE VARIÁVEIS NUMÉRICAS ===
shape: (3, 3)
┌───────────┬──────────┬───────────┐
│ price     ┆ rating   ┆ stock     │
│ ---       ┆ ---      ┆ ---       │
│ f64       ┆ f64      ┆ f64       │
╞═══════════╪══════════╪═══════════╡
│ 1.0       ┆ 0.028166 ┆ -0.010914 │
│ 0.028166  ┆ 1.0      ┆ 0.016166  │
│ -0.010914 ┆ 0.016166 ┆ 1.0       │
└───────────┴──────────┴───────────┘

OBS: Verificar se há correlações significativas que possam influenciar na criação de features.


In [None]:
print("\nOBS: Entender a distribuição de preços pode ajudar na criação de features categóricas para preço.")

print("\n=== ANÁLISE DE DISTRIBUIÇÃO POR FAIXA DE PREÇO ===")
# Criar faixas de preço para análise
price_ranges = []
for price in df['price']:
    if price <= 20:
        price_ranges.append("Baixo (≤20)")
    elif price <= 40:
        price_ranges.append("Médio (20-40)")
    elif price <= 50:
        price_ranges.append("Alto (40-50)")
    else:
        price_ranges.append("Premium (>50)")

price_range_series = pl.Series("price_range", price_ranges)
price_distribution = price_range_series.value_counts().sort("count", descending=True)
print(price_distribution)


=== ANÁLISE DE DISTRIBUIÇÃO POR FAIXA DE PREÇO ===
shape: (4, 2)
┌───────────────┬───────┐
│ price_range   ┆ count │
│ ---           ┆ ---   │
│ str           ┆ u32   │
╞═══════════════╪═══════╡
│ Médio (20-40) ┆ 401   │
│ Alto (40-50)  ┆ 205   │
│ Premium (>50) ┆ 198   │
│ Baixo (≤20)   ┆ 196   │
└───────────────┴───────┘

OBS: Entender a distribuição de preços pode ajudar na criação de features categóricas para preço.


In [None]:
print("\nOBS: Padrões nos títulos podem ser úteis para feature engineering (séries, volumes, subtítulos).")

print("\n=== ANÁLISE DE PADRÕES NOS TÍTULOS ===")
print(f"Títulos com números: {df.filter(pl.col('title').str.contains(r'\d')).height}")
print(f"Títulos com caracteres especiais: {df.filter(pl.col('title').str.contains(r'[^\w\s]')).height}")
print(f"Títulos com 'The' no início: {df.filter(pl.col('title').str.starts_with('The ')).height}")
print(f"Títulos com ':' (possíveis subtítulos): {df.filter(pl.col('title').str.contains(':')).height}")
print(f"Títulos com '(' (possíveis séries/volumes): {df.filter(pl.col('title').str.contains(r'\(')).height}")


=== ANÁLISE DE PADRÕES NOS TÍTULOS ===
Títulos com números: 365
Títulos com caracteres especiais: 667
Títulos com 'The' no início: 269
Títulos com ':' (possíveis subtítulos): 307
Títulos com '(' (possíveis séries/volumes): 345

OBS: Padrões nos títulos podem ser úteis para feature engineering (séries, volumes, subtítulos).


In [None]:
print("\nOBS: Importante verificar a qualidade das URLs para garantir que as imagens estejam acessíveis.")

print("\n=== ANÁLISE DE CONSISTÊNCIA DE URLS ===")
print("Padrões nas URLs das imagens:")
print(f"URLs com '/media/': {df.filter(pl.col('image').str.contains('/media/')).height}")
print(f"URLs únicas de imagens: {df['image'].n_unique()}")
print(f"URLs únicas de páginas: {df['product_page'].n_unique()}")

# Verificar se há padrões problemáticos nas URLs
print("\nURLs de imagem que podem estar quebradas (sem extensão):")
broken_images = df.filter(~pl.col('image').str.contains(r'\.(jpg|jpeg|png|gif)$'))
print(f"Total: {broken_images.height}")


=== ANÁLISE DE CONSISTÊNCIA DE URLS ===
Padrões nas URLs das imagens:
URLs com '/media/': 1000
URLs únicas de imagens: 1000
URLs únicas de páginas: 1000

URLs de imagem que podem estar quebradas (sem extensão):
Total: 0

OBS: Importante verificar a qualidade das URLs para garantir que as imagens estejam acessíveis.


In [None]:
print("\nOBS: Outliers podem indicar ruído nos dados e que merecem tratamento específico.")

print("\n=== ANÁLISE DE OUTLIERS MAIS DETALHADA ===")
print("PREÇOS:")
Q1_price = df['price'].quantile(0.25)
Q3_price = df['price'].quantile(0.75)
IQR_price = Q3_price - Q1_price
outliers_price = df.filter(
    (pl.col('price') < (Q1_price - 1.5 * IQR_price)) | 
    (pl.col('price') > (Q3_price + 1.5 * IQR_price))
)
print(f"Outliers de preço (método IQR): {outliers_price.height}")
if outliers_price.height > 0:
    print("Exemplos de outliers de preço:")
    print(outliers_price.select(['title', 'price', 'category']).head(3))

print("\nSTOCK:")
Q1_stock = df['stock'].quantile(0.25)
Q3_stock = df['stock'].quantile(0.75)
IQR_stock = Q3_stock - Q1_stock
outliers_stock = df.filter(
    (pl.col('stock') < (Q1_stock - 1.5 * IQR_stock)) | 
    (pl.col('stock') > (Q3_stock + 1.5 * IQR_stock))
)
print(f"Outliers de stock (método IQR): {outliers_stock.height}")


=== ANÁLISE DE OUTLIERS MAIS DETALHADA ===
PREÇOS:
Outliers de preço (método IQR): 0

STOCK:
Outliers de stock (método IQR): 0

OBS: Outliers podem indicar ruído nos dados e que merecem tratamento específico.


#### Resumo da Análise

In [89]:
print("=== RESUMO EXECUTIVO DA ANÁLISE ===")
print(f"""
📊 QUALIDADE DOS DADOS:
✅ Dataset limpo: {df.height} registros, sem valores nulos
✅ URLs consistentes e válidas
✅ Sem outliers extremos detectados
⚠️ 2 títulos duplicados (edições diferentes)

📈 DISTRIBUIÇÃO DOS DADOS:
• Preços: Bem distribuídos (média≈mediana), sem assimetria
• Ratings: Concentração em ratings altos (1-5 escala)
• Stock: Variação de 1-22, mediana=7
• Categorias: {df['category'].n_unique()} categorias, com concentração nas top 10

🔍 PADRÕES IDENTIFICADOS:
• {365} títulos contêm números (séries, anos, volumes)
• {269} títulos começam com 'The'
• {307} títulos têm ':' (subtítulos)
• {345} títulos têm '(' (séries/volumes)
• Faixa de preço mais comum: Médio (20-40) com {401} livros
""")

=== RESUMO EXECUTIVO DA ANÁLISE ===

📊 QUALIDADE DOS DADOS:
✅ Dataset limpo: 1000 registros, sem valores nulos
✅ URLs consistentes e válidas
✅ Sem outliers extremos detectados
⚠️ 2 títulos duplicados (edições diferentes)

📈 DISTRIBUIÇÃO DOS DADOS:
• Preços: Bem distribuídos (média≈mediana), sem assimetria
• Ratings: Concentração em ratings altos (1-5 escala)
• Stock: Variação de 1-22, mediana=7
• Categorias: 50 categorias, com concentração nas top 10

🔍 PADRÕES IDENTIFICADOS:
• 365 títulos contêm números (séries, anos, volumes)
• 269 títulos começam com 'The'
• 307 títulos têm ':' (subtítulos)
• 345 títulos têm '(' (séries/volumes)
• Faixa de preço mais comum: Médio (20-40) com 401 livros

