In [None]:
import polars as pl

In [None]:
restaurantes = pl.read_csv('/content/drive/MyDrive/Alura/restaurantes.csv', encoding='utf8')

In [None]:
restaurantes.head()

In [None]:
restaurantes.glimpse()

### Convertendo valores numéricos

In [None]:
restaurantes.with_columns(
    pl.col('approx_cost(for two people)')
    .str.replace(',', '')
)

In [None]:
restaurantes.with_columns(
    pl.col('approx_cost(for two people)')
    .str.replace(',', '')
    .cast(pl.Float64)
)

In [None]:
restaurantes = restaurantes.with_columns(
    pl.col('approx_cost(for two people)')
    .str.replace(',', '')
    .cast(pl.Float64)
)

### Coletando estatísticas

In [None]:
restaurantes.select(
    pl.col('approx_cost(for two people)').max().alias('max'),
    pl.col('approx_cost(for two people)').min().alias('min'),
    pl.col('approx_cost(for two people)').mean().round(2).alias('média')
)

## Usando o Regex

In [None]:
restaurantes.with_columns(
    pl.col('rate')
    .str.extract(r'^([\d\.]+)')
)

In [None]:
restaurantes.with_columns(
    pl.col('rate')
    .str.extract(r'^([\d\.]+)')
    .cast(pl.Float64)
)


In [None]:
restaurantes = restaurantes.with_columns(
    pl.col('rate')
    .str.extract(r'^([\d\.]+)')
    .cast(pl.Float64)
)

In [None]:
restaurantes.select(
    pl.col('rate').max().alias('max'),
    pl.col('rate').min().alias('min')
)

Os valores obtidos revelam a amplitude das avaliações no mercado, desde os restaurantes mais bem avaliados até aqueles com pior reputação. Essa informação é crucial para entendermos o nível de exigência dos clientes e identificamos benchmarks de qualidade. Com essa base, podemos aprofundar a análise investigando a relação entre avaliações e outros fatores, como faixa de preço, tipo de restaurante e pratos mais populares, garantindo insights valiosos para o posicionamento da nova franquia.

## Convertendo textos para listas

Compreender as preferências gastronômicas dos clientes é essencial para definir o cardápio da nova franquia. Restaurantes bem-sucedidos geralmente possuem pratos que se destacam e atraem clientes recorrentes.<br>
Para garantir uma análise precisa, precisamos limpar e estruturar os dados das colunas `"dish_liked"` (pratos favoritos) e `"cuisines"` (tipos de culinária). Isso envolve dividir as listas de itens e remover espaços desnecessários, tornando os dados mais organizados para futuras análises.

In [None]:
restaurantes.with_columns(
    pl.col('dish_liked')
    .cast(pl.List(pl.String)),
    pl.col('cuisines')
    .cast(pl.List(pl.String))
)

In [None]:
restaurantes.with_columns(
    pl.col('dish_liked')
    .str.split(','),
    pl.col('cuisines')
    .str.split(',')
)

In [None]:
restaurantes.with_columns(
    pl.col('dish_liked')
    .str.split(',')
    .list.eval(pl.element().str.strip_chars()),
    pl.col('cuisines')
    .str.split(',')
    .list.eval(pl.element().str.strip_chars())
)

In [None]:
restaurantes = restaurantes.with_columns(
    pl.col('dish_liked')
    .str.split(',')
    .list.eval(pl.element().str.strip_chars()),
    pl.col('cuisines')
    .str.split(',')
    .list.eval(pl.element().str.strip_chars())
)

## Identificando dados únicos

O cardápio de um restaurante é um dos principais fatores que influenciam a experiência do cliente e a decisão de comsumo. Analisar os itens disponíveis pode revelar padrões e tendências gastronômicas que ajudam a definir o melhor mix de produtos para a nova franquia.<br>
No entanto, os dados brutos podem conter formatações indesejadas, com cochetes e espaços extras. Para garantir um análise precisa, primeiro limpamos a estruturamos a coluna "menu_item", transformando os itens do cardápio em listas organizadas.

In [None]:
restaurantes.select(
    pl.col('menu_item').unique()
)

In [None]:
restaurantes.select(
    pl.col('menu_item').unique()
).item(0,0)

In [None]:
restaurantes.with_columns(
    pl.col('menu_item')
    .str.replace('\[', '')
    .str.replace('\]', '')
)

In [None]:
restaurantes.with_columns(
    pl.col('menu_item')
    .str.replace('\[', '')
    .str.replace('\]', '')
    .str.split(',')
    .list.eval(pl.element().str.strip_chars())
)

In [None]:
restaurantes = restaurantes.with_columns(
    pl.col('menu_item')
    .str.replace('\[', '')
    .str.replace('\]', '')
    .str.split(',')
    .list.eval(pl.element().str.strip_chars())
)

In [None]:
restaurantes.filter(
    pl.col('menu_item').list.len() > 1
).select(
    pl.col('menu_item')
).item(0,0).to_list()



## Trabalhando com tipos de dados aninhados

A experiência do cliente é um dos fatores mais importantes para o sucesso de um restaurante. As avaliações e comentários fornecem insights valiosos sobre a percepção do público, ajudando a identificar pontos fortes e áreas de melhoria.<br>
Para garantir que os dados sejam analisados corretamente, primeiro precisamos limpar e estruturar a coluna `"reviews_list"`, removendo caracteres indesejados e separando os comentários individuais. Isso tornará a análise mais eficiente e permitirá extrais insights relevantes.

In [None]:
restaurantes.select(
    pl.col('reviews_list')
).item(0,0)

In [None]:
restaurantes.with_columns(
    pl.col('reviews_list')
    .str.replace('\[', '')
    .str.replace('\]', '')
    .str.replace('\(', '')
).select(
    pl.col('reviews_list')
).item(0,0)

In [None]:
restaurantes.with_columns(
    pl.col('reviews_list')
    .str.replace('\[', '')
    .str.replace('\]', '')
    .str.replace('\(', '')
    .str.split('), (')
)

In [None]:
restaurantes = restaurantes.with_columns(
    pl.col('reviews_list')
    .str.replace('\[', '')
    .str.replace('\]', '')
    .str.replace('\(', '')
    .str.split('), (')
)
