# **Análise do Mercado de Smartphones**

*Autores: Jonathan Santos, Juan Belieni e Marcelo Amaral*

## Introdução

<div style="text-align: justify">Nesse material foi usada a biblioteca Pandas, Altair e Numpy do Python para realizar a exploração e análise do mercado de smartphones, a partir da base de dados [Mobile Phones Data](https://www.kaggle.com/artempozdniakov/ukrainian-market-mobile-phones-data). Sendo assim pretende-se, com o auxílio de visualizações gráficas, descobrir quais as marcas de celulares mais populares, qual as médias de preços de cada marca e quais as características que mais influenciam a popularidade da marca, para tentar entender um pouco melhor esse cenário. Entretanto, vale ressaltar que esta é uma base de dados da Ucrânia não oficial, não sendo de nosso objetivo o comprometimento com a veracidade das informações disponíveis na base, mas sim, a prática de métodos de análise de dados na linguagem Python.

A base de dados utilizada para este trabalho contém informações sobre variados modelos de celulares lançados de 2013 à 2021. A escolha por esta base foi pela afinidade com essas tecnologias e seu mercado, além do interesse em realizar uma análise comparativa das marcas de celulares. A base possui diferentes tipos de variáveis, tornando o trabalho mais completo para avaliação, com 1224 modelos de smartphones dentre 64 marcas e 13 colunas de dados. Porém, foi feita uma seleção das marcas mais conhecidas para evitar análises desnecessárias, sendo estas OnePlus, Xiaomi, LG, Motorola, Samsung, HUAWEI, Google, ASUS e Apple, reduzindo para pouco mais de 600 modelos na base.<div/>

In [None]:
data.head()

Unnamed: 0.1,Unnamed: 0,brand_name,model_name,os,popularity,best_price,lowest_price,highest_price,sellers_amount,screen_size,memory_size,battery_size,release_date
0,0,ALCATEL,1 1/8GB Bluish Black (5033D-2JALUAA),Android,422,1690.0,1529.0,1819.0,36,5.0,8.0,2000.0,10-2020
1,1,ALCATEL,1 5033D 1/16GB Volcano Black (5033D-2LALUAF),Android,323,1803.0,1659.0,2489.0,36,5.0,16.0,2000.0,9-2020
2,2,ALCATEL,1 5033D 1/16GB Volcano Black (5033D-2LALUAF),Android,299,1803.0,1659.0,2489.0,36,5.0,16.0,2000.0,9-2020
3,3,ALCATEL,1 5033D 1/16GB Volcano Black (5033D-2LALUAF),Android,287,1803.0,1659.0,2489.0,36,5.0,16.0,2000.0,9-2020
4,4,Nokia,1.3 1/16GB Charcoal,Android,1047,1999.0,,,10,5.71,16.0,3000.0,4-2020


## Explorando a Base de Dados

<div style="text-align: justify">As grandes empresas de celulares almejam sempre um maior lucro a partir de suas estratégias específicas. Algumas marcas optam por ter mais variedades de opções de modelos, de preços e qualidades diversas, para alcançar mais tipos de clientes, como no caso da Samsung. Outras preferem uma política mais minimalista, com poucos modelos de produtos em médias altas de qualidade e preço, para lucrar no seu valor e não na quantidade de venda, como no caso da Apple. 

A partir do gráfico de barras abaixo pode-se ter certa noção dessa divergem nas estratégias de cada marca. A exemplo disso, é visível que a Samsung, que está representada pelas barras roxas, possui uma grande frequência de lançamentos de novos modelos, aparecendo em quase todos os meses. Enquanto a Apple, representada pela cor azul, possui poucos lançamentos normalmente agrupados no 2º semestre de cada ano. Além disso, está visualização inicial possibilita observar que muitas das 64 bases da tabela possuem pouquíssimos modelos de celulares, não acrescentando tanto para as análises gerais. No gráfico apenas 8 marcas foram destacadas, enquanto as outras 56 marcas, que correspondem a 87.5% das marcas da base, mal chegam a ocupar metade dos dados.<div/>

In [None]:
import altair as alt

brands_phones = data.brand_name.value_counts() / data.brand_name.count()
brands = brands_phones[brands_phones > 0.035].keys()

modified_data = data.copy()
modified_data.brand_name = modified_data.brand_name.map(lambda b: "Others" if b not in brands else b)
modified_data.release_date = modified_data.release_date.map(lambda d: "-".join(d.split("-")[::-1]))

alt.Chart(modified_data).mark_bar().encode(
    x=alt.X("release_date:T"),
    y="count()",
    color="brand_name",
    tooltip=["brand_name"]
).properties(width=1000, height=400).interactive()

## Análises




Importando os pacotes

In [None]:
import pandas as pd
import altair as alt
import numpy as np

Importando os dados e trantando

In [None]:
data = pd.read_csv("https://gist.githubusercontent.com/juanbelieni/fbeff086fbb7629a52d670876c88b3be/raw/ab3641e77d92c723c55f14323d24f20dfdc47506/phones_data.csv")

# Colocando a data de publicação no padrão ano-mês
data.release_date = data.release_date.map(lambda d: "-".join(d.split("-")[::-1]))
data = data.assign(year = data.release_date.map(lambda d: int(d.split("-")[0])))


## Popularidade das Marcas

<div style="text-align: justify">No gráfico de barras abaixo foi feita uma filtragem de 9 marcas mais conhecidas no Brasil. Observa-se que as 5 marcas mais populares foram a Google, OnePlus,  ASUS, Apple e LG, variando de 1200 à 950 pontos de popularidade, enquanto a marca menos popular possui 770 pontos. Sendo a Google uma das maiores empresas de tecnologia reconhecida por sua qualidade, ela pode conquistar tal posição mesmo possuindo pouquíssimos modelos de aparelhos e preços relativamente altos. Enquanto isso, a OnePlus, uma empresa pequena que já foi reconhecida por seus produtos de ótima qualidade com preços mais justos, também conseguiu um lugar de destaque em popularidade, ficando acima da Apple, uma marca consideravelmente maior.<div/>


In [None]:
brands = ["OnePlus", "Xiaomi", "LG", "Motorola", "Samsung", "HUAWEI", "Google", "ASUS", "Apple"]
filtered_data = data.query("year in [2020, 2021] and brand_name in @brands")
filtered_data = filtered_data.assign(year = filtered_data.release_date.map(lambda d: d.split("-")[0]))

alt.Chart(filtered_data).mark_bar().encode(
    x=alt.X("brand_name", title = "Marca", sort="y"),
    y=alt.Y("mean(popularity)", title="Popularidade"),
    tooltip=[
        alt.Tooltip("brand_name", title = "Marca"), 
        alt.Tooltip("mean(popularity)", title = "Popularidade")
    ]
).properties(width=1000, height=400).interactive()

## Média de Preços por Marca

<div style="text-align: justify">Nessa visualização é possível analisar as variações de preços das marcas ao longo dos anos a partir de um gráfico de linhas. Esta visualização pode ser relacionada com aspectos tratados acima, quando relaciona-se os resultados das análises de popularidade das marcas com os preços destas. Nota-se que a Apple, por sua dominância do mercado, possui os maiores preços, enquanto marcas como Xiaomi, HUAWEI, LG e Motorola possuem preços mais baixos, por ainda não terem um bom posicionamento no mercado (a exemplo da Motorola e Lenovo) ou por suas estratégias de negócios (a exemplo da Xiaomi). Vale ressaltar que a LG teve um aumento em seus preços depois de 2019, provavelmente pelas conquistas recentes em mercado e popularidade.<div/>

In [None]:
brands = ["OnePlus", "Xiaomi", "LG", "Motorola", "Samsung", "HUAWEI", "Google", "ASUS", "Apple"]
filtered_data = data.query("brand_name in @brands")
filtered_data.year = filtered_data.year.map(lambda d: str(d))

alt.Chart(filtered_data).mark_line().encode(
    x=alt.X("year:T", title = "Ano"),
    y=alt.Y("mean(best_price)", title="Média do preço"),
    color=alt.Color("brand_name", legend=alt.Legend(title="Marca"))
).properties(width=1000, height=400).interactive()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value


## Influência na Popularidade

<div style="text-align: justify">O mesmo visto com a ASUS se repete no gráfico de memória, levando a conclusão de que a popularidade dos celulares não é proporcional a suas especificações técnicas, ou seja, mesmo as marcas que investem em celulares com mais memória, tela e bateria, talvez não consigam conquistar um lugar de destaque no mercado. Entretanto, no gráfico de vendedores vê-se uma certa proporção relacionada a popularidade. Desconsiderando um pouco a marca Samsung, pode-se traçar uma linha pelas marcas e notar que quanto mais vendedores mais popularidade, o que pode significar simplesmente que quanto mais popular uma marca, mais confiança existe para que vendedores peguem seu produto.<div/>

In [None]:
brands = ["OnePlus", "Xiaomi", "LG", "Motorola", "Samsung", "HUAWEI", "Google", "ASUS", "Apple"]
filtered_data = data.query("brand_name in @brands")

grouped_data = filtered_data.dropna(subset = ['screen_size', 'battery_size', 'memory_size']).groupby('brand_name').agg(
Preço = pd.NamedAgg(column = 'best_price', aggfunc = np.mean),
Popularidade = pd.NamedAgg(column = 'popularity', aggfunc = np.mean),
Tamanho_tela = pd.NamedAgg(column = 'screen_size', aggfunc = np.mean),
Tamanho_bateria = pd.NamedAgg(column = 'battery_size', aggfunc = np.mean),
Tamanho_memória = pd.NamedAgg(column = 'memory_size', aggfunc = np.mean),
Vendedores = pd.NamedAgg(column = 'sellers_amount', aggfunc = np.mean))

grouped_data.index.name = 'brand_name'
grouped_data.reset_index(inplace = True)

alt.Chart(grouped_data).mark_circle().encode(
    x = alt.X('Popularidade'),
    y = alt.Y(alt.repeat('repeat'), type = 'quantitative'),
    color = alt.Color('brand_name', title = 'Nome da marca', scale = alt.Scale(scheme = 'set1')),
    size = 'Preço'
        ).repeat(repeat = ['Tamanho_tela', 'Tamanho_bateria', 'Tamanho_memória', 'Vendedores'], columns = 2
            ).interactive()

<div style="text-align: justify">O mesmo visto com a ASUS se repete no gráfico de memória, levando a conclusão de que a popularidade dos celulares não é proporcional a suas especificações técnicas, ou seja, mesmo as marcas que investem em celulares com mais memória, tela e bateria, talvez não consigam conquistar um lugar de destaque no mercado. Entretanto, no gráfico de vendedores vê-se uma certa proporção relacionada a popularidade. Desconsiderando um pouco a marca Samsung, pode-se traçar uma linha pelas marcas e notar que quanto mais vendedores mais popularidade, o que pode significar simplesmente que quanto mais popular uma marca, mais confiança existe para que vendedores peguem seu produto.<div/>





## Gráfico Extra

<div style="text-align: justify">A partir da atribuição de um Coeficiente de Tecnologia (resultado da soma dos números atribuidos a Tela, Bateria e Memória dos celulares) foi feita uma análise geral para comparar a influência das especificações técnicas nos pontos de popularidade.<div/>

In [None]:
brands = ["OnePlus", "Xiaomi", "LG", "Motorola", "Samsung", "HUAWEI", "Google", "ASUS", "Apple"]
filtered_data = data.query("brand_name in @brands")
data = data.assign(technology_coefficient = data.screen_size + data.memory_size // 100 + data.battery_size // 1000)

alt.Chart(filtered_data).mark_point().encode(
    x=alt.X("technology_coefficient:Q", title="Coeficiente de tecnologia"),
    y=alt.Y("popularity:Q", title = "Popularidade"),
    tooltip=[
        alt.Tooltip("model_name", title = "Modelo"),
        alt.Tooltip("year", title = "Ano"),
        alt.Tooltip("screen_size", title = "Tamanho da tela"),
        alt.Tooltip("memory_size", title = "Tamanho da memória"),
        alt.Tooltip("battery_size", title = "Tamanho da bateria"),
    ],
    color = "year"
).properties(width=425, height=200).facet(
    facet='brand_name:N',
    columns=3
).interactive()