**INTL6: Inteligência Artificial (2021.1)** <br/>
IFSP Campinas

Prof Dr. Samuel Martins <br/><br/>

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a><br />This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License</a>.

In [1]:
# pacotes usados neste notebook
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

# estilos padrão para os plots/visualizações
sns.set_theme(style="whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 14
plt.rcParams['ytick.labelsize'] = 14

<h1>Especificação</h1><hr/>

Neste notebook, realizaremos uma **Análise Exploratória de Dados** em um conjunto de dados sobre aplicativos da Google Play Store. <br/>
Nosso objetivo é responder algumas perguntas e hipóteses sobre o dataset. Para isso, analisaremos as variáveis do dataset em diferentes cenários, utilizando um ferramental que envolve a manipulação de dados, estatísticas descritivas e visualizações. <br/>
Focaremos mais nas estratégias de como responder às perguntas do que necessariamente no código para chegar nisso. Deixaremos a cargo de vocês o entendimento do ferramental. <br/>

Outro detalhe é que a apresentação das respostas neste notebook é _crua_. Você deveria escolher quais gráficos ou elementos são mais interessante para cada caso e, então, contar uma história: _Storytelling with Data_. 

Como suporte para visualização:
- https://datavizcatalogue.com/
- https://www.python-graph-gallery.com/

<h2>1. Dataset</h2>
<hr/>

**Dataset**: Google Play Store Apps: https://www.kaggle.com/lava18/google-play-store-apps <br/>

Este dataset contém dados sobre aplicativos da Google Play Store (2010 até agosto de 2018). <br/>
Cada *observação (registro/linha)* consiste de informações de um app, tais como categoria, avaliação, tamanho, entre outros. <br/>
Cada app possui uma avaliação (coluna 'Rating') que consiste da nota média de um conjunto de avaliações (coluna 'Reviews').

### 1.1 Importando o Dataset

### 1.2 Informações básicas

<br/>

O dataset pré-processado possui **8194** registros/observações/linhas e **13** atributos/variáveis/colunas.
Nenhum atributo possui valores NaN.

<h2>2. Análise Exploratória de Dados</h2>
<hr/>

**Estatísticas descritivas básicas**

## 2.1 Quais são os 10 Apps mais baixados?
Para analisar quais são os apps mais baixados, ordenaremos os registros pela coluna "Installs". Em caso de empate, desempataremos pela _avaliação_ dos aplicativos, ou seja, realizaremos uma nova ordenação pela coluna "Rating".

### 2.2 Qual a quantidade de aplicativos por categoria?

A distribuição das barras não está **ordenada**. Para ordená-las, precisamos passar a lista de nomes da 'Category' na orde que queremos visualizar.

Neste caso, vamos visualizar as barras em **ordem decrescente** da quantidade de apps por categoria.

As cores ilustradas no plot _não têm qualquer significado_ (nenhuma variável foi codificada usando cor).

### 2.3 Como se comportam as avaliações dos aplicativos? (tendências centrais, distribuição, etc)

Note que a **média** e a **mediana** não estão muito longe e que o **desvio padrão** não é tão alto, mesmo com uma escala tão baixa com é a das avaliações (de 0 a 5). Tudo isso indica (em números) que a dispersão de notas/avaliações dos aplitativos não é tão grande.

#### HISTOGRAMA

A **distribuição das avaliações** tem semelhanças com um _distribuição normal_ enviesada para à esquerda (skewed left distribution). <br/>

Apenas olhando este gráfico podemos notar que a grande maioria das avaliações estão no intervalo entre 4.0 e 5.0.

#### BOXPLOT

Pelo boxplot, é possível enxergar que 50% dos dados estão entre as avaliações 4.0 (Q1) e 4.5 (Q3), confirmando os resultados vindos do método `.describe()`.

Por outro lado, ele interpretou que os aplicativos com avaliações _menores do que ~3.25_ são ***outliers*** da distribuição. <br/>
Entretanto, é comum termos aplicativos mal avaliados. Assim sendo, a inclusão destes aplicativos na análise é relevante.

<br/>

O boxplot do seaborn identifica outliers usando o método de detecção via IQR. Para tanto, ele considera como **outlier** qualquer valor fora do intervalo **\[Q1 - 1.5\*IQR, Q3 + 1.5\*IQR\]**. Podemos controlar o fator **1.5** alterando o parâmetro `whis`. <br/>

Se quisermos, por exemplo, que o boxplot não tenha _outliers_, basta passar um valor alto para o `whis`.

#### VIOLIN PLOT

O _violin plot_ nos dá uma noção mais precisa de como os dados estão distribuídos, principalmente, entre os quartis.

### 2.4 Qual categoria é a melhor avaliada?

Vamos considerar que as melhores categorias são aquelas que possuem as maiores **médias**.

Ao computar a _média das avaliações por categoria_ e ordenar pela **maior média**, constatamos que a categoria "EVENTS" possui a maior média. <br/>
Mas, **não** é possível afirmar que essa é a _categoria melhor avaliada **apenas olhando para estes resultados**_, pois **o tamanho de cada amostra/grupo** (i.e., a quantidade de aplicativos por categoria) é diferente. Além disso, o **desvio padrão** também muda de categoria para categoria.<br/>

P. ex., a categoria "EVENTS" possui 45 apps, enquanto "BOOKS_AND_REFERENCE" possui 169.

Precisaríamos rodar algum **teste estatístico específico**, p. ex., para ter essa certeza. <br/>

Outra meneira (mais simples), é garantir **a mesma quantidade de observações para cada grupo** (mesmo tamanho de amostra). <br/>
Para isso, assumiríamos o tamanho do menor grupo, suponha N, e, para cada grupo restante, selecionaríamos _aleatoriamente_ N observações. <br/>
Mas, e se, **ao acaso**, selecionamos apenas observações com uma dada característica que não, necessariamente, representasse bem nossa distribuição original? <br/>
Uma alternativa, é realizar essa seleção múltiplas vezes. Mas este é um assunto para depois.

Algumas discussões interessantes sobre o assunto: <br/>
- https://www.researchgate.net/post/Is_there_any_way_to_compare_two_datasets_with_drastically_different_sample_sizes#:~:text=Most%20recent%20answer&text=One%20way%20to%20compare%20the,the%20single%204%20sample%20set.
- https://stackoverflow.com/a/63099989
- https://www.statisticshowto.com/unequal-sample-sizes/
- https://www.graphpad.com/support/faq/how-to-compare-two-means-when-the-groups-have-different-standard-deviations/


Por ora, vamos simplificar e assumir que apenas analisar esses resultados é suficiente para decidirmos quais são as categorias melhores avaliadas.

Ao analisar o boxplot, podemos nota que algumas categorias (p.ex., 'HEALTH_AND_FITNESS') possuem um **desvio padrão** um pouco maior do que as demais categorias. <br/>
Vamos dar uma olhada na distribuição das notas de uma dessas categorias apenas para ter um sentimento do que está acontecendo.

### 2.5 Como as avaliações se distribuem em cada categoria?
_Variável Numérica_ x _Variável Categórica_.

Para obter uma análise visual mais interessante, podemos ordenar os boxplots (ou violion plots) de acordo com algum critério. <br/>
Por exemplo, podemos ordená-los pela _mediana_ de cada categoria a fim de analisar, p. ex., como estão distribuídos _a metade dos apps mais bem avaliados_ de cada categoria, além de **diminuir o impacto de outliers** na distribuição.

Ao analisar os boxplots, vemos que as categorias *BOOKS_AND_REFERENCE* e *HEALTH_AND_FITNESS* possuem uma quantidade considerável de apps muito bem avaliados --- ~50% de seus apps possuem avaliação >- 4.5. Entretanto, a **variância** (dispersão) de suas avaliações é **muito alta**, vários _outliers_. <br/>

Vamos agora analisar o mesmo gráfico mas com as categorias organizadas pela **média** das avaliações.

Note que como a **média** é _sensível a outliers_, as categorias 'BOOKS_AND_REFERENCES_ e, principalmente, 'HEALTH_AND_FITNESS_ perderam posições. Categorias bem avaliadas e com poucos outliers (p. ex., 'EDUCATION' e 'EVENTS') apresentam médias maiores.

Em resumo, esta maneira de organizar e visualizar este gráfico é interessante quando você quer considerar o impacto dos outliers da variável analisada. A visualização anterior, ordenando pelas medianas, visa o oposto.

### 2.6 Qual a média e distribuição de downloads/instalações dos apps em geral?

#### **CONSIDERANDO OS APPS MAIS POPULATES (_"OUTLIERS"_)**
Vamos considerar que: **Mais popular** significa **mais instalado**

Embora a escala da variável é muito alta ([1, 1B]), note como o **desvio padrão** é consideravelmente alto, o indica que a _distribuição de instalações é bem espalhada_. <br/>


De acordo com o boxplot acima, temos _uma pequena quantidade de apps_ que possuem uma **quantidade muito alta** de instalações ==> _outliers_. <br/>

De fato, os outliers são aplicativos extremamente populares e baixados.

Podemos então fazer alguns tipos de análise frente a esta situação:
- Analisamos como os outliers (apps mais instalados) se comportam
- Analisamos os apps menos instalados (desconsideramos os outliers)

Para descobrir os outliers, poderíamos analisar o _boxplot_ e simplesmente "chutar" qual é o intervalo de valores que os outliers se encontram. <br/>
Porém, uma forma mais interessante é utilizar, inicialmente, o **método de detecçao de outliers pelo IQR**, que é justamente o método utilizado pelo boxplot acima.

Como o número mínimo de instalações é 0, nosso **intervalo sem outliers real** é **[0, 2485000]**. <br/>
Assim, os apps mais populares, com mais de 2485000 instalações, são considerados _outliers_.

Temos um total de **1978** apps com mais de **2485000** instalações.

#### **Analisando os apps mais populares**

O **desvio padrão** dos _apps mais populares_ continua bem alto, o que indica que a distribuição do número de instalações é bem espalhada. <br/>
Além disso, note que a **média** e **mediana** do número de instalações são _muito diferentes_.

Note que, mesmo entre os _aplicativos mais populares_ -- aqueles que possuem **número de instalações maior que 2485000** -- há alguns que estrapolam o número de instalações (**_outliers_**). <br/>
Pelo boxplot, é possível chutar que qualquer app com mais do que 50M (0.05e9) são de fato **_outliers_**. <br/>

Vamos analisar o **histograma** dos apps mais populares.

De fato, vemos que a maior parte dos apps mais populares possuem número de instalações inferior a 50M (0.05e9). <br/>

Poderíamos estabelecer um **novo intervalo** de número de instalações para detectar _outliers_ (apps mais populares). O novo intervalo poderia ser **[0, 50000000]**, ao invés de [0, 2485000]. <br/>
Consequentemente, diminuiríamos o número de apps inicialmente considerados outliers e aumentaríamos a quantidade dos apps "normais" (menos populares). <br/>

O problema é que, provavelmente, estes _apps removidos dos outliers iniciais_ serão **outliers** na nova amostra de apps "normais". <br/>
Analisemos o boxplot deste conjunto:

Ainda temos 'outliers' dentro da amostra de **'novos outliers'** ==> alta variância.

No _novo conjunto de apps menos populares_, temos agora **outliers**, que  são, justamente, os novos apps considerados. <br/>

Dado este dilema, vamos adotar a seguinte estratégia: <br/>
- Como o **conjunto de apps mais populares** (outliers iniciais) continuam com **alta variância** no _número de instalações_, independente se removermos seus apps com menos de 50M instalações, **manteremos** o conjunto de outliers originalmente obtidos como está. <br/>
- Isso porque, neste momento, estamos interessados _apenas_ na análise de uma **única variável: _Installs_**. <br/>
- Desta forma, mantemos um conjunto de apps de fato _sem outliers_ (apps menos populares) para uma análise menos "ruidosa".

Uma estratégia mais interessante ao querer confrontar/analisar **o número de instalações** com outra variável é agrupar os apps, de acordo com suas quantidades de downloads, em uma **nova variável categórica**. <br/>
Isso tende _a facilitar nossa análise_, p. ex., isolando grupos de apps com números exorbitantes de instalação. <br/>
Veremos isso jajá!

#### **Analisando a quantidade de instalação dos apps menos populares (menos instalados)**

O **desvio padrão** das instalações ainda é consideravelmente alto, mas bem menor do que para os _apps mais instalados_. <br/>
A diferença entre a **média** e a **mediana** das instalações é _menor_ do que para os _apps mais instalados_ também. <br/>

Apenas analisando estas estatísticas descritivas, percebemos que os números de instalação destes apps são bem distribuídas, mas em um intervalo bem menor do que para _apps mais instalados_.

Dos apps menos populares:
- **25% (Q1)** possuem apps com número de instalações **<= 5000** (veja a tabela de describe)
- **50% (Q2 - mediana)** possuem apps com número de instalações **<= 50000** (veja a tabela de describe)
- **75% (Q3)** possuem apps com número de instalações **<= 500000** (veja a tabela de describe)
- **25%** possuem apps com número de instalações **> 500000 e <= 1M**

- **25%** possuem apps com número de instalações espalhados no intervalo de **[Q1, Q2] ==> [5000, 50000]**
- **25%** possuem apps com número de instalações espalhados no intervalo de **[Q2, Q3] ==> [50000, 500000]**
  + **maior variância (dispersão)** dos dados do que o caso anterior

Dos **25% de apps mais instalados**, a maioria deles possuem número de instalações perto de **1M**.

### 2.7 Criando grupos para a quantidade de instalações 
Vamos agrupar os aplicativos de acordo com seus **números de instalações**. <br/>
Este processo é conhecido como **segmentação**: criaremos intervalores de valores (bins) para representar cada grupo. <br/>
Em outras palavras, segmentaremos o intervalo original, de modo que cada grupo terá um segmento (sub-intervalo).

Vamos adotar as seguintes categorias/grupos para o **número de instalações**:
- **Muito Baixo**: [0, 1k] instalações
- **Baixo**: (1k, 10k] instalações
- **Médio**: (10k, 100k] installações 
- **Alto**: (100k, 1M]
- **Muito Alto**: (1M, 100M]
- **Extremamente Alto**: (100M,)

PS: esta é apenas uma sugestão de segmentação. Outras opções poderiam ser levadas em conta.

Para criar estas categorias (segmentos, bins) a partir de intervalos numéricos, podemos utilizar o método `pd.cut()` do pandas: # https://pandas.pydata.org/docs/reference/api/pandas.cut.html

Após a segmentação/agrupamento, conseguimos notar que os dois maiores grupos possuem um número **alto** ou **muito alto** de instalações, enquanto apenas um pequeno número de aplicativos possui um valor **extremamente alto** de instalações. <br/>
Mais quais são esses números?

#### Pie plot

O uso do gráfico de pizza é um pouco _controverso_, uma vez que as **diferenças entre áreas** não são tão perceptíveis do que as **diferenças entre alturas** em um gráfico de barras. <br/>
P. ex., por este gráfico, como saber qual área é maior: _Alto_ ou _Muito Alto_??? _Médio_ ou _Baixo_? <br/>
Desta maneira, no geral o **gráfico de barras** é preferível.

Mas, podemos tentar melhorar o gráfico de pizza adicionando os números de registros de cada fatia:

### 2.8 Qual é a proporção de apps Free e Paid?

### 2.9 Qual é avaliação média de cada tipo de aplicativo?
Variável numérica x Variável Categórica.

#### VISUALIZANDO A DISTRIBUIÇÃO DE NOTAS POR APLICATIVO

##### RIDGE LINE

Por mais que a **proporção** de apps gratuitos e pagos seja bem diferentes, ao analisar as estatísticas descritivas e os plots, conseguimos afirmar que a _distribuição de avaliações_ de cada tipo é similar, sendo os aplicativos pagos ligeiramente melhor avaliados do que os apps gratuitos.

### 2.10 Qual é distribuição de avaliações de cada tipo de aplicativo de acordo com a quantidade de instalações?
Comparação de 3 variáveis: uma numérica e duas categóricas.

Alguns insights/conlusões:
- No geral, a grande maioria dos apps gratuitos e pagos (~75%) possui avaliações próximas de 3.75 para cima, independente do número de instalações.
- Não temos **apps pagos** que foram **extremamente baixados** (> 100M)
- Não temos a escala de preços, mas faz sentido pensar que quanto maior o preço do app, menor o número de instalações (analisaremos essa hipótese depois)
- Apps gratuitos com número de instalação 'Muito Alta' e 'Extremamente Alta' possuem menor variância entre as avaliações, ou seja, a percepção dos usuários é parecida em cada categoria.
- Apps pagos com número de instalação 'Alta' e 'Muito Alta' possuem menor variância entre as avaliações, ou seja, a percepção dos usuários é parecida em cada categoria.
- Apps com número _'Muito Baixo' de instalações ([0, 1k]) possuem opiniões mais diversas

### 2.11 Qual é avaliação média de cada categoria para cada tipo de aplicativo?
Comparação de 3 variáveis: uma numérica e duas categóricas.

Analisando este gráfico, podemos identificar algumas categorias cujas as *avaliações médias* **são bem discrepantes** entre os tipos de apps:
P. ex: 'Parenting'.

Podemos querer analisar esta categoria específica para então tentar entender ou buscar insights das causas destas discrepâncias.

Note que a quantidade de apps **pagos** da category 'Parenting' (2 apps - 4%) é _muito menor_ do que de apps **gratuitos** (96%). Além do problema do desbalanceamento, apenas 2 observações é muito pouco para conseguirmos extrair informações. <br/>

Dado essas observações, **TOME CUIDADO**, pois podemos tirar conclusões precipitadas em situações como essa.

#### Population Pyramid
A Population Pyramid is a pair of back-to-back Histograms (for each sex) that displays the distribution of a population in all age groups and in both sexes. The X-axis is used to plot population numbers and the Y-axis lists all age groups

_Não levando em consideração o tamanho de cada grupo neste momento_, podemos ver que a média das avaliações dos apps **gratuitos** é relativamente similar em todas as categorias. <br/>
Já para os aplicativos pagos, a dispersão entre as avaliações médias das categorias é maior.

### 2.12 Existe correlação entre os preços dos aplicativos e suas avaliações?
Será que quanto mais caro o app, melhor ou pior avaliado ele é?

<br/>

Após todas estas possíveis maneiras de analisar o mesmo fenômeno, concluímos que **não correlação** entre o preço dos apps e suas avaliações.

#### **CORRELAÇÃO DO PREÇOS COM AS DEMAIS VARIÁVEIS NÚMERICAS PARA OS APPS PAGOS**

Analisando os **coeficientes de correlação**, vemos que **não há nenhuma correlação forte** entre o preço e outra variável numérica.<br/>
Isso é interessante, pois tínhamos a impressão de que _quanto mais caro o app_ **menor** o _número de instalações_. Vamos analisar esse cenário com mais cuidado na próxima pergunta.

Por um momento, ignore os os plots de outras variáveis que não incluem o preço.

Olhando para os scatterplots com Preço (última coluna), confirmamos, visualmente, que **não há correlações fortes** entre o **preço** e as demais variáveis númericas. <br/>
O que notamos é que _parece_ haver uma _correlação (não necessariamente causalidade)_ entre as **avaliações** dos _apps pagos_ com seus **tamanhos**. <br/>
Vamos investigar esta hipótese.

Ao analisar, em uma escala visual maior, o scatterplot entre as variáveis 'Rating' e 'Size', vemos que não há correlação entre as variáveis. <br/>
Parece que há uma concentração muito grande de observação na região com Rating entre [4, 5] e Size [0, 0.2e8]. <br/>
Vamos checar isso plotando um **hexagonal binning**.

De fato, há uma quantidade muito grande de observações concentradas na região com Rating [4, 4.7] e Size [0, 0.1]. <br/>
Isso mostra que, às vezes, um dado plot, principalmente em escalas pequenas, podem nos enganar visualmente. <br/>

P. ex., ao analisar o scatterplot destas duas variáveis, anteriormente obtido pelo `.pairplot`, tínhamos a impressão que os pontos (observações) estavam bem espalhados. Não conseguimos notas essa concentração de observações em uma mesma região, uma vez que os pontos do scatterplot estavam superpostos. <br/>
Portanto, **cuidado** durante sua análise exploratória.

Portanto, ao analisarmos as duas variáveis com mais detalhes e cuidado, percebemos que nossa percepção inicial estava errada.

### 2.13 O número de instalações está correlacionado com o preço dos apps?
Durante a exploração da pergunta 2.10, surgiu a hipótese que _'quanto mais caro for o apps, menor será seu número de instalações/downloads'_. <br/>
Vamos então investigar essa hipótese a fundo.

Pelo coeficiente de correlação, **NÃO** há correlação entre essas duas variáveis.

Vemos que há alguns **outliers** que dificultam a visualização. Vamos removê-los "no olho".

Realmente, não há correlação entre o número de instalações e os preços dos apps, pois há apps caros ($ 400.0) com número médio de instalações: (10k, 100k]. Vejamos quem são eles (o que comem, onde moram, ...) =D

Os dois primeiros apps custam +- $ 400.0 e foram muito baixados. Após uma pesquisa simples no google: https://www.techtudo.com.br/artigos/noticia/2012/03/aplicativos-de-celular-que-servem-apenas-para-mostrar-o-quanto-voce-e-rico.html

Este é um ponto importante: Nossa **análise exploratória** visa explorar padrões/comportamentos nos dados. A causalidade de tais não estarão mostradas, necessariamente, nessa exploração (números, tabelas, gráficos). É preciso então, em um segundo momento, visar entender tais causalidades.

#### **Analisando apenas apps com preço <= $100**

Bem, mesmo removendo "outliers" e analisando apenas uma faixa de preço, **não há correlação** entre o **preço dos apps** e o **número de ínstalações** (ao menos para este problema e dataset).

### 2.14 Qual a correlação entre as variáveis numéricas?
Vamos agora fazer uma busca geral, correlacionando todas as variáveis numéricas de nosso dataset. Nosso intuito, é tentar encontrar algum correlação entre variáveis.

Apenas analisando os **coeficientes de correlação**, vemos que as únicas variáveis numéricas que apresentam alguma correlação são **Installs** (número de instalações) e **Reviews** (número de revisões), o que é meio óbvio, pensando bem =D

Visualmente, a correlação de tais variáveis é visível.

Será que há algum padrão diferente ao diferenciarmos apps gratuitos dos pagos?

Note que a quantidade de instalações e de reviews são bem baixas para os apps pagos.

### 2.15 Como estão distribuídas as categorias de acordo com a classificação de conteúdo?

## Continue a exploração
**Sugestões**:
- Analisar as categorias e gêneros
- Analisar os gêneros e tipos de apps
- Analisar as avaliações e números de instalações por gênero
- Relacionar a indicação de conteúdo com o número de instalações
- Organize todos os achados e conclusões deste notebook em uma apresentação que conte uma história