**D1DAE: Análise Estatística para Ciência de Dados (2021.1)** <br/>
IFSP Campinas

Profs: Ricardo Sovat, Samuel Martins <br/><br/>

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a><br />This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License</a>.

In [None]:
# pacotes usados neste notebook
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

# estilos padrão para os plots/visualizações
sns.set_theme(style="whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 14
plt.rcParams['ytick.labelsize'] = 14

<h1>Especificação</h1><hr/>

Neste notebook, realizaremos uma **Análise Exploratória de Dados** em um conjunto de dados sobre aplicativos da Google Play Store. <br/>
Nosso objetivo é responder algumas perguntas e hipóteses sobre o dataset. Para isso, analisaremos as variáveis do dataset em diferentes cenários, utilizando um ferramental que envolve a manipulação de dados, estatísticas descritivas e visualizações. <br/>
Focaremos mais nas estratégias de como responder às perguntas do que necessariamente no código para chegar nisso. Deixaremos a cargo de vocês o entendimento do ferramental. <br/>

Outro detalhe é que a apresentação das respostas neste notebook é _crua_. Você deveria escolher quais gráficos ou elementos são mais interessante para cada caso e, então, contar uma história: _Storytelling with Data_. 

Como suporte para visualização:
- https://datavizcatalogue.com/
- https://www.python-graph-gallery.com/

<h2>1. Dataset</h2>
<hr/>

**Dataset**: Google Play Store Apps: https://www.kaggle.com/lava18/google-play-store-apps <br/>

Este dataset contém dados sobre aplicativos da Google Play Store (2010 até agosto de 2018). <br/>
Cada *observação (registro/linha)* consiste de informações de um app, tais como categoria, avaliação, tamanho, entre outros. <br/>
Cada app possui uma avaliação (coluna 'Rating') que consiste da nota média de um conjunto de avaliações (coluna 'Reviews').

### 1.1 Importando o Dataset

In [None]:
df = pd.read_csv("./datasets/googleplaystore_preprocessado.csv")

In [None]:
df.head()

### 1.2 Informações básicas

In [None]:
df.info()

<br/>

O dataset pré-processado possui **8194** registros/observações/linhas e **13** atributos/variáveis/colunas.
Nenhum atributo possui valores NaN.

<h2>2. Análise Exploratória de Dados</h2>
<hr/>

**Estatísticas descritivas básicas**

In [None]:
df.describe()

## 2.1 Quais são os 10 Apps mais baixados?
Para analisar quais são os apps mais baixados, ordenaremos os registros pela coluna "Installs". Em caso de empate, desempataremos pela _avaliação_ dos aplicativos, ou seja, realizaremos uma nova ordenação pela coluna "Rating".

In [None]:
top10_apps_mais_baixados = df.sort_values(by='Installs', ascending=False).head(10)
top10_apps_mais_baixados

In [None]:
# plotando o mesmo gráfico, mas na horizontal para um melhor entendimento
sns.barplot(data=top10_apps_mais_baixados, x='Installs', y='App')
plt.xticks([0, 0.2e9, 0.4e9, 0.6e9, 0.8e9, 1e9], ['0', '200M', '400M', '600M', '800M', '1B'])
plt.title('Top 10 Apps mais baixados')

### 2.2 Qual a quantidade de aplicativos por categoria?

In [None]:
df.head()

In [None]:
df.value_counts(subset=['Category'])

In [None]:
sns.countplot(data=df, x='Category')
plt.xticks(rotation=90)
plt.xlabel('Categoria')
plt.ylabel('Qtde de Apps')
plt.title('Qtde de Apps por Categoria')

In [None]:
plt.figure(figsize=(20, 10))

sns.countplot(data=df, y='Category')
plt.xlabel('Qtde de Apps')
plt.ylabel('Categoria')
plt.title('Qtde de Apps por Categoria')

A distribuição das barras não está **ordenada**. Para ordená-las, precisamos passar a lista de nomes da 'Category' na orde que queremos visualizar.

Neste caso, vamos visualizar as barras em **ordem decrescente** da quantidade de apps por categoria.

In [None]:
order = df['Category'].value_counts().index
order

In [None]:
plt.figure(figsize=(20, 10))

sns.countplot(data=df, y='Category', order=order)
plt.xlabel('Qtde de Apps')
plt.ylabel('Categoria')
plt.title('Qtde de Apps por Categoria')

As cores ilustradas no plot _não têm qualquer significado_ (nenhuma variável foi codificada usando cor).

### 2.3 Como se comportam as avaliações dos aplicativos? (tendências centrais, distribuição, etc)

In [None]:
stats = df.describe()
stats

In [None]:
df['Rating'].describe()

In [None]:
print(f"A nota média (avaliação) dos aplicativos é de {stats.loc['mean', 'Rating']:.2f} +- {stats.loc['std', 'Rating']:.2f}")
print(f"A media das avaliações é de {stats.loc['50%', 'Rating']}")

Note que a **média** e a **mediana** não estão muito longe e que o **desvio padrão** não é tão alto, mesmo com uma escala tão baixa com é a das avaliações (de 0 a 5). Tudo isso indica (em números) que a dispersão de notas/avaliações dos aplitativos não é tão grande.

#### HISTOGRAMA

In [None]:
# kde ==> kernel density estimation
# É um jeito de estimar a função densidade de probabilidade de uma variável aleatória.

sns.histplot(data=df, x='Rating', kde=True)
plt.xlabel('Avaliações (notas)')
plt.ylabel('Contagem')
plt.title('Histograma das avaliações de todos os apps', fontsize=20)

A **distribuição das avaliações** tem semelhanças com um _distribuição normal_ enviesada à esquerda (skewed left distribution). <br/>

Apenas olhando este gráfico podemos notar que a grande maioria das avaliações estão no intervalo entre 4.0 e 5.0.

#### BOXPLOT

In [None]:
# mostra uma coluna da tabela (dataframe) como uma outra tabela, ao invés de uma Series
stats[['Rating']]

In [None]:
plt.figure(figsize=(20, 10))
sns.boxplot(data=df, x='Rating')
plt.xticks(np.arange(0.0, 5.01, 0.25))  # gerando novos ticks para o eixo x
plt.title('Boxplot das avaliações de todos os aplicativos', fontsize=18)

Pelo boxplot, é possível enxergar que 50% dos dados estão entre as avaliações 4.0 (Q1) e 4.5 (Q3), confirmando os resultados vindos do método `.describe()`.

Por outro lado, ele interpretou que os aplicativos com avaliações _menores do que ~3.25_ são ***outliers*** da distribuição. <br/>
Entretanto, é comum termos aplicativos mal avaliados. Assim sendo, a inclusão destes aplicativos na análise é relevante.

In [None]:
apps_com_rating_leq_3_25 = df.query('Rating <= 3.25')
apps_com_rating_leq_3_25

In [None]:
print(f'A quantidade de apps considerados "outliers" por suas avaliações é de {apps_com_rating_leq_3_25.shape[0]} '
      f'({apps_com_rating_leq_3_25.shape[0] * 100 / df.shape[0]:.2f}%) de um total de {df.shape[0]} apps.')

<br/>

O boxplot do seaborn identifica outliers usando o método de detecção via IQR. Para tanto, ele considera como **outlier** qualquer valor fora do intervalo **\[Q1 - 1.5\*IQR, Q3 + 1.5\*IQR\]**. Podemos controlar o fator **1.5** alterando o parâmetro `whis`. <br/>

Se quisermos, por exemplo, que o boxplot não tenha _outliers_, basta passar um valor alto para o `whis`.

In [None]:
plt.figure(figsize=(20, 10))
sns.boxplot(data=df, x='Rating', whis=10)
plt.xticks(np.arange(0.0, 5.01, 0.25))
plt.title('Boxplot das avaliações de todos os aplicativos', fontsize=18)

#### VIOLIN PLOT

In [None]:
plt.figure(figsize=(20, 10))
sns.violinplot(data=df, x='Rating')
plt.xticks(np.arange(0.0, 5.01, 0.25))
plt.title('Violin Plot das avaliações de todos os aplicativos', fontsize=18)

O _violin plot_ nos dá uma noção mais precisa de como os dados estão distribuídos, principalmente, entre os quartis.

### 2.4 Qual categoria é a melhor avaliada?

In [None]:
stats = df.groupby('Category').describe()['Rating']
stats

Vamos considerar que as melhores categorias são aquelas que possuem as maiores **médias**.

In [None]:
stats.sort_values(by='mean', ascending=False)

Ao computar a _média das avaliações por categoria_ e ordenar pela **maior média**, constatamos que a categoria "EVENTS" possui a maior média. <br/>
Mas, **não** é possível afirmar que essa é a _categoria melhor avaliada **apenas olhando para estes resultados**_, pois **o tamanho de cada amostra/grupo** (i.e., a quantidade de aplicativos por categoria) é diferente. Além disso, o **desvio padrão** também muda de categoria para categoria.<br/>

P. ex., a categoria "EVENTS" possui 45 apps, enquanto "BOOKS_AND_REFERENCE" possui 169.

Precisaríamos rodar algum **teste estatístico específico**, p. ex., para ter essa certeza. <br/>

Outra meneira (mais simples), é garantir **a mesma quantidade de observações para cada grupo** (mesmo tamanho de amostra). <br/>
Para isso, assumiríamos o tamanho do menor grupo, suponha N, e, para cada grupo restante, selecionaríamos _aleatoriamente_ N observações. <br/>
Mas, e se, **ao acaso**, selecionamos apenas observações com uma dada característica que não, necessariamente, representasse bem nossa distribuição original? <br/>
Uma alternativa, é realizar essa seleção múltiplas vezes. Mas este é um assunto para depois.

Algumas discussões interessantes sobre o assunto: <br/>
- https://www.researchgate.net/post/Is_there_any_way_to_compare_two_datasets_with_drastically_different_sample_sizes#:~:text=Most%20recent%20answer&text=One%20way%20to%20compare%20the,the%20single%204%20sample%20set.
- https://stackoverflow.com/a/63099989
- https://www.statisticshowto.com/unequal-sample-sizes/
- https://www.graphpad.com/support/faq/how-to-compare-two-means-when-the-groups-have-different-standard-deviations/


Por ora, vamos simplificar e assumir que apenas analisar esses resultados é suficiente para decidirmos quais são as categorias melhores avaliadas.

In [None]:
plt.figure(figsize=(20,10))
# topo de cada barra mostra a média das avaliações para cada categoria
# o risco no topo da barra indica seu respectivo desvio padrão (parâmetro ci='sd')
sns.barplot(data=df, x='Rating', y='Category', ci='sd')

In [None]:
# vamos ordernar o barplot pela média das avaliações de cada grupo
order = stats.sort_values(by='mean', ascending=False).index
order

In [None]:
plt.figure(figsize=(20,10))
sns.barplot(data=df, x='Rating', y='Category', ci='sd', order=order)
plt.xlabel('Avaliação (Nota Média)')
plt.ylabel('Categoria')
plt.title('Avaliações das Categorias', fontsize=20)

Ao analisar o boxplot, podemos nota que algumas categorias (p.ex., 'HEALTH_AND_FITNESS') possuem um **desvio padrão** um pouco maior do que as demais categorias. <br/>
Vamos dar uma olhada na distribuição das notas de uma dessas categorias apenas para ter um sentimento do que está acontecendo.

In [None]:
### Vamos analisar a categoria HELATH_AND_FITNESS, pq ela tem um std grande (caso específico)
sns.boxplot(data=df.query('Category == "HEALTH_AND_FITNESS"'), x='Rating')

### 2.5 Como as avaliações se distribuem em cada categoria?
_Variável Numérica_ x _Variável Categórica_.

In [None]:
stats = df.groupby('Category').describe()['Rating']
stats

In [None]:
plt.figure(figsize=(20, 12))
sns.boxplot(data=df, x='Rating', y='Category')

In [None]:
plt.figure(figsize=(20, 20))
sns.violinplot(data=df, x='Rating', y='Category')

Para obter uma análise visual mais interessante, podemos ordenar os boxplots (ou violion plots) de acordo com algum critério. <br/>
Por exemplo, podemos ordená-los pela _mediana_ de cada categoria a fim de analisar, p. ex., como estão distribuídos _a metade dos apps mais bem avaliados_ de cada categoria, além de **diminuir o impacto de outliers** na distribuição.

In [None]:
# ordenando pela mediana
order = stats.sort_values(by='50%').index
order

In [None]:
plt.figure(figsize=(20, 12))
sns.boxplot(data=df, x='Rating', y='Category', order=order)

Ao analisar os boxplots, vemos que as categorias *BOOKS_AND_REFERENCE* e *HEALTH_AND_FITNESS* possuem uma quantidade considerável de apps muito bem avaliados --- ~50% de seus apps possuem avaliação >- 4.5. Entretanto, a **variância** (dispersão) de suas avaliações é **muito alta**, vários _outliers_. <br/>

Vamos agora analisar o mesmo gráfico mas com as categorias organizadas pela **média** das avaliações.

In [None]:
# ordenando pela média
order = stats.sort_values(by='mean').index

plt.figure(figsize=(20, 12))
sns.boxplot(x='Rating', y='Category', data=df, order=order)

Note que como a **média** é _sensível a outliers_, as categorias 'BOOKS_AND_REFERENCES_ e, principalmente, 'HEALTH_AND_FITNESS_ perderam posições. Categorias bem avaliadas e com poucos outliers (p. ex., 'EDUCATION' e 'EVENTS') apresentam médias maiores.

Em resumo, esta maneira de organizar e visualizar este gráfico é interessante quando você quer considerar o impacto dos outliers da variável analisada. A visualização anterior, ordenando pelas medianas, visa o oposto.

### 2.6 Qual a média e distribuição de downloads/instalações dos apps em geral?

#### **CONSIDERANDO OS APPS MAIS POPULATES (_"OUTLIERS"_)**
Vamos considerar que: **Mais popular** significa **mais instalado**

In [None]:
stats = df.describe()
stats

In [None]:
print(f"A média geral de instalações é de {stats.loc['mean', 'Installs']:.2f} ± {stats.loc['std', 'Installs']:.2f}")
print(f"A escala do Número de Instalações é de [{stats.loc['min', 'Installs']}, {stats.loc['max', 'Installs']}]")

Embora a escala da variável é muito alta ([1, 1B]), note como o **desvio padrão** é consideravelmente alto, o que indica que a _distribuição de instalações seja bem espalhada_. <br/>


In [None]:
sns.boxplot(data=df, x='Installs')

De acordo com o boxplot acima, temos _uma pequena quantidade de apps_ que possuem uma **quantidade muito alta** de instalações ==> _outliers_. <br/>

In [None]:
# recuperando os 10 apps mais baixados (sem considerar nenhum critério de desempate)
# queremos apenas saber de alguns exemplos
df.sort_values(by='Installs', ascending=False).head(10)

De fato, os outliers são aplicativos extremamente populares e baixados.

Podemos então fazer alguns tipos de análise frente a esta situação:
- Analisamos como os outliers (apps mais instalados) se comportam
- Analisamos os apps menos instalados (desconsideramos os outliers)

Para descobrir os outliers, poderíamos analisar o _boxplot_ e simplesmente "chutar" qual é o intervalo de valores que os outliers se encontram. <br/>
Porém, uma forma mais interessante é utilizar, inicialmente, o **método de detecçao de outliers pelo IQR**, que é justamente o método utilizado pelo boxplot acima.

In [None]:
Q1 = stats.loc['25%', 'Installs']
Q3 = stats.loc['75%', 'Installs']

IQR = Q3 - Q1

# intervalo sem outliers
lower_bound = Q1 - 1.5*IQR
upper_bound = Q3 + 1.5*IQR


print(f'Q1 = {Q1}')
print(f'Q3 = {Q3}')
print(f'IQR = {IQR}')
print(f'Intervalo sem outliers: [{lower_bound}, {upper_bound}]')

Como o número mínimo de instalações é 0, nosso **intervalo sem outliers real** é **[0, 2485000]**. <br/>
Assim, os apps mais populares, com mais de 2485000 instalações, são considerados _outliers_.

In [None]:
apps_mais_populares = df.query('Installs > @upper_bound')
apps_mais_populares

Temos um total de **1978** apps com mais de **2485000** instalações.

#### **Analisando os apps mais populares**

In [None]:
stats_apps_mais_populares = apps_mais_populares.describe()
stats_apps_mais_populares

In [None]:
print(f"A qtde de apps mais populares (número de instalações > 2485000.0) é de {apps_mais_populares.shape[0]}")
print(f"A média geral de instalações é de {stats_apps_mais_populares.loc['mean', 'Installs']:.2f} ± {stats_apps_mais_populares.loc['std', 'Installs']:.2f}")
print(f"A mediana de instalações é de {stats_apps_mais_populares.loc['50%', 'Installs']:.2f}")

O **desvio padrão** dos _apps mais populares_ continua bem alto, o que indica que a distribuição do número de instalações é bem espalhada. <br/>
Além disso, note que a **média** e **mediana** do número de instalações são _muito diferentes_.

In [None]:
plt.figure(figsize=(20, 12))

sns.boxplot(data=apps_mais_populares, x='Installs')
plt.xticks(np.arange(0.0e9, 1.0001e9, 0.05e9))  # alterando os ticks do eixo x para uma melhor visualização

Note que, mesmo entre os _aplicativos mais populares_ -- aqueles que possuem **número de instalações maior que 2485000** -- há alguns que extrapolam o número de instalações (**_outliers_**). <br/>
Pelo boxplot, é possível chutar que qualquer app com mais do que 50M (0.05e9) são de fato **_outliers_**. <br/>

Vamos analisar o **histograma** dos apps mais populares.

In [None]:
plt.figure(figsize=(20, 12))

sns.histplot(data=apps_mais_populares, x='Installs')
plt.xticks(np.arange(0.0, 1.0001e9, 0.05e9))

De fato, vemos que a maior parte dos apps mais populares possuem número de instalações inferior a 50M (0.05e9). <br/>

Poderíamos estabelecer um **novo intervalo** de número de instalações para detectar _outliers_ (apps mais populares). O novo intervalo poderia ser **[0, 50000000]**, ao invés de [0, 2485000]. <br/>
Consequentemente, diminuiríamos o número de apps inicialmente considerados outliers e aumentaríamos a quantidade dos apps "normais" (menos populares). <br/>

O problema é que, provavelmente, estes _apps removidos dos outliers iniciais_ serão **outliers** na nova amostra de apps "normais". <br/>
Analisemos o boxplot deste conjunto:

In [None]:
# boxplot dos novos "outliers"
# agora, qualquer app com número de instalações maior ou igual a 50000000 será considerado outlier (antes o upper bound era 2485000)
sns.boxplot(data=df.query('Installs >= 50000000'), x='Installs')
plt.title('Distribuição do Número de Instalações para os Novos "Outliers"')

Ainda temos 'outliers' dentro da amostra de **'novos outliers'** ==> alta variância.

In [None]:
# boxplot dos apps "normais" (sem outliers)
# agora, qualquer app com número de instalações MENOR do que 50000000 NÃO será considerado outlier (antes o upper bound era 2485000)
sns.boxplot(data=df.query('Installs < 50000000'), x='Installs')
plt.xticks(np.arange(0, 5.001e7, 0.25e7), rotation=45)
plt.title('Distribuição do Número de Instalações para a nova amostra SEM outliers')

No _novo conjunto de apps menos populares_, temos agora **outliers**, que  são, justamente, os novos apps considerados. <br/>

Dado este dilema, vamos adotar a seguinte estratégia: <br/>
- Como o **conjunto de apps mais populares** (outliers iniciais) continuam com **alta variância** no _número de instalações_, independente se removermos seus apps com menos de 50M instalações, **manteremos** o conjunto de outliers originalmente obtidos como está. <br/>
- Isso porque, neste momento, estamos interessados _apenas_ na análise de uma **única variável: _Installs_**. <br/>
- Desta forma, mantemos um conjunto de apps de fato _sem outliers_ (apps menos populares) para uma análise menos "ruidosa".

Uma estratégia mais interessante ao querer confrontar/analisar **o número de instalações** com outra variável é agrupar os apps, de acordo com suas quantidades de downloads, em uma **nova variável categórica**. <br/>
Isso tende _a facilitar nossa análise_, p. ex., isolando grupos de apps com números exorbitantes de instalação. <br/>
Veremos isso jajá!

#### **Analisando a quantidade de instalação dos apps menos populares (menos instalados)**

In [None]:
upper_bound  # upper bound dos apps menos populares

In [None]:
# seleciona todos os apps com número de instalação entre [0, upper_bound] ==> [0, 2485000.0]
apps_menos_populares = df.query('Installs <= @upper_bound')
apps_menos_populares

In [None]:
stats_apps_menos_populares = apps_menos_populares.describe()
stats_apps_menos_populares

In [None]:
print(f"A qtde de apps menos populares (número de instalações <= 2485000.0) é de {apps_menos_populares.shape[0]}")
print(f"A média de instalações é de {stats_apps_menos_populares.loc['mean', 'Installs']:.2f} ± {stats_apps_menos_populares.loc['std', 'Installs']:.2f}")
print(f"A mediana de instalações é de {stats_apps_menos_populares.loc['50%', 'Installs']:.2f}")

O **desvio padrão** das instalações ainda é consideravelmente alto, mas bem menor do que para os _apps mais instalados_. <br/>
A diferença entre a **média** e a **mediana** das instalações é _menor_ do que para os _apps mais instalados_ também. <br/>

Apenas analisando estas estatísticas descritivas, percebemos que os números de instalação destes apps são bem distribuídas, mas em um intervalo bem menor do que para _apps mais instalados_.

In [None]:
sns.boxplot(data=apps_menos_populares, x='Installs')

Dos apps menos populares:
- **25% (Q1)** possuem apps com número de instalações **<= 5000** (veja a tabela de describe)
- **50% (Q2 - mediana)** possuem apps com número de instalações **<= 50000** (veja a tabela de describe)
- **75% (Q3)** possuem apps com número de instalações **<= 500000** (veja a tabela de describe)
- **25%** possuem apps com número de instalações **> 500000 e <= 1M**

- **25%** possuem apps com número de instalações espalhados no intervalo de **[Q1, Q2] ==> [5000, 50000]**
- **25%** possuem apps com número de instalações espalhados no intervalo de **[Q2, Q3] ==> [50000, 500000]**
  + **maior variância (dispersão)** dos dados do que o caso anterior

In [None]:
sns.violinplot(x='Installs', data=apps_menos_populares)

Dos **25% de apps mais instalados**, a maioria deles possuem número de instalações perto de **1M**.

### 2.7 Criando grupos para a quantidade de instalações 
Vamos agrupar os aplicativos de acordo com seus **números de instalações**. <br/>
Este processo é conhecido como **segmentação**: criaremos intervalos de valores (bins) para representar cada grupo. <br/>
Em outras palavras, segmentaremos o intervalo original, de modo que cada grupo terá um segmento (sub-intervalo).

Vamos adotar as seguintes categorias/grupos para o **número de instalações**:
- **Muito Baixo**: [0, 1k] instalações
- **Baixo**: (1k, 10k] instalações
- **Médio**: (10k, 100k] installações 
- **Alto**: (100k, 1M]
- **Muito Alto**: (1M, 100M]
- **Extremamente Alto**: (100M,)

PS: esta é apenas uma sugestão de segmentação. Outras opções poderiam ser levadas em conta.

Para criar estas categorias (segmentos, bins) a partir de intervalos numéricos, podemos utilizar o método `pd.cut()` do pandas: # https://pandas.pydata.org/docs/reference/api/pandas.cut.html

In [None]:
df['Installs (Category)'] = pd.cut(df['Installs'], bins=[0, 1e3, 1e4, 1e5, 1e6, 1e8, 1e12], labels=['Muito Baixo', 'Baixo', 'Médio', 'Alto', 'Muito Alto', 'Extremamente Alto'], include_lowest=True)

df[['App', 'Installs', 'Installs (Category)']]

In [None]:
# contagem de apps de acordo com seu grupo de número de instalações
df['Installs (Category)'].value_counts()

In [None]:
# contingency table ==> Tabela de Contingência: conta a quantidade de registros por categoria e variáveis
count = df['Installs (Category)'].value_counts()
perc = (count * 100) / df.shape[0]

pd.DataFrame(data={
    'count': count,
    'perc (%)': perc.round(2)
}, index=count.index)

In [None]:
# Vamos checar estatísticas descritivas para o número de instalações em cada grupo
df.groupby('Installs (Category)').describe()[['Installs']]

In [None]:
sns.countplot(data=df, x='Installs (Category)')
plt.xlabel('Numéro de Instalações')
plt.ylabel('Número de Apps')
plt.xticks(rotation=45)
plt.title('Número de Apps de acordo com a quantidade de instalações', fontsize=20)

Após a segmentação/agrupamento, conseguimos notar que os dois maiores grupos possuem um número **alto** ou **muito alto** de instalações, enquanto apenas um pequeno número de aplicativos possui um valor **extremamente alto** de instalações. <br/>
Mais quais são esses números?

In [None]:
ax = sns.countplot(data=df, x='Installs (Category)')
plt.xlabel('Numéro de Instalações')
plt.ylabel('Número de Apps')
plt.xticks(rotation=45)
plt.ylim([0, 2200])  # para caber as anotações
plt.title('Número de Apps de acordo com a quantidade de instalações', fontsize=20)

#### ADICIONANDO A CONTAGEM DE APPS SUAS PORCENTAGENS PARA CADA GRUPO (BARRA)
n_registros = df.shape[0]  # numero de apps do datasets

# iterando para cada barra do gráfico
for bar in ax.patches:
    # numero de apps da categoria representada pela barra `bar`
    count = bar.get_height()
    
    ax.annotate(f'{count}\n({(count * 100) / n_registros:.2f}%)',  # string a ser impressa
                (bar.get_x() + bar.get_width() / 2, bar.get_height() + 60),  # posição inicial a ser impressa (x, y)
                ha='center', va='center',
                size=14, xytext=(0, 8),
                textcoords='offset points')

#### Pie plot

In [None]:
perc

In [None]:
perc.plot.pie(figsize=(18, 9), fontsize=14)

O uso do gráfico de pizza é um pouco _controverso_, uma vez que as **diferenças entre áreas** não são tão perceptíveis do que as **diferenças entre alturas** em um gráfico de barras. <br/>
P. ex., por este gráfico, como saber qual área é maior: _Alto_ ou _Muito Alto_??? _Médio_ ou _Baixo_? <br/>
Desta maneira, no geral o **gráfico de barras** é preferível.

Mas, podemos tentar melhorar o gráfico de pizza adicionando os números de registros de cada fatia:

In [None]:
# o parâmetro autopct='%.2f%%' adiciona a porcentagem de cada pedaço da pizza
perc.plot.pie(autopct='%.2f%%', figsize=(18, 9), fontsize=14)

### 2.8 Qual é a proporção de apps Free e Paid?

In [None]:
count = df['Type'].value_counts()
perc = (count * 100) / df.shape[0]

contingency_table = pd.DataFrame({
    'count': count,
    'perc (%)': perc.round(2)
}, index=count.index)

contingency_table

In [None]:
ax = sns.countplot(x='Type', data=df)
plt.xlabel('Tipo')
plt.ylabel('Número de Apps')
plt.ylim([0, 9000])  # para caber as anotações
plt.title('Proporção de apps gratuitos e pagos')

n_registros = df.shape[0]

for bar in ax.patches:
    freq = bar.get_height()
    ax.annotate(f'{freq}\n({(freq * 100) / n_registros:.2f}%)',  # string a ser impressa
                (bar.get_x() + bar.get_width() / 2, bar.get_height() + 200),  # posição inicial a ser impressa (x, y)
                ha='center', va='center',
                size=14, xytext=(0, 8),
                textcoords='offset points')

In [None]:
count.plot.pie(autopct='%.2f%%', figsize=(18, 9), fontsize=14)

In [None]:
sns.histplot(data=df, x='Rating', hue='Type')

In [None]:
sns.kdeplot(data=df, x='Rating', hue='Type')

### 2.9 Qual é avaliação média de cada tipo de aplicativo?
Variável numérica x Variável Categórica.

In [None]:
df.groupby('Type').mean()['Rating']

In [None]:
stats = df.groupby('Type').describe()['Rating']
stats

In [None]:
print(f"A média de avaliações de aplicativos gratuitos é de {stats.loc['Free', 'mean']:.2f} ± {stats.loc['Free', 'std']:.2f}, e mediana {stats.loc['Free', '50%']:.2f}")
print(f"A média de avaliações de aplicativos pagos é de {stats.loc['Paid', 'mean']:.2f} ± {stats.loc['Paid', 'std']:.2f}, e mediana {stats.loc['Paid', '50%']:.2f}")

In [None]:
ax = sns.barplot(data=df, x='Type', y='Rating', ci='sd')
plt.yticks(np.arange(0, 5.01, 0.25))

for bar in ax.patches:
    media = bar.get_height()
    ax.annotate(f'{media:.2f}',
                (bar.get_x() + bar.get_width(), bar.get_height()),  # posição inicial a ser impressa (x, y)
                 ha='center', va='center',
                 size=14, xytext=(0, 8),
                 textcoords='offset points')

#### VISUALIZANDO A DISTRIBUIÇÃO DE NOTAS POR APLICATIVO

In [None]:
plt.figure(figsize=(20, 20))
sns.histplot(data=df, x='Rating', hue='Type')

In [None]:
sns.boxplot(data=df, x='Rating', y='Type')
plt.xlabel('Avaliações')
plt.ylabel('Tipo')

In [None]:
sns.violinplot(data=df, x='Rating', y='Type')
plt.xlabel('Avaliações')
plt.ylabel('Tipo')

##### RIDGE LINE

In [None]:
# ridgeline: https://www.python-graph-gallery.com/ridgeline-graph-seaborn

g = sns.FacetGrid(df, row='Type', hue='Type', aspect=10, height=2)
g.map(sns.kdeplot, 'Rating',
      bw_adjust=1, clip_on=False,
      fill=True, alpha=1, linewidth=1.5)

g.set(yticks=[])

Por mais que a **proporção** de apps gratuitos e pagos sejam bem diferentes, ao analisar as estatísticas descritivas e os plots, conseguimos afirmar que a _distribuição de avaliações_ de cada tipo é similar, sendo os aplicativos pagos ligeiramente melhor avaliados do que os apps gratuitos.

### 2.10 Qual é distribuição de avaliações de cada tipo de aplicativo de acordo com a quantidade de instalações?
Comparação de 3 variáveis: uma numérica e duas categóricas.

In [None]:
apps_free = df.query('Type == "Free"')
apps_paid = df.query('Type == "Paid"')

In [None]:
fig, axes = plt.subplots(2, 2, figsize=(20, 15), sharex=True, sharey=False)

sns.boxplot(data=apps_free, x='Installs (Category)', y='Rating', ax=axes[0, 0])
axes[0, 0].set_title('Apps Gratuitos')
axes[0, 0].set_xlabel('')
axes[0, 0].set_yticks(np.arange(0, 5.01, 0.25))

sns.boxplot(data=apps_paid, x='Installs (Category)', y='Rating', ax=axes[0, 1])
axes[0, 1].set_title('Apps Pagos')
axes[0, 1].set_xlabel('')
axes[0, 1].set_yticks(np.arange(0, 5.01, 0.25))

sns.violinplot(data=apps_free, x='Installs (Category)', y='Rating', ax=axes[1, 0])
axes[1, 0].set_title('Apps Gratuitos')
axes[1, 0].xaxis.set_tick_params(rotation=45)
axes[1, 0].set_yticks(np.arange(0, 5.01, 0.25))

sns.violinplot(data=apps_paid, x='Installs (Category)', y='Rating', ax=axes[1, 1])
axes[1, 1].set_title('Apps Pagos')
axes[1, 1].xaxis.set_tick_params(rotation=45)
axes[1, 1].set_yticks(np.arange(0, 5.01, 0.25))

Alguns insights/conlusões:
- No geral, a grande maioria dos apps gratuitos e pagos (~75%) possui avaliações próximas de 3.75 para cima, independente do número de instalações.
- Não temos **apps pagos** que foram **extremamente baixados** (> 100M)
- Não temos a escala de preços, mas faz sentido pensar que quanto maior o preço do app, menor o número de instalações (analisaremos essa hipótese depois)
- Apps gratuitos com número de instalação 'Muito Alta' e 'Extremamente Alta' possuem menor variância entre as avaliações, ou seja, a percepção dos usuários é parecida em cada categoria.
- Apps pagos com número de instalação 'Alta' e 'Muito Alta' possuem menor variância entre as avaliações, ou seja, a percepção dos usuários é parecida em cada categoria.
- Apps com número _'Muito Baixo' de instalações ([0, 1k]) possuem opiniões mais diversas

### 2.11 Qual é avaliação média de cada categoria para cada tipo de aplicativo?
Comparação de 3 variáveis: uma numérica e duas categóricas.

In [None]:
df.groupby(['Category', 'Type']).describe()['Rating']

In [None]:
plt.figure(figsize=(20, 20))
sns.barplot(data=df, x='Rating', y='Category', hue='Type', ci='sd')

Analisando este gráfico, podemos identificar algumas categorias cujas as *avaliações médias* **são bem discrepantes** entre os tipos de apps:
P. ex: 'Parenting'.

Podemos querer analisar esta categoria específica para então tentar entender ou buscar insights das causas destas discrepâncias.

In [None]:
apps_parenting = df.query('Category == "PARENTING"')
apps_parenting.head()

In [None]:
print(f'Temos um total de {apps_parenting.shape[0]} apps da categoria "PARENTING"')

In [None]:
sns.violinplot(data=apps_parenting, x='Rating', y='Type')

In [None]:
apps_parenting['Type'].value_counts().plot.pie(autopct='%.2f%%')

In [None]:
apps_parenting.query('Type == "Paid"')

Note que a quantidade de apps **pagos** da category 'Parenting' (2 apps - 4%) é _muito menor_ do que de apps **gratuitos** (96%). Além do problema do desbalanceamento, apenas 2 observações é muito pouco para conseguirmos extrair informações. <br/>

Dado essas observações, **TOME CUIDADO**, pois podemos tirar conclusões precipitadas em situações como essa.

#### Population Pyramid
A Population Pyramid is a pair of back-to-back Histograms (for each sex) that displays the distribution of a population in all age groups and in both sexes. The X-axis is used to plot population numbers and the Y-axis lists all age groups

In [None]:
df_viz = df.copy()
selecao = df['Type'] == 'Free'
df_viz.loc[selecao, 'Rating'] *= -1  # invertendo o sinal das avaliações dos apps gratuitos 

plt.figure(figsize=(20, 15))
# dodge: When hue nesting is used, whether elements should be shifted along the categorical axis.
sns.barplot(data=df_viz, x='Rating', y='Category', hue='Type', ci='sd', dodge=False)
plt.xticks([-5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5], [5, 4, 3, 2, 1, 0, 1, 2, 3, 4, 5])

# Alternativa: https://plotly.com/python/v3/population-pyramid-charts/

_Não levando em consideração o tamanho de cada grupo neste momento_, podemos ver que a média das avaliações dos apps **gratuitos** é relativamente similar em todas as categorias. <br/>
Já para os aplicativos pagos, a dispersão entre as avaliações médias das categorias é maior.

### 2.12 Existe correlação entre os preços dos aplicativos e suas avaliações?
Será que quanto mais caro o app, melhor ou pior avaliado ele é?

In [None]:
apps_paid

In [None]:
corrs = apps_paid[['Price', 'Rating']].corr()
corrs

In [None]:
print(f"O coeficiente de correlação entre o preço dos apps e suas avaliações é de {corrs.loc['Price', 'Rating']}")

In [None]:
sns.scatterplot(data=apps_paid, x='Price', y='Rating')

In [None]:
sns.jointplot(data=apps_paid, x='Price', y='Rating', height=10)

In [None]:
# hexagonal binning
sns.jointplot(data=apps_paid, x='Price', y='Rating', height=10, kind='hex')

In [None]:
sns.histplot(data=apps_paid, x='Price', y='Rating', )

In [None]:
# plota a reta de regressão
sns.lmplot(data=apps_paid, x='Price', y='Rating', height=10)

<br/>

Após todas estas possíveis maneiras de analisar o mesmo fenômeno, concluímos que **não há correlação** entre o preço dos apps e suas avaliações.

#### **CORRELAÇÃO DO PREÇOS COM AS DEMAIS VARIÁVEIS NÚMERICAS PARA OS APPS PAGOS**

In [None]:
apps_paid.corr()['Rating']

Analisando os **coeficientes de correlação**, vemos que **não há nenhuma correlação forte** entre o preço e outra variável numérica.<br/>
Isso é interessante, pois tínhamos a impressão de que _quanto mais caro o app_ **menor** o _número de instalações_. Vamos analisar esse cenário com mais cuidado na próxima pergunta.

In [None]:
# plotando um gráfico com vários subplots, sendo cada um dele um scatterplot entre os diferentes pares de variáveis numéricas do dataset
sns.pairplot(data=apps_paid, aspect=2)

Por um momento, ignore os os plots de outras variáveis que não incluem o preço.

Olhando para os scatterplots com Preço (última coluna), confirmamos, visualmente, que **não há correlações fortes** entre o **preço** e as demais variáveis númericas. <br/>
O que notamos é que _parece_ haver uma _correlação (não necessariamente causalidade)_ entre as **avaliações** dos _apps pagos_ com seus **tamanhos**. <br/>
Vamos investigar esta hipótese.

In [None]:
sns.lmplot(data=apps_paid, x='Rating', y='Size', height=10)

Ao analisar, em uma escala visual maior, o scatterplot entre as variáveis 'Rating' e 'Size', vemos que não há correlação entre as variáveis. <br/>
Parece que há uma concentração muito grande de observação na região com Rating entre [4, 5] e Size [0, 0.2e8]. <br/>
Vamos checar isso plotando um **hexagonal binning**.

In [None]:
sns.jointplot(data=df, x='Rating', y='Size', kind='hex', height=10)
plt.yticks(np.arange(0, 1.01e8, 0.1e8))

De fato, há uma quantidade muito grande de observações concentradas na região com Rating [4, 4.7] e Size [0, 0.1]. <br/>
Isso mostra que, às vezes, um dado plot, principalmente em escalas pequenas, podem nos enganar visualmente. <br/>

P. ex., ao analisar o scatterplot destas duas variáveis, anteriormente obtido pelo `.pairplot`, tínhamos a impressão que os pontos (observações) estavam bem espalhados. Não conseguimos notas essa concentração de observações em uma mesma região, uma vez que os pontos do scatterplot estavam superpostos. <br/>
Portanto, **cuidado** durante sua análise exploratória.

In [None]:
apps_paid[['Rating', 'Size']].corr()

Portanto, ao analisarmos as duas variáveis com mais detalhes e cuidado, percebemos que nossa percepção inicial estava errada.

### 2.13 O número de instalações está correlacionado com o preço dos apps?
Durante a exploração da pergunta 2.10, surgiu a hipótese que _'quanto mais caro for o apps, menor será seu número de instalações/downloads'_. <br/>
Vamos então investigar essa hipótese a fundo.

In [None]:
apps_paid[['Installs', 'Price']].corr()

Pelo coeficiente de correlação, **NÃO** há correlação entre essas duas variáveis.

In [None]:
sns.lmplot(data=apps_paid, x='Price', y='Installs')

Vemos que há alguns **outliers** que dificultam a visualização. Vamos removê-los "no olho".

In [None]:
apps_paid_viz = apps_paid.query('Installs < 0.05e7')

In [None]:
sns.lmplot(data=apps_paid_viz, x='Price', y='Installs')

Realmente, não há correlação entre o número de instalações e os preços dos apps, pois há apps caros ($ 400.0) com número médio de instalações: (10k, 100k]. Vejamos quem são eles (o que comem, onde moram, ...) =D

In [None]:
apps_paid.query('Price > 300 and Installs > 5000').sort_values(by='Installs', ascending=False)  # usamos um threshold bem baixo para o número de instalações, para considerar o grupo 'Baixo'

Os dois primeiros apps custam +- $ 400.0 e foram muito baixados. Após uma pesquisa simples no google: https://www.techtudo.com.br/artigos/noticia/2012/03/aplicativos-de-celular-que-servem-apenas-para-mostrar-o-quanto-voce-e-rico.html

Este é um ponto importante: Nossa **análise exploratória** visa explorar padrões/comportamentos nos dados. A causalidade de tais não estarão mostradas, necessariamente, nessa exploração (números, tabelas, gráficos). É preciso então, em um segundo momento, visar entender tais causalidades.

#### **Analisando apenas apps com preço <= $100**

In [None]:
# apps pagos com preço menor ou igual (less than or equal to - leq) a 100 dólares
apps_paid_price_leq_100 = apps_paid.query('Price <= 100')
apps_paid_price_leq_100

In [None]:
apps_paid_price_leq_100.corr()

In [None]:
sns.lmplot(data=apps_paid_price_leq_100, x='Price', y='Installs')

Bem, mesmo removendo "outliers" e analisando apenas uma faixa de preço, **não há correlação** entre o **preço dos apps** e o **número de ínstalações** (ao menos para este problema e dataset).

### 2.14 Qual a correlação entre as variáveis numéricas?
Vamos agora fazer uma busca geral, correlacionando todas as variáveis numéricas de nosso dataset. Nosso intuito, é tentar encontrar algum correlação entre variáveis.

In [None]:
df.corr()

Apenas analisando os **coeficientes de correlação**, vemos que as únicas variáveis numéricas que apresentam alguma correlação são **Installs** (número de instalações) e **Reviews** (número de revisões), o que é meio óbvio, pensando bem =D

In [None]:
sns.pairplot(data=df, aspect=2)

Visualmente, a correlação de tais variáveis é visível.

Será que há algum padrão diferente ao diferenciarmos apps gratuitos dos pagos?

In [None]:
sns.pairplot(data=df, hue='Type', aspect=2)

In [None]:
sns.lmplot(data=df, x='Installs', y='Reviews', height=10)

In [None]:
# diferenciando os apps gratuitos e pagos no gráfico
sns.lmplot(data=df, x='Installs', y='Reviews', hue='Type', height=10)

Note que a quantidade de instalações e de reviews são bem baixas para os apps pagos.

### 2.15 Como estão distribuídas as categorias de acordo com a classificação de conteúdo?

In [None]:
series_viz = df.groupby(by='Category')['Content Rating'].value_counts().sort_index()  # ordena os índice em ordem alfabética, pq o value_counts()  ordena em ordem contagem
series_viz

In [None]:
df_viz = series_viz.unstack()
df_viz

In [None]:
plt.figure(figsize=(10, 10))
sns.heatmap(df_viz, linewidths=1, linecolor="white")

In [None]:
plt.figure(figsize=(10, 10))
ax = sns.heatmap(df_viz, annot=True, fmt='.0f', linewidths=1, linecolor="white")

# customizando a barra de cores
cbar = ax.collections[0].colorbar
max_val = int(df_viz.max(skipna=True).max())
cbar.set_ticks(list(range(0, max_val + 1, 50)))  # setting 

### 2.16 Qual a proporção de Gêneros?
A coluna 'Genres' armazena o gênero de cada um dos aplicativos. Porém, um aplicativo pode possuir **mais de um gênero**. <br/>
Para modelar esse problema, o dataset original _juntou múltiplos gêneros_ em **uma string só**, separando-os com um _';'_.

In [None]:
df.head()

Note que os apps do índice [1] e [4] possui exatamente este caso: <br/>
[1] ==> 'Art & Design;Pretend Play' <br/>
[4] ==> 'Art & Design;Creativity' <br/>

Portanto, para conseguir explorar e analisar o atributo 'Genres', precisaremos adotar alguma estratégia para considerar os múltiplos gêneros por app. <br/>

Para responder a pergunta proposta, vamos criar um novo dataset que terá **uma nova coluna**, 'Single Genre', que guardará o valor de apenas _um_ gênero. <br/>
Desta forma, apps com **múltiplos gêneros serão duplicados**, sendo que cada _cópia terá apenas um de seus gêneros_ na coluna 'Single Genre'.

Inicialmente, vamos criar uma nova coluna chamada 'Genres List' que guardará, em formato de uma **lista de strings**, _todos_ os gêneros de cada app.

In [None]:
# dividindo a string de gêneros em uma lista de gêneros
df['Genres List'] = df['Genres'].str.split(';')
df.head()

In [None]:
genres = df['Genres List'].sum() # concatena todas as listas de gêneros em uma grande lista
genres = set(genres)  # elimina valores duplicados, transformando a lista de gêneros em um conjunto de gêneros
genres = sorted(list(genres))  # converte o conjunto de gêneros (sem repetição) em uma lista e depois ordena seus elementos em ordem alfabética

genres

#### **Criando o novo dataframe com os gêneros divididos (splitted)**
##### **Estratégia que gera inconsistências**

Para saber quais são os gêneros de cada app, poderíamos adotar a seguinte estratégia:
- Para cada gênero possível, checamos _quais são as linhas/observações cujas as strings da coluna 'Genres' contém esse gênero em questão.
    - P.ex: O gênero 'Action' está contido em strings como 'Action', 'Action & Adventure'
- Após estra filtragem, simplesmente copiamos/concatenamos tais observações no novo dataframe

A abordagem é boa, mas apresenta um **problema** para este dataset em específico (veremos jajá).

In [None]:
df_by_genre_INCONSISTENTE = pd.DataFrame()

In [None]:
for gen in genres:
    # retorna uma Series de booleans que indica quais são as observações que possuem o gênero da iteração
    # p. ex: se gen == 'Art & Design'
    # a observação com gênero 'Art & Design;Pretend Play' retornará True pq contém o gênero analisado em sua string
    gen_mask = df['Genres'].str.contains(gen)
    
    # seleciona apenas as observações cuja string em 'Genres' possui a string da variável `gen` (gênero da iteração)
    df_gen = df[gen_mask].copy()  # `.copy()` to avoid SettingWithCopyWarning
    df_gen['Single Genre'] = gen  # atribui o gênero analisado para todas as observações filtradas
    # concatena as linhas dos gêneros já analisados com o gênero atual
    # como os índices são apenas números, podemos ignorar seus valores originais durante a concatenação
    df_by_genre_INCONSISTENTE = pd.concat([df_by_genre_INCONSISTENTE, df_gen], ignore_index=True)
    

df_by_genre_INCONSISTENTE

Aparentemente, deu tudo certo (veja a coluna 'Single Genre'). Mas, olhe esse caso específico:

In [None]:
df_by_genre_INCONSISTENTE.query('App == "Monster Truck Driver & Racing"')

O app 'Monster Trucj Driver & Racing' foi replicado **4 vezes**, sendo que em cada cópia temos um **valor diferente** de gênero no atributo _'Single Genre'_. <br/>

Entretanto, se notarmos os atributos _'Genre'_ ou _'Genre List'_ veremos que, na verdade, este app **possui apenas DOIS gêneros** ao invés de quatro: [Education, Action & Adventure] <br/>
O que aconteceu?

Acontece que as strings de _quatro gêneros_ possíveis ('Action', 'Action & Adventure', 'Adventure', 'Education') **estão contidas** em sua string do atributo 'Genre': <br/>
**'Education;Action & Adventure'** <br/>

Essa é a razão da inconsistência durante esta modelagem de dados. <br/>
O que fazer então? <br/><br/>

##### **Estratégia que gera consistente**
Ao invés de comparar se a string de um _gênero_ está contida na string de gêneros, podemos checar se a mesma string está contida na **lista de gêneros (strings)** previamente criada: atributo _'Genres List'_. <br/>
Desta forma, garantimos que não teremos as inconsistências anteriormente obtidas.

In [None]:
df_by_genre = pd.DataFrame()

In [None]:
for gen in genres:
    gen_mask = df['Genres List'].apply(lambda genre_list: gen in genre_list)
    df_gen = df[gen_mask].copy()
    df_gen['Single Genre'] = gen
    df_by_genre = pd.concat([df_by_genre, df_gen], ignore_index=True)

df_by_genre

Ao checar novamente o caso do app 'Monster Truck Driver & Racing', confirmamos que **não há mais inconsistências**.

In [None]:
df_by_genre.query('App == "Monster Truck Driver & Racing"')

#### **Respondendo (finalmente) a pegunta**

In [None]:
# amostras/gêneros de diferentes tamanhos
genre_sizes = df_by_genre.groupby('Single Genre').size()
genre_sizes

Note que o gênero _'Music & Audio' possui apenas **uma única observação**.

In [None]:
order = genre_sizes.sort_values().index

plt.figure(figsize=(20, 15))
sns.countplot(data=df_by_genre, y='Single Genre', order=order)
plt.xticks(range(0, genre_sizes.max()+1, 25))
display()  # evita a qtde de texto mostrada/retornada pelo matplotlib

### 2.17 Como cada gênero é avaliado?

In [None]:
stats = df_by_genre.groupby('Single Genre')['Rating'].describe()
stats

In [None]:
stats.columns

In [None]:
order = stats.sort_values('mean').index  # vamos ordenar o plot pela média das avaliações de cada gênero

plt.figure(figsize=(20,15))
sns.barplot(data=df_by_genre, x='Rating', y='Single Genre', order=order)
plt.xticks(np.arange(0.0, 5.01, 0.25))
display()  # evita a qtde de texto mostrada/retornada pelo matplotlib

Lembre-se que **não é possível** tirarmos conclusões precisas apenas olhando para este gráfico de média de avaliações por categoria, uma vez que _cada categoria possui um número diferente de apps_.

## Continue a exploração
**Sugestões**:
- Analisar as categorias e gêneros
- Analisar os gêneros e tipos de apps
- Analisar os tamanhos dos apps e números de instalações por gênero
- Relacionar a indicação de conteúdo com o número de instalações
- Organize todos os achados e conclusões deste notebook em uma apresentação que conte uma história