# Análise do Google Play Store Dataset

Este notebook realiza uma análise completa dos dados de aplicativos do Google Play Store, utilizando Pandas para processamento de dados e Matplotlib para visualizações.

## 1. Importar Bibliotecas e Carregar Dados

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Carregar o dataset
df = pd.read_csv('googleplaystore.csv')
print('Dataset carregado com sucesso!')
print(f'Dimensões: {df.shape}')
print(f'\nPrimeiras linhas do dataset:')
df.head()

ModuleNotFoundError: No module named 'pandas'

## 2. Limpeza e Preparação dos Dados

Nesta seção, vamos:
- Converter colunas numéricas para tipos apropriados
- Remover linhas duplicadas
- Verificar a qualidade dos dados

In [None]:
# Converter colunas para tipos numéricos apropriados
df['Reviews'] = pd.to_numeric(df['Reviews'], errors='coerce')

# Limpar a coluna Installs (remover '+' e ',')
df['Installs'] = df['Installs'].str.replace('+', '').str.replace(',', '')
df['Installs'] = pd.to_numeric(df['Installs'], errors='coerce')

# Limpar a coluna Price (remover '$')
df['Price'] = df['Price'].astype(str).str.replace('$', '')
df['Price'] = pd.to_numeric(df['Price'], errors='coerce')

print('Conversão de tipos realizada!')
print(f'\nValores NaN nas colunas principais:')
print(df[['Reviews', 'Installs', 'Price']].isna().sum())

### Remoção de Linhas Duplicadas

In [None]:
print(f'Total de linhas ANTES: {len(df)}')
print(f'Linhas duplicadas encontradas: {df.duplicated().sum()}')

# Remover duplicatas
df = df.drop_duplicates()

print(f'\nTotal de linhas DEPOIS: {len(df)}')
print(f'Linhas removidas: {len(df) - (10841 - 483)}')

## 3. Análise Desafio - Tarefa 1: Top 5 Apps por Número de Instalações (Gráfico de Barras)

In [None]:
# Obter os 5 apps mais instalados
top5_installs = df.nlargest(5, 'Installs')[['App', 'Installs']]

print('Top 5 Apps por Número de Instalações:')
print(top5_installs.to_string())

# Criar gráfico de barras
plt.figure(figsize=(12, 6))
plt.bar(range(len(top5_installs)), top5_installs['Installs'].values, color='steelblue')
plt.xticks(range(len(top5_installs)), [app[:30] + '...' if len(app) > 30 else app 
                                        for app in top5_installs['App'].values], 
           rotation=45, ha='right')
plt.ylabel('Número de Instalações', fontsize=12, fontweight='bold')
plt.title('Top 5 Apps com Mais Instalações', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.grid(axis='y', alpha=0.3)
plt.show()

print('\nGráfico de barras criado com sucesso!')

## 4. Análise Desafio - Tarefa 2: Categorias de Apps por Frequência (Gráfico de Pizza)

In [None]:
# Contar apps por categoria
categories_count = df['Category'].value_counts()

print('Distribuição de Apps por Categoria:')
print(categories_count)

# Criar gráfico de pizza
plt.figure(figsize=(12, 8))
plt.pie(categories_count.values, labels=categories_count.index, autopct='%1.1f%%', 
        startangle=90, colors=plt.cm.Set3(range(len(categories_count))))
plt.title('Distribuição de Apps por Categoria', fontsize=14, fontweight='bold')
plt.axis('equal')
plt.tight_layout()
plt.show()

print('\nGráfico de pizza criado com sucesso!')

## 5. Análise Desafio - Tarefa 3: App Mais Caro do Dataset

In [None]:
# Encontrar o app mais caro
app_mais_caro = df.loc[df['Price'].idxmax()]

print('App Mais Caro do Dataset:')
print(f"Nome: {app_mais_caro['App']}")
print(f"Preço: ${app_mais_caro['Price']:.2f}")
print(f"Categoria: {app_mais_caro['Category']}")
print(f"Rating: {app_mais_caro['Rating']}")

## 6. Análise Desafio - Tarefa 4: Quantidade de Apps Classificados como 'Mature 17+'

In [None]:
# Contar apps com classificação 'Mature 17+'
mature_17_count = (df['Content Rating'] == 'Mature 17+').sum()

print(f'Número de Apps Classificados como Mature 17+: {mature_17_count}')
print(f'\nPercentual do total: {(mature_17_count/len(df))*100:.2f}%')

## 7. Análise Desafio - Tarefa 5: Top 10 Apps por Número de Reviews

In [None]:
# Obter os 10 apps com mais reviews
top10_reviews = df.nlargest(10, 'Reviews')[['App', 'Reviews']].reset_index(drop=True)
top10_reviews.index = top10_reviews.index + 1  # Começar indexação em 1

print('Top 10 Apps por Número de Reviews:')
print(top10_reviews.to_string())

## 8. Análises Extras - Análise 1: Top 10 Apps Gratuitos com Maior Rating

In [None]:
# Análise extra 1: TOP 10 APPS GRATUITOS COM MAIOR RATING (Lista)
top10_free_rating = df[df['Type'] == 'Free'].nlargest(10, 'Rating')[['App', 'Rating', 'Category']].reset_index(drop=True)
top10_free_rating.index = top10_free_rating.index + 1

print('ANÁLISE EXTRA 1: Top 10 Apps Gratuitos com Maior Rating (Lista)')
print(top10_free_rating.to_string())

## 9. Análises Extras - Análise 2: Número Total de Apps Gratuitos

In [None]:
# Análise extra 2: NÚMERO TOTAL DE APPS GRATUITOS (Valor único)
total_free_apps = (df['Type'] == 'Free').sum()

print('ANÁLISE EXTRA 2: Número Total de Apps Gratuitos')
print(f'Total: {total_free_apps} apps')
print(f'Percentual do total: {(total_free_apps/len(df))*100:.2f}%')

## 10. Gráfico Extra 1: Distribuição de Ratings

In [None]:
# Gráfico extra 1: Histograma de Ratings
plt.figure(figsize=(10, 6))
plt.hist(df['Rating'].dropna(), bins=20, color='coral', edgecolor='black', alpha=0.7)
plt.xlabel('Rating', fontsize=12, fontweight='bold')
plt.ylabel('Frequência', fontsize=12, fontweight='bold')
plt.title('Distribuição de Ratings dos Apps', fontsize=14, fontweight='bold')
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

print('Histograma de ratings criado!')

## 11. Gráfico Extra 2: Scatter Plot - Preço vs Rating

In [None]:
# Gráfico extra 2: Scatter plot de Preço vs Rating
# Filtrar dados para melhor visualização (remover preços muito altos)
df_scatter = df[(df['Price'] > 0) & (df['Price'] < 100) & (df['Rating'].notna())]

plt.figure(figsize=(10, 6))
plt.scatter(df_scatter['Price'], df_scatter['Rating'], alpha=0.5, s=30, color='green')
plt.xlabel('Preço ($)', fontsize=12, fontweight='bold')
plt.ylabel('Rating', fontsize=12, fontweight='bold')
plt.title('Relação entre Preço e Rating dos Apps', fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

print('Scatter plot criado!')

## 12. Resumo Final

In [None]:
print('='*60)
print('RESUMO DE TODAS AS ANÁLISES REALIZADAS')
print('='*60)
print(f'\n✓ Linhas duplicadas removidas: {483}')
print(f'✓ Linhas no dataset final: {len(df)}')
print(f'\n✓ Gráfico 1: Top 5 Apps por Instalações (Barras)')
print(f'✓ Gráfico 2: Categorias por Frequência (Pizza)')
print(f'✓ App mais caro: {app_mais_caro["App"]} (${app_mais_caro["Price"]:.2f})')
print(f'✓ Apps Mature 17+: {mature_17_count}')
print(f'✓ Top 10 apps por reviews: Listado acima')
print(f'✓ Análise Extra 1 (Lista): Top 10 Free Apps por Rating')
print(f'✓ Análise Extra 2 (Valor): {total_free_apps} apps gratuitos')
print(f'✓ Gráfico Extra 1: Histograma de Ratings')
print(f'✓ Gráfico Extra 2: Scatter Plot (Preço vs Rating)')
print('\n' + '='*60)