## Desafio Sprint 3

### - Importando as bibliotecas necessárias


- Aqui, importamos as bibliotecas pandas e matplotlib que serão usadas para manipulação de dados e visualização de dados, respectivamente.


In [None]:
import pandas as pd 
import matplotlib.pyplot as plt 

### 1. Ler o arquivo csv e remover linhas duplicadas

- O código lê um arquivo googleplaystore.csv contendo dados da Google Play Store, ordenam esses dados pelo número de reviews em ordem decrescente, removem duplicatas mantendo apenas a primeira entrada de cada aplicativo.

In [None]:
df = pd.read_csv('googleplaystore.csv')
df = df.sort_values('Reviews', ascending=False)
df = df.drop_duplicates(subset='App', keep='first')
df.to_csv('googleplaystore_novo.csv', index=False)


### 2. Gráfico de barras dos top 5 apps por número de instalações
- O código remove vírgulas e sinais de mais da coluna 'Installs', converte seus valores para numéricos substituindo valores inválidos por zero, e seleciona os 5 aplicativos com maior número de instalações. Em seguida, cria um gráfico de barras horizontal para visualizar esses aplicativos.

In [None]:
df['Installs'] = df['Installs'].astype(str).str.replace(',', '')
df['Installs'] = df['Installs'].str.replace('+', '')
df['Installs'] = pd.to_numeric(df['Installs'], errors='coerce')
df['Installs'] = df['Installs'].fillna(0)

top5_apps = df.nlargest(5, 'Installs')

plt.figure(figsize=(12,6))
plt.barh(top5_apps['App'], top5_apps['Installs'], color='skyblue', height=0.4)
plt.xlabel('Número de Instalações')
plt.ylabel('App')
plt.title('Top 5 Apps por Número de Instalação')
plt.gca().invert_yaxis()
plt.show()


### 3. Gráfico de pizza das categorias de apps
- O código conta a frequência de cada categoria de aplicativos no DataFrame, criando uma série com essas contagens. Em seguida, ele gera um gráfico de pizza para visualizar a distribuição dos aplicativos por categoria e exibe o gráfico.

In [None]:
categorias = df['Category'].value_counts()

plt.pie(categorias, labels = categorias.index, radius= 2.3)
plt.title('Categorias de Apps', y=1.6)
plt.show()

### 4. App mais caro
- O código substitui "Free" por "0" na coluna 'Price', remove os sinais de dólar, converte os valores para floats, identifica o aplicativo mais caro e seu preço, e imprime o nome do aplicativo mais caro e seu preço.

In [None]:
df['Price_Num'] = df['Price'].str.replace('Free', '0')
df['Price_Num'] = df['Price_Num'].str.replace('$', '')
df['Price_Num'] = df['Price_Num'].apply(lambda x: float(x) if x != '' else 0)

app_mais_caro = df[df['Price_Num'] == df['Price_Num'].max()]['App'].iloc[0]
preco_mais_caro = df['Price_Num'].max()

print(f'O app mais caro é: {app_mais_caro} e seu preço é: ${preco_mais_caro}')


### 5. Número de apps classificados como 'Mature 17+'
- Este código conta o número de aplicativos classificados como "Mature 17+" na coluna 'Content Rating' e imprime o resultado.

In [None]:
mature_apps = df[df['Content Rating'] == 'Mature 17+'].shape[0]
print(f'Número de apps classificados como Mature 17+: {mature_apps}')

### 6. Top 10 apps por número de reviews
- Este trecho de código converte a coluna 'Reviews' para numérica, identifica os 10 aplicativos com o maior número de avaliações e os imprime juntamente com o número de avaliações correspondente.

In [None]:
df['Reviews'] = pd.to_numeric(df['Reviews'], errors='coerce')
top10_reviews = df.nlargest(10, 'Reviews')

print('Top 10 Apps por Número de Reviews:')
print('-'*60)
for index, row in top10_reviews.iterrows():
    print(f"{row['App']:<50} {row['Reviews']}")
print('-'*60)


### 7. Demais calculos
#### 7.1 As 10 categorias com mais apps.
- Este trecho de código conta o número de aplicativos em cada categoria, seleciona as 10 categorias com maior contagem e imprime a lista dessas informações com o nome da categoria como índice.

In [None]:
categorias = df['Category'].value_counts()
top10_categorias = categorias.nlargest(10)
top10_categorias.index.name = 'Categoria --- Quantidade de Apps'

print(top10_categorias.to_string())


#### 7.2 Quantidade de Apps com Classificação 5.0
- Esse código conta o número de aplicativos com classificação 5.0 na coluna 'Rating' e imprime o valor.

In [None]:
num_apps = df[df['Rating'] == 5.0].shape[0]
print(f'O número de apps com classificação 5.0 é: {num_apps}')

### 8. Demais Gráficos

#### 8.1 Grafico de Linhas: Número de Atualizações por Ano
- Este código analisa a data de atualização dos dados, extrai o ano e conta as atualizações por ano. Em seguida, ele cria um gráfico de linha mostrando o número de atualizações por ano.

In [None]:
df['Last Updated'] = pd.to_datetime(df['Last Updated'])
df['Year'] = df['Last Updated'].dt.year
updates_per_year = df.groupby('Year').size()

plt.figure(figsize=(10, 6))
plt.plot(updates_per_year.index, updates_per_year.values,
         color='blue', linestyle='-', marker='o')
plt.title('Número de Atualizações por Ano')
plt.xlabel('Ano')
plt.ylabel('Número de Atualizações')
plt.grid(True)
plt.show()


#### 8.2 Gráfico de Dispersão: Reviews vs. Número de Instalações
-  Este trecho de código está criando um gráfico de dispersão para visualizar a relação entre o número de reviews e o número de instalações.

In [None]:
plt.rcParams.update({'font.size': 12})
plt.figure(figsize=(15, 7))  
plt.scatter(df['Reviews'], df['Installs'], alpha=0.5) 
plt.title('Dispersão: Reviews vs. Número de Instalações')  
plt.xlabel('Número de Reviews')
plt.ylabel('Número de Instalações')
plt.grid(True)
plt.show()
