## Etapa 1: Ambiente

### Instalando as bilbiotecas necessárias para tratamento de dados e criação de gráficos.
#### Bibliotecas utilizadas: pandas e matplotlib

No terminal, executar os comandos:

`pip install pandas`

`pip install matplotlib`


## Etapa 2.1: Desenvolvimento

### Tratamento dos Dados

Para realizar interações e análises no arquivo, é necessário tratar os dados previamente. No código abaixo, criamos um novo arquivo com os seguintes ajustes:

- Remoção de linhas duplicadas.
- Exclusão de dados que não são relevantes para a análise.

In [None]:
import pandas as pd

# Caminho do arquivo original e do arquivo limpo
input_file = 'googleplaystore.csv'
output_file = 'googleplaystore_cleaned.csv'
app_to_remove = 'Life Made WI-Fi Touchscreen Photo Frame'

# Lendo o arquivo CSV
df = pd.read_csv(input_file)

# Removendo linha com o nome de aplicativo específico
df = df[df['App'] != app_to_remove]

# Removendo linhas duplicadas com base na coluna 'App'
df_cleaned = df.drop_duplicates(subset='App', keep='first')

# Salvando o arquivo CSV sem duplicatas e sem a linha indesejada
df_cleaned.to_csv(output_file, index=False)


## Etapa 2.2:

### Geração do Gráfico de Barras

Para criar o Gráfico de Barras, siga estes passos:

- ***Ler o arquivo CSV*** com os dados dos aplicativos.
- ***Converter valores*** da coluna 'Installs' para números inteiros. 
- ***Normalizando os dados*** ao remover vírgulas, sinais de adição e ajustando sufixos 'K' e 'M'.
- ***Selecionar os 5 aplicativos*** com o maior número de instalações usando `nlargest`.
- ***Criar o Gráfico de Barras*** para mostrar a quantidade proporcional de instalações por aplicativo.

O gráfico foi criado utilizando `pyplot`.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

# Função para converter valores da coluna Install
def convert_installs(value):
    value = value.replace(',', '').replace('+', '').strip()
    if 'M' in value:
        return int(float(value.replace('M', '').strip()) * 1e6)
    elif 'K' in value:
        return int(float(value.replace('K', '').strip()) * 1e3)
    else:
        return int(value)

# Lendo o arquivo CSV
df = pd.read_csv('googleplaystore_cleaned.csv')

# Aplicando conversão na coluna 'Installs'
df['Installs'] = df['Installs'].apply(convert_installs)

# Encontrando top 5 aplicativos por número de instalações
top_5_apps = df.nlargest(5, 'Installs')

# Gerando gráfico de barras
plt.figure(figsize=(12, 8))
bars = plt.bar(top_5_apps['App'], top_5_apps['Installs'], color='skyblue')

# Adicionando formatação aos números no eixo y
plt.xlabel('Aplicativos')
plt.ylabel('Número de Instalações')
plt.title('Top 5 Aplicativos por Número de Instalações')
plt.xticks(rotation=45, ha='right')

# Formatando o eixo y com K (mil), M (milhões) e B (bilhões)
def format_func(value, tick_number):
    if value >= 1e9:
        return f'{value*1e-9:.0f}B'
    elif value >= 1e6:
        return f'{value*1e-6:.0f}M'
    elif value >= 1e3:
        return f'{value*1e-3:.0f}K'
    else:
        return f'{value:.0f}'

plt.gca().yaxis.set_major_formatter(ticker.FuncFormatter(format_func))
plt.tight_layout()

# Apresentando df
plt.show()


## Etapa 2.3:

### Geração do Gráfico de Pizza (pie chart)

As etapas para criação do Gráfico de Pizza são as seguintes:

- ***Ler o arquivo CSV*** com os dados dos aplicativos.
- ***Contar a frequência*** de cada categoria.
- ***Agrupar categorias*** Menos Frequentes na categoria "Outras".
- ***Configurar cores*** usando a paleta 'viridis'.
- ***Criar o Gráfico de Pizza*** para mostrar as proporções de cada categoria.

O gráfico foi criado utilizando `pyplot`.

In [None]:
'''
# SOLUÇÃO 1:
# A solução um apresenta todas as 32 categorias e sua respectiva proporção na composição do gráfico

# Nome das colunas
apps_column = 'App'
categories_column = 'Category'

# Lendo arquivo CSV
df = pd.read_csv(input_file)

# Contando frequência de cada categoria
category_counts = df[categories_column].value_counts()

# Criando gráfico de pizza
plt.figure(figsize=(10, 8))
plt.pie(category_counts, labels=category_counts.index, autopct='%1.1f%%', colors=plt.cm.Paired(range(len(category_counts))))
plt.title('Distribuição das Categorias de Apps')
plt.show()
'''

# SOLUÇÃO 2
# A solução 2 agrupa as categorias de menor 'frequência' (abaixo  de 3%) em uma categoria chamada 'Outras'

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

input_file = 'googleplaystore_cleaned.csv'

# Nome da coluna de categorias
categories_column = 'Category'

# Lendo o arquivo CSV
df = pd.read_csv(input_file)

# Contando frequência de cada categoria
category_counts = df[categories_column].value_counts()

# Definindo um limite para agrupar categorias menos frequentes
limit = 0.03  # 3% 

# Calculando o total de categorias
total_count = category_counts.sum()

# Agrupando categorias < 3% em 'Outras'
category_counts = category_counts[category_counts / total_count > limit]
other_count = total_count - category_counts.sum()
if other_count > 0:
    category_counts['Outras'] = other_count

# Criar uma paleta de cores personalizada
num_colors = len(category_counts)
colors = plt.cm.viridis(np.linspace(0, 1, num_colors))  

# Criado gráfico de pizza
plt.figure(figsize=(12, 12))  # Aumentar o tamanho da figura
plt.pie(category_counts, labels=category_counts.index, autopct='%1.1f%%', colors=colors, wedgeprops={'edgecolor': 'black'})
plt.title('Distribuição das Categorias de Apps')

# Apresentando df
plt.show()


## Etapa 2.4: 

### Encontrar o Aplicativo Mais Caro

As etapas para encontrar o aplicativo mais caro são as seguintes:

- ***Ler o arquivo CSV*** com os dados dos aplicativos.
- ***Converter preços*** de string para float.
- ***Encontrar o preço máximo*** na coluna de preços convertidos.
- ***Exibir o app mais maro*** referente ao preço encontrado anteriormente.

O código foi implementado utilizando `pandas` para manipulação de dados e exibição do resultado.


In [None]:
import pandas as pd

input_file = 'googleplaystore_cleaned.csv'

# Nome da coluna de preços
price_column = 'Price'

# Lendo o arquivo CSV
df = pd.read_csv(input_file)

# Função para converter preços para números flutuantes
def convert_price(price):
    try:
        # removendo sinal de dólar e convertendo para float
        return float(price.replace('$', '').replace(',', ''))
    except ValueError:
        return 0.0  # retorna 0 se o preço não puder ser convertido

# Aplicando a conversão na coluna 'Price'
df['Price_Float'] = df[price_column].apply(convert_price)

# Encontrando aplicativo mais caro
max_price_row = df.loc[df['Price_Float'].idxmax()]

# Dados do aplicativo mais caro
most_expensive_app = max_price_row['App']
most_expensive_price = max_price_row['Price']

# Exibindo resultado
print(f"{'Aplicativo Mais Caro'}")
print()
print(f"Nome: {most_expensive_app}")
print(f"Preço: {most_expensive_price}")

## Etapa 2.5:

### Contar Aplicativos com Classificação "Mature 17+"

As etapas para contar o número de aplicativos classificados como "Mature 17+" são as seguintes:

- ***Ler o arquivo CSV*** com os dados dos aplicativos.
- ***Contar a quantidade de aplicativos*** com a classificação "Mature 17+" na coluna de classificação.

O código foi implementado utilizando `pandas` para manipulação de dados e contagem dos aplicativos com a classificação especificada.

In [None]:
import pandas as pd

def count_mature_apps(file_path):
    # Nome da coluna de classificação
    content_rating_column = 'Content Rating'

    # Lendo o arquivo CSV
    df = pd.read_csv(file_path)

    # Contando o número de aplicativos com classificação 'Mature 17+'
    mature_count = df[content_rating_column].str.contains('Mature 17+', na=False).sum()

    return mature_count

# Chamando a função com o caminho do arquivo
mature_apps_count = count_mature_apps('googleplaystore_cleaned.csv')

print(f"Número de aplicativos classificados como 'Mature 17+': {mature_apps_count}")


## Etapa 2.6:

### Impressão dos top 10 aplicativos por número de reviews

As etapas para exibir os top 10 aplicativos com o maior número de reviews são as seguintes:

- ***Ler o arquivo CSV*** com os dados dos aplicativos.
- ***Converter a coluna de reviews*** de strings com vírgulas para inteiros, tratando valores não numéricos como 0.
- ***Resumir nomes longos de aplicativos*** utilizando um mapeamento ou truncando para o comprimento máximo permitido.
- ***Selecionar os 10 aplicativos principais*** com base no número de reviews.
- ***Exibir os resultados*** formatados e alinhados no console.

Os resultados são exibidos utilizando a função `print` e um laço de repetição `for` para apresentar os aplicativos e o número de reviews.

In [None]:
import pandas as pd

def print_top_reviews(file_path):
    # Nome da coluna de reviews
    reviews_column = 'Reviews'
    max_name_length = 30  # máx. de caracteres para o nome do aplicativo

    # Mapeamento de nomes longos para nomes resumidos
    name_mapping = {
        'Security Master - Antivirus, VPN, AppLock, Booster': 'Security Master'
    }

    # Lendo o arquivo CSV
    df = pd.read_csv(file_path)

    # Função para converter reviews para inteiros
    def convert_reviews(reviews):
        if isinstance(reviews, str):
            try:
                return int(reviews.replace(',', ''))
            except ValueError:
                return 0  # retorna 0 se o valor não puder ser convertido
        elif isinstance(reviews, int):
            return reviews
        return 0  # retorna 0 para outros tipos de valores

    # Função para resumir o nome do aplicativo
    def summarize_app_name(name, max_length, mapping):
        if name in mapping:
            return mapping[name]
        if len(name) > max_length:
            return name.split(' ')[0]  # retorna a primeira parte do nome
        return name

    # Aplicando a conversão na coluna 'Reviews'
    df['Reviews_Int'] = df[reviews_column].apply(convert_reviews)

    # Selecionando top 10 aplicativos por número de reviews
    top_10_apps = df[['App', 'Reviews_Int']].sort_values(by='Reviews_Int', ascending=False).head(10)

    # Exibindo resultado    
    print("Top 10 Aplicativos por Número de Reviews")
    print()

    # Exibindo os dados de forma alinhada
    for index, row in top_10_apps.iterrows():
        app_name = summarize_app_name(row['App'], max_name_length, name_mapping)
        reviews = row['Reviews_Int']
        print(f"{app_name:<40} {reviews:>10,}")

# Chamando a função com o caminho do arquivo
print_top_reviews('googleplaystore_cleaned.csv')


## Etapa 2.7:

### Criação do Gráfico de Pontos

Para criar o gráfico de pontos, seguimos estas etapas:

- ***Ler o arquivo CSV*** com os dados dos aplicativos
- ***Contar o número de aplicativos pagos e gratuitos***
- ***Criar um gráfico de dispersão para visualizar essa distribuição***

O gráfico de pontos é exibido utilizando `pyplot`, mostrando a quantidade de aplicativos pagos e gratuitos com cores diferenciadas.

### Criação do Gráfico de Linha

Para o gráfico de linha, realizamos as seguintes etapas:

- ***Converter tamanhos dos aplicativos*** para megabytes (MB)
- ***Filtrar os dados*** para manter apenas aplicativos com tamanho definido
- ***Selecionar os 18 aplicativos mais pesados*** e gerar o gráfico de linha correspondente

O gráfico de linha é exibido utilizando `pyplot`, destacando os aplicativos mais pesados com tamanhos ajustados para MB e rotulagem adequada.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Gráfico de pontos

# Caminho do arquivo CSV 
input_file = 'googleplaystore_cleaned.csv'

# Lendo o CSV
df = pd.read_csv(input_file)

# Contando o número de aplicativos pagos e gratuitos
num_paid_apps = df[df['Type'] == 'Paid'].shape[0]
num_free_apps = df[df['Type'] == 'Free'].shape[0]

# Organizando dados para o gráfico de pontos
types = ['Pagos', 'Gratuitos']
counts = [num_paid_apps, num_free_apps]

# Criando gráfico de pontos
plt.figure(figsize=(8, 6))
plt.scatter(types, counts, color=['skyblue', 'lightgreen'], s=100, edgecolor='black')
plt.xlabel('Tipo de Aplicativo')
plt.ylabel('Número de Aplicativos')
plt.title('Distribuição de Aplicativos Pagos e Gratuitos')
plt.grid(True, linestyle='--', alpha=0.7)

# Apresentando o gráfico
plt.show()


## Gráfico de linha

# Função para converter tamanhos para megabytes (MB)
def convert_size(size):
    if pd.isna(size) or size.strip().lower() == 'varies with device':  # tratando valores que variam com o dispositivo
        return 0
    size = str(size).upper().strip()
    if 'M' in size:
        return float(size.replace('M', '').replace(',', ''))
    elif 'K' in size:
        return float(size.replace('K', '').replace(',', '')) / 1024  # convertendo kB para MB
    else:
        try:
            return float(size.replace(',', '')) / 1024  # Convertendo bytes para MB
        except ValueError:
            return 0

# Aplicando a conversão na coluna 'Size'
df['Size_MB'] = df['Size'].apply(convert_size)

# Filtrando os aplicativos que tem tamanho definido (não variam com o dispositivo)
df_filtered = df[df['Size_MB'] > 0]

# Selecionando top 18 aplicativos mais pesados
top_apps = df_filtered[['App', 'Size_MB']].sort_values(by='Size_MB', ascending=False).head(18)

# Criando gráfico de linha
plt.figure(figsize=(14, 8))
plt.plot(top_apps['App'], top_apps['Size_MB'], marker='o', linestyle='-', color='b')
plt.xlabel('Aplicativos')
plt.ylabel('Tamanho (MB)')
plt.title('Top 18 Apps Mais Pesados')
plt.xticks(rotation=90, ha='center')
plt.grid(True, which='both', linestyle='--', linewidth=0.5)

# Ajustando o eixo y para mostrar variação de 2 em 2 MB, de 90 a 100
plt.yticks(range(90, 101, 2))

plt.tight_layout()  # ajustando o layout para não sobrepor o texto
plt.show()

