In [None]:
# Remover as linhas duplicadas

import pandas as pd # type: ignore

df = pd.read_csv('googleplaystore.csv')
df.drop_duplicates(subset=None, inplace=True)
df.to_csv('googleplaystore.csv', index=False)


# Etapa 1 do Desafio: Remover as Linhas Duplicadas

1. Passo 1:

Ler o arquivo CSV com o comando read_csv do Pandas

2. Passo 2:

Usar o comando drop_duplicates para remover linhas duplicadas. O parâmetro "subset=None" serve para utilizar todas as colunas na comparação de diferença entre linhas e o "inplace=True" para efetivamente mudar o data frame, portanto, eliminar as linhas duplicadas.

3. Passo 3:

Sobreescrever o arquivo CSV com o data frame atual. O parâmetro "index=False" serve para que o arquivo não contenha os indíces de cada linha.

In [None]:
# Fazer um gráfico de barras contendo os top 5 apps por número de instalações

import pandas as pd # type: ignore
import matplotlib.pyplot as plt # type: ignore
import numpy as np # type: ignore

app_nomes = []
app_installs = []
apps_to_drop = []

df = pd.read_csv('googleplaystore.csv')

for i in range(len(df)):
    if df.iloc[i]['Installs'].replace(',', '').replace('+', '').isnumeric() == False:
        apps_to_drop.append(i)
    else:
        df.loc[i, 'Installs'] = int(df.iloc[i]['Installs'].replace(',', '').replace('+', ''))
        
for i in range(len(apps_to_drop)):
    df = df.drop(index=apps_to_drop[i])
    
df = df.sort_values(by = ['Installs', 'App'], ascending = False, na_position = 'last')
df = df.drop_duplicates(subset=['App'])
df = df.head()

for i in range(len(df)):
    app_nomes.append(df.iloc[i]['App'])
    app_installs.append(df.iloc[i]['Installs'])

y_pos = np.arange(len(app_nomes))

fig, ax = plt.subplots()

hbars = ax.barh(y_pos, app_installs, align='center')
ax.set_yticks(y_pos, labels=app_nomes)
ax.invert_yaxis()  # labels no sentido de leitura de cima para baixo
ax.set_xlabel('Número de instalações (1:1000000000)')
ax.set_title('Top 5 apps por número de instalação')

ax.bar_label(hbars, fmt='%.0f')
ax.set_xlim(right=app_installs[0])  # ajustar xlim para caber a maior barra

plt.show()


# Etapa 2 do Desafio: Gráfico de Barras dos Top 5 Apps por Número de Instalações

## Código para Obter os Dados

1. Passo 1:

Após ler o arquivo CSV com o comando read_csv do pandas, percorrer o data frame contendo os dados do arquivo e verificar se a string contendo a quantidade de instalações sem os caracteres especiais padrões ",", que dividem o número a cada 3 casas decimais, e "+", que indica que o número de instalações é superior ao que está registrado, é numérico, ou seja, é composta somente por caracteres númericos. Caso não seja, o id da linha que corresponde ao aplicativo é armanazenada na lista "apps_to_drop", que contém aplicativos a serem filtrados do resultado final. Caso seja, a string é transformada em int, para que a ordenação seja feita com valores numéricos, e não caracteres.

2. Passo 2:

Retirar as linhas que correspondem aos aplicativos que não estão em um formato correto com o comando drop. Após isso, as linhas são ordenadas, primeiramente, pelos valores agora númericos da coluna "Installs" e depois pelos nomes dos aplicativos contidos na coluna "Apps". Finalmente, linhas com o mesmo valor na coluna "Apps", ou seja, linhas que correspondem a um mesmo aplicativo e diferem somente nos valores de quantidade de reviews, são removidas.

## Criação do Gráfico

1. Passo 1:

Nomes dos aplicativos são armazenados na lista app_names e quantidades de instalações dos aplicativos são armazenados na lista app_installs para que sejam apresentados no gráfico. A posição vertical das barras é definida pelo comando arange do numpy, que gera uma lista de indíces igualmente distantes entre si a partir de um valor númerico, neste caso, o comprimento da lista app_nomes.

2. Passo 2:

As barras do gráfico são definidas pelo comando barh, que tem como parâmetros a sua posição (posição no plano y), o seu comprimento (número de instalações) e alinhamento (centralizado). Os textos a esquerda das barras são definidos pelo comando set_yticks. O comando invert_yaxis é usado para colocar a barra de maior valor no topo do gráfico e a de menor valor na parte inferior. O texto do eixo x é definido com o comando set_xlabel e o título com o comando set_title.

3. Passo 3:

As labels de cada barra são definidas com o comando bar_label, que tem como parâmetros o valor das barras que define o seu comprimento, isto é, seu valor númerico, e sua formatação. O limite do eixo x é definido pelo comando set_xlim, que recebe como valor máximo (right) a quantidade de instalações do aplicativo com mais instalações. Por fim, o gráfico é apresentado com o comando show da biblioteca matplotlib.pyplot.

In [None]:
# Fazer um gráfico de pizza (pie chart) mostrando as categorias de apps existentes no dataset de acordo com a frequência 

import pandas as pd # type: ignore
import matplotlib.pyplot as plt # type: ignore

def checarString(str):
    contem_n = False
 
    for i in str:
 
        if i.isdigit():
            contem_n = True
            
    return contem_n


app_category = []
app_category_count = []
app_category_total_count = 0
apps_to_drop = []

df = pd.read_csv('googleplaystore.csv')

for i in range(len(df)):
    if checarString(df.iloc[i]['Category']) == True:
        apps_to_drop.append(i)
        
for i in range(len(apps_to_drop)):
    df = df.drop(index=apps_to_drop[i])

df = df.groupby(['Category']).count()

for i in range(len(df)):
    app_category.append(df.index[i])
    app_category_count.append(int(df['App'].iloc[i]))
    app_category_total_count += df['App'].iloc[i]

app_category_percentage = [(app_category_count[i] * 100) / app_category_total_count for i in range(len(app_category_count))]

labels = [f'{app_category[i]} - {app_category_percentage[i]:1.2f}%' for i in range(len(app_category))]

fig, ax = plt.subplots()
ax.set_title('Frequência de categorias nos aplicativos')
ax.pie(app_category_percentage, radius=1.2)
ax.legend(labels=labels, loc='center left', bbox_to_anchor=(1, 0.5))

plt.show()


# Etapa 3 do Desafio: Gráfico de Pizza das Categorias Existentes

## Código para Obter os Dados

1. Passo 1:

Antes de mais nada, a função checarString é definida, a qual recebe como parâmetro uma string, percorre-a caractere por caractere e verifica se o caractere atual é um dígito númerico. Caso haja um único caractere numérico, ela retorna True, assim indicando que a string é inválida, já que, neste caso, os nomes das categorias só podem ser compostas por letras e caracteres especiais.

2. Passo 2:

Após ler o arquivo CSV com o comando read_csv do pandas, percorrer o data frame contendo os dados do arquivo e verificar se a string contendo a categoria possui algum caractere numérico. Caso possua, o id da linha que corresponde ao aplicativo é armanazenada na lista "apps_to_drop", que contém aplicativos a serem filtrados do resultado final.

3. Passo 3:

Retirar as linhas que correspondem aos aplicativos que não estão em um formato correto com o comando drop. Após isso, usa-se o comando groupby do Pandas para agrupar as linhas por categoria e depois contar as ocorrências das outras colunas que compartilham o mesmo valor na coluna categoria (Category no arquivo CSV e, consequentemente, no data frame).

## Criação do Gráfico

1. Passo 1:

Nomes das categorias são armazenados na lista app_category, quantidades de aplicativos por categoria são armazenados na lista app_category_count e somadas a variável app_category_total_count, que armazena o total de aplicativos com a coluna categoria não-nula. A porcentagem da quantidade de aplicativos de uma categoria em relação ao total de aplicativos com categoria é calculada para cada categoria e armazenada na lista app_category_percentage.

2. Passo 2:

As labels, que são uma string composta pelo nome da categoria e sua porcentagem, são geradas com list comprehension.

3. Passo 3:

O texto do título é definido com o comando set_title. O gráfico de pizza é criado com o comando pie, o qual recebe os parâmetros app_category_percentage (lista das porcentagens de cada aplicativo) e radius (raio do círculo em centímetros). A legenda é criado pelo comando legend, que recebe as labels criadas anteriormente, tem a localização definida para o centro esquerdo pelo parâmetro "loc='center left'" e é contida por uma caixa, o que definido pelo parâmetro bbox_to_anchor. Por fim, o gráfico é apresentado com o comando show da biblioteca matplotlib.pyplot.

In [None]:
# Mostrar app mais caro existente no dataset

import pandas as pd # type: ignore

most_expensive_price = 0.0
most_expensive = []

df = pd.read_csv('googleplaystore.csv')

for i in range(len(df)):
    current_price = df.iloc[i]['Price']
    if isinstance(current_price, str):
        if current_price.startswith('$') or current_price.replace('.', '', 1).isdigit():
            if float(current_price.replace('$', '')) > most_expensive_price:
                most_expensive_price = float(current_price.replace('$', ''))
                most_expensive.clear()
                most_expensive.append(i)
            elif float(current_price.replace('$', '')) == most_expensive_price:
                most_expensive_price = float(current_price.replace('$', ''))
                most_expensive.append(i)
    elif isinstance(current_price, int) or isinstance(current_price, float):
        if float(current_price) > most_expensive_price:
            most_expensive_price = float(current_price)
            most_expensive.clear()
            most_expensive.append(i)
        elif float(current_price) == most_expensive_price:
            most_expensive_price = float(current_price)
            most_expensive.append(i)

print('O(s) app(s) mais caros existente(s) no dataset:')
for i in range(len(most_expensive)):
    print (df.iloc[most_expensive[i]]['App'] + ', custando ' + df.iloc[most_expensive[i]]['Price'])
 

# Etapa 4 do Desafio: Mostrar App mais Caro Existente

1. Passo 1:

Após ler o arquivo CSV com o comando read_csv do pandas, percorrer o data frame contendo os dados do arquivo e, primeiramente, verificar se a valor da coluna preço (Price no data frame) é uma string. Caso seja, verificar se a string começa com $ ou, caso 1 ponto final seja retirado da string, ela só contenha valores númericos (isdigit). Caso essa condição seja verdadeiro, verifica se o valor da string convertida para float é maior que o valor localmente armazenado de maior valor de aplicativo. Caso essa condição seja verdadeira, a lista contendo os ids dos aplicativos de maior preço é limpa e o id do aplicativo atual é adicionada à lista. Caso o seu valor convertido para float seja igual àquele armazenado na variável de maior preco, o id do aplicativo atual é adicionado à lista de aplicativos de maior preco.

3. Passo 3:

Retirar as linhas que correspondem aos aplicativos que não estão em um formato correto com o comando drop. Após isso, usa-se o comando groupby do Pandas para agrupar as linhas por categoria e depois contar as ocorrências das outras colunas que compartilham o mesmo valor na coluna categoria (Category no arquivo CSV e, consequentemente, no data frame).

In [None]:
# Mostrar quantos apps são classificados como 'Mature 17+'

import pandas as pd # type: ignore

df = pd.read_csv('googleplaystore.csv')
df = df.groupby(['Content Rating']).count()

print('A quantidade de apps classificados como "Mature 17+" é ' + str(df.loc['Mature 17+']['App']))


In [None]:
# Mostrar o top 10 apps por número de reviews

import pandas as pd # type: ignore
import matplotlib.pyplot as plt # type: ignore
import numpy as np # type: ignore

most_reviews = []
apps_to_drop = []

df = pd.read_csv('googleplaystore.csv')

for i in range(len(df)):
    if df.iloc[i]['Reviews'].isdigit() == False:
        apps_to_drop.append(i)
    else:
        df.loc[i, 'Reviews'] = int(df.iloc[i]['Reviews'])
        
for i in range(len(apps_to_drop)):
    df = df.drop(index=apps_to_drop[i])

df = df.sort_values(by = ['Reviews', 'App'], ascending = False, na_position = 'last')
df = df.drop_duplicates(subset=['App'])
df = df.head(10)

print('Os 10 apps com mais reviews:')
for index, row in df.iterrows():
    print(f'Nome do app: {row['App']}; Número de reviews: {row['Reviews']}')
    
# Criar, pelo menos, outras 2 formas gráficas de exibição dos indicadores

# Gráfico de dispersão baseado nos top 10 apps por número de reviews

x = np.arange(1, len(df) + 1)
y = [df.iloc[i]['Reviews'] for i in x - 1]
colors = np.random.rand(len(x))

# Calcular a média simples dos dados
media_y = [np.mean(y)]*len(x)

fig, ax = plt.subplots()

plt.scatter(x, y, c=colors)

linha_media = ax.plot(x, media_y, label='Média de reviews')

# Textos do gráfico
apps_names = [df.iloc[i]['App'][:10] + '...' if len(df.iloc[i]['App']) > 10 else df.iloc[i]['App'] for i in x - 1]

ax.set_title('Aplicativos com mais reviews em ordem decrescente')
plt.xlabel('Posição no ranking')
plt.ylabel('Quantidade de reviews (1:10000000)')

for i, txt in enumerate(apps_names):
    ax.annotate(txt, (x[i], y[i]))

legend = ax.legend(loc='upper right')

plt.show()


In [None]:
# Criar, pelo menos, mais 2 cálculos sobre o dataset

# Lista: top 10 gêneros de aplicativos mais frequentes

import pandas as pd # type: ignore

def checarString(str):
    contem_n = False
 
    for i in str:
 
        if i.isdigit():
            contem_n = True
            
    return contem_n

apps_to_drop = []

df = pd.read_csv('googleplaystore.csv')

for i in range(len(df)):
    if checarString(df.iloc[i]['Genres']) == True:
        apps_to_drop.append(i)
        
for i in range(len(apps_to_drop)):
    df = df.drop(index=apps_to_drop[i])
    
genres = df['Genres'].unique()

unique_genres = set()

for genre in genres:
    unique_genres.update(genre.split(';'))

unique_genres = list(unique_genres)
unique_genres.sort()

unique_genres = {unique_genres[i]: 0 for i in range (len(unique_genres))}

for i in range(len(df)):
    if ';' in df.iloc[i]['Genres']:
        genres = df.iloc[i]['Genres'].split(';')
        
        if genres[0] in unique_genres:
            unique_genres[genres[0]] = unique_genres.get(genres[0]) + 1
            
        if genres[1] in unique_genres:
            unique_genres[genres[1]] = unique_genres.get(genres[1]) + 1
    else:
        genre = df.iloc[i]['Genres']
        
        if genre in unique_genres:
            unique_genres[genre] = unique_genres.get(genre) + 1
    
unique_genres = dict(sorted(unique_genres.items(), key=lambda item: item[1], reverse=True))
unique_genres = dict(list(unique_genres.items())[0: 10]) 

print('Os 10 gêneros de aplicativos mais frequentes:')
for key, value in unique_genres.items():
    print(f'Gênero: {key}; Quantidade de aplicativos deste gênero: {value}')
    

# Gráfico de linha baseado nos top 10 apps por número de reviews

x = np.arange(1, len(unique_genres) + 1)
y = [list(unique_genres.values())[i] for i in x - 1]

fig,ax = plt.subplots()

linha = ax.plot(x, y, marker='o')

# Texto do gráfico
category_names = [list(unique_genres.keys())[i] for i in x - 1]

ax.set_title('Frequência dos gêneros em ordem decrescente')
plt.xlabel('Posição no ranking')
plt.ylabel('Quantidade de aplicativos deste gênero')

for i, txt in enumerate(category_names):
    ax.annotate(txt, (x[i], y[i]))

plt.show()


In [None]:
# Criar, pelo menos, mais 2 cálculos sobre o dataset

# Valor: quantidade de aplicativos gratuitos

import pandas as pd # type: ignore

df = pd.read_csv('googleplaystore.csv')
df = df.groupby(['Type']).count()

print('A quantidade de apps gratuitos é ' + str(df.loc['Free']['App']))
