In [None]:
# importando bibliotecas 
import pandas as pd
import matplotlib.pyplot as plt

# carregando arquivo .csv
data = pd.read_csv('googleplaystore.csv')

# removendo algumas linhas duplicadas
data.drop_duplicates(inplace=True)

# Limpar e Converter a Coluna 'Installs' para Inteiros
def clean_installs(installs):
    if isinstance(installs, str):
        installs = installs.replace('+', '').replace(',', '')
        if installs.isdigit():
            return int(installs)
        else:
            return None
    else:
        return None

data['Installs'] = data['Installs'].apply(clean_installs)

# Limpar e Converter a Coluna 'Reviews' para Inteiros
def clean_reviews(reviews):
    if isinstance(reviews, str):
        reviews = reviews.replace(',', '')
        if reviews.isdigit():
            return int(reviews)
        else:
            return None
    else:
        return None

data['Reviews'] = data['Reviews'].apply(clean_reviews)

# Filtrar linhas com valores inválidos ou ausentes na coluna 'Reviews'
data = data[data['Reviews'].notna()]

# gráfico de barra de top 5 apps mais baixados
top_apps_installs = data.nlargest(5, 'Installs')
plt.figure(figsize=(10, 6))
plt.bar(top_apps_installs['App'], top_apps_installs['Installs'], color='skyblue')
plt.xticks(rotation=45)
plt.title('Top 5 Apps por Número de Instalações')
plt.xlabel('App')
plt.ylabel('Número de Instalações')
plt.show()

# gráfico de pizza das categorias de apps
category_counts = data['Category'].value_counts().head(10)
plt.figure(figsize=(10, 8))
plt.pie(category_counts, labels=category_counts.index, autopct='%1.1f%%', startangle=140)
plt.title('Distribuição de Categorias de Apps')
plt.axis('equal')
plt.show()

# App mais caro
most_expensive_app = data.loc[data['Price'] == data['Price'].max(), 'App'].values[0]
print(f"O app mais caro existente no dataset é: {most_expensive_app}")

# Contagem de apps classificados como 'Mature 17+'
mature_apps_count = data[data['Content Rating'] == 'Mature 17+'].shape[0]
print(f"Número de apps classificados como 'Mature 17+': {mature_apps_count}")

# Top 10 apps por número de reviews
top_10_apps_reviews = data.nlargest(10, 'Reviews')[['App', 'Reviews']]
print("Top 10 Apps por Número de Reviews:")
print(top_10_apps_reviews)
