![googleAps.png](attachment:googleAps.png)

# Projeto 1 - Análise de Dados com Python com Aplicativos da **Google Apps Store**

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

In [None]:
df = pd.read_csv('./data/googleplaystore.csv')
df.head(3)

## a. Entender o que temos a disposição

In [None]:
df.shape

In [None]:
df.columns

In [None]:
df.describe()

In [None]:
df.info()

## b. Limpeza (remoção dos Nulos e Duplicados)

In [None]:
# Verificar os nulos
df.isnull().sum()

In [None]:
df.shape

In [None]:
# Eliminar dados desaparecidos
df.dropna(how='any', inplace=True)
df.isnull().sum()

In [None]:
df.shape

In [None]:
# Verificar Duplicados
df.duplicated().sum()

In [None]:
# Eliminar os duplicados
df.drop_duplicates(inplace=True)
df.head(3)

In [None]:
# Verificar o resultado
df.duplicated().sum()

In [None]:
df.shape

## c. Regularização dos Dados

### c1. Dados Numéricos

In [None]:
df = pd.read_csv('./data/googleplaystore.csv')
df.head(3)

In [None]:
df.Rating.describe()

In [None]:
# Distribuição dos dados
df.Rating.plot()

In [None]:
# Localizar este valor
df[df['Rating'] > 10]

In [None]:
# Eliminar este valor
df = df.drop([10472])
df.Rating.describe()

In [None]:
# Histograma
df.Rating.plot(kind='hist')

In [None]:
# the most hight rate apps
df.sort_values(by=['Rating'], ascending=False, inplace=True)
df.head(3)

## c2. Dados Categóricos

In [None]:
# Quem são
df['Category'].unique()

In [None]:
# Quantas são?
len(df['Category'].unique())

In [None]:
# Quantas são por categoria?
df['Category'].value_counts()

In [None]:
# Mostrar isso graficamente
# plt.figure(figsize = (20,20))
df['Category'].value_counts().plot(kind='barh')

In [None]:
# plt.figure(figsize = (20,20))
df['Category'].value_counts().sort_values(ascending=True).plot(kind='barh')

## c3. Tipos Errados

In [None]:
df['Reviews'].dtype

In [None]:
# Modificar para inteiro (através de uma função lambda)
df['Reviews'] = df['Reviews'].apply(lambda x : int(x))
df['Reviews'].dtype

In [None]:
# Distribuição
df['Reviews'].plot() # (kind='hist')

In [None]:
df.describe()

In [None]:
# Encontrar o Top 10 dos Maiores Reviews
df.sort_values(by=['Reviews'], ascending=False, inplace=True)
df.head(10)

## c4 - Valores Misturados 

In [None]:
df['Size'].unique()

In [None]:
# Quantas linhas com 'Varies with device'?
len(df[df['Size']=='Varies with device'])

In [None]:
# Trocar 'Varies with device' pelo valor 'NaN'
df['Size'].replace('Varies with device', np.nan, inplace=True)
len(df[df['Size']=='Varies with device'])

In [None]:
# Função para realizar as conversões de tipo
def convert_size(size):
    if size is not np.nan:
        if 'k' in size:
            return float(size.replace('k','')) * 1000
        if 'M' in size:
            return float(size.replace('M','')) * 1000000
        
# Aplica ao tamanho
df['Size'] = df['Size'].apply(convert_size)

In [None]:
# Coloca os valores NaN para a média
# df['Size'].mean()

In [None]:
# Coloca os valores NaN para a média por CATEGORIA
df['Size'].fillna(df['Size'].mean(), inplace=True)
df['Size'].unique()

In [None]:
# print largest size apps
df.sort_values(by=['Size'], ascending=False, inplace=True)
df['Size'].plot(kind='hist')

## c5. Detalhes a mais

In [None]:
# CASO 'Installs'
df['Installs'].head()

In [None]:
# Need to convert install data
# remove +
# remove ,
# convert to int number
def convert_install(number):
    return int(number.replace('+','').replace(',',''))

df['Installs'] = df['Installs'].apply(convert_install)
df.head()

In [None]:
df.describe()

In [None]:
# CASO 'Price'
df['Price'].unique()

In [None]:
def convert_price(price):
    if '$' in str(price):
        return float(price.replace('$',''))
    else:
        return float(price)

df['Price'] = df['Price'].apply(convert_price)
df.describe()

In [None]:
df['Price'].plot(kind='hist')

In [None]:
# Caso 'Genres' - Multiplos valores na mesma coluna
df['Genres'].unique()

In [None]:
# print number or genres
len(df['Genres'].unique())

In [None]:
# only get genres before ; and remove all remain
# print out the unique genre
df['Genres'] = df['Genres'].str.split(';').str[0]
df['Genres'].unique()

In [None]:
len(df['Genres'].unique())

## Situação Final

In [None]:
df

In [None]:
df.info()

Obrigado e até a próxima \
Fernando Anselmo