# <font color = #119fbf> **Manipulação de Dados com Pandas**</font>

* Programa de Pós-Graduação em Engenharia Elétrica e de Computação (PPGEEC)
* Introdução à Ciências de Dados - UFC Campus Sobral – 2023.1
* Andressa Gomes Moreira

## Instalação

In [None]:
#!pip install pandas

In [None]:
import pandas as pd
import numpy as np
pd.__version__

## Estruturas de Dados

### Series

- Matriz rotulada unidimensional capaz de conter qualquer tipo de dados (inteiros, strings, ponto flutuante, objetos). 

- Pode ser criado a partir de uma lista ou array

- O método para criar um Series: *```pd.Series()```*

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

* O *```Series```* envolve uma sequência de **valores** e uma sequência de **índices**

* Podemos acessar os valores com o atributo *```values```* e os índices com o atributo *```index```* 

In [None]:
data.values

In [None]:
data.index

* Como em uma array NumPy, os dados podem ser acessados pelo índice por meio da notação de colchetes

In [None]:
data[0]

In [None]:
data[1:3]

* O **índice** é definido explicitamente e não precisa ser um número inteiro, mas pode consistir em valores de qualquer tipo desejado. Por exemplo, podemos usar strings como índice:

In [None]:
s = pd.Series(["Maria", 25, "F", 1.65], index=["Nome", "Idade", "Sexo", "Altura"])
s

In [None]:
s['Nome']

In [None]:
s['Idade':'Sexo']

* É possível construir um *```Series```*  diretamente de um dicionário Python. 

* Um dicionário Python é uma estrutura que mapeia chaves para um conjunto de valores.

In [None]:
area_dict = {'California': 423967, 
             'Texas': 695662, 
             'New York': 141297, 
             'Florida': 170312, 
             'Illinois': 149995}

In [None]:
area = pd.Series(area_dict)
area

In [None]:
area.values

In [None]:
area.index

In [None]:
area['Texas']

### DataFrame

- Estrutura de dados rotulada bidimensional com colunas de tipos diferentes.
- O método para criar um DataFrame: *```pd.DataFrame()```*
- NaN é o marcador de dados ausentes padrão usado em pandas.

In [None]:
d = {
    "one": pd.Series([1.0, 2.0, 3.0], index=["a", "b", "c"]),
    "two": pd.Series([1.0, 2.0, 3.0, 4.0], index=["a", "b", "c", "d"]),
}


d1 = pd.DataFrame(d)
d1

- *```Series```* é um análogo de uma matriz unidimensional com índices flexíveis;
- *```DataFrame```* é um análogo de uma matriz bidimensional com índices e nomes de coluna flexíveis.

In [None]:
population_dict = {'California': 38332521, 'Texas': 26448193, 'New York': 19651127}
                   
population = pd.Series(population_dict)
population

In [None]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297}

area = pd.Series(area_dict)
area

In [None]:
states = pd.DataFrame({'population': population, 'area': area})
states

* *```DataFrame```* possui um atributos ```index``` e ```columns``` para dar acesso aos rótulos dos índices e das colunas

In [None]:
states.index

In [None]:
states.values

In [None]:
states.columns

Acessando valores pelo index

In [None]:
states['area']

In [None]:
states['area']['California']

In [None]:
#states['California']['area']

In [None]:
states[1:3]

# Aplicação

### Análise de dados Google Play Store Apps

> Link para download do dataset **[Google Play Store Apps](https://www.kaggle.com/datasets/lava18/google-play-store-apps)** 

O dataset possui dados extraídos de 10 mil aplicativos da Google Play Store para análise do mercado Android. O conjunto de dados (**athlete_events.csv**) é composto por 10841 amostras e 13 atributos. Cada amostra refere-se a um aplicativo no Google Play Store. Existem 13 atributos que descrevem um determinado aplicativo. Os atributos listados na base de dados são:

1. App - Nome do aplicativo 
2. Category	- Categoria à qual o aplicativo pertence
3. Rating	- Classificação geral do usuário do aplicativo
4. Reviews - Número de comentários do usuário para o aplicativo
5. Size	 - Tamanho do aplicativo 
6. Installs	- Número de downloads/instalações do usuário para o aplicativo
7. Type	- Tipo: Pago ou Gratuito
8. Price - Preço do aplicativo
9. Content Rating - Classificação do conteúdo - faixa etária: Crianças / Maiores de 21 anos / Adulto
10. Genres - Gêneros
11. Last Updated - Data em que o aplicativo foi atualizado pela última vez na Play Store
12. Current Ver	- Versão Atual do aplicativo disponível na Play Stor
13. Android Ver - Versão mínima necessária do Android

A partir da análise dos dados contidos no dataset alguns questionamentos podem ser feitos:

1. Qual categoria de aplicativo é mais instalada pelos usuários?
2. Quais aplicativos mais caros disponíveis na Play Store?
3. Qual a quantidade de aplicativos disponíveis de acordo com a faixa etária e gênero?
4. Qual a Classificação dos Aplicativos de acordo com o Tipo (pago ou gratuito)?
5. Quais categorias de app possuem as melhores e as piores classificação?

#### Carregando o dataset

In [None]:
df = pd.read_csv("googleplaystore.csv", sep=',')

#### Informações Básicas

Formato (linhas, colunas) 

In [None]:
# Retorna uma tupla que representa a dimensionalidade do DataFrame
df.shape

In [None]:
df.info()

Visualizar as cinco primeiras linhas do dataset

In [None]:
df.head()

Visualizar as cinco últimas linhas do dataset

In [None]:
df.tail()

Informações estatísticas (média, desvio padrão, valores mínimo e máximo, etc)

In [None]:
df.describe()

#### Selecionar Dados 

Selecionando uma ou n colunas por índice 

In [None]:
df[['Genres', 'Category']].head()

Selecionando colunas usando notação de ponto

In [None]:
df.Category.head()

Verificando os valores presentes em uma coluna

In [None]:
df['Category'].unique()

In [None]:
df['Rating'].unique()

#### Limpeza dos Dados

Atributos que possuem amostras com valores nulos

In [None]:
df.isnull().sum()

Ordenar pelos valores ao longo de um dos eixos.

In [None]:
total = df.isnull().sum().sort_values(ascending=False)
total.head()

Porcentagem de valores Nulos

In [None]:
porcent = ((df.isnull().sum()/df.shape[0])*100).sort_values(ascending=False)

porcent_df = pd.DataFrame({'Total': total, 'Porcentagem': porcent})
porcent_df.head()

Remover valores ausentes

~~~python
df.dropna(axis=0, how ='any', inplace = True)
~~~

- axis: 0 = 'Linhas', 1 = 'Colunas'

    * 0 = 'Linhas': Descarte as linhas que contêm valores ausentes.
    * 1 = 'Colunas': Descarte as colunas que contêm valores ausentes.

- how: 'any', 'all'

    * 'any' : Se algum valor NA estiver presente, elimine essa linha ou coluna.
    * 'all' : Se todos os valores forem NA, elimine essa linha ou coluna.

- inplace
    * Se deve modificar o DataFrame em vez de criar um novo.


In [None]:
df.dropna(axis=0, how ='any', inplace = True)

In [None]:
total = df.isnull().sum().sort_values(ascending=False)
porcent = ((df.isnull().sum()/df.shape[0])*100).sort_values(ascending=False)

porcent_df = pd.DataFrame({'Total': total, 'Porcentagem': porcent})
porcent_df.head()

Verificar a dimensionalidade do DataFrame após a exclusão dos dados nulos

In [None]:
df.shape

Removendo duplicados

~~~python
df.drop_duplicates(inplace = True)
~~~

In [None]:
df.duplicated(subset=['Rating'])

In [None]:
df.drop_duplicates(inplace = True)

Verificar a dimensionalidade do DataFrame após a exclusão dos dados duplicados

In [None]:
df.shape

## Podemos fazer alguns questionamentos:

### 1. Qual categoria de aplicativo é mais instalada pelos usuários?

**Installs** - Número de downloads/instalações do usuário para o aplicativo

In [None]:
df['Installs']

In [None]:
df['Installs'][0]
#df['Installs'][0].replace(",","")
#df['Installs'][0].replace("+","")

Limpeza nos dados da categoria Instalação

In [None]:
df['Installs'] = df.Installs.str.replace(",","")
df['Installs'] = df.Installs.str.replace("+","")
df['Installs'] = df['Installs'].astype(float)
df['Installs'].dtype

In [None]:
df['Installs']

In [None]:
category_list = list(df['Category'].unique())
category_install = []

for i in category_list:
    x = df[df['Category'] == i]
    if(len(x)!=0):
        install = sum(x.Installs)/len(x)
        category_install.append(install)
    else:
        install = sum(x.Installs)
        category_install.append(install)
        
df_category = pd.DataFrame({'category': category_list,'install':category_install})
df_category.sort_values(by="install",ascending=False).head(30)

### 2. Quais aplicativos mais caros disponíveis na Play Store?

**Price** - Preço do aplicativo

In [None]:
df["Price"].unique()

Limpeza e padronização dos valores do atributo "Price", aplicando uma função ao longo do eixo do DataFrame.

In [None]:
df.Price = df.Price.apply(lambda x: x.strip('$'))
df.Price=pd.to_numeric(df.Price)
df.Price.unique().astype(float)

O aplicativo mais caro de cada categoria custa quanto?


```df.groupby()``` - Agrupar o DataFrame usando um mapeador ou uma série de colunas.


In [None]:
df.groupby(["Category"])["Price"].max().head(200).sort_values(ascending=False)

Valores dos aplicativos mais caros

In [None]:
df[(df.Price > 39.99)][["Price", "App", "Category"]].sort_values(by='Price', ascending=False)

### 3. Número de aplicativos de acordo com a faixa etária e gênero

- Quantos aplicativos existem em cada gênero para as diferentes faixa etária?

Verificando os gêneros existentes

In [None]:
generos = df['Genres'].unique()
generos

Verificando a quantidade de aplicativos existentes de acordo com a faixa etária

In [None]:
df['Content Rating'].value_counts()

Verificando a quantidade de aplicativos existentes de acordo com o gênero e a faixa etária

In [None]:
groupby_gen_rating = df.groupby(["Genres"])["Content Rating"].value_counts()

'''for genero in generos:
    print(f'-- Gênero: {genero} --')
    print(f'{groupby_gen_rating}\n')'''

groupby_gen_rating

### 4. Qual a Classificação dos Aplicativos de acordo com o Tipo (pago ou gratuito)?


**Rating** - Classificação geral do usuário do aplicativo

**Type** - Tipo: Pago ou Gratuito

Quantidade de apps de acordo com a avaliação

In [None]:
df['Rating'].unique()

In [None]:
df['Rating'].value_counts().head(39)

Quantidade de apps de acordo com o tipo

In [None]:
df.Type.value_counts()

Média das notas (avaliação) recebida por cada tipo 

In [None]:
df.groupby(["Type"])["Rating"].mean()

In [None]:
#df.groupby(["Category", "Type"])["Rating"].mean()

### 5. Quais categorias de app possuem a melhor e a pior classificação?

In [None]:
df.groupby(["Category"])["Rating"].mean().sort_values(ascending=False)

Quais aplicativos possuem avaliação mínima?

In [None]:
print("Range: ", df.Rating.min(),"-",df.Rating.max())

In [None]:
df[(df.Rating == df.Rating.min())][["App", "Rating", "Category"]]

Quais aplicativos possuem avaliação máxima?

In [None]:
df[(df.Rating == df.Rating.max())][["App", "Rating", "Category"]]