# Exercícios - Pandas

### Questão 1

Em um concurso público foram contabilizados os números de pessoas inscritas (até a data inicialmente estabelecida para a inscrição) segundo os níveis de escolaridade: fundamental completo, médio completo, superior completo e pós-graduação completa. Segue abaixo a tabela com os valores observados.

| Nível de Escolaridade  | Inscritos |
|------------------------|-----------|
| Fundamental Completo   |   451     |
| Médio Completo         |   627     |
| Superior Completo      |   291     |
| Pós-Graduação Completa |    95     |

Com base na tabela acima, crie uma Series com esses valores e calcule:

__A)__ O número total de inscritos;

__B)__ Número inscritos que possuem, pelo menos, o superior completo;

__C)__ Suponha que a inscrição foi prorrogada e, com isso, foi obtido um número adicional de inscrições: 68, 93, 22 e 0 inscritos a mais em cada uma das categorias de escolaridade apresentados na tabela acima (na mesma ordem). Assim, crie uma nova Series com esses valores;

__D)__ Utilizando as duas Series que você tem, calcule o número total de inscritos após a prorrogação do período de inscrições.

## 

### Resolução:

Primeiramente, vamos importar a biblioteca _Pandas_ e em seguida definir a _Series_ de números de inscritos iniciais pela escolaridade:

In [1]:
# Import da Biblioteca
import pandas as pd

In [2]:
# Lista com o niveis de escolaridade
nivel_escolaridade = ['Fundamental Completo', 
                      'Médio Completo', 
                      'Superior Completo', 
                      'Pós-Graduação Completa']

# Lista com os números de inscritos
n_inscritos = [451, 627, 291, 95]

In [3]:
# Cria a Séries usando as listas anteriores
inscritos = pd.Series(data = n_inscritos,
                      index = nivel_escolaridade)

# Print da Series
inscritos

Fundamental Completo      451
Médio Completo            627
Superior Completo         291
Pós-Graduação Completa     95
dtype: int64

__A)__ O número total de inscritos;

In [4]:
# Calcula a soma do número de inscritos
inscritos.sum()

1464

__B)__ Número inscritos que possuem, pelo menos, o superior completo;

In [5]:
# Filtra apenas os inscritos com Superior Completo e Pós-Graduação Completa
inscrição_superior = inscritos[(inscritos.index == 'Superior Completo') | (inscritos.index == 'Pós-Graduação Completa')]

# Calcula a soma para esses inscritos
inscrição_superior.sum()

386

__C)__ Suponha que a inscrição foi prorrogada e, com isso, foi obtido um número adicional de inscrições: 68, 93, 22 e 0 inscritos a mais em cada uma das categorias de escolaridade apresentados na tabela acima (na mesma ordem). Assim, crie uma nova Series com esses valores;

In [6]:
# Lista com os números de novos inscritos
novas_inscricoes = [68, 93, 22, 0]

In [7]:
# Cria a Séries para os novos inscritos
novos_inscritos = pd.Series(data = novas_inscricoes,
                            index = nivel_escolaridade)

# Print da Série
novos_inscritos

Fundamental Completo      68
Médio Completo            93
Superior Completo         22
Pós-Graduação Completa     0
dtype: int64

__D)__ Utilizando as duas Series que você tem, calcule o número total de inscritos após a prorrogação do período de inscrições.

In [31]:
# Como ambas series tem o mesmo index, bastante somar ambas as series
total_inscritos = inscritos + novos_inscritos

# Print da Série
total_inscritos

Fundamental Completo      519
Médio Completo            720
Superior Completo         313
Pós-Graduação Completa     95
dtype: int64

In [32]:
# Calcula a soma para o total de inscritos
total_inscritos.sum()

1647

##  

### Questão 2

Uma turma de cinco alunos foi submetida a uma avaliação e a nota de cada um dos alunos é apresentada na tabela abaixo:

| Nome dos Alunos  | Nota |
|------------------|------|
|     Wilfred      | 2 |
|     Abbie        | 7 |
|     Harry        | 5.5 |
|     Julia        | 10 |
|     Carrie       | 6.2 |


__A)__ Crie uma Series com os valores da tabela acima;

__B)__ Retorne o número de alunos que foram aprovados (considerando que a nota mínima para a aprovação é 7);

__C)__ Qual foi a nota média da turma;

__D)__ Obtenha o nome dos alunos que tiraram notas acima da média da turma.

## 

### Resolução:

In [8]:
# Import da Biblioteca
import pandas as pd

__A)__ Crie uma Series com os valores da tabela acima;

In [9]:
# Lista com os nomes dos alunos
nome_alunos = ['Wilfred', 
               'Abbie', 
               'Harry', 
               'Julia',
               'Carrie']

# Lista com as notas
notas = [2, 7, 5.5, 10, 6.2]

In [10]:
# Cria a Séries usando as listas anteriores
turma = pd.Series(data = notas,
                  index = nome_alunos)

# Print da Series
turma

Wilfred     2.0
Abbie       7.0
Harry       5.5
Julia      10.0
Carrie      6.2
dtype: float64

__B)__ Retorne o número de alunos que foram aprovados (considerando que a nota mínima para a aprovação é 7);

In [11]:
# Mascara Booleana para filtrar os alunos com notas maior que 7
mask = turma.values >= 7

# Print da Mascara Booleana
mask

array([False,  True, False,  True, False])

In [12]:
# Visualização do filtro dos alunos
turma[mask]

Abbie     7.0
Julia    10.0
dtype: float64

In [21]:
# Utilizando o filtro para fazer a contagem de alunos
print(turma[mask].count())

2


__C)__ Qual foi a nota média da turma;

In [20]:
# Calculando a média dos alunos
media_alunos = turma.mean()
print(media_alunos)

6.14


__D)__ Obtenha o nome dos alunos que tiraram notas acima da média da turma.

In [19]:
# Filtra os alunos de acordo com a média e prita o nome dos alunos com o index
nomes = turma[turma.values > media_alunos].index.to_list()
print(nomes)

['Abbie', 'Julia', 'Carrie']


## 

### Questão 3

Crie um objeto DataFrame que contenha os dados da tabela abaixo, os quais se referem ao peso, altura e idade de cinco pessoas:


| Peso (kg) | Altura (cm) | Idade (anos) |
|-----------|-------------|--------------|
|  47 | 161	| 31 |
|  80 | 170	| 21 |
|  60 | 175	| 16 |
|  90 | 162	| 28 |
| 100 | 185	| 23 |
| 147 | 189 | 32 |

Com base no DataFrame criado, realize o que pedido nos itens abaixo:

__A)__ Visualize apenas os dados da coluna que contém a altura das pessoas;

__B)__ Obtenha a idade média das pessoas;

__C)__ Obtenha os dados das pessoas que estão abaixo da altura média;

__D)__ Crie um nova coluna no DataFrame que contenha o IMC (Índice de Massa Corporal) de cada pessoa;

__Obs.:__ A fórmula para o IMC é dada por IMC = Peso/(Altura)² com o peso em kg e a altura em metros.

__E)__ Remova a coluna que contém a idade das pessoas;

__F)__ Crie uma nova coluna chamada Classificação, que contenha a classificação de cada indivíduo, de acordo com o seu IMC. Para isso, consulte a tabela abaixo.

| IMC             | Classificação |
|-----------------|---------------|
Menor que 18,5    | Subpeso |
Entre 18,5 e 24,9 | Normal |
Entre 25,0 e 29,9 | Sobrepeso |
Entre 30,0 e 39,9 | Obesidade Grau I |
Maior que 40,0    | Obesidade Grau II |

__G)__ Salve esses dados do DataFrame em um arquivo csv.

##  

### Resolução:

In [22]:
import numpy as np
import pandas as pd

__A)__ Visualize apenas os dados da coluna que contém a altura das pessoas;

In [24]:
# Cria um dicionario com cada uma das informações das pessoas
dictionary = {'Peso': [47, 80, 60, 90, 100, 147],
              'Altura': [161, 170, 175, 162, 185, 189],
              'Idade': [31, 21, 16, 28, 23, 32]}

# Cria um DataFrame a partir de um dicionario
pessoas = pd.DataFrame(dictionary)

# Mostra o resultado do DataFrame
pessoas

Unnamed: 0,Peso,Altura,Idade
0,47,161,31
1,80,170,21
2,60,175,16
3,90,162,28
4,100,185,23
5,147,189,32


In [29]:
#Visualizando apenas a coluna com a altura das pessoas

#visualização como DataFrame
pessoas[['Altura']]

Unnamed: 0,Altura
0,161
1,170
2,175
3,162
4,185
5,189


In [28]:
#visualização como Serie
pessoas['Altura']

0    161
1    170
2    175
3    162
4    185
5    189
Name: Altura, dtype: int64

__B)__ Obtenha a idade média das pessoas;

In [35]:
# Chama a coluna Idade do DataFrame e calcula a média
media_idade = pessoas['Idade'].mean()

# Print da Média de Idades
print(f'a média das idades é {media_idade:.2f}')

a média das idades é 25.17


__C)__ Obtenha os dados das pessoas que estão abaixo da altura média;

In [37]:
# Calcula a média das alturas
media_altura = pessoas['Altura'].mean()

# Cria um filtro usando máscara booleana
mask = pessoas['Altura'] < media_altura

# Visualiza o resultado da mascara booleana
mask

0     True
1     True
2    False
3     True
4    False
5    False
Name: Altura, dtype: bool

In [38]:
# Filtra as pessoas com Altura abaixo da média
pessoas[mask]

Unnamed: 0,Peso,Altura,Idade
0,47,161,31
1,80,170,21
3,90,162,28


Podemos fazer a mesma resolução mas de uma forma mais direta:

In [39]:
# Filtro as pessoas com altura abaixo da média
pessoas[pessoas['Altura'] < pessoas['Altura'].mean()]

Unnamed: 0,Peso,Altura,Idade
0,47,161,31
1,80,170,21
3,90,162,28


__D)__ Crie um nova coluna no DataFrame que contenha o IMC (Índice de Massa Corporal) de cada pessoa;


__Obs.:__ A fórmula para o IMC é dada por IMC = Peso/(Altura)² com o peso em kg e a altura em metros.

#### Método 1:

In [41]:
# Cria-se uma coluna e atribui a ela o valor do IMC fazendo os calculos de acordo com as outras colunas
pessoas['IMC'] = np.round(pessoas['Peso'] / np.power(pessoas['Altura']/100, 2), 1)

# visualiza o Dataframe com a nova coluna
pessoas

Unnamed: 0,Peso,Altura,Idade,IMC
0,47,161,31,18.1
1,80,170,21,27.7
2,60,175,16,19.6
3,90,162,28,34.3
4,100,185,23,29.2
5,147,189,32,41.2


#### Método 2:

In [42]:
# Define-se um loop onde irá varrer cada linha e calcular o IMC, depois atribuir o valor em uma nova coluna
for i in range(len(pessoas)):
    # Salva o peso na variável
    peso = pessoas.loc[i, 'Peso']
    # Salva a altura convertendo para metros
    altura_metros = pessoas.loc[i, 'Altura']/100
    # Calcula-se o IMC
    imc = peso/np.power(altura_metros, 2)
    # Salva o IMC na coluna nova
    pessoas.loc[i, 'IMC'] = np.round(imc, 1)

# visualiza o Dataframe com a nova coluna    
pessoas

Unnamed: 0,Peso,Altura,Idade,IMC
0,47,161,31,18.1
1,80,170,21,27.7
2,60,175,16,19.6
3,90,162,28,34.3
4,100,185,23,29.2
5,147,189,32,41.2


#### Método 3:

In [45]:
# Utilizando Apply e lambda

pessoas['IMC'] = pessoas.apply(lambda row: np.round(row.Peso/(np.power(row.Altura/100, 2)),1), axis=1)
pessoas

Unnamed: 0,Peso,Altura,Idade,IMC
0,47,161,31,18.1
1,80,170,21,27.7
2,60,175,16,19.6
3,90,162,28,34.3
4,100,185,23,29.2
5,147,189,32,41.2


__E)__ Remova a coluna que contém a idade das pessoas;

In [46]:
# Faz o drop da coluna idade
pessoas.drop(['Idade'], axis = 1, inplace = True)

# Print do Dataframe resultante
pessoas

Unnamed: 0,Peso,Altura,IMC
0,47,161,18.1
1,80,170,27.7
2,60,175,19.6
3,90,162,34.3
4,100,185,29.2
5,147,189,41.2


__F)__ Crie uma nova coluna chamada Classificação, que contenha a classificação de cada indivíduo, de acordo com o seu IMC. Para isso, consulte a tabela abaixo.

| IMC             | Classificação |
|-----------------|---------------|
Menor que 18,5    | Subpeso |
Entre 18,5 e 24,9 | Normal |
Entre 25,0 e 29,9 | Sobrepeso |
Entre 30,0 e 39,9 | Obesidade Grau I|
Maior que 40,0    | Obesidade Grau II |


In [47]:
# Criando a coluna Classificação utilizando a função np.where
# Dica.: Aqui iremos usar uma função where dentro de outra
pessoas['Classificação'] = np.where(pessoas['IMC'] < 18.5, 'Subpeso',
                           np.where(pessoas['IMC'] < 24.9, 'Normal',
                           np.where(pessoas['IMC'] < 29.9, 'Sobrepeso',
                           np.where(pessoas['IMC'] < 39.9, 'Obesidade Grau I', 
                                                           'Obesidade Grau II'))))

pessoas

Unnamed: 0,Peso,Altura,IMC,Classificação
0,47,161,18.1,Subpeso
1,80,170,27.7,Sobrepeso
2,60,175,19.6,Normal
3,90,162,34.3,Obesidade Grau I
4,100,185,29.2,Sobrepeso
5,147,189,41.2,Obesidade Grau II


__G)__ Salve esses dados do DataFrame em um arquivo csv.

In [54]:
# Cria um CSV para o DataFrame
pessoas.to_csv('imc.csv')

## 

### Questão 4

O arquivo `avocado.csv` consiste em um dataset que contém dados sobre vendas de abacates (avocado, em inglês) em diversas regiões dos Estados Unidos. Essa dataset contém as seguintes colunas:

- Date - a data da observação;
- AveragePrice - o preço médio de um único abacate;
- year - o ano;
- region - a cidade ou região da observação;
- Total Volume - volume total de abacates vendidos.

Além das informações acima, contidas no arquivo avocado.csv, o tipo do abacate (convencional ou orgânico) também seria uma informação importante para a sua análise. Suponhamos que você conseguiu essas informações para cada uma das observações do arquivo `avocado.csv`, na mesma ordem, e salvou-as no arquivo `avocado_type.csv`. Vamos utilizar os dois _DataFrames_ e praticar um pouco utilizando o _Pandas_:

__A)__ Concatene os dois _DataFrames_ em um só utilizando a função `pd.concat`;

__B)__ Identifique a quantidade de linhas e colunas que temos no _DataFrame_;

__C)__ O registro identificado como _TotalUS_ equivale para a soma dos valores agrupados para todos os registros naquele ano. Portanto, crie um novo _DataFrame_ sem esses registros;

__D)__ Calcule a quantidade de abacates vendidos para cada linha no _DataFrame_;

__Dica.:__ no _DataFrame_ têm dados sobre o valor médio vendido e o volume total arrecadado. Divida o volume total pelo preço médio para descobrir a quantidade vendida (arrendonde o valor para 0, pois só foram vendidos abacates inteiros!);

__E)__ Identifique qual ano foi o que mais vendeu abacates orgânicos e convencionais;

__Dica.:__ Utilize a função `groupby`

__F)__ Identifique qual é a região onde menos se faturou vendendo abacates orgânicos em 2017;

__Dica.:__ Utilize a função `groupby`

##  

### Resolução:

Primeiramente, vamos carregar as bibliotecas e os _Datasets_:

In [48]:
# Import da NumPy e Pandas
import pandas as pd
import numpy as np

In [49]:
# Carrega os dados do avocado.csv
avocado = pd.read_csv('avocado.csv')

# Print das primeiras linhas do dataset
avocado.head()

Unnamed: 0,Date,AveragePrice,Total Volume,year,region
0,2015-12-27,1.33,64236.62,2015,Albany
1,2015-12-20,1.35,54876.98,2015,Albany
2,2015-12-13,0.93,118220.22,2015,Albany
3,2015-12-06,1.08,78992.15,2015,Albany
4,2015-11-29,1.28,51039.6,2015,Albany


In [50]:
# Carrega os dados do avocado_type.csv
avocado_type = pd.read_csv('avocado_type.csv')

# Print das primeiras linhas do dataframe
avocado_type.head()

Unnamed: 0,type
0,conventional
1,conventional
2,conventional
3,conventional
4,conventional


__A)__ Concatene os dois _DataFrames_ em um só utilizando a função `pd.concat`;

In [51]:
# Concatena os dados e salva em um dataframe chamado abacates
abacates = pd.concat([avocado, avocado_type], axis = 1)

# Print das primeiras linhas do dataframe
abacates.head()

Unnamed: 0,Date,AveragePrice,Total Volume,year,region,type
0,2015-12-27,1.33,64236.62,2015,Albany,conventional
1,2015-12-20,1.35,54876.98,2015,Albany,conventional
2,2015-12-13,0.93,118220.22,2015,Albany,conventional
3,2015-12-06,1.08,78992.15,2015,Albany,conventional
4,2015-11-29,1.28,51039.6,2015,Albany,conventional


__B)__ Identifique a quantidade de linhas e colunas que temos no _DataFrame_;

In [52]:
# Print do shape do Dataframe
abacates.shape

(18249, 6)

__C)__ O registro identificado como _TotalUS_ equivale para a soma dos valores agrupados para todos os registros naquele ano. Portanto, crie um novo _DataFrame_ sem esses registros;

In [53]:
# Cria uma mascara booleana onde pegamos todos os registros diferentes de TotalUS
mask1 = abacates['region'] != 'TotalUS'

# Print da mascara booleana
mask1

0        True
1        True
2        True
3        True
4        True
         ... 
18244    True
18245    True
18246    True
18247    True
18248    True
Name: region, Length: 18249, dtype: bool

In [56]:
# Filtra as regiões de acordo com a mascara booleana
abacates_filtrados = abacates[mask1].reset_index(drop=True)

# Print das primeiras linhas do dataframe
abacates_filtrados.head()

Unnamed: 0,Date,AveragePrice,Total Volume,year,region,type
0,2015-12-27,1.33,64236.62,2015,Albany,conventional
1,2015-12-20,1.35,54876.98,2015,Albany,conventional
2,2015-12-13,0.93,118220.22,2015,Albany,conventional
3,2015-12-06,1.08,78992.15,2015,Albany,conventional
4,2015-11-29,1.28,51039.6,2015,Albany,conventional


__D)__ Calcule a quantidade de abacates vendidos para cada linha no _DataFrame_;

__Dica.:__ no _DataFrame_ têm dados sobre o valor médio vendido e o volume total arrecadado. Divida o volume total pelo preço médio para descobrir a quantidade vendida (arrendonde o valor para 0, pois só foram vendidos abacates inteiros!);

In [57]:
# Calcula a quantidade de abacates vendidos
abacates_filtrados.loc[:,'quantidade'] = np.round(abacates_filtrados.loc[:,'Total Volume'] / abacates_filtrados.loc[:,'AveragePrice'], 0)

# Print das primeiras linhas do dataframe
abacates_filtrados.head()

__E)__ Identifique qual ano foi o que mais vendeu abacates orgânicos e convencionais;

__Dica.:__ Utilize a função `groupby`

In [63]:
# Usando o groupby, define a soma das quantidades por ano e tipo
abacates_filtrados.groupby(['year', 'type'])['quantidade'].sum()

year  type        
2015  conventional    2.719275e+09
      organic         3.617349e+07
2016  conventional    3.005316e+09
      organic         5.887806e+07
2017  conventional    2.665415e+09
      organic         6.860628e+07
2018  conventional    8.184823e+08
      organic         1.983161e+07
Name: quantidade, dtype: float64

In [62]:
# Para melhorar a visualização, como estamos com um agrupamento duplo
#podemos utilizar o unstack() e assim visualizar como uma pivot table

abacates_filtrados.groupby(['year', 'type'])['quantidade'].sum().unstack()

type,conventional,organic
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2015,2719275000.0,36173493.0
2016,3005316000.0,58878057.0
2017,2665415000.0,68606280.0
2018,818482300.0,19831610.0


Em 2016 foi o ano que mais vendeu para os convencionais e em 2017 para os orgânicos.

__F)__ Identifique qual é a região onde menos se faturou vendendo abacates orgânicos em 2017;

In [65]:
# Cria a mascara booleana para o ano 2017 E tipo organic
mask2 = (abacates_filtrados['year'] == 2017) & (abacates_filtrados['type'] == 'organic')

# Print da mascara booleana
mask2

0        False
1        False
2        False
3        False
4        False
         ...  
17906    False
17907    False
17908    False
17909    False
17910    False
Length: 17911, dtype: bool

In [66]:
# Filtrando os registros usando a mascara booleana definida anteriormente
abacates_2017 = abacates_filtrados[mask2]

# Print das primeiras linhas do Dataframe
abacates_2017.head()

Unnamed: 0,Date,AveragePrice,Total Volume,year,region,type,quantidade
14468,2017-12-31,1.46,3463.85,2017,Albany,organic,2372.0
14469,2017-12-24,1.58,3694.13,2017,Albany,organic,2338.0
14470,2017-12-17,1.43,3513.77,2017,Albany,organic,2457.0
14471,2017-12-10,1.45,3779.98,2017,Albany,organic,2607.0
14472,2017-12-03,1.44,3577.04,2017,Albany,organic,2484.0


In [69]:
# Fazendo um agrupamento para calcular o total de volume
abacates_2017.groupby('region')['Total Volume'].sum().sort_values()

region
Boise                    146378.96
Albany                   155318.99
Jacksonville             180797.74
Spokane                  199606.88
Syracuse                 201145.78
Louisville               215945.40
NewOrleansMobile         231017.51
MiamiFtLauderdale        254326.08
Tampa                    269180.39
GrandRapids              271940.18
Orlando                  323805.67
Sacramento               354767.94
StLouis                  376389.22
Indianapolis             385098.77
BuffaloRochester         389881.59
Nashville                439638.24
Roanoke                  451051.52
Charlotte                482769.37
Pittsburgh               483028.32
Columbus                 551887.96
LasVegas                 571249.67
RaleighGreensboro        578471.02
RichmondNorfolk          622981.45
SouthCarolina            640188.64
PhoenixTucson            694472.05
HarrisburgScranton       730386.75
SanDiego                 790312.11
HartfordSpringfield      791528.17
Atlanta      

A cidade que menos faturou vendendo os abacates foi a cidade de Boise.

##  

### Questão 5

Vamos praticar alguns conceitos do _Pandas_ utilizando o _DataFrame_ `googleplaystore.csv`, onde esses dados representam algumas informações dos Apps disponíveis na _Play Store_.
Dada essas informações, vamos praticar os itens abaixo:

__A)__ Carregue o arquivo CSV para o _Jupyter Notebook_ usando o Pandas;

__B)__ Identifique quais são as dimensões desse _DataFrame_;

__C)__ Imprima os resultados das primeiras e últimas linhas do _DataFrame_;

__D)__ Avalie quais são as características dos dados desse _DataFrame_ uilizando a função `.info()`;

__E)__ Qual é a coluna que tem a maior quantidade de valores faltantes?

__G)__ Calcule as principais métricas estatísticas usando o `.describe()` para as avaliações dos Apps;

__H)__ Identifique a frequência de cada um dos elementos nas colunas `Category` e `Content Rating` utilizando a função `.value_counts()`

## Resolução:

Vamos carregar as bibliotecas que serão relevantes para esse exercício:

In [70]:
# import do Pandas
import pandas as pd

__A)__ Carregue o arquivo CSV para o _Jupyter Notebook_ usando o Pandas;

In [71]:
# Carrega o CSV para o Notebook
google = pd.read_csv('googleplaystore.csv')

__B)__ Identifique quais são as dimensões desse _DataFrame_;

In [72]:
# Print do shape do DataFrame
google.shape

(10841, 13)

__C)__ Imprima os resultados das primeiras e últimas linhas do _DataFrame_;

In [73]:
# Print das primeiras 5 linhas do DataFrame
google.head()

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",Free,0,Everyone,Art & Design,"January 7, 2018",1.0.0,4.0.3 and up
1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",Free,0,Everyone,Art & Design;Pretend Play,"January 15, 2018",2.0.0,4.0.3 and up
2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",Free,0,Everyone,Art & Design,"August 1, 2018",1.2.4,4.0.3 and up
3,Sketch - Draw & Paint,ART_AND_DESIGN,4.5,215644,25M,"50,000,000+",Free,0,Teen,Art & Design,"June 8, 2018",Varies with device,4.2 and up
4,Pixel Draw - Number Art Coloring Book,ART_AND_DESIGN,4.3,967,2.8M,"100,000+",Free,0,Everyone,Art & Design;Creativity,"June 20, 2018",1.1,4.4 and up


In [74]:
# Print das 5 últimas linhas do DataFrame
google.tail()

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
10836,Sya9a Maroc - FR,FAMILY,4.5,38,53M,"5,000+",Free,0,Everyone,Education,"July 25, 2017",1.48,4.1 and up
10837,Fr. Mike Schmitz Audio Teachings,FAMILY,5.0,4,3.6M,100+,Free,0,Everyone,Education,"July 6, 2018",1.0,4.1 and up
10838,Parkinson Exercices FR,MEDICAL,,3,9.5M,"1,000+",Free,0,Everyone,Medical,"January 20, 2017",1.0,2.2 and up
10839,The SCP Foundation DB fr nn5n,BOOKS_AND_REFERENCE,4.5,114,Varies with device,"1,000+",Free,0,Mature 17+,Books & Reference,"January 19, 2015",Varies with device,Varies with device
10840,iHoroscope - 2018 Daily Horoscope & Astrology,LIFESTYLE,4.5,398307,19M,"10,000,000+",Free,0,Everyone,Lifestyle,"July 25, 2018",Varies with device,Varies with device


__D)__ Avalie quais são as características dos dados desse _DataFrame_ uilizando a função `.info()`;

In [75]:
# Print do resumo das informações sobre o DataFrame
google.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10841 entries, 0 to 10840
Data columns (total 13 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   App             10841 non-null  object 
 1   Category        10841 non-null  object 
 2   Rating          9367 non-null   float64
 3   Reviews         10841 non-null  object 
 4   Size            10841 non-null  object 
 5   Installs        10841 non-null  object 
 6   Type            10840 non-null  object 
 7   Price           10841 non-null  object 
 8   Content Rating  10840 non-null  object 
 9   Genres          10841 non-null  object 
 10  Last Updated    10841 non-null  object 
 11  Current Ver     10833 non-null  object 
 12  Android Ver     10838 non-null  object 
dtypes: float64(1), object(12)
memory usage: 1.1+ MB


__E)__ Qual é a coluna que tem a maior quantidade de valores faltantes?

In [78]:
# Utilize a função isna() para calcular a quantidade de nulos e o sum() para sumarizar esse valor
# por coluna
google.isna().sum().sort_values(ascending=False)

Rating            1474
Current Ver          8
Android Ver          3
Type                 1
Content Rating       1
App                  0
Category             0
Reviews              0
Size                 0
Installs             0
Price                0
Genres               0
Last Updated         0
dtype: int64

__G)__ Calcule as principais métricas estatísticas usando o `.describe()` para as avaliações dos Apps;

In [81]:
# Calcula as principais métricas estatisticas com o describe
google.describe()

Unnamed: 0,Rating
count,9367.0
mean,4.193338
std,0.537431
min,1.0
25%,4.0
50%,4.3
75%,4.5
max,19.0


In [82]:
google['Rating'].describe()

count    9367.000000
mean        4.193338
std         0.537431
min         1.000000
25%         4.000000
50%         4.300000
75%         4.500000
max        19.000000
Name: Rating, dtype: float64

__H)__ Identifique a frequência de cada um dos elementos nas colunas `Category` e `Content Rating` utilizando a função `.value_counts()`

In [83]:
# Fazendo um value_counts para as categorias
google['Category'].value_counts()

FAMILY                 1972
GAME                   1144
TOOLS                   843
MEDICAL                 463
BUSINESS                460
PRODUCTIVITY            424
PERSONALIZATION         392
COMMUNICATION           387
SPORTS                  384
LIFESTYLE               382
FINANCE                 366
HEALTH_AND_FITNESS      341
PHOTOGRAPHY             335
SOCIAL                  295
NEWS_AND_MAGAZINES      283
SHOPPING                260
TRAVEL_AND_LOCAL        258
DATING                  234
BOOKS_AND_REFERENCE     231
VIDEO_PLAYERS           175
EDUCATION               156
ENTERTAINMENT           149
MAPS_AND_NAVIGATION     137
FOOD_AND_DRINK          127
HOUSE_AND_HOME           88
AUTO_AND_VEHICLES        85
LIBRARIES_AND_DEMO       85
WEATHER                  82
ART_AND_DESIGN           65
EVENTS                   64
COMICS                   60
PARENTING                60
BEAUTY                   53
1.9                       1
Name: Category, dtype: int64

As categorias _FAMILY_, _GAMES_ e _TOOLS_ são as mais representativas nos dados

In [84]:
# Faz um value_count por Content Rating (faixa etária indicativa do conteúdo)
google['Content Rating'].value_counts()

Everyone           8714
Teen               1208
Mature 17+          499
Everyone 10+        414
Adults only 18+       3
Unrated               2
Name: Content Rating, dtype: int64

Lembrando que podemos olhar essa representação do `value_counts` de forma relativa utilizando o parâmetro `normalize = True`:

In [85]:
# Faz um value_count por Content Rating (faixa etária indicativa do conteúdo)
google['Content Rating'].value_counts(normalize = True)*100

Everyone           80.387454
Teen               11.143911
Mature 17+          4.603321
Everyone 10+        3.819188
Adults only 18+     0.027675
Unrated             0.018450
Name: Content Rating, dtype: float64

Assim conseguimos concluir que mais de 80% dos Apps têm indicação para todas as idades.