# Avaliação Estatística de um banco de dados

Universidade Federal Rural de Pernambuco

Bacharelado em Ciência da Computação

Estatística Exploratória - Prof. Cláudio Cristino

Segunda Verificação de Aprendizagem - em 26/05/2022

Steffano Xavier Pereira

## Base de dados

Inicialmente vamos carregar o nosso banco de dados, para que possamos trabalhar em nosso ambiente virtual Python e fazer análises de acordo com o que foi proposto para a atividade.

In [1]:
import pandas as pd

# Importando os dados
dados = pd.read_csv('./data/Steffano Pereira - Dados_individuais_2VA_Est_Exploratoria - Steffano.csv', index_col='ID')

Podemos também visualizar um corte dos 5 primeiros dados, para confirmar que os dados estão organizados da maneira que desejamos:

In [2]:
dados.head()

Unnamed: 0_level_0,Tipo,Categoria,Download (número),Avaliação (0 - 5),Tamanho (Mb),Tempo no ar (em dias)
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
App1,Pago,Entreterimento,94506,4,63,349
App2,Gratuito,Utilitário,281962,4,120,365
App3,Pago,Entreterimento,119282,3,70,335
App4,Gratuito,Entreterimento,136822,3,74,331
App5,Gratuito,Rede Social,286821,1,123,282


Como obtemos os valores em nossa variável `dados`, podemos continuar para as nossas atividades.

## 1. Análise Descritiva

Devemos fazer uma análise descritiva de todas as variáveis, para isso, vamos estabelecer os seguintes critérios:

- Devemos analisar as variáveis qualitativas separadamente
- É interessante observar análises de aplicativos de categorias diferentes

### 1.1 Análise Geral

Inicialmente, podemos analisar dados descritivos de **toda nossa amostra** com a função `describe()`.

Considere nesse quesito que:

- count - Número de exemplos
- mean - Média
- std - Desvio Padrão
- min - Valor mínimo
- 25% - Primeiro quartil
- 50% - Segundo Quartil/Mediana
- 75% - Terceiro Quartil 
- max - Valor Máximo

In [16]:
dados.describe()

Unnamed: 0,Download (número),Avaliação (0 - 5),Tamanho (Mb),Tempo no ar (em dias)
count,316.0,316.0,316.0,316.0
mean,167952.481013,3.598101,82.810127,353.224684
std,87128.578413,1.017246,30.090267,36.187916
min,12954.0,1.0,10.0,258.0
25%,94472.25,3.0,63.0,329.0
50%,175262.0,4.0,84.0,354.0
75%,242500.75,4.0,103.0,376.25
max,309906.0,5.0,183.0,467.0


Para os atributos quantitativos, podemos tirar algumas conclusões:

- Download

    Podemos observar o número de Downloads como um intervalo entre `12.954` à `309.906`, do qual podemos concluir que nossa amostra possui aplicativos na ordem das dezena de milhares até 3 centena de milhares, do qual pode se considerar que temos aplicativos com um nível de fama alto, logo quanto maior o número de downloads, maior é o público-alvo atingido por esse aplicativo.
    
- Avaliação

    Na avaliação, podemos observar um fato interessante, que é a média e seu desvio padrão; em geral, a avaliação parece balanceada, pois provavelmente, devemos ter aplicativos com boas avaliações e também aplicativos más avaliações, com o primeiro quartil (25%) até avaliação `3` e do segundo (50%) e terceiro quartil (75%) avaliações maiores que `4`, daqui já podemos concluir que há um grupo marginal/pequeno de avaliações `1` e `2`; e um grupo considerável de avaliações entre `4` e `5`. Vale observar que nessa amostra não há avaliações com valor `0`.

- Tamanho

    No tamanho, é interessante observar que temos um intervalo bem definido entre `10` mb até `183` mb. No geral, os aplicativos da amostra possuem uma média de `82,81` mb e desvio padrão de `30,09` mb. De modo geral, estão bem distribuídos de acordo com seus quartis, principalmente que há uma minoria menor que `63` mb. O tamanho será importante de observar, quando estudarmos as categorias em específico.
    
- Tempo no ar

    Já para o tempo no ar, um ponto muito importante de se observar, é que o mínimo de dias equivale há `258` dias, o que corresponde a um período maduro de dias maior que 6 meses de lançamento, o que torna a amostra madura o suficiente para o estudo.

Podemos separar nossa amostra por tipo e categoria e assim analisar cada uma individualmente.

### 1.2 Análise Descritiva por Tipo

Para analisar os aplicativos pagos de aplicativos gratuitos é necessário separar os dados de acordo, e em seguida observar suas relações descritivas.

In [4]:
apps_pagos = dados[dados.Tipo == 'Pago']
apps_gratuitos = dados[dados.Tipo == 'Gratuito']

#### Aplicativos Pagos

In [5]:
apps_pagos.describe()

Unnamed: 0,Download (número),Avaliação (0 - 5),Tamanho (Mb),Tempo no ar (em dias)
count,116.0,116.0,116.0,116.0
mean,70553.181034,3.491379,51.637931,349.077586
std,34263.839918,0.991228,15.717283,35.14545
min,12954.0,1.0,10.0,258.0
25%,40461.75,3.0,41.75,326.5
50%,75427.0,4.0,56.5,350.5
75%,98713.0,4.0,64.0,368.25
max,128532.0,5.0,72.0,446.0


#### Aplicativos Gratuitos

In [6]:
apps_gratuitos.describe()

Unnamed: 0,Download (número),Avaliação (0 - 5),Tamanho (Mb),Tempo no ar (em dias)
count,200.0,200.0,200.0,200.0
mean,224444.075,3.66,100.89,355.63
std,50998.471599,1.029417,19.887318,36.650778
min,130861.0,1.0,73.0,265.0
25%,180537.25,3.0,85.0,330.0
50%,224285.5,4.0,97.0,356.0
75%,269094.25,4.0,113.0,383.25
max,309906.0,5.0,183.0,467.0


### 1.2 Análise Descritiva por Categoria

In [7]:
apps_utilitario = dados[dados.Categoria == 'Utilitário']
apps_entretenimento = dados[dados.Categoria == 'Entreterimento']
apps_redesSocial = dados[dados.Categoria == 'Rede Social']
apps_cientifico = dados[dados.Categoria == 'Científico']


In [12]:
apps_utilitario.describe()

Unnamed: 0,Download (número),Avaliação (0 - 5),Tamanho (Mb),Tempo no ar (em dias)
count,94.0,94.0,94.0,94.0
mean,193106.12766,4.351064,90.297872,378.989362
std,83619.51466,0.479862,31.111603,12.589033
min,12954.0,4.0,10.0,360.0
25%,146756.5,4.0,76.25,368.0
50%,206488.5,4.0,92.0,375.5
75%,256595.5,5.0,108.0,389.75
max,308516.0,5.0,157.0,405.0


In [17]:
apps_entretenimento.describe()

Unnamed: 0,Download (número),Avaliação (0 - 5),Tamanho (Mb),Tempo no ar (em dias)
count,138.0,138.0,138.0,138.0
mean,153102.144928,3.282609,78.398551,340.362319
std,89825.282518,0.566577,30.941324,14.265953
min,14886.0,2.0,16.0,303.0
25%,79786.75,3.0,58.25,331.0
50%,129696.5,3.0,72.5,343.0
75%,234236.0,4.0,99.75,350.75
max,309906.0,4.0,183.0,364.0


In [14]:
apps_redesSocial.describe()

Unnamed: 0,Download (número),Avaliação (0 - 5),Tamanho (Mb),Tempo no ar (em dias)
count,49.0,49.0,49.0,49.0
mean,183315.510204,2.122449,87.122449,299.469388
std,69331.964371,0.725507,21.148909,18.210691
min,27824.0,1.0,33.0,258.0
25%,137477.0,2.0,74.0,289.0
50%,193074.0,2.0,89.0,302.0
75%,239272.0,3.0,102.0,316.0
max,293256.0,3.0,128.0,322.0


In [15]:
apps_cientifico.describe()

Unnamed: 0,Download (número),Avaliação (0 - 5),Tamanho (Mb),Tempo no ar (em dias)
count,35.0,35.0,35.0,35.0
mean,137441.485714,4.885714,74.057143,410.0
std,89249.778169,0.322803,30.202204,20.531181
min,26949.0,4.0,32.0,380.0
25%,55620.0,5.0,49.0,393.5
50%,114270.0,5.0,68.0,410.0
75%,209662.0,5.0,92.5,414.5
max,305825.0,5.0,146.0,467.0


Observando as categorias, podemos observar que há uma categoria dominante, que é a de entretenimento, com `138` aplicativos. Observando o **número de Downloads**, temos a média dos mais baixados são os **aplicativos utilitários** e também com maior **tamanho**. Os **aplicativos científicos** compõem um grupo que possuem **melhor avaliação** e também com maior **tempo no ar**, porém vale notar que, os **aplicativos científicos** são minoria na amostra por categoria e representam apenas `35` dos `316`, esse valor por sua vez pode representar apenas uma parcela pequena se comparada com toda a população de aplicativos científicos; logo, vale ter cuidado ao tirar conclusões e outros estudos são necessários para uma maior certeza.

## 2) Estimação Pontual

## 3) Análise Intervalar

## 4) Teste de Hipótese para a média

## 5) Teste de Hipótese de Aderência ou Independência ou Homogeneidade

## 6) Estudo de Regressão