# Estatística descritiva

In [8]:
# importando bibliotecas
import pandas as pd
import numpy as np

## Introdução

Em época de eleição é comum vermos nos noticiários que circulam na internet, nos jornais e na televisão dados sobre a intenção de votos dos eleitores. 
Esses dados são apresentados na forma percentual e organizados em gráficos e, acompanhando-os, está sempre a frase “a margem de erro da pesquisa é de X pontos percentuais para mais ou para menos".

As informações de intenção de voto normalmente são coletadas por meio de entrevistas a um grupo de eleitores. Esse grupo é formado de tal modo que seja uma representação de toda a população que votará.

Fazer a determinação desse grupo, determinar a margem de erro, calcular os percentuais, fazer a representação gráfica das informações e muito mais fazem parte do que se chama de análise estatística.

Essa análise é importante, pois, com esses dados, é possível estimar como será a votação em um lugar, os candidatos com maiores ou menores chances de vencer a eleição, se os eleitores já decidiram sobre seus candidatos ou até mesmo para avaliar um governante atual que esteja tentando se reeleger.

## Definição de estatística

Estatística é o ramo da Matemática responsável por coletar, organizar, analisar, interpretar e apresentar dados referentes a determinado assunto com o objetivo de elaborar conclusões baseadas nessas análises.

Grande parte das informações divulgadas pelos meios de comunicação atuais provém de pesquisas e estudos estatísticos que permitem realizar inferências, ou seja, fazer deduções a partir de dados analisados sobre certo assunto.

## Exemplo da importância da Estatística para a sociedade:

O levantamento de dados referente à pandemia provocada pelo vírus SARS-CoV–2, que teve início em 2020.

A COVID-19 é uma doença causada pelo coronavírus, denominado SARS-CoV-2, que apre- senta um espectro clínico variando de infecções assintomáticas a quadros graves. De acordo com a Organização Mundial de Saúde, a maioria (cerca de 80%) dos pacientes com COVID-19 podem ser assintomáticos [...], e aproximadamente 20% dos casos detectados requer atendimento hospitalar por apresentarem dificuldade respiratória, dos quais aproximadamente 5% podem necessitar de suporte ventilatório.

**Fonte:** BRASIL. Ministério da Saúde. Sobre a doença: o que é covid-19. Brasília, DF, [2020]

A Estatística colaborou para o levantamento e monitoramento diários de dados referentes à disseminação da covid-19, como novos casos da doença, número de pessoas recuperadas, total de óbitos, entre outras informações, para que governos do mundo inteiro tomassem ações a fim de diminuir as consequências da pandemia.

**Link:** https://infoms.saude.gov.br/extensions/covid-19_html/covid-19_html.html 

## Algumas definições

### População

Uma população consiste em todos os elementos, ou seja, em todos os indivíduos, itens ou objetos cujas características estão sendo estudadas.

Cada elemento da população estudada é denominado unidade estatística.

Um grupo de 48 estudantes da turma CC0218 da UFC é uma população estatística. Cada estudante da turma é uma unidade estatística.

### Amostra

Uma amostra é uma parcela representativa da população selecionada para fins de estudo.

Para estimar a renda média das pessoas que residem em um município, como amostra, deverá ser pesquisada uma quantidade significativamente menor do que o total das pessoas que residem nesse município.

É importante que o resultado obtido em uma pesquisa por amostragem seja o mais próximo possível do resultado que obteríamos pesquisando toda a população. 
Por isso, certos critérios devem ser observados para que a amostra seja, de fato, imparcial e representativa.

Para estimar a renda média dos residentes em um município, a amostra deve conter pessoas de diferentes faixas de renda e que morem em regiões variadas do município.

Algumas das razões que nos levam à utilização de uma amostra, em vez de colher os dados de toda a população estudada, são:
- econômicas: observar grande número de elementos pode ter um custo muito elevado;
- tempo: a demora na coleta dos dados pode levar a resultados desatualizados.

### Variável

A observação da população é dirigida ao estudo de uma dada característica ou propriedade de seus elementos. 
Cada característica é chamada variável e classificada em qualitativa ou quantitativa.

A variável é qualitativa se os valores tomados não são numéricos e podem ser organizados em categorias. 
Há dois tipos de variável qualitativa: ordinal e nominal.

Uma variável é qualitativa ordinal quando os valores não são numéricos e podem ser ordenados. 
Exemplos:
- A escolaridade (Ensino Fundamental, Ensino Médio ou Ensino Superior) no Brasil.
- O período de observação (trimestre 1, trimestre 2 ou trimestre 3) de um experimento.

Uma variável é qualitativa nominal quando os valores não são numéricos e não podem ser ordenados. 
Exemplos:
- A cor dos olhos (azul, castanho ou verde) dos entrevistados.
- A área de estudos (Ciências da Natureza, Ciências Contábeis ou Arquitetura) dos candidatos ao vestibular.

A variável é quantitativa se os valores tomados são numéricos. Há dois tipos de variável
quantitativa: contínua e discreta.

Uma varíavel é quantitativa contínua quando os valores podem assumir qualquer número de um intervalo real. Geralmente, esse tipo de variável é usado para medições. 
Exemplos:
- O tempo, em minuto, gasto para efetuar uma viagem entre duas cidades.
- A quantidade de gasolina, em litro, abastecida por carro em determinado posto de combustível.

Uma variável é quantitativa discreta quando os valores podem assumir apenas números inteiros. 
Esse tipo de variável é, geralmente, usado em contagem. 
Exemplos:
- O número de clientes atendidos, por dia, em certo banco.
- O número de pessoas que contraíram covid-19 nos últimos meses.

**Observarção:** nem sempre uma variável representada por número é quantitativa. 
Por exemplo: o número da residência e do RG dos entrevistados em certa pesquisa.

### Exemplo: 
Pesquisa aos frequentadores de um parque

In [32]:
# lendo os dados
df = pd.read_csv("../data/descritiva/pesquisa_parque.csv",sep=';')

In [33]:
# mostrando o dataframe
df

Unnamed: 0,Sexo,Idade,Frequência semanal,Estado Civil,Meio de transporte,Tempo de permanência (min),Renda familiar mensal (sal. mínimo)
0,Masculino,26,2,casado,carro,30,13.3
1,Masculino,23,1,solteiro,ônibus,35,11.8
2,Feminino,41,5,viúva,a pé,170,8.9
3,Masculino,49,3,separado,a pé,45,13.9
4,Feminino,19,5,solteira,carro,60,11.6
5,Feminino,20,4,solteira,a pé,80,16.0
6,Masculino,27,3,solteiro,carro,45,19.5
7,Masculino,38,3,casado,a pé,135,9.3
8,Masculino,27,2,separado,ônibus,80,10.2
9,Feminino,50,7,casada,a pé,45,12.4


### Frequência

A primeira fase de um estudo estatístico consiste em recolher, contar e classificar os dados pesquisados sobre uma população ou sobre uma amostra dessa população. 

Nesse processo, devemos organizar todos os dados coletados, separá-los segundo determinada característica e contabilizá-los de acordo com a frequência com que essa informação aparece nessa amostra.

Exemplo:
Suponha que foram coletados dados relativos à idade (em ano) e ao peso (em quilograma) de um grupo de adolescentes.
O resultado dessa pesquisa, feita com uma amostra de 30 adolescentes, está indicado na tabela a seguir:

In [34]:
# lendo os dados e mostrando df
df = pd.read_csv("../data/descritiva/idade_peso_adolecentes.csv",sep=';')
df

Unnamed: 0,idade,peso
0,14,48.5
1,15,51.0
2,15,51.0
3,16,51.5
4,14,51.4
5,14,53.0
6,17,49.2
7,15,50.3
8,16,50.3
9,14,50.0


A variável idade é quantitativa discreta, portanto, podemos indicar a quantidade de vezes
em que cada valor atribuído a essa variável foi citado por meio da frequência absoluta ($f_i$). 

De acordo com a tabela acima, temos:

- 14 anos: 6 vezes
- 15 anos: 12 vezes
- 16 anos: 9 vezes
- 17 anos: 3 vezes

Para comparar a participação de cada um desses valores em relação ao todo, usamos a frequência relativa ($f_r$), que é a razão entre a frequência absoluta e o total de elementos do conjunto ($n$), ou seja, $f_r = \frac{f_i}{n}$

Em relação à variável idade, considerando 30 adolescentes, temos:
- 14 anos: $\frac{6}{30} = 0.2 = 30%$
- 15 anos: $\frac{12}{30} = 0.4 = 40%$
- 16 anos: $\frac{9}{30} = 0.3 = 30%$
- 17 anos: $\frac{3}{10} = 0.1 = 10%$

A seguir uma tabela de distribuição de frequências com as frequências absolutas e relativas, a frequência acumulada e a frequência relativa acumulada.

A frequência acumulada e a frequência relativa acumulada, que correspondem, respectivamente, à soma das frequências absolutas e à soma das frequências relativas até determinado dado.

In [31]:
# lendo os dados e mostrando df
df = pd.read_csv("../data/descritiva/idade_peso_adolecentes_freq.csv",sep=';')
df

Unnamed: 0,idade(ano),Frequência absoluta,Frequência absoluta acumulada,Frequência relativa,Frequência relativa acumulada
0,14,6,6,20%,20%
1,15,12,18,40%,60%
2,16,9,27,30%,90%
3,17,3,30,10%,100%
