<a href="https://colab.research.google.com/github/paulosrl/NotebooksGoogleColab/blob/main/Introdu%C3%A7%C3%A3o_a_An%C3%A1lise_Explorat%C3%B3ria_de_Dados_(medidas_de_centralidade).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Introdução a Análise Exploratória de Dados (medidas de centralidade)**

Atualizado: 24/04/2023

Pesquisa e Desenvolvimento: [Prof. Paulo Lima](https://paulolima.net.br)

---


##**01. Bibliotecas utilizadas**
---

* [Pandas](https://pandas.pydata.org/docs/getting_started/index.html#getting-started) é uma biblioteca para análise de dados em Python, de código aberto, utiliza o conceito de dataframes que funcionam como uma matriz de dados, formada por linhas e colunas;

* [Plotly](https://plotly.com/) é uma biblioteca de visualização de dados interativa e de código aberto que permite criar gráficos, diagramas e visualizações de dados. Oferece uma variedade de tipos de gráficos, como: gráficos de linha, barras, dispersão, histogramas, gráficos de pizza, entre outros.

**Referências:**

*  Exemplos de uso da biblioteca [Pandas](https://minerandodados.com.br/analise-de-dados-com-python-usando-pandas/).

*  Introdução aos dataframes em Pandas [Dataframes em Pandas](https://colab.research.google.com/drive/1-b-e_xmhWVljGEmb7VGzSHRjmHcKIVAK?usp=sharing).

*  Plotly fundamentals: [Plotly fundamentals](https://plotly.com/python/plotly-fundamentals/).




In [None]:
#### BIBLIOTECAS

# biblioteca para manipuação e análise de dados
import pandas as pd

# biblioteca Gráfica - Plotly
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.express as px

# biblioteca para cálculos
import math
import numpy as np


##**02. Medidas Estatísticas**


---


Neste notebook, veremos dois tipos fundamentais de medidas
estatísticas: medidas de tendência central e medidas de dispersão.

* As **medidas de tendência** central mostram o valor representativo
em torno do qual os dados tendem a agrupar-se, dão o ponto
central em torno do qual os dados se distribuem;
* As **medidas de dispersão** mostram o grau de afastamento dos
valores observados em relação ao ponto central da distribuição dos
dados;

**Análise univariada**

**Variáveis**

Quando fazemos uma amostragem, coletamos não apenas a informação sobre a característica de interesse, mas diversas outras informações que auxiliarão no entendimento desta característica.

**Cada** uma das **características** da população amostrada, como peso, altura, sexo ou idade, é denominada de uma **variável**.

As variáveis podem assumir diferentes valores, que basicamente podem ser **separados** em

* **Quantitativos** ou numéricos
* **Qualitativos** ou não numéricos, ou categóricos

A análise univariada consiste em analisar **cada** variável da amostra:

**Classificação de variáveis**

**As variáveis quantitativas ou numéricas podem ser**

* **Discretas**: assumem apenas valores inteiros. Ex.: número de irmãos, número de passageiros;
* **Contínuas**: assume qualquer valor no intervalo dos números reais. Ex.: peso, altura.

**As variáveis qualitativas ou categóricas podem ser**

* **Nominais**: quando as categorias não possuem uma ordem natural. Ex.: nomes, cores, sexo;
* **Ordinais**: quando as categorias podem ser ordenadas. Ex.: tamanho (pequeno, médio, grande), classe social (baixa, média, alta), grau de instrução (básico, médio, graduação, pós-graduação).

<br>
<p align="center"><img src="https://raw.githubusercontent.com/paulosrl/imagens/master/variaveis.png
"></p>



###**Medidas de tendência Central**


---


Uma maneira de se resumir os dados de uma variável quantitativa é utilizando medidas descritivas. Estas medidas, se calculadas a partir de dados populacionais, são denominadas parâmetros e se calculadas
a partir de dados amostrais são denominadas estimadores ou estatísticas.

As medidas descritivas auxiliam a análise do comportamento dos dados. Tais dados são provenientes de uma população ou de uma amostra.

Essas medidas descritivas são também chamadas de medida de **tendência central**. As medidas de tendência central são assim denominadas por indicarem um **ponto** em torno do qual se **concentram** os dados. Este ponto **tende** a ser o centro da **distribuição** dos dados.

Neste artigo iremos nos concentrar nas seguintes medidas: **média, mediana e moda**, estas medidas resumem os dados em torno de um ponto **central**.

####**Média**


---


A média aritmética é uma medida muito utilizada no cotidiano. Surge do resultado da divisão do somatório dos números dados pela quantidade de números somados. Muito utilizada, por exemplo, em campeonatos de futebol, no intuito de determinar a média de gols da rodada; em escolas, para o cálculo da média final dos alunos, etc.

No exemplo a seguir veremos como calcular a **média** da séria **(0,1,0,1,1,1,0,0,0,15,11,10,9)**.

In [None]:
# série de números
lista=[0,1,0,1,1,1,0,0,0,15,11,10,9]

In [None]:
# calcular a média da série (0,1,0,1,1,1,0,0,0,15,11,10,9)
pd.Series(lista).mean()

3.769230769230769

####**Mediana**


---


O termo “mediana” refere-se a “meio”, é o valor que divide o conjunto de dados ao **meio**, deixando os 50% menores valores de um lado e os 50% maiores valores do outro lado. Em um conjunto de informações numéricas, o valor central corresponde à mediana desse conjunto. Para que seja calculada a mediana, é necessário que esses todos os valores estejam em ordem crescente.

Se no conjunto de dados houver uma quantidade ímpar de valores numéricos, a mediana será o valor central do conjunto numérico. Se a quantidade de valores for um número par, será feito o cálculo da média aritmética dos dois números centrais, o resultado será o valor da mediana.

No exemplo a seguir veremos como calcular a **mediana** da séria **(0,1,0,1,1,1,0,0,0,15,11,10,9)**.

https://pt.khanacademy.org/math/ap-statistics/summarizing-quantitative-data-ap/measuring-center-quantitative/e/calculating-the-median

In [None]:
# calcular a mediana
pd.Series(lista).median()

1.0

####**Média *X* Mediana**


---


É sempre necessário observar ambas as medidas, cada medida depende diretamente de como estão distribuídos os dados. No Exemplo a seguir iremo utilizar dois exemplos de conjuntos de dados.

Conjunto1 = [1,2,3,4,5]

Conjunto2 = [1,2,3,4,50]

A seguir iremos aplicar o cálculo da média e da mediana para ambos os conjuntos.

In [None]:
# conjunto de dados
Conjunto1 = [1,2,3,4,5]
Conjunto2 = [1,2,3,4,50]

In [None]:
#média para o primeiro conjunto de dados
pd.Series(Conjunto1).mean()

3.0

In [None]:
#mediana para o primeiro conjunto de dados
pd.Series(Conjunto1).median()

3.0

In [None]:
#média para o segundo conjunto de dados
pd.Series(Conjunto2).mean()

12.0

In [None]:
#mediana para o segundo conjunto de dados
pd.Series(Conjunto2).median()

3.0

As duas amostras se diferenciam apenas pelo **último valor**, foi inserido um valor discrepante, chamado de **outlier**. Um *outlier* é um valor que é muito diferente dos demais, quando presentes na amostra, esses valores acabam por "contaminar" a **MÉDIA**.

O outlier distorce a média, devido a este problema, quando for escolher uma medida de tendência central, é importante analisar os dados, se a média e a mediana estiverem próximas é possível que não existam valores discrepantes na amostra.

Se **não houverem valores discrepantes** na amostra a melhor escolha é a **média**, mas ainda assim é importante calcular a mediana e analisar os dois valores.

Caso **existam valores discrepantes** o melhor usar a **mediana**.

É importante entender os valores discrepantes. Nem sempre um valor discrepante é um erro nos dados. Caso seja um erro, esse valor deverá ser eliminado da amostra e refeito os cálculos da média e mediana, analisando novamente os dois valores. Se o valor não for um erro, deve-se analisar os valores de informa separada, pois esses valores podem ser exatamente o que se busca na amostra.

A mediana deve ser usada, sempre que possível, como medida representativa de distribuições fortemente assimétricas, como por exemplo a variável distribuição de renda.

#### **Moda**
---



Dado um conjunto de valores, a Moda desses valores será aquele que se repetir o maior número de vezes, ou seja , o valor **mais frequente** do conjunto.

Essa a **única** função estatística que pode ser usada com valores **não numéricos**.

Exemplos a seguir:


In [None]:
#listas de exemplo
lista1=[1,2,1,3,4,5]
lista2=['Maria','João','Carlos','Maria','João','Bernardo']
lista3=[1,2,3,4,5]

In [None]:
#Cálculo da Moda
pd.Series(lista1).mode()

0    1
dtype: int64

In [None]:
#Cálculo da Moda
pd.Series(lista2).mode()

0     João
1    Maria
dtype: object

In [None]:
#Cálculo da Moda
pd.Series(lista3).mode()
# quando a moda é igaul a zero todos os valores são exibidos

0    1
1    2
2    3
3    4
4    5
dtype: int64

###**Medidas de dispersão ou variabilidade**

---



São medidas estatísticas que fornecem informações sobre a distribuição dos dados em torno da média de um conjunto de valores. Elas são usadas para descrever a **variabilidade** dos dados em um conjunto.

Tomemos como exemplo o caso da média aritmética, que é uma medida de tendência central largamente empregada, e consideremos os dois conjuntos de observações:

* **A = [25, 28, 31, 34, 37]**
* **B = [17, 23, 30, 39, 46]**

Ambos têm a mesma média (31). No entanto, pode-se perceber **intuitivamente** que o conjunto B tem maior dispersão do que o conjunto A.

É necessário estabelecer medidas que indiquem o grau de dispersão, ou variabilidade, em relação ao valor central.

#### **Amplitude**

---



A **amplitude** nada mais é do que a **diferença** entre o **maior** e o **menor** valor de um conjunto de dados. Para fazer este cálculo no Pandas, usaremos as funções max() e min(), que obviamente, retornam o valor máximo e mínimo de um conjunto de dados, e depois subtrairemos um do outro.

A vantagem da amplitude é sua facilidade de cálculo porém, tem a desvantagem de levar em conta apenas dois valores, desprezando todos os outros.

Exemplo:

Um pesquisador está interessado em avaliar o tempo (em segundos) que os consumidores demoram entre o início e a finalização de uma compra em um determinado site na Internet. Para isso, observou 12 consumidores escolhidos aleatoriamente no sistema. Os dados encontram-se abaixo:

tempos = [71,73,73,74,74,75,76,77,77,79,81,83]


In [None]:
# tempos
tempos = [71,73,73,74,74,75,76,77,77,79,81,83]

In [None]:
# amplitude
pd.Series(tempos).max() - pd.Series(tempos).min()

12

A amplitude (A) é de 12 segundos.

#### **Variância**

---



Expressa quanto os dados de um conjunto estão afastados do valor central. Calculamos a variância no Pandas através da função var().

* Quanto menor é a variância (mais próxima de zero), significa que os valores estão próximos da média;

* Quanto maior a variância, mais os valores estão distantes da média.

* A variância nunca será negativa.

* Quando os valores de uma amostra forem todos iguais, a variância será igual a zero.

**Exemplo: Calcular a variância relacionada a variável idade em três amostras coletadas. Os conjuntos de dados estão disponíveis a seguir:**

**Conjunto de dados 1, 2 e 3**

In [None]:
# grupos 1,2 e 3
idadeGrupo1 = [18,19,20,21,22,23,25,25,26,27,28,29]
idadeGrupo2 = [18,19,20,21,21,22,22,19,20,21,20,19]
idadeGrupo3 = [18,19,19,19,19,19,19,19,19,18,20,19]

**Resultados do conjunto de dados 1, 2 e 3**

In [None]:
# variância - Conjunto de dados 1
print ("Variância Grupo1: ",pd.Series(idadeGrupo1).var())
print ("Média Grupo1    : ",pd.Series(idadeGrupo1).mean())

Variância Grupo1:  13.174242424242424
Média Grupo1    :  23.583333333333332


In [None]:
# variância - Conjunto de dados 2
print ("Variância Grupo2: ",pd.Series(idadeGrupo2).var())
print ("Média Grupo2    : ",pd.Series(idadeGrupo2).mean())

Variância Grupo2:  1.6060606060606062
Média Grupo2    :  20.166666666666668


In [None]:
# variância - Conjunto de dados 3
print ("Variância Grupo3: ",pd.Series(idadeGrupo3).var())
print ("Média Grupo3    : ",pd.Series(idadeGrupo3).mean())

Variância Grupo3:  0.26515151515151514
Média Grupo3    :  18.916666666666668


**Conjunto de dados 2**

#### **Desvio Padrão**

---



Desvio padrão  indica quanto os dados estão afastados da média.

*   Um valor de desvio padrão alto indica que os valores estão mais
espalhados, mais longe da média;
*   Um desvio padrão baixo indica que os valores estão mais próximos da média.

$$SD = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \overline{x}) ^ 2}$$

**Exemplo1:**

Na figura abaixo temos um exemplo de valores altos e baixos para o desvio padrão. Em vermelho os dados estão mais próximos à sua média (**desvio baixo**), e em azul estão bem mais espalhados (**desvio alto**).

Este exemplo mostra duas populações com médias iguais e desvio padrões diferentes. A população em vermelho tem média 100 e desvio padrão igual a 10, a população em azul, tem média 100 e desvio padrão de 50.

<center><img src="https://upload.wikimedia.org/wikipedia/commons/thumb/f/f9/Comparison_standard_deviations.svg/450px-Comparison_standard_deviations.svg.png" height="450px">
</center>


**Exemplo2:**

Observe a figura abaixo que representa a distribuição de tiros em um alvo. Cada alvo, ilustra na imagem como ficou a distribuição dos tiros.

<center><img src="https://raw.githubusercontent.com/carlosfab/dsnp2/master/img/precisao_exatidao.jpg" height="450px"></center>

Com o achatamento da curva os valores se "aglomeram" em torno da média ou se dispersam em torno dela.

Para calcular o desvio padrão de qualquer coluna, basta executar o método `std()` para a variável.

**Conclusões sobre o Desvio Padrão**

* O **desvio padrão** é um valor positivo, indica a **distância** entre os valores medidos e a **média**;
* O **desvio padrão** junto a média aritmética, ajudam a **entender** o quão "confiável" é um valor;
* Um desvio padrão **grande** significa que os valores amostrais estão **distantes** da média;
* Um desvio padrão **pequeno** (próximo de zero) indica que eles estão **condensados próximos** da média;
* Quanto **menor** o desvio padrão, mais **homogênea** é a amostra;
* Quando o desvio padrão é **igual a zero** é porque a média é igual a mediana e todos os valores da amostra são iguais;

**Exemplo a seguir:**

In [None]:
lista1=[1,1,1,1,1]

print("Média       : ",pd.Series(lista1).mean())
print("Mediana     : ",pd.Series(lista1).median())
print("Desv. padrão: ",pd.Series(lista1).std())

Média       :  1.0
Mediana     :  1.0
Desv. padrão:  0.0


In [None]:
lista2=[0,1,0,1,1,1,0,0,0,15,11,10,9]

print("Média       : ",pd.Series(lista2).mean())
print("Mediana     : ",pd.Series(lista2).median())
print("Desv. padrão: ",pd.Series(lista2).std())

Média       :  3.769230769230769
Mediana     :  1.0
Desv. padrão:  5.372054947501407


In [None]:
lista3=[5,12,25,43,67]

print("Média       : ",pd.Series(lista3).mean())
print("Mediana     : ",pd.Series(lista3).median())
print("Desv. padrão: ",pd.Series(lista3).std())

Média       :  30.4
Mediana     :  25.0
Desv. padrão:  25.055937420100648


In [None]:
lista4=[7,7,5,8,9,7]

print("Média       : ",pd.Series(lista4).mean())
print("Mediana     : ",pd.Series(lista4).median())
print("Desv. padrão: ",pd.Series(lista4).std())

Média       :  7.166666666666667
Mediana     :  7.0
Desv. padrão:  1.3291601358251257


####**Coeficiente de variação (CV)**

---



Embora o desvio padrão seja a medida de dispersão mais utilizada, é importante observar que o valor medido é em termos absolutos.

Desta forma é importante conhecer uma medida conhecida como coeficiente de varição, que mede a dispersão em termos relativos e é representado pela fórmula:

$$CV = \frac{s}{\overline {x}}.100$$

Para realiza este cálculo em Python, criamos uma função descrita no código a seguir:

In [None]:
def coeficienteVariacao(lista):
  return pd.Series(lista).std() / pd.Series(lista).mean() *100

O coeficiente de variação é **adimensional** (não tem unidade de medida), tornando-se útil quando queremos comparar a variabilidade de observações com diferentes unidades de medidas.

Por exemplo:

* um desvio padrão de 10 pode ser insignificante se a média é 10.000;
* porém, altamente significativo para um conjunto de dados onde a média é 100.

O CV é expresso em **porcentagem**. Quando não houver variablidade na amostra seu valor será igual a zero, neste caso todos os valores da amostra são iguais.

O CV é útil para fornece uma medida de quanto os dados possuem homogeneidade. Quanto menor o coeficiente de variação, mais homogêneo é o conjunto de dados.

Uma possível classificação de homogeneidade de acordo com o CV é:

* CV < 10%: homogeneidade muito alta (pouca dispersão).
* 10% < CV < 20%: homogeneidade alta:
* 20% < CV < 30%: homogeneidade média;
* CV > 30%: homogeneidade baixa (muita dispersão);

**Exemplos:**

Temos três conjuntos de dados (1,2 e 3) com as suas respectivas médias, desvios padrão e coeficientes de variação.

|Conjunto | Valores | Média   | Desvio padrão | Coeficiente de variação |
|:---|:---|:---|:--- |:--- |
|1| [1, 2, 3]     | 2   | 1   | 0,5 |
|2|[101, 102, 103]| 102 | 1   | 0,01|
|3|[100, 200, 300]| 200 | 100 | 0,5 |

Observar que:

* Os conjuntos 1 e 2 têm o mesmo desvio padrão, pois os intervalos entre os valores são iguais;

* Os níveis de variabilidade nos conjuntos 1 e 3 são proporcionalmente iguais, logo, eles têm o mesmo coeficiente de variação.

**Exemplo 2**

Dado os dados de três turmas, onde as médias de todas as turmas é igual a 5, deseja-se saber qual a turma apresenta maior variablidade nas notas

| Turma | Média   | Desvio padrão | Coef. de variação |
|:---|:---|:--- |:--- |
|A   | 5  | 1,5 | 30 %|
|B   | 5  | 3   | 60 %|
|C   | 5  | 4,5 | 90 %|

**Análise dos dados:**

Observando cada desvio padrão é possível concluir que:
* Os alunos da **turma A** obtiveram notas relativamente próximas umas das outras, quando comparados aos alunos das outras turmas;
* Por outro lado, as notas dos alunos da **turma C** foram as que se apresentaram mais **heterogêneas**.

As três turmas a seguir apresentam médias diferentes, desta forma é interessante observar que quando isso ocorre, é importante aplicar o coeficiente de variação para uma melhor aferição da variabilidade em termos relativos.

| Turma | Média   | Desvio padrão | Coef. de variação |
|:---|:---|:--- |:--- |
|D   | 3  | 1,5 | 50 %|
|E   | 8  | 3   | 37,5 %|
|F   | 5  | 4,5 | 90 %|


**Exemplo prático:** Calcular a média, o desvio padrão e o coeficiente de variação em relação ao tempo de 7 atletas dividos em três grupos numa corrida de atletismo de 100 metros. Os dados são informados a seguir:

In [None]:
# tempos por Grupo
tempos_grupo1 = [25.51,23.41,27.14,23.44,22.03,22.09,29.43]
tempos_grupo2 = [25.51,25.41,25.14,25.44,24.03,24.09,25.43]
tempos_grupo3 = [25.51,25.41,25.14,25.44,25.43,25.09,25.43]

In [None]:
# grupo1
media1 = pd.Series(tempos_grupo1).mean()
desvio_p1 = pd.Series(tempos_grupo1).std()
coef_var1 = coeficienteVariacao(tempos_grupo1)

In [None]:
# grupo2
media2 = pd.Series(tempos_grupo2).mean()
desvio_p2 = pd.Series(tempos_grupo2).std()
coef_var2 = coeficienteVariacao(tempos_grupo2)

In [None]:
# grupo3
media3 = pd.Series(tempos_grupo3).mean()
desvio_p3 = pd.Series(tempos_grupo3).std()
coef_var3 = coeficienteVariacao(tempos_grupo3)

In [None]:
# resultado
print ('Grupos ', 'Média', 'DP', '  CV')
print ('------ ', '-----', '----', '----')
print ('   1   ', "{:.2f}".format(media1), "{:.2f}".format(desvio_p1), "{:.2f}".format(coef_var1),'%')
print ('   2   ', "{:.2f}".format(media2), "{:.2f}".format(desvio_p2), "{:.2f}".format(coef_var2),'%')
print ('   3   ', "{:.2f}".format(media3), "{:.2f}".format(desvio_p3), "{:.2f}".format(coef_var3),'%')

Grupos  Média DP   CV
------  ----- ---- ----
   1    24.72 2.77 11.22 %
   2    25.01 0.66 2.63 %
   3    25.35 0.16 0.65 %


É possivel observar que o Grupo 3 é o que apresenta **menor** variabilidade nos dados, onde é possível concluir que o desempenho dos atletas deste grupo está muito próximo.  

####**Observações atípicas (Outliers)**

---



São valores muito grandes ou pequenos em relação aos demais. Quando aparecem na amostra alteram de **forma significativa** a média e a variabilidade dos dados.

As principais causas do aparecimento de outliers são:
* Leitura, anotação ou transcrição incorreta dos dados;
* Erro na execução do experimento ou na tomada da medida;
* Característica inerente à variável estudada (grande variabilidade do que está sendo medido).

É importante lembrar que devido a média ser calculada levando-se em consideração **TODOS** os valores da amostra, ela é uma medida muito **SENSÍVEL** a valores discrepantes (outliers) e portanto deve ser utilizada com cautela.

A mediana, pelo fato de ser calculada com base apenas na posição (elemento central), é uma medida mais robusta que NÃO tão sensível quanto a média, quando a amostra apresenta valores discrepantes (Outliers).

##**03. Gráficos**
---

A utilização de gráficos deve ser feita com cautela. A escolha de um gráfico que não seja adequado ao resumo dos dados pode gerar dificuldade de interpretação e consequentemente conclusões equivocadas.

O uso e a divulgação ética e criteriosa de dados devem ser pré-requisitos indispensáveis e inegociáveis.

**Regras gerais para construção de gráficos**

* Os gráficos devem ser construídos de tal maneira que a frase “basta olhar para entender” seja válida;
* Um gráfico deve conter um título e os seus eixos (X e Y) devem estar
rotulados incluindo as unidades (gr, R$, Kg, etc.);
* Um gráfico deve ser completo de tal maneira que todas as informações necessárias para entendê-lo devem estar sobre ele, o que o torna autoexplicativo;
* Gráficos utilizados para comparações de grupos devem ter a mesma escala,
caso contrário a comparação fica comprometida;

### **Histogramas**


---

* Um **histograma** é uma visualização gráfica de dados usando barras de diferentes alturas;
* Em um histograma, cada barra **agrupa** números em intervalos;
* As barras mais **altas** mostram que **mais dados** estão neste intervalo; ([Kanacademy](https://pt.khanacademy.org/math/ap-statistics/quantitative-data-ap/histograms-stem-leaf/v/histograms-intro))

O histograma permite obter as seguintes informações:

* **Centralidade**: indica onde o centro ou ponto central dos dados está localizado na distribuição. Essas medidas são importantes para entender a distribuição dos dados e identificar possíveis valores atípicos ou extremos.

* **Amplitude**: indica a diferença entre o menor e o maior valor da amostra incluídos na distribuição dos dados. É calculada subtraindo o menor valor observado do maior valor observado na distribuição.

* **Simetria**: indica a forma como os dados estão distribuídos, se os dados são simétricos, eles estão distribuídos igualmente em ambos os lados da média, e o histograma terá uma aparência de sino, com uma curva suave e simétrica.

**Cuidados ao elaborar um Histograma**

* Observar que o histograma é uma medida **estática** e **não leva o tempo em consideração**. Por exemplo, não é possível saber quando ocorreram as medidas que estão sendo ilustradas no histogramas, ele apenas agrupa as medidas por frequência;

* O tamanho amostral deve ser de aproximadamente maior ou igual a 20 unidades;

* Se o tamanho de amostra for muito pequeno, cada barra no histograma pode não conter pontos de dados suficientes para demonstrar precisamente a distribuição dos dados.

* Se o tamanho amostral for menor do que 20, considere usar outro tipo de gráfico com a exibição individual dos valores.

* Os dados de amostra devem ser selecionados **aleatoriamente**;

* Amostras aleatórias são usadas para fazer generalizações ou inferências, sobre uma população. Se os dados não foram coletados aleatoriamente, os resultados podem **não representar **a população.

Fonte: https://support.minitab.com/pt-br/minitab/18/help-and-how-to/graphs/how-to/histogram/before-you-start/data-considerations/

**Principais formas de distribuição em um Histograma**


---

É importante lembrar que os três tipos citados, são apenas alguns exemplos de distribuições que podem ser representadas em um histograma. A distribuição de dados pode ser mais complexa e não se encaixar em nenhum desses exemplos.


* **Distribuição normal:** a distribuição normal é simétrica e em forma de sino. Aparece como uma curva simétrica centrada na média, com a maior frequência de valores ocorrendo próximos da média e a frequência diminuindo à medida que nos afastamos da média. Neste tipo de distribuição, temos a média igual a moda e a mediana. Neste tipo de distribuição temos **(Média=Mediana=Moda)**.

* **Distribuição assimétrica à esquerda (negativamente assimétrica):** esta distribuição é caracterizada por ter uma cauda longa na direção dos valores mais baixos. Aparece como uma curva que se estende para a esquerda, com a maior frequência de valores ocorrendo nos valores mais altos e a frequência diminuindo à medida que nos movemos para valores mais baixos. Neste tipo de distribuição temos **(Moda>Mediana>Média)**.

* **Distribuição assimétrica à direita (positivamente assimétrica):** esta distribuição é caracterizada por ter uma cauda longa na direção dos valores mais altos. Aparece como uma curva que se estende para a direita, com a maior frequência de valores ocorrendo nos valores mais baixos e a frequência diminuindo à medida que nos movemos para valores mais altos. Neste tipo de distribuição temos **(Média>Mediana>Moda)**.


![](https://raw.githubusercontent.com/paulosrl/imagens/master/histogramas-dist.png)


**Análise de Histogramas**


---


**Função para gerar Histogramas**

In [None]:
# Função gera BoxPlot utilizando os parâmetros entre parenteses
# titulo: Título do gráfico
# nomeEixoY: Descrição do eixo Y no gráfico
# dadosEixo: dados que serão plotados no gráfico
# cor: cor de exbição do gráfico
# altura: valor da altura do gráfico em pixels
# largura: valor da largura do gráfico em pixels
# numeroBarras: número de barras do histograma
def geraHistograma(titulo,nomeEixoX,dadosEixo,cor,altura,largura,numeroBarras):
  if numeroBarras=="":
    numeroBarras=None
  # criação de uma figure para montar o histograma
  fig = go.Figure()
  # gera o histograma
  fig.add_trace(go.Histogram(x=dadosEixo,marker_line=dict(width=1, color='black'),marker_color=cor,nbinsx=numeroBarras))
  #define layout do gráfico
  fig.update_layout(
      height=altura,
      width=largura,
      title_text=titulo,
      title_font_size=20,
      xaxis_title=nomeEixoX
      )
  fig.show()
  return

**Estudo de caso:** Uma empresa de contratação de mão de obra decidiu fazer um estudo do tempo de entrevista dos candadidatos as vagas.

In [None]:
# dados
tempo_entrevista = [
                    11.5, 10.26,	10.08,	13.0,	11.14, 13.73,	13.41,	10.44,	11.36,	14.4, 11.64,	12.39,	12.82,	14.25,	15.41,
                    14.35,	9.35,	12.4,	9.04,	15.3,14.79,	15.27,	10.63,	14.3,	15.48, 14.8,	8.78,	14.0,  	13.09,	10.0,
                    12.2,	11.7,	15.37,	11.81,	10.06, 12.49,	8.58,	11.32,	12.2,	12.45, 11.28,	12.6,	14.36,	13.08,	13.5,
                    12.68,	9.19,	14.32,	12.17,	9.1
                   ]

A partir dos dados coletados é possível observar que a maioria dos entrevistados leva de 12 a 13 minutos em uma entrevista.

In [None]:
# chamada a função que desenha o histograma
geraHistograma(
    titulo='Histograma - Análise dos tempos de entrevista',
    nomeEixoX='Tempo entrevista',
    dadosEixo=tempo_entrevista,
    cor="blue",
    altura=400,
    largura=500,
    numeroBarras="")

###**Boxplots**


---

* Gráfico utilizado para representar a distribuição de um conjunto de dados numéricos;

* Utilizado para representar dados quantitativos sendo conveniente para revelar medidas de tendência central, dispersão, distribuição dos dados e a presença de outliers (valores discrepantes).

* Composto por um retângulo central que se estende do primeiro quartil (Q1) ao terceiro quartil (Q3), com uma linha vertical no meio indicando a mediana (Q2);

* As extremidades das linhas que se estendem para fora do retângulo representam o mínimo e o máximo de dados que **não são outliers**;

* Os outliers são marcados por pontos individuais além das extremidades das linhas;

* Pode ser usado para comparar a distribuição de vários conjuntos de dados lado a lado.

* Um boxplot funciona melhor quando o tamanho amostral é a partir de 20.

<br>
<p align="center"><img src="https://raw.githubusercontent.com/paulosrl/imagens/master/boxplots.png
"></p>

Vídeo explicativo em: https://www.youtube.com/watch?v=qU2lANG4hYQ


**Função para gerar Boxplots**

In [None]:
# Função gera BoxPlot utilizando os parâmetros entre parenteses
# titulo: Título do gráfico
# nomeEixoX: Descrição do eixo X no gráfico
# nomeEixoY: Descrição do eixo Y no gráfico
# dadosEixo: dados que serão plotados no gráfico
# cor: cor de exbição do gráfico
# orientacao: orientação do gráfico ("H":horizontal ou "V":vertical)
# altura: valor da altura do gráfico em pixels
# largura: valor da largura do gráfico em pixels
# pontos: exibe ou não exibe os pontos de dados, para exibir usar: ".", para não exibir usar: ""
def geraBoxPlot(titulo,nomeEixoX,nomeEixoY,dadosEixo,cor,orientacao,altura,largura,pontos):
  fig = go.Figure()
  if pontos==".":
    pontos='all'
  else:
    pontos=None
  if orientacao=="H":
      fig = go.Figure(data=[go.Box(name='',x=dadosEixo,marker_color=cor,boxpoints=pontos)])
  else:
      fig = go.Figure(data=[go.Box(name='',y=dadosEixo,marker_color=cor,boxpoints=pontos)])
  fig.update_layout(
      height=altura,
      width=largura,
      title=titulo,
      xaxis_title=nomeEixoX,
      yaxis_title=nomeEixoY
      )
  fig.show()
  return

**Exemplo:** monitoramento de acessos a um site, no período de 20 dias.

In [None]:
#Dados de acessos ao site no período de 20 dias (Versão 1)
acessosSitedia = [200,78,50,30,50,55,50,80,300,30,20,35,30,15,30,32,23,30,250,23]

**Gráfico Horizontal**

In [None]:
# BoxPlot de acessos ao site no período de 20 dias (Versão 1)
geraBoxPlot(
    titulo="Acessos ao Site no período de 20 dias - V1",
    nomeEixoX="Acessos",
    nomeEixoY="",
    dadosEixo=acessosSitedia,
    cor="green",
    orientacao="H",
    altura=500,
    largura=600,
    pontos=""
    )

**Gráfico Horizontal com pontos de dados**

In [None]:
# BoxPlot de acessos ao Site no período de 20 dias (Versão 2)
geraBoxPlot(
    titulo="Acessos ao Site no período de 20 dias - V2",
    nomeEixoX="Acessos",
    nomeEixoY="",
    dadosEixo=acessosSitedia,
    cor="green",
    orientacao="H",
    altura=500,
    largura=600,
    pontos="."
    )

**Gráfico Vertical com pontos de dados**

In [None]:
# Histograma de acessos ao Site no período de 20 dias (Versão 3)
geraBoxPlot(
    titulo="Acessos ao Site no período de 20 dias - V3",
    nomeEixoX="Acessos",
    nomeEixoY="",
    dadosEixo=acessosSitedia,
    cor="green",
    orientacao="V",
    altura=500,
    largura=600,
    pontos="."
    )

**Exemplo com exibição em três colunas**

In [None]:
# dados coletados por site no período de 20 dias
site1=[57 , 55 , 90 , 76 , 58 , 73 , 75 , 71 , 45 , 65 , 80 , 79 , 65 , 78 , 66 , 58 , 57 , 67 , 54 , 71 , 56 , 69 , 64 , 86 , 66 , 71 , 75 , 77 , 81 , 83 , 74 , 75 , 65 , 75 , 66 , 74 , 67 , 54 , 67 , 83 , 79 , 61 , 75 , 63 , 78 , 75 , 73 , 98 , 81 , 80 , 80 , 76 , 70 , 68 , 62 , 46 , 72 , 71 , 85 , 70]
site2=[45 , 10 , 90 , 76 , 46 , 73 , 20 , 71 , 45 , 65 , 80 , 79 , 97 , 78 , 66 , 60 , 50 , 98 , 50 , 30 , 45 , 69 , 64 , 86 , 70 , 51 , 75 , 77 , 45 , 83 , 85 , 98 , 52 , 20 , 27 , 88 , 49 , 99 , 92 , 83 , 79 , 68 , 99 , 68 , 94 , 80 , 45 , 98 , 88 , 95 , 99 , 76 , 70 , 67 , 93 , 55 , 95 , 92 , 98 , 6]
site3=[10 , 10 , 10 , 76 , 12 , 73 , 20 , 9 , 45 , 55 , 9 , 79 , 97 , 78 , 8 , 60 , 5 , 33 , 50 , 30 , 45 , 59 , 7 , 86 , 70 , 12 , 75 , 7 , 25 , 37 , 35 , 37 , 25 , 20 , 27 , 88 , 49 , 4 , 80 , 7 , 28 , 59 , 27 , 68 , 23 , 3 , 45 , 29 , 34 , 35 , 24 , 60 , 50 , 59 , 25 , 55 , 95 , 34 , 35 , 6]

# dados que serão usados no gráfico
#fig = go.Figure(data=[go.Box(x=acessosSitedia)])

#divide a área de apresentação em 1 linha e três colunas
fig = make_subplots(rows=1, cols=3)

#insere o primeiro boxplot(eixo x de análise) na 1a coluna
fig.add_trace(go.Box(y=site1,name="Site1",marker_color="green"), row=1, col=1)
#insere o segundo boxplot(eixo y de análise) na 2a coluna
fig.add_trace(go.Box(y=site2,name="Site2",marker_color="orange"), row=1, col=2)
#insere o segundo boxplot(eixo y de análise) na 3a coluna
fig.add_trace(go.Box(y=site3,name="Site3",marker_color="blue"), row=1, col=3)
fig.update_layout(
    title="Acessos aos três sites no período de 20 dias",
    )

fig.show()

In [None]:
#dados por país
fig = go.Figure()
fig.add_trace(go.Box(x=site1,boxpoints='all',name="site1",marker_color="green"))
fig.add_trace(go.Box(x=site2,boxpoints='all',name="site2",marker_color="orange"))
fig.add_trace(go.Box(x=site3,boxpoints='all',name="site3",marker_color="blue"))
fig.update_layout(
    title="Acessos aos três sites no período de 20 dias",
    xaxis_title="Acessos",
    height=500,
    width=1000
    )

**Estudo de caso:** expectativa de vida, dos Brasileiros, Bolivianos e Norte Americanos (em anos)

---

Nos exemplos a seguir será utilizado um banco de dados que armazena a expectativa de vida, dos Brasileiros, Bolivianos e Norte Americanos (em anos), no período de 1960 a 2013. Os três gráficos a seguir (boxplots) mostram como está a distribuição dos dados para os três países.

In [None]:
# dados por país
vExpectativaBrasil = [54.69214634,55.16963415,55.63309756,56.08,56.51029268,56.92387805,57.32319512,57.7117561,58.09460976,58.47529268,58.85697561,59.24436585,59.63753659,60.0355122,60.43819512,60.83978049,61.23543902,61.62039024,61.9925122,62.35382927,62.70604878,63.05646341,63.4104878,63.77392683,64.14792683,64.53253659,64.92614634,65.32353659,65.72207317,66.11921951,66.515,66.90997561,67.30573171,67.70080488,68.09465854,68.48273171,68.86195122,69.23121951,69.58746341,69.92968293,70.25739024,70.56965854,70.86956098,71.15960976,71.44178049,71.71853659,71.99178049,72.26290244,72.53387805,72.80417073,73.07531707,73.34736585,73.61787805,73.88595122]
vExpectativaVidaBolivia = [42.66812195,42.97687805,43.28914634,43.60341463,43.92117073,44.23641463,44.54312195,44.84078049,45.13641463,45.43956098,45.76626829,46.13563415,46.56017073,47.05041463,47.60787805,48.23297561,48.92019512,49.65292683,50.41363415,51.18980488,51.96843902,52.74312195,53.50836585,54.26021951,54.98965854,55.69212195,56.36504878,57.01036585,57.6295122,58.21943902,58.77858537,59.30241463,59.79297561,60.25178049,60.68290244,61.09087805,61.48029268,61.85721951,62.22621951,62.59182927,62.95460976,63.31553659,63.67160976,64.02026829,64.3635122,64.70078049,65.03309756,65.36190244,65.68570732,66.00546341,66.31970732,66.62692683,66.92663415,67.21736585]
vExpectativaVidaEUA = [69.77073171,70.27073171,70.1195122,69.91707317,70.16585366,70.21463415,70.21219512,70.56097561,69.95121951,70.50731707,70.80731707,71.10731707,71.15609756,71.35609756,71.95609756,72.60487805,72.85609756,73.25609756,73.35609756,73.80487805,73.65853659,74.00731707,74.36097561,74.46341463,74.56341463,74.56341463,74.61463415,74.76585366,74.76585366,75.01707317,75.21463415,75.36585366,75.64219512,75.4195122,75.57439024,75.62195122,75.99658537,76.42926829,76.5804878,76.58292683,76.63658537,76.73658537,76.83658537,76.98780488,77.33902439,77.33902439,77.58780488,77.83902439,77.93902439,78.0902439,78.54146341,78.64146341,78.74146341,78.84146341]


**Brasil**

In [None]:
#Brasil
geraBoxPlot(
    titulo="Distribuição da Média da Expectativa de vida - Brasil (1960 a 2013)",
    nomeEixoX="Idade",
    nomeEixoY="",
    dadosEixo=vExpectativaBrasil,
    cor="green",
    orientacao="H",
    altura=500,
    largura=600,
    pontos="."
    )

**Bolívia**

In [None]:
#Bolívia
geraBoxPlot(
    titulo="Distribuição da Média da Expectativa de vida - Bolívia (1960 a 2013)",
    nomeEixoX="Idade",
    nomeEixoY="",
    dadosEixo=vExpectativaVidaBolivia,
    cor="orange",
    orientacao="H",
    altura=500,
    largura=600,
    pontos="."
    )

**EUA**

In [None]:
#EUA
geraBoxPlot(
    titulo="Distribuição da Média da Expectativa de vida - EUA (1960 a 2013)",
    nomeEixoX="Idade",
    nomeEixoY="",
    dadosEixo=vExpectativaVidaEUA,
    cor="blue",
    orientacao="H",
    altura=500,
    largura=600,
    pontos="."
    )

**Comparando três colunas de dados (países)**

No exemplo a seguir foi utilizado o mesmo banco de dados do exemplo anterior, porém os histogramas foram plotados no mesmo gráfico, desta forma torna-se a mais fácil comparar a coluna expectativa de vida, pois será possível analisar os conjuntos de dados lado a lado para os três países.

In [None]:
#dados por país
fig = go.Figure()
fig.add_trace(go.Box(x=vExpectativaBrasil,boxpoints='all',name="Brasil",marker_color="green"))
fig.add_trace(go.Box(x=vExpectativaVidaBolivia,boxpoints='all',name="Bolívia",marker_color="orange"))
fig.add_trace(go.Box(x=vExpectativaVidaEUA,boxpoints='all',name="EUA",marker_color="blue"))
fig.update_layout(
    title="Distribuição da Média da Expectativa de vida - Brasil x Bolívia x EUA (1960 a 2013)",
    xaxis_title="Idade",
    height=500,
    width=1000
    )

**Comparando os mesmos dados com Histogramas por país**

In [None]:
#dados por país
fig = go.Figure()
fig.add_trace(go.Histogram(x=vExpectativaBrasil,marker_color="green",name="Brasil",nbinsx=10))
fig.add_trace(go.Histogram(x=vExpectativaVidaBolivia,marker_color="orange",name="Bolívia",nbinsx=10))
fig.add_trace(go.Histogram(x=vExpectativaVidaEUA,marker_color="blue",name="EUA",nbinsx=10))
# mostra um sobre o outro
fig.update_layout(
    title="Distribuição da Média da Expectativa de vida - Brasil x Bolívia x EUA (1960 a 2013)",
    xaxis_title="Idade",
    barmode='overlay',
    height=500,
    width=1000
    )
# transparência
fig.update_traces(opacity=0.55)

**Histogramas X Boxplots**

A forma da distribuição dos dados pode ser analisada por meio do diagrama em caixas de acordo com a figura a seguir, a distribuição amostral pode ser comparada com a distribuição também observada nos histogramas.

![](https://raw.githubusercontent.com/paulosrl/imagens/master/Histogramas.jpg)




###**Gráfico de Dispersão**
---

Em muitas análises de dados deseja-se analisar a relação entre duas medidas quantitativas. Uma das grandes contribuições da estatística para ampliar o entendimento humano sobre os fenômenos observados é a capacidade de medir a relação entre diferentes variáveis. Os coeficientes de correlação auxiliam os pesquisadores a mensurar essa relação.

A correlação busca entender como uma variável se comporta em relação a outra variável, buscando identificar se existe alguma relação entre a variabilidade de ambas. Correlação não implique em causalidade, ou seja, duas variáveis correlacionadas não implicam, necessariamente, no fato de uma ser causa da outra.

Exemplo:

Analisar a quantidade de sorvetes vendidos relacionados a temperatura em dias de calor acentuado. Observa-se que a quantidade de sorvetes vendidos aumenta. Esta relação é chamada de correlação positiva entre temperaturas e quantidade de sorvetes vendidos;

Não é possível afirmar que se forem vendidos mais sorvetes a temperatura do dia aumentará, ou seja, não é possível afirmar que a causa do calor seja o aumento das vendas. Daí a afirmação que correlação NÃO implica em causalidade.

**Tipos de Correlação**

* **Correlação positiva:** Esse tipo acontece quando há uma tendência crescente entre os pontos, ou seja, conforme uma variável aumenta, a outra aumenta proporcionalmente;
* **Correlação negativa:** Aqui, a correlação se faz em uma linha decrescente. Enquanto uma variável aumenta, a outra diminui de forma proporcional;
* **Correlação forte:** Quanto menor for a dispersão dos pontos, maior será a correlação dos dados. Com isso, a correlação forte se dá quando os dados estão altamente concentrados;
* **Correlação fraca:** Seguindo a mesma linha da correlação anterior, quanto mais distantes estão os pontos, mais fraca é a correlação.

![](https://github.com/paulosrl/imagens/blob/master/correlacao.png?raw=true)


**Função para gerar Gráficos de dispersão**

In [None]:
# Esta função gera gráficos de dispersão, informando os parâmetros entre parenteses.

# colorido: utiliza 's' ou 'S' caso deseje utilizar mais de uma cor no gráfico, será necessário informar a variável que controla a cor
# campoCor: se colorido for igual a 's' ou 'S', informar o campo que irá reprsentar a cor, caso não utilize cor, informar a cor que deseja no ponto
# linhaTendencia: utiliza 's' ou 'S' caso deseje utilizar uma linha de tendência no gráfico, caso contrário utilize ""
# dataframe: informe o dataFrame que deseja utilizar, caso não utiliza um dataframe, informar apenas ""
# nomeEixoX: Descrição do eixo X no gráfico
# dadosEixoX: dados que serão plotados no gráfico
# nomeEixoY: Descrição do eixo Y no gráfico
# dadosEixoY: dados que serão plotados no gráfico
# titulo: Título do gráfico
# altura: valor da altura do gráfico em pixels
# largura: valor da largura do gráfico em pixels

def geraGraficoDispersao(titulo,colorido,campoCor,linhaTendencia,dataFrame,nomeEixoX,dadosEixoX,nomeEixoY,dadosEixoY,altura,largura):

  # verifica se será usado ou não um dataframe
  if dataFrame=="": # não utiliza dataframe
    dataF=None
  else:
    dataF=dataFrame
  # verifica se será usado ou não uma linha de tendênica no gráfico
  if (linhaTendencia=='s'):
    linha="ols"
  else:
    linha=None
  if (colorido=='s'): # utiliza um campo para colorir os pontos
    fig = px.scatter(dataF,x=dadosEixoX,y=dadosEixoY,trendline=linha,color=campoCor,title=titulo)
  else:
    fig = px.scatter(dataF,x=dadosEixoX,y=dadosEixoY,trendline=linha,color_discrete_sequence=[campoCor],title=titulo)
  #define layout do gráfico
  fig.update_layout(
      height=altura,
      width=largura,
      title_text=titulo,
      title_font_size=20,
      xaxis_title=nomeEixoX,
      yaxis_title=nomeEixoY
      )
  # exibe o gráfico
  fig.show()
  return


**Correlação entre dados de horas de estudo e as notas obtidas por um grupo de alunos.**

In [None]:
#matriz com os dados de horas de estudo em 20 dias
horasEstudo=[20,12,14,15,18,9,5,4,8,13,14,15,19,18,12,11,10,15,17,20]
#matriz com os dados notas
Notas=[9.5,2.5,3.6,6.7,5.2,1,0,1.5,2,3,3.5,4.5,8.5,7.5,5,4,3,5,6.5,10]

**Gráfico de dispersão com uma cor**

In [None]:
geraGraficoDispersao(
    titulo="Correlação entre horas de estudo e notas",
    colorido="n",
    campoCor="green",
    linhaTendencia="n",
    dataFrame="",
    nomeEixoX="Horas de estudo",
    dadosEixoX=horasEstudo,
    nomeEixoY="Notas",
    dadosEixoY=Notas,
    altura=600,
    largura=700
    )

**Gráfico de dispersão com uma cor e linha de tendência**

In [None]:
geraGraficoDispersao(
    titulo="Correlação entre horas de estudo e notas",
    colorido="n",
    campoCor="green",
    linhaTendencia="s",
    dataFrame="",
    nomeEixoX="Horas de estudo",
    dadosEixoX=horasEstudo,
    nomeEixoY="Notas",
    dadosEixoY=Notas,
    altura=600,
    largura=700
    )

**Gráfico de dispersão com mais de uma cor**

In [None]:
geraGraficoDispersao(
    titulo="Correlação entre horas de estudo e notas",
    colorido="s",
    campoCor=Notas,
    linhaTendencia="",
    dataFrame="",
    nomeEixoX="Horas de estudo",
    dadosEixoX=horasEstudo,
    nomeEixoY="Notas",
    dadosEixoY=Notas,
    altura=600,
    largura=700
    )

**Gráfico de dispersão com mais de uma cor e linha de tendência**

In [None]:
geraGraficoDispersao(
    titulo="Correlação entre horas de estudo e notas",
    colorido="s",
    campoCor=Notas,
    linhaTendencia="s",
    dataFrame="",
    nomeEixoX="Horas de estudo",
    dadosEixoX=horasEstudo,
    nomeEixoY="Notas",
    dadosEixoY=Notas,
    altura=600,
    largura=700
    )

**Correlação entre dados refentes a largura e comprimento de um determinado molusco.**


In [None]:
#Foram coletados dados referentes a largura e comprimento de um determinado molusco.
#Qual a correlação entre essas duas variáveis?
#variáveis ou colunas que serão analisadas
larguraCM=[1.3,1.4,1.4,1.5,1.9,2.1,2.1,2.1,2.2,2.2,2.3,2.4,2.4,2.5,2.5,2.6,2.6,2.6,2.7,2.8,2.8,2.9,2.9,2.9,2.9,3.0,3.0,3.0,3.1,3.4,3.4,3.5,3.6,3.6,3.6,3.6,3.7,3.9,3.9,4.1,4.1,4.1,4.2,4.2,4.2,4.2,4.3,4.7,4.8,4.8,4.8,4.9,5.0,5.0,5.1,5.2,5.2,5.4,5.6,5.6,5.8,5.8,5.8,5.9,6.0,6.0,6.0,6.2,6.2,6.3,6.5,6.6,6.6,6.7,6.7,6.7,6.7,6.9,6.9,7.0,7.1,7.1,7.1,7.2,7.3,7.3,7.4,7.5]
comprimentoCM=[1.7,1.9,1.8,1.9,2.3,3.5,2.8,2.7,3.0,2.7,3.0,3.2,2.9,3.5,3.3,3.5,3.4,3.4,3.2,3.8,3.5,3.8,3.9,3.8,3.7,3.8,4.0,3.7,4.1,4.4,4.3,4.5,4.6,4.8,4.9,4.5,4.9,5.4,5.2,5.3,5.4,5.2,5.4,5.5,5.6,5.2,5.6,6.1,6.6,6.1,6.0,6.1,6.6,6.2,6.6,6.4,6.8,6.3,7.0,7.9,7.4,7.4,6.9,7.9,7.7,7.8,7.3,8.5,7.5,7.6,9.3,8.1,8.0,8.2,9.2,8.0,7.9,8.6,8.1,9.5,9.1,9.1,9.4,8.4,9.3,8.9,8.9,8.6]

**Gráfico de dispersão com uma cor e linha de tendência**

In [None]:
geraGraficoDispersao(
    titulo="Correlação entre comprimento e largura dos moluscos",
    colorido="",
    campoCor="blue",
    linhaTendencia="s",
    dataFrame="",
    nomeEixoX="Largura (cm)",
    dadosEixoX=larguraCM,
    nomeEixoY="Comprimento(cm)",
    dadosEixoY=comprimentoCM,
    altura=600,
    largura=700
    )

**Gráfico de dispersão com mais de uma cor e linha de tendência**

In [None]:
geraGraficoDispersao(
    titulo="Correlação entre comprimento e largura dos moluscos",
    colorido="s",
    campoCor=comprimentoCM,
    linhaTendencia="s",
    dataFrame="",
    nomeEixoX="Largura (cm)",
    dadosEixoX=larguraCM,
    nomeEixoY="Comprimento(cm)",
    dadosEixoY=comprimentoCM,
    altura=600,
    largura=700
    )

###**Gráfico de Barras**

Utiliza o plano cartesiano com os valores ou categorias da variável no eixo X
e as frequências ou porcentagens no eixo Y. Para cada valor
da variável desenha-se uma barra com altura correspondendo à sua freqüência ou
porcentagem. Esse tipo de gráfico se adapta bem à variáveis qualitativas (ou
categóricas).

**Função para gerar gráficos de Barras**

In [None]:
# Esta função gera gráficos de barra, informando os parâmetros entre parenteses.

# titulo: Título do gráfico
# nomeEixoX: Descrição do eixo X no gráfico
# nomeEixoY: Descrição do eixo Y no gráfico
# dadosEixoX: dados que serão plotados no gráfico
# dadosEixoY: dados que serão plotados no gráfico
# orientacaoGrafico: 'v' ou'h'
# cor: cor de exbição do gráfico
# altura: valor da altura do gráfico em pixels
# largura: valor da largura do gráfico em pixels

def graficoBarra(titulo,nomeEixoX,nomeEixoY,dadosEixoX,dadosEixoY,orientacaoGrafico,cor,altura,largura):
  # insere colunas x e y que serão processadas pelo gráfico
  fig = go.Figure(data=[go.Bar(name='', x=dadosEixoX, y=dadosEixoY,marker_color=cor,orientation=orientacaoGrafico)])

  #define layout do gráfico
  fig.update_layout(
      height=altura,
      width=largura,
      title_text=titulo,
      title_font_size=20,
      xaxis_title=nomeEixoX,
      yaxis_title=nomeEixoY
      )
  fig.show()
  return

**Exemplo de gráficos de barras** que representam vendas de carros no primeiro trimestres de 2020. Dois exemplos com os mesmos dados, o primeiro exibe as barras verticalmente, já o segundo horizontalmente.

In [None]:
x=['Jan','Fev','Mar']
y=[30,50,35]

**Gráfico de barra vertical**

In [None]:
graficoBarra(
    titulo='Vendas de carros no primeiro trimestre de 2020',
    nomeEixoX='Meses',
    nomeEixoY='Total de vendas',
    dadosEixoX=x,
    dadosEixoY=y,
    orientacaoGrafico='v',
    cor='blue',
    altura=400,
    largura=500
    )

**Gráfico de barra horizontal**

In [None]:
graficoBarra(
    titulo='Vendas de carros no primeiro trimestre de 2020',
    nomeEixoX='Meses',
    nomeEixoY='Total de vendas',
    dadosEixoX=y,
    dadosEixoY=x,
    orientacaoGrafico='h',
    cor='green',
    altura=400,
    largura=500
    )

##**4. Conteúdo Extra (Estudos de caso)**
---

### **4.1 Banco de dados de funcionários**

Neste estudo de caso será analisada uma tabela com os dados de funcionários de uma empresa, na tabela constam: os números de matrícula, o estado civil, o grau de de instrução, o número de filhos, o salário, a idade e a região de cada funcionário.

Serão analisados:

* Estrutura dos dados;
* Resumo estatístico dos dados;
* Histogramas;
* Boxplots;
* Análises das variáveis qualitativas e quantitativas;
* Cálculo de frequencias absolutas e relativas.

In [None]:
#referência: https://www.inf.ufsc.br/~andre.zibetti/probabilidade/aed.html#vari%C3%A1vel_quantitativa_discreta
# importar a biblioteca pandas

#caminhop do arquivo
df = pd.read_csv("https://raw.github.com/paulosrl/datasets/master/funcionarios.csv")

#### **Estrutura e Dados**

In [None]:
# mostrar o total de linhas e colunas da tabela lida
df.shape

(36, 7)

In [None]:
#mostra as 5 primeiras linhas do arquivo
df.head()

Unnamed: 0,matricula_funcionario,estado_civil,grau_instrucao,filhos,salario,idade,regiao
0,1,solteiro,1o Grau,0,4000,26,interior
1,2,casado,1o Grau,1,4560,32,capital
2,3,casado,1o Grau,2,5250,36,capital
3,4,solteiro,2o Grau,0,5730,20,outro
4,5,solteiro,1o Grau,0,6260,40,outro


In [None]:
#mostra a estrutura da tabela lida (colunas e tipos)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36 entries, 0 to 35
Data columns (total 7 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   matricula_funcionario  36 non-null     int64 
 1   estado_civil           36 non-null     object
 2   grau_instrucao         36 non-null     object
 3   filhos                 36 non-null     int64 
 4   salario                36 non-null     int64 
 5   idade                  36 non-null     int64 
 6   regiao                 36 non-null     object
dtypes: int64(4), object(3)
memory usage: 2.1+ KB


####**Resumo Estatístico dos dados**

In [None]:
# faz um resumo estatístico dos dados
df.describe()

Unnamed: 0,matricula_funcionario,filhos,salario,idade
count,36.0,36.0,36.0,36.0
mean,18.5,0.916667,11122.222222,34.583333
std,10.535654,1.250714,4587.457504,6.737422
min,1.0,0.0,4000.0,20.0
25%,9.75,0.0,7552.5,30.0
50%,18.5,0.0,10165.0,34.5
75%,27.25,2.0,14060.0,40.0
max,36.0,5.0,23300.0,48.0


####**Histogramas**

In [None]:
geraHistograma('Histograma - Filhos','Filhos',df['filhos'],"green",400,500,"")

In [None]:
geraHistograma('Histograma - Salário','Salários',df['salario'],"blue",400,500,"")

In [None]:
geraHistograma('Histograma - Idade','Idade',df['idade'],"orange",400,500,"")

** Histrogramas em Colunas

In [None]:
fig = go.Figure()
fig = make_subplots(rows=1, cols=3)

fig.add_trace(
    go.Histogram(
        x=df['filhos'],
        marker_color="green",
        name='Filhos',
        marker_line=dict(width=1, color='black')),
        row=1,
        col=1)

fig.add_trace(
    go.Histogram(
        x=df['salario'],
        marker_color="blue",
        name='Salários',
        marker_line=dict(width=1, color='black')),
        row=1,
        col=2)

fig.add_trace(
    go.Histogram(
        x=df['idade'],
        marker_color="orange",
        name='Idade',
        marker_line=dict(width=1, color='black')),
        row=1,
        col=3)

fig.update_layout(
    title="Histogramas (Filhos - Salários - Idade)",
    height=400,
    width=1000
    )

####**Boxplots**

In [None]:
#Acessos ao Site no período de 20 dias (Versão 2)
acessosSitedia = [200,78,50,30,50,55,50,80,300,30,20,35,30,15,30,32,23,30,250,23]

# dados que serão usados no gráfico
fig = go.Figure(data=[go.Box(x=acessosSitedia)])

#divide a área de apresentação em 1 linha e duas colunas
fig = make_subplots(rows=1, cols=3)

fig.add_trace(go.Box(x=df['filhos'],name="Filhos",marker_color="green"), row=1, col=1)
fig.add_trace(go.Box(x=df['salario'],name="Salários",marker_color="blue"), row=1, col=2)
fig.add_trace(go.Box(x=df['idade'],name="Idades",marker_color="orange"), row=1, col=3)

fig.update_layout(
    title="Distribuição de Idades e Salários",
    )

####**Analisando as variáveis qualitativas nominais**

Estas variáveis não possuem uma ordem natural, em nosso exemplo a variável em questão será **estado_civil**. Desta forma podemos obter:

* As frequências **(absolutas e/ou relativas)**;

* O gráfico de barras e de setores;

* A “moda”, i.e. o valor que ocorre com maior frequência.

Por ser uma variável qualitativa, para obter a distribuição de frequência desta variável, basta contarmos quantas vezes ocorre cada categoria (ou nível), e organizar em uma tabela.

https://minerandodados.com.br/analise-de-dados-com-python-usando-pandas/

https://www.inf.ufsc.br/~andre.zibetti/probabilidade/aed.html

#####**Frequência absoluta e relativa**

In [None]:
#frequencia absoluta
fAbsoluta=df.groupby(["estado_civil"])["estado_civil"].count()

In [None]:
fAbsoluta

estado_civil
casado      20
solteiro    16
Name: estado_civil, dtype: int64

#####**Gráfico de barras com valores absolutos de solteiros e casados**

In [None]:
x = df["estado_civil"].unique()
graficoBarra('Frequencia absoluta Solteiros X Casados',
             'Estado Civil','Total',x,fAbsoluta,'v','blue',400,500)

In [None]:
#frequencia relativa
fRelativa=df.groupby(["estado_civil"])["estado_civil"].count()/ len(df)*100

In [None]:
fRelativa

estado_civil
casado      55.555556
solteiro    44.444444
Name: estado_civil, dtype: float64

#####**Gráfico de setores com valores relativos de solteiros e casados**

In [None]:
# Esta função gera gráficos de pizza, informando os parâmetros entre parenteses.

# titulo: Título do gráfico
# coluna: dados da coluna que serão plotados no gráfico
# altura: valor da altura do gráfico em pixels
# largura: valor da largura do gráfico em pixels

def geraGraficoPizza(titulo,coluna,altura,largura):
  fig = go.Figure(data=[go.Pie(labels=coluna, hole=.3)])
  fig.update_layout(
      height=altura,
      width=largura,
      title_text=titulo,
      title_font_size=20
      )
  fig.show()
  return

In [None]:
geraGraficoPizza("Percentual de funcionários por estado civil",df['estado_civil'],400,500)

#####**Calculando a Moda**

A **moda** de qualquer variável é definida como o valor mais frequente encontrado na amostra. No caso de variáveis qualitativas, a moda é a categoria que apresenta maior frequência. Nesse exemplo, a moda seria então

In [None]:
#moda
df['estado_civil'].mode()

0    casado
Name: estado_civil, dtype: object

####**Analisando variáveis qualitativas ordinais**

Estas variáveis podem ser ordendas, neste exemplo iremos utilizar a variável **grau_instrucao** dos funcionários.

As tabelas de frequências são obtidas de forma semelhante à mostrada anteriormente.

A frequência absoluta é a contagem do número de vezes que cada categoria foi observada. A ordem tem importância, portanto, a tabela também deve seguir a ordem natural das categorias.

Abaixo, mostramos a tabela de frequência absoluta já com o somatório de todas as classes.

#####**Frequência absoluta e relativa**

In [None]:
fAbsolutaGrau=df.groupby(["grau_instrucao"])["grau_instrucao"].count()

In [None]:
fAbsolutaGrau

grau_instrucao
1o Grau     12
2o Grau     18
Superior     6
Name: grau_instrucao, dtype: int64

#####**Gráfico de barras com valores absolutos dos graus de instrução**

In [None]:
x = df["grau_instrucao"].unique()
graficoBarra('Frequencia absoluta por Grau de Instrução',
             'Grau de Instrução','Total',x,fAbsolutaGrau,'v','green',400,500)

In [None]:
fRelativaGrau=df.groupby(["grau_instrucao"])["grau_instrucao"].count() / len(df)*100

In [None]:
fRelativaGrau

grau_instrucao
1o Grau     33.333333
2o Grau     50.000000
Superior    16.666667
Name: grau_instrucao, dtype: float64

#####**Gráfico de setores com valores relativos ao grau de instrução**

In [None]:
geraGraficoPizza("Percentual de funcionários por grau de instrução",df['grau_instrucao'],400,500)

#####**Calculando a Moda**

In [None]:
#moda
df['grau_instrucao'].mode()

0    2o Grau
Name: grau_instrucao, dtype: object

####**Analisando variáveis quantitativas discretas**

Vamos agora usar a variável **Filhos** (número de filhos) para ilustrar algumas análises que podem ser feitas com uma quantitativa discreta. Iremos obter também:

* As frequências **(absolutas e/ou relativas)**;

* O gráfico de barras e de setores;

* A “moda”, i.e. o valor que ocorre com maior frequência.

#####**Frequência absoluta e relativa**

In [None]:
#frequencia absoluta
fAbsolutaFilhos=pd.DataFrame({'Frequencia_Absoluta': df.groupby('filhos').size()})

In [None]:
fAbsolutaFilhos=df.groupby(["filhos"])["filhos"].count()

In [None]:
fAbsolutaFilhos

filhos
0    20
1     5
2     7
3     3
5     1
Name: filhos, dtype: int64

In [None]:
#frequencia relativa
fRelativaFilhos=df.groupby(["filhos"])["filhos"].count() / len(df)*100

In [None]:
fRelativaFilhos

filhos
0    55.555556
1    13.888889
2    19.444444
3     8.333333
5     2.777778
Name: filhos, dtype: float64

#####**Gráfico de barras com valores absolutos Filhos**

In [None]:
x = df["filhos"].unique()
graficoBarra('Frequencia absoluta Filhos',
             'Filhos','Total',x,fAbsolutaFilhos,'v','blue',400,500)

#####**Gráfico de setores com valores relativos de solteiros e casados**

In [None]:
geraGraficoPizza("Percentual de funcionários por por No. de filhos",df['filhos'],400,500)

#####**Calculando a Moda**

In [None]:
#moda
df['filhos'].mode()

0    0
Name: filhos, dtype: int64

####**Analisando variáveis quantitativas contínuas**

Para concluir os exemplos para análise univariada vamos considerar a variável quantitativa contínua Salario.

Para se fazer uma tabela de frequências de uma variável contínua, é preciso primeiro agrupar os dados em classes pré-estabelecidas. A escolha dos intervalos de classe geralmente é arbitrária, e a familiaridade do pesquisador com os dados é que lhe indicará quantas e quais classes devem ser utilizadas.

Para calcular o número de intervalos (k), iremos utilizar a seguinte fórmula:

**k = int(1 + 3.322 * math.log(len(df['salario']),10))**

#####**Distribuição por faixa calculada**

In [None]:
#A Regra de Sturges
# No de Intervalos da tabela (convertido SEMPRE para um inteiro)
K = int(1 + 3.322 * math.log(len(df['salario']),10))

#mínimo e máximo
minimo = df['salario'].min()
maximo = df['salario'].max()

#amplitude
A = maximo - minimo

#cálculo da amplitude dos intervalos
Ak =  A / K

#separação em grupos
bins = np.arange(minimo,maximo,Ak)

df['salario'].groupby(pd.cut(df['salario'], bins=K)).count()

salario
(3980.7, 7216.667]         7
(7216.667, 10433.333]     11
(10433.333, 13650.0]       8
(13650.0, 16866.667]       6
(16866.667, 20083.333]     3
(20083.333, 23300.0]       1
Name: salario, dtype: int64

#####**Histograma**

In [None]:
geraHistograma('Histograma - Salário','Salários',df['salario'],"green",400,500,"")

##**Referências de apoio:**

* [Exemplo de média, mediana e moda](https://pt.khanacademy.org/math/ap-statistics/summarizing-quantitative-data-ap/measuring-center-quantitative/v/mean-median-and-mode)
* [Medidas de dispersão: intervalo, variância e desvio-padrão](https://pt.khanacademy.org/math/probability/data-distributions-a1/summarizing-spread-distributions/v/range-variance-and-standard-deviation-as-measures-of-dispersion)
* [Desvio-padrão amostral e viés](https://pt.khanacademy.org/math/ap-statistics/summarizing-quantitative-data-ap/measuring-spread-quantitative/v/sample-standard-deviation-and-bias)

* Notas de aula da disciplina Estatística Geral - Teoria e aplicações (Profa Julienne Borges Fujii - PUC-MG)