# Introdução 
  - Visão geral da abordagem estatística dos problemas
  - O papel da incerteza nos problemas científicos
  - A importância da coleta de dados (amostras)
  - Tipos de dados
  - Uso de softwares ou bibliotecas

# Objetivos Estatística

- Estatística (Objetivo): O problema sempre envolve pesquisas ou análises cujo o objetivo é aprender (entender, compreender, inferir, etc.) sobre um grande grupo de interesse (população) por meio do exame de um pequeno grupo (amostra). [Baseado em (Triola, 2004, pg. 04)] 
- Dados: são observações coletadas (por exemplo, medidas, sexo, respostas de um questionário, etc).

## Exemplo de dados - conjunto "iris"

- 150 linhas com 5 colunas: 50 flores de cada espécie foram analisadas e as cinco características foram avaliadas para cada flor. 
- Medidas (em cm) das variáveis Comprimento e largura de ambas (sépala  e pétala) de três espécies de plantas (setosa, virginica, versicolor)

In [2]:
data("iris")
colnames(iris) <- c("SepLeng","SepWidth","PetLeng","PetWidh","Spec")
iris[c(1,2,51,52,101,102),1:5]

Unnamed: 0,SepLeng,SepWidth,PetLeng,PetWidh,Spec
1,5.1,3.5,1.4,0.2,setosa
2,4.9,3.0,1.4,0.2,setosa
51,7.0,3.2,4.7,1.4,versicolor
52,6.4,3.2,4.5,1.5,versicolor
101,6.3,3.3,6.0,2.5,virginica
102,5.8,2.7,5.1,1.9,virginica


Para obter mais detalhes do respectivo conjunto de dados utiliza o comando
```r
help(iris)
```

# Análise Estatística

- Estatística: É um conjunto de métodos para o planejamento de estudos e experimentos:
 - Obtenção de dados (Coleta deve ser feito por meio de procedimento adequado. É uma  das principais fontes de erro)
 - Organização dos dados (Facilita a visualização)
 - Resumo ou redução dos dados (Perde informações individuais. Há tendência em simplificar demais e desconsiderar aspectos relevantes)
 - Apresentação, análise e interpretação dos dados (Fonte de erros de todas as espécies. Viés do apresentador/pesquisador para justificar os pontos de vista-constrói a pesquisa.)
 - Elaboração de conclusão baseado nos dados (Fonte de erros-interpretação)
 - Conclusão: de forma clara, amigável e objetiva (requer conhecimento teórico: pessoas com diferentes conhecimentos do assunto, concluem coisas diferentes)

## Exemplo: (Valores não reais) 
Dados das turmas do ano de 2019 foram coletados para mostrar a superioridade de processo adotado em 2019 em relação ao processo anterior. A média das notas é o aspecto relevante! Suponha que todos os cuidados com as questões de amostragens e procedimentos foram tomados (Ver adiante maiores detalhes).  Tomou-se alunos de 2019 como se fossem população.

Resultados

- 2018: $\mu=16.4$, $\sigma=5.6$
- 2019: $\mu=17.3$, $\sigma=5.9$
    Existe diferença, quanto à média das notas, entre as duas turmas de alunos ?

# Software e linguagens de programação

  - Facilita os cálculos em problemas trabalhosos ou cujos cálculos requerem um tempo muito longo. 
  - Há tendência coletiva de acreditar em um ser supremo e mágico que realiza os cálculos sem erros de nenhuma espécie. Até mesmo, em caso de processo de amostragem inadequado, o software parece resolver todas os problemas. 
  
  <!-- mas parece haver uma tendencia (por falta de conhecimento) a acreditar friamente em resultados e belas figuras geradas por softwares. -->
  
  - R, Python, Stats(from SciPy), Geogebra, Sage,  Libre Office, Matlab, SAS, SPSS, Minitab, Mathematica, Excel. 
  
  <!-- SAS, SPSS, Minitab, Matlab, Mathematica, Excel: softwares proprietários e requerem licença para uso. 
      - R, Stats(from SciPy), Geogebra, Sage, Libre Office: livre para uso e não requerem licença (Baixar e instalar! Alguns rodam na núvem-instação não é necessária)-->
       

# Atividade

1.  Baixar o ambiente Anaconda, criar projeto e executar os comandos básicos: operações aritméticas básicas ``+,-,/``, variáveis, vetores e operações. 
  
2. Conceitos básicos em R (Fazer curso online): http://www.estatisticacomr.uff.br/?p=733
 
3. Descrever o que cada um dos comandos abaixo faz. Carregar os dados *Iris* e ler a respectiva descrição dos dados e variáveis.  

```r
head(iris)# O que isso faz?
tail(iris)# O que isso faz?
iris[1:6,1:2]# O que isso faz?
help(iris)# O que isso faz?
```

# Conceitos Importantes

* Um dos principais objetivos é usar dados amostrais é fazer inferência (ou generalizações) sobre uma população inteira.
* Devemos compreender os conceitos de:
  * População;
  * Amostras representativas de uma população;
  * Parâmetro de uma população;
  * Estatística ou estimador dos parâmetros da população (uma função da amostra que reduz os dados);
  * Inferência estatística.
* Tipos de dados:
    * Quantitativos;
    * Qualitativos.

***

- População: É a coleção completa de todos os elementos a serem estudados. A coleção é completa no sentido de que inclui todos os sujeitos a serem estudados.

  * Exemplos de população:
    * Brasileiros entre 16 e 25 anos;
    * Crianças com menos de 1 ano no Brasil;
    * Peças produzidas em uma linha de produção de uma fábrica;
    * Cor de carros;
    * Alunos de uma universidade.
  
  * Qual a característica que mais interessa em uma população?

Nota: Definir a população de estudos não é tarefa simplista. Requer definição clara e objetiva do estudo a ser realizado. 

***

- Censo: É um conjunto de dados obtidos de todos os membros da população [Ver (Triola, 2004) para uma explicação de como o procedimento falha. ]
- Amostra: É um subconjunto de membros selecionados de uma população

![populacao_amostra](https://umolharmatematico.weebly.com/uploads/2/5/7/9/25795733/1224276.png)

*Fonte:* https://umolharmatematico.weebly.com/populaccedilatildeoamostra.html



**Nota importante: Amostra representativa não captura todos os tipos de elementos (Há uma variabilidade característica)**

## Exemplo (Variabilidade da amostra): 
Escolher 5 notas dentre as possíveis notas em $J=\{0,1,\cdots,10\}$

* 5 amostras

In [6]:
set.seed(1000)
xbar=numeric(0)
cat("Amostra","\t\t","xbar","\t","mu")

for (i in 1:5){
  x=sample(0:10,5)
  cat(paste(x),"\t",mean(x),'\n' )
  xbar[i]=c(mean(x))
}
cat("\t\t\t\t",mean(xbar),'\t',mean(0:10) )

Amostra 		 xbar 	 mu3 5 2 7 4 	 4.2 
2 1 5 8 4 	 4 
5 0 8 4 1 	 3.6 
9 6 1 4 5 	 5 
2 9 8 1 6 	 5.2 
				 4.4 	 5

* Com 20 amostras

In [7]:
set.seed(1000)
xbar=numeric(0)
cat("Amostra","\t\t","xbar","\t","mu")

for (i in 1:20){
  x=sample(0:10,5)
  cat(paste(x),"\t",mean(x),'\n' )
  xbar[i]=c(mean(x))
}
cat("\t\t\t\t",mean(xbar),'\t',mean(0:10) )

Amostra 		 xbar 	 mu3 5 2 7 4 	 4.2 
2 1 5 8 4 	 4 
5 0 8 4 1 	 3.6 
9 6 1 4 5 	 5 
2 9 8 1 6 	 5.2 
7 0 5 10 3 	 5 
10 7 2 8 9 	 7.2 
5 6 10 8 9 	 7.6 
7 2 4 1 8 	 4.4 
1 0 9 2 4 	 3.2 
7 10 9 2 3 	 6.2 
9 10 7 1 6 	 6.6 
5 8 10 4 2 	 5.8 
4 9 0 2 8 	 4.6 
8 6 10 0 1 	 5 
6 10 0 2 8 	 5.2 
1 0 2 4 5 	 2.4 
7 3 9 0 5 	 4.8 
6 8 4 2 0 	 4 
9 2 4 10 0 	 5 
				 4.95 	 5

## Exemplo (Variabilidade da amostra): 
Alturas de indivíduos de uma população normal $\mu=170, \sigma^2=15$

In [8]:
set.seed(1000)
xbar=numeric(0)
cat("Amostra","\t\t\t\t\t\t\t","xbar","\t","mu")

for (i in 1:13){
  x=round(rnorm(5,170,8.),2)
  cat(paste(x),"\t",round(mean(x),2),'\n' )
  xbar[i]=c(mean(x))
}
cat("\t\t\t\t\t\t\t\t\t\t",round(mean(xbar),2),'',170 )

Amostra 							 xbar 	 mu166.43 160.35 170.33 175.12 163.71 	 167.19 
166.92 166.19 175.76 169.85 159.02 	 167.55 
162.14 165.56 170.97 169.03 159.31 	 165.4 
171.36 171.24 170.2 153.63 171.71 	 167.63 
191.36 160.18 176.67 174.26 164.83 	 173.46 
174.83 155.73 172.68 174.49 179.77 	 171.5 
168.31 175.6 164.35 166.28 155.87 	 166.08 
171.51 167.07 178.46 164.07 159.21 	 168.06 
165.86 181.29 171.48 169.65 168.27 	 171.31 
181.71 171.84 170.86 158.98 162.25 	 169.13 
172.01 161.24 173.18 162.03 170.8 	 167.85 
177.63 155.68 172.49 190.43 163.11 	 171.87 
174.35 166.86 179.88 179.57 166.03 	 173.34 
										 169.26  170

# Atividade 

*Código dos resultados anteriores*: Descrever cada uma das funções; reproduzir os resultados; retirar o `set.seed()` e executar repetidamente; realizar experimentos com: amostras de tamanhos 
$3,5,7,10$ (com reposição) e número de amostras $10, 20, 50$ e fazer uma tabela de resultados.


# Atividade 

*Código dos resultados anteriores*: Descrever cada uma das funções; reproduzir os resultados; retirar o `set.seed(1000)` e executar repetidamente; realizar experimentos com: amostras de tamanhos 
$5,7,10, 50$ e número de amostras $10, 20, 50,100, 500$ e fazer uma tabela de resultados.

# Embasamento Teórico

Fatores influentes para obter $\mu=\frac{1}{n}\sum_{i=1}^{n} Xmeans_i$

* Observação $\frac{1}{n}\sum_{i=1}^{n} Xmeans_i \rightarrow \mu$
e convergência  é muito diferente de igualdade.
* Tipo de população (distribuição)
  * Gaussiana converge mais rápido devido à simetria.
  * não gaussianas convergem mais lentamente. Quanto maior assimetria dos dados, mas lento o processo.
* Tamanho da população
* Tamanho da amostra
  * quanto menor tamanho da amostra, mais lento.
* Quantidade de amostras
  * quanto mais amostras, melhor!
* O valor exato não é fácilmente obtido (apesar de ser possível)! Note a escrita!



- Existem diferentes formas de se coletar dados,
nem todos são adequados para uma análise estatística.
- Se as amostras não são coletadas da forma correta, os dados são tão completamente inuteis que nenhum trabalho estatístico (tecnicas sofisticadas, softwares ou qualquer artmanha pirotécnica) pode levar à conclusões eficientes (Triola, 2004, pg. 05).


- A coleta apropriada dos dados está relacionada
diretamente aos objetivos do experimento e as conclusões que se deseja chegar.
  - Cuidado para não confundir com **"Direcionar a pesquisa para obter os resultados desejados"**
- Existem diferentes técnicas de amostragem para coleta
de dados. **A ética é um ponto importante na elaboração
da coleta de dados.**


***

* Parâmetro de uma população: É uma medida numérica que descreve alguma característica de uma população, em geral é desconhecida.

* Estatística: É uma medida numérica que descreve alguma característica de uma amostra, é obtida em função de um conjunto de observações (a amostra).

- Questão: O que é comum nas notícias: parâmetro ou estatística ?
  - parâmetro: populações pequenas, em geral (Avalia todo mundo-> parâmetro)
  - estatística: populações grandes, em geral (não avalia todo mundo -> estatística)
  
- Exemplo 01 (parâmetro): tempo médio corrida dos alunos do 1 ano de 2019: 5min/km.

- Exemplo 02 (estatística): tempo médio de corrida dos alunos do 1 ano, baseado no tempo médio dos alunos do 1 ano de 2019.

## Exemplo 
(Médias do conjunto de dados): Parâmetro ou estatística ?

In [9]:
colMeans(iris[1:4])

# Atividade

1. Exercício: Calcular as médias (quando possível) para o cunjunto de dados **iris**. 

2. Assistir o Documentário **Tudo está nos números**

3. Selecionar uma amostra aleatória de 10 alunos da sala e pedir as seguintes informações: peso, altura, cor do cabelo, cor dos olhos, num. sapato, km em corrida de 12min., Verificar se é atleta, região de origem (Macro);

  * não anotar nomes (sem identificação dos alunos);
  * descrever o processo de seleção da amostra;
  * montar tabela com os dados (agradeçemos participação de todos) usando planilha eletrônica;
  * carregar os dados usando formato *.csv* no Python.

# Tipos de dados e escalas

**Dados quantitativos** 

Numéricos (Números Naturais ou reais)

* Dados discretos: Contagem ou enumerável;
* Dados contínuos: Podem assumir qualquer valores real, as vezes em um intervalo da reta, as vezes em toda reta;
* Permitido: ordenação e operações matemáticas (soma, diferenças, etc.);
* Exemplo: Idade, Peso, Altura, IMC, tempo corrida 400m, etc.

**Dados qualitativos**

* Dado ordinal: podem ser ordenados mas as diferenças entre eles não tem sifgnificado;
  * Conceitos dados por um professor: A,B,C,D;
  * Rank dos times de futebol na FIFA;
* Dado intervalar: Nível intervalar de medida é como nível ordinal, com a propriedade de que as diferenças entre qualquer dois intervalos é significativa. Estes dados não tem um ponto inicial (zero natural).
  * temperatura: $35^oC$, $25^oC$ , a diferença é $10^o$ C. Mas $0^o$ C não significa ausência de calor.


## Exemplo **iris**

In [10]:
sapply(iris, class)

# Atividade
Verificar se os tipos de variáveis reportadas pelo pelo comando anterior são exatamente daquele tipo. Exemplo: sepal length (cm) de iris é reportado float e é de fato float pois são valores entre $4.3$ e $7.9$. Portanto, valores reais.

* Conhecer os dados é essencial. 

# Atividade **Boston House Prices**

Considere os dados *mtcars* presente no R

Quais as variáveis avaliadas? Qual o tamanho da amostra ? Verificar os tipos de variáveis reportadas pelo R e a respectiva classificação.

# Considerações sobre amostra

Algumas amostras não são adequadas para se tirar conclusões sobre a população:

* Amostra de respostas voluntárias ou auto-selecionada: É aquela em que o os respondentes decidem, eles mesmos, se serão ou não incluídos na amostra. 

  * Pessoas críticas tendem responder em maior frequência
* *(...)despite the fact that the use of a convenience sample does not completely prevents the conduct of a study, it should be in mind that this situation imposes limitations on the interpretation of results, particularly with regard to the generalization of its findings, because it is practically impossible to assess its accuracy* DOI: [http://dx.doi.org/10.7322/jhgd.152198]
<!--link do Doi acima: 
[https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=2ahUKEwjV2oWrotbmAhX8E7kGHU75CRwQFjAAegQIARAC&url=http%3A%2F%2Fpepsic.bvsalud.org%2Fpdf%2Frbcdh%2Fv28n3%2F17.pdf&usg=AOvVaw2X9cIAX2AbmdCouyT7cW5A]-->

# Atividade

Quais os problemas que podem ocorrer em uma pesquisa desse tipo? 
  
* Pequenas amostras: Causas de morte em 5 pessoas (3 Infartos, 1 AVC, 1 Cancer)
    * Conclusão: 60% das mortes são ocasionadas por infartos.
    
* Ordem das questões e questões direcionadas: 

  * Está sendo gasto pouco dinheiro com assistência social: 19% SIM.
  * Está sendo gasto pouco dinheiro com assistência aos pobres: 63% SIM.
  * O trânsito provoca mais poluição do que a indústria. (45% transito, 27% indústria)
  * A indústria provoca mais poluição que o trânsito. (27% transito, 57% indústria)

* Parece haver uma tendência  a escolher as ultimas opções da lista.
* Dados ausentes, não-resposta, dados dependentes (correlação)
* Estudo de interesse próprio: laboratórios farmacêuticos pagam médicos para realizarem experimentos clínicos.
* Cenários parciais, distorções deliberadas


**Como resolver a questão**

* Evitar todos os itens anteriores + ética + estudos + interpretação sem viés + avaliação cautelosa dos resultados (Muito difícil de ser realizado e trabalhoso)
* Estudar e ser cauteloso: delinear a pesquisa, definir os tipos de questionários, avaliações que serão executadas, análises, erros envolvidos (Sempre existem!), evitar viés de opinião e influência nas pesquisas
* Evitar efetuar a pesquisa de modo a garantir o resultado desejedo (selecionar os grupos por indicação, afinidade, etc.)
* Cuidado com a realização do experimento
  * Evitar afirmações no sentido Matemático
  * Estatística não é Matemática. As afirmações, em geral, possuem relação com a Probabilidade. 
* Problemas diferentes $\Rightarrow$ Metodologias de amostragem e realização de experimentos diferentes: necessário dedicação, tempo e recursos financeiros (em geral) para delinear adequadamente experimentos. 

***

* Estudo transversal: Dados coletados em um ponto do tempo.
  * Bobak M., Skodova Z. and Marmot M. Beer and obesity: a cross-sectional study. https://www.ncbi.nlm.nih.gov/pubmed/14506485 
  * Juliana Zangirolami-Raimundo, Jorge de Oliveira Echeimberg, Claudio Leone, Research methodology topics: Cross-sectional studies, Journal of Human Growth and Development. 2018; 28(3):356-360

    * Jane F.Owens, Karen A.Matthews,  Rena R.Wing, Lewis H.Kuller. Physical activity and cardiovascular risk: A cross-sectional study of middle-aged premenopausal women.  Preventive Medicine Volume 19:2, 1990, 147-157. https://doi.org/10.1016/0091-7435(90)90016-D
    
* Estudo retrospectivo ou controle de caso: Dados são coletados do passado.
* Estudo prospectivo, longitudinal ou coorte: Dados são coletados no presente e futuro.

# Definição

**Def:** Confundimento: uma variável extra que você não levou em conta no estudo. Podem arruinar o experimento e tornar o estudo inútil. 
  * Podem produzir **Falsa Correlação** e Introduzir **Viés**
  * Exemplo 01: Estudo para verificar se a falta de exercícios ocasiona ganho de peso. Amostra com 200 voluntários (100 homens e 100 mulheres).
  * Exemplo 02: Variável de confundimento
![imagem](https://www.students4bestevidence.net/app/uploads/2018/09/Confounding-tutorial-image-2-.jpg)

Fonte: https://www.students4bestevidence.net/

* Exemplo 3: (Falsa correlação)

  * Locais com cegonha possuem alta taxa de natalicade;
  * Tomar vitamina E reduz o risco de doenças cardiacas
  
    https://www.sciencedirect.com/topics/nursing-and-health-professions/confounding-variable
  * Exemplo 4: Deixar as luzes acesas aumenta o risco de miopía ? 
    * doi: 10.4103/0019-5545.33263
***

Leituras:
* Mario F. Triola Elementary Statistics: Updates for the latest technology, 9th Updated Edition 2004.pdf 
* https://www.statisticshowto.datasciencecentral.com/experimental-design/confounding-variable/

# Variavéis de confundimento: 
Quanto a pessoa come? Existe diferenças entre Sexos? Idade? Nível de atividade Física?  peso inicial?
    
* **Definição:** Experimento cego (o paciente não sabe que recebe placebo, evita o efeito placebo) 
* **Definição:**  Experimento duplo-cego (nem pacientes nem médicos sabem quem recebe placebo)
***
Leitura:
* Marcia Meldrum, "A calculated risk": the Salk polio vaccine field trials of 1954, BMJ. 1998 Oct 31; 317(7167): 1233–1236. PMCID: PMC1114166
*The results, announced in 1955, showed good statistical evidence that Jonas Salk’s killed virus preparation was 80-90% effective in preventing paralytic poliomyelitis.

# Tipos de amostras (amostragem)

* Amostragem aleatória simples: Cada indivíduo tem mesma chance de ser amostrado - Hipótese adotada em (Triola, 2001).
* Amostragem sistemática: Cada $k$ indivíduo da população é amostrado.
* Amostragem por conveniência: Coleta-se os dados mais fáceis serem amostrado-**não indicado para conclusões gerais sobre a característica de estudo**.
* Amostragem por conglomerado: Divide-se a população em blocos e amostra-se os blocos aleatoriamente e todos os indivíduos dentro do bloco são entrevistados.
* Amostragem estratificada: Divide-se a população em grupo segundo algum estrato, amostra-se aleatoriamente indivíduos dentro de cada grupo.

# Atividade

Exercícios: Mario F. Triola, Elementary Statistics Technology Update (11th Edition) 11th Edition, Pearson,  2011. 

# Pontos importantes para entender ao estudar Estatística
(Baseado em Joan Garfield, *How Students Learn Statistics*, International Statistical Review (1995), 63,1,25-34. [Tradução livre] )

  * Devemos ter ideia de variabilidade dos dados e estatísticas de resumo; 
  * Distribuições normais são úteis, embora raramente fornecem ajustes perfeitos.
  * A utilidade das características da amostra (e inferência feita com essas medidas) depende criticamente sobre como a amostragem é realizada.
  * A correlação entre duas variáveis não implica relações de causa e efeito.
  * As estatísticas podem ser muito pouco conclusivas, embora possam sugerir coisas e, portanto, conclusões estatísticas não devem ser cegamente aceitas.  

# Discussão adicional

[Joan Garfield, *How Students Learn Statistics*, International Statistical Review (1995), 63,1,25-34.]

In addition to concepts, skills, and types of thinking, most statisticians would probably agree that we also have attitude goals for how we would like student to view statistics as a result of our courses. Such attitude goals include:
       
1. It is important to learn some fundamentals of statistics in order to better understand and evaluate information in the world.
      
2. Anyone can learn important ideas of statistics by working hard at it, using good study habits, and working together with others.
      
3. Learning statistics means learning to communicate using the statistical language, solving statistical problems, drawing conclusions, and supporting conclusions by explaining the reasoning behind them.
      
4. There are often different ways to solve a statistical problem.
      
5. People may come to different conclusions based on the same data if they have different assumptions and use different methods of analysis. 

# Leituras adicionais

1. (Cálculo do tamanho da amostra em um estudo específico)
- http://dx.doi.org/10.1590/abd1806-4841.20143705
      
2. (Amostragem em um estudo específico)
- http://dx.doi.org/10.1590/abd1806-4841.20165254 

3. (Crítica à falta de formalismo no desenvolvimento de pesquisa)
- https://psychology.ucdavis.edu/rainbow/html/facts_cameron_survey.html#Error4
    
4. (Ten common mistakes)   
- https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6785265/

***

As seguintes referências, além daquelas apresentadas no corpo do texto, foram utilizadas para a preparação destas notas. 

Referências:

* Mario Triola, Elementary Statistics: Updates for the latest technology, Pearson-Education, ed.09, 2004.
* Notas de aula Prof. Marinho, Curso Estatística Descritiva, Universidade de São Paulo, 2015. 
* Bussab W.O., Morettin P.A., Estatística Básica, Saraiva, Sao Paulo, 9ed, 2017