# Estatística Descritiva e Geral  
### Autor: Thiago Tavares Lopes
### Contato: 


### Apresentação Pessoal
Meu nome é Thiago, sou químico e, atualmente, estudante de Estatística na Universidade Federal de Santa Maria. Após uma longa jornada no mundo da química, envolvendo pesquisas científicas, artigos acadêmicos e inúmeras culturas de bactérias dentro de tubos de ensaio, passei anos imerso em laboratórios de biotecnologia, de 2013 até 2019. Durante esse período, tive a ideia de redefinir meus planos de vida, possivelmente influenciado pela pandemia desisti do mestrado e fui seguir um sonho antigo.

Em 2014, enquanto cursava a disciplina de Estatística Básica e Probabilidade no curso de química, fiquei surpreso com a capacidade de descobrir informações relevantes a partir de conjuntos de dados. Essa sensação foi semelhante à que experimentei quando tive meu primeiro contato com um HPLC (equipamenteo de análise química), embora eu não consiga explicar exatamente o que desencadeou essa mudança de perspectiva. Acredito que todos já tenham vivenciado momentos assim.
Em resumo, percebi que precisava cursar o bacharelado em Estatística em algum momento da minha vida. Assim, em maio de 2021, iniciei essa jornada, a 3.862,2 km de distância de casa.

Desde então, entrei numa empresa júnior de consultoria estatística (inclusive, fui presidente), participei de vários processos seletivos, aprimorei minhas habildades em programação e comunicação, virei sócio numa empresa de análise de dados para acadêmicos de pós-graduação (Adamy Tech). No geral, fiz bastante coisa como todo brasileiro médio em busca do seu lugar ao sol.

Por fim, gostaria de expressar meus sinceros agradecimentos ao professor Vinicius Duarte, do curso de Estatística da UFPa, que no ano de 2014 ministrou a disciplina com imensurável dedicação e paciência. Embora não saiba se o Sr. um dia lerá este texto, quero dizer: muito obrigado. 



# Bibliotecas Utilizadas
Bibliotecas Python utilizadas
 - [Pandas](https://pandas.pydata.org/)
 - [Numpy](https://numpy.org/doc/stable/index.html#)
 - [Seaborn](https://seaborn.pydata.org/)
 - [Matplotlib](https://matplotlib.org/)


Não pretendo me aprofundar nas bibliotecas utilizadas neste documento. Em caso de dúvidas, recomendo consultar a documentação de cada uma delas.


 Base de dados:  Para alguns exemplos de construção gráfica e de resolução de exercícios, utilizei dados disponibilizados no seguinte [link](https://www.ime.usp.br/~pam/EstBas.html) 

In [14]:
#  BIBLIOTECAS
import pandas as pd
import numpy as np
import seaborn as sn
import matplotlib.pyplot as plt

# Capítulo ? - Tipos de Variáveis
O primeiro ponto deste capítulo é definir o que seria uma **Variável** em termos estatísticos. Basicamente, uma **Variável** nada mais é do que uma característica de interesse do nosso conjunto de dados o qual buscamos investigar.

Podemos classificar as variáveis da seguinte forma:

1 Variáveis Qualitativas
  - Qualitativas Nominais
  - Qualitativas Ordinais

2 Variáveis Quantitativas
  - Quantitativas Discretas
  - Quantitativas Contínuas

  ### Variável Qualitativa 
Um variável qualitativa remete a uma qualidade do conjunto de dados, por exemplo: Sexo, raça, escolaridade. 


# Capítulo ? -  População e Amostra

Antes de inciarmos as aplicações das medidas de posições, ditribuições de frequências ou representação gráfica  de  em um conjunto de dados, é importante formalizar alguns conceitos básicos, porém de suma importância para a compreensão do objetivo principal da estatística descritiva. 
Afinal, o que seria uma populção e o que seria uma amostra ? 
De forma resumida, podemos definir a população como o conjunto total dos elementos que são de interesse de estudo e apresentam similaridade entre si. Por exemplo:
- Um grupo de aves;
- Alunos(as) de uma universidade; 
- Um conjunto de carros fabricados anualmente.

Por outro lado, uma amostra é um subconjunto significativo da população, comumente utilizado quando estudar toda população se torna inviável por inúmeros fatores. 

Vamos utilizar um exemplo prático: Imagine uma escola com um total de **1500 alunos**, divididos em dois turnos distintos. Um estatístico deseja estudar o desempenho dos alunos de todas as séries em algumas disciplinas. Para isso, ele sorteia aleatoriamente os números de matrícula e coleta informações sobre as notas de uma amostra de **200 alunos**, que pertencem a diferentes turmas e sexos. Portanto, temos a **população de 1500 alunos** e uma **amostra aleatória de 200 alunos**.

Para mais informações acesseo o [glossário](https://www.statistics.com/). 


# Capitulo ? - Medidas de Posições 

Se o objetivo for reduzir nosso conjuto de dados em uma única medida  podemos usar uma medida de posição como **média**, **mediana** ou **moda**.  Também são conhecidas com medidas de tedência central  e possibilitam o confronto de comparações entre grupos de dados.
Por exemplo, as médias mensais  das vendas de diferentes vendedores de uma loja de roupas ou o tipo de roupa mais vendida no mês.  

## Média Aritimética 
A média aritimética nada mais é do que a soma de todo o seu conjunto de dados dividido pelo total deste mesmo conjuto, segue a expressão matemática:

- Média Populacional ($\mu$)
<div align = "center" >

$\mu = \frac{1}{N} \sum_{i=1}^{N}x_{i}$

</div>


Para o entendimento de leitores não familiarizados com a linguaguem matemática: 
1. **$\mu$** leia **mu**   
2.  **$\sum$** leia **somatório**, no caso estamos de $\sum_{i=1}^{N}$, estamos somando os temos da posição 1 até a posição N. 
3. Em **$x_{i}$** estamos informando i-ésimo termo da sequência de valores, ou seja, quando temos o seguinte **$i=1$** estamos dizendo que o valor estrá na posição 1 da sequência.



- Média Amostral ($\bar{X}$) 

A média amostral é representada por $\bar{X}$, leia (x barra), também fazemos a soma de todos os valores da amostra e dividimos pelo total da amostral.
<div align = "center" >

$\bar{X} = \frac{1}{n} \sum_{i=1}^{n}x_{i}$

</div>

Exemplo: Vamos supor que queremos obter a média das idades de cinco indivíduos, sendo elas:  25, 30, 78, 15, 32.

temos como resultado:
<div align = "center">

$\mu = \frac{1}{N} \sum_{i=1}^{N}x_{i}$ 

</div>
<div align = "center">

$\mu = \frac{1}{5} \sum_{i=1}^{5}x_{i}$

</div>

<div align = "center">

$\mu = \frac{25 + 30 + 78 + 15 + 32}{5}= 36$ 


</div>


In [15]:
# Usando Python para calculcar a média de conjunto de dados
n=5
idade = [25, 30, 78, 15, 32]
media = sum(idade)/n
print(media)

36.0


In [16]:
# Usando Pandas
idade =pd.Series([25, 30, 78, 15, 32])
media = idade.mean()
print(media)

36.0
