# Introdução a estatístisca na análise de dados.

* Na análise de dados oriundos de tabelas, banco de dados e entre outros é muito comum a necessidade de utilizar tecnicas de estatístisca para melhor compreensão da informação. 
* Dentre outras as mais comuns são:
    1. Calcular a MÉDIA;
    2. Calcular a MEDIANA;
    3. Calcular a MODA;
    4. Calcular o 1º,2º,3º e 4º QUARTIS
    5. Calcular o DESVIO PADRÃO

### Todas essas informações ajuda na análise de dados tabulares e na criação de gráficos.

# Entendendo o calculo da média

### Conceito:
* A média, também chamada “média aritmética” na linguagem corrente, corresponde à soma dos valores de um grupo de valores, divida pelo número de valores do grupo.

### Exemplo:

* Dado uma lista={'1','2','3','4','5','6','7'} , o calculo da média se da na soma de todos os números e divir por 7(quantidade de numeros), que seria: media=28/7=4

### Dado essa introdução vamos ver como é aplicado essa calculo na análise de dados na programação Python com a biblioteca Pandas
#### obs: como requisito requer a instação do pandas com o comando pip install pandas

In [4]:
import pandas as pd # importando o pandas

# Vamos importar os dados para a leitura
### Tabela de dados de alunos

In [6]:
url="DataSet/alunos.csv"

alunos=pd.read_csv(url)
alunos

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,,False
2,Cátia,27,2.5,False
3,Denis,18,5.0,False
4,Beto,21,10.0,True
5,Bruna,23,,False
6,Dara,21,7.0,True
7,Carlos,19,6.0,True
8,Alice,35,5.6,False
9,Vitor,28,,False


### Dado a tabela de alunos vamos fazer o calculo da média encima da idade dos alunos utilizando a função mean():

In [18]:
media=alunos['Idade'].mean()
print(f'Media de idades é:  {media}')
# Podemos calcular também a média das notas dos alunos, levando em consideração as notas válidas
print(f'Média das notas dos alunos é: {alunos['Notas'].mean()}')

Media de idades é:  25.5
Média das notas dos alunos é: 6.8


# Agora que entendemos como é feito o calculo da média vamos ao conceito de MEDIANA

### Conceito:

* A mediana é o valor central de um conjunto de números colocados por ordem de grandeza. Trata-se do número que se encontra exatamente no centro, de modo que 50% dos números são superiores e 50% são inferiores a essa mediana.

### Exemplo:
* Dado a lista={'1','2','3','4','5','6','7'}, a mediana seria exatamente=4 (dividindo a lista ao meio), sabendo disso vamos a algumas informações.
    1. Calculo para mediana para número IMPAR de elementos: Faz a ordenação crescente dos elementos da tabela e faz o calculo (total_elementos+1)/2 , o resultado vai ser o indice do elemento correspondente a media, (7+1)/2=4 fazendo a contagem vamos ver que o numero 4 é o quarto elemento e esta no meio da tabela;

    2. Calculo para mediana para número PAR de elementos:   Dado a lista={'1','2','3','4','5','6','7','8'}', podemos calcular  (total_elementos+1)/2 que vai cortar a lista exatamente ao medio , no exempo entre {4,5}, somamos o primeiro elemento anterior e o primeiro elemento posterior e dividimos por 2 , no caso (4+5)/2=4.5, 4.5 é a nossa mediana. 

#### Agora voltamos para nossa tabela de Alunos para calcularmos a mediana das idades.

In [19]:
mediana=alunos['Idade'].median()
print(f'A mediana de idades é:  {mediana}')
# Calculando a mediana das notas
print(f'A mediana das notas é:  {alunos['Notas'].median()}')

A mediana de idades é:  24.5
A mediana das notas é:  7.0


# Agora vamos ao conceito de MODA
### Conceito:
* Levando em consideração no mundo real, moda é aquilo que mais se repete, ou seja, dado umas lista de elementos a moda é o elemento que mais se repete na lista.
### Mas vamos à algumas considerações:
* Dado a lista={'1','2','3','4','5','6','7','8'}, podemos reparar que nenhum elemento se repete, então podemos considera-la uma lista AMODAL, nenhum elemento se repete.

* Dado a lista={'1','2','3','3','4','5','6','7'}, podemos reparar que o elemento 3 repete 2 vezes, então podemos considera-la uma lista UNIMODAL, pois temos somente uma MODA na lista.


* Dado a lista={'1','2','3','3','4','4','5','6'}, podemos reparar que o elemento 3 e o 4 repetem 2 vezes cada, então podemos considera-la uma lista BIMODAL, pois duas modas na lista.


* E dado a lista={'1','2','3','3','4','4','5','5','6','7'}, podemos reparar que o elemento 3, 4, 5  repetem 3 vezes cada, então podemos considera-la uma lista MULTIMODAL, pois 3 modas na lista. 
    #### obs: 3 ou mais modas é considerado MULTIMODAL

### Agora vamos a nossa tabela.


In [25]:
# Dado a tabela dos alunos vamos calcular a moda das idades e notas

moda=alunos['Idade'].mode()
print(f'A moda de idades é:  {moda.values.tolist()}')# mostra a lista dos elementos que mais se repetem
# Calculando a moda das notas
print(f'A moda das notas é:  {alunos['Notas'].mode().tolist()}')

A moda de idades é:  [21]
A moda das notas é:  [7.0]


# Agora vamos entender o que é desvio padrão

### Conceito:
* O desvio padrão indica a medida de dispersão de um conjunto de dados em relação à sua média aritmética, indicando o quão próximas ou distantes dela esses dados estão. Ou seja, por muitas vezes os dados da média não corresponde a realidade daquela lista de dados, então ao calcular o desvio padrão podemos verificar o quão proximo esses dados estão da realidade.

* Segue a formula para calcular o desvio padrão:

![desvioPadrao.PNG](attachment:desvioPadrao.PNG)


### A fórmula do desvio-padrão pode parecer confusa, mas ela vai fazer sentido depois de a desmembrarmos. Nas próximas seções, vamos apresentar passo a passo um exemplo interativo. Segue uma breve amostra dos passos que vamos seguir:
* ETAPAS:
    * Etapa 1: calcular a média.
    * Etapa 2: calcular o quadrado da distância entre cada ponto e a média.
    * Etapa 3: somar os valores da Etapa 2.
    * Etapa 4: dividir pelo número de pontos.
    * Etapa 5: calcular a raiz quadrada.

### Vamos simplificar fazendo o calculo diretamente no PANDAS
#### OBS: Quanto mais alto for o valor do desvio padrão mais indica a distância dos valores em relação da média

In [27]:
# Dado a tabela dos alunos vamos calcular a o desio padrão das idades e notas

desvio_padrao=alunos['Idade'].std()
print(f'O desio padrão das idades é:  {desvio_padrao}')
# Calculando a o desvio padrão das notas
print(f'O desio padrão das notas é:  {alunos['Notas'].std()}')

O desio padrão das idades é:  6.070662334249088
O desio padrão das notas é:  2.204953101954366


# Enfim vamos ao conceito de Quartis

### Conceito:

* Os quartis são valores que dividem uma amostra de dados em quatro partes iguais e são usados para avaliar a dispersão e a tendência central de um conjunto de dados. Imagine uma reta de 0 a 100%, com etapas intermediárias de 25%, 50% e 75%. 

    * O primeiro quartil, também chamado de inferior, é o valor da posição central entre o primeiro termo e a mediana. Indica que, até seu valor, há 25% dos dados;

    * O segundo quartil, conhecido por mediana, é o valor até 50% da amostra ordenada;

    * O terceiro quartil, também chamado de superior, é o meio do caminho entre a mediana e o último termo. Indica que, até seu valor, há 75% dos dados.


#### Vamos ao PANDAS para exemplificar:

In [32]:
# Dado a tabela dos alunos vamos calcular os quartis de idades e alunos
print('Calculando os quartis das idades')
primeiro_quartil=alunos['Idade'].quantile(0.25)
segundo_quartil=alunos['Idade'].quantile(0.50)
terceiro_quartil=alunos['Idade'].quantile(0.75)

print(f'O primeiro quartil das idades é:  {primeiro_quartil}')
print(f'O segundo quartil das idades é:  {segundo_quartil}')
print(f'O terceiro quartil das idades é:  {terceiro_quartil}')
# Calculando os quartis das notas
print('Calculando os quartis das notas')
primeiro_quartil=alunos['Notas'].quantile(0.25)
segundo_quartil=alunos['Notas'].quantile(0.50)
terceiro_quartil=alunos['Notas'].quantile(0.75)
print(f'O primeiro quartil das notas é:  {primeiro_quartil}')
print(f'O segundo quartil das notas é:  {segundo_quartil}')
print(f'O terceiro quartil das notas é:  {terceiro_quartil}')

Calculando os quartis das idades
O primeiro quartil das idades é:  21.0
O segundo quartil das idades é:  24.5
O terceiro quartil das idades é:  28.75
Calculando os quartis das notas
O primeiro quartil das notas é:  5.449999999999999
O segundo quartil das notas é:  7.0
O terceiro quartil das notas é:  8.25


### Neste notebook, exploramos os conceitos fundamentais de análise estatística, incluindo média, mediana, moda, desvio padrão e quartis. Utilizando dados e exemplos práticos, discutimos como cada uma dessas medidas oferece insights valiosos sobre a distribuição e a variabilidade dos dados.
* Média: Calculamos a média para obter uma visão geral do valor central dos dados.
* Mediana: Identificamos a mediana para entender o ponto central da distribuição, especialmente útil em conjuntos de dados com * possíveis outliers.
* Moda: Analisamos a moda para descobrir os valores mais frequentes no conjunto de dados.
* Desvio Padrão: Calculamos o desvio padrão para medir a dispersão dos dados em relação à média, fornecendo uma ideia da variabilidade.
* Quartis: Examinamos os quartis para dividir os dados em partes iguais e entender a distribuição em diferentes intervalos.


### Este material visa proporcionar uma compreensão clara e prática dessas medidas estatísticas, complementando o conhecimento adquirido ao longo da minha trajetória acadêmica e profissional. A análise detalhada dos dados foi realizada com o apoio de ferramentas e técnicas modernas para garantir precisão e relevância.

#### Agradeço pela leitura e encorajo você a aplicar essas técnicas em suas próprias análises, explorando novas formas de interpretar e entender dados. Não hesite em compartilhar suas descobertas e insights!
