<a href="https://colab.research.google.com/github/JosenildoJunior/StatPyDataScience/blob/main/Medidas_de_posi%C3%A7%C3%A3o_e_dispers%C3%A3o.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Estatística com Python: Um Guia para Estudos e Solução de Problemas


# **Medidas de posição**

Breve Resumo:

Medidas de posição são estatísticas que resumem a localização de um conjunto de dados em relação a um valor central. As medidas de posição mais comuns são a média, a mediana e a moda.

Quando Utilizar:

- Na análise de dados para descrever a posição dos valores em um conjunto de dados.
- Em situações onde se busca compreender a distribuição dos dados em relação a um valor central.
- Em análises exploratórias para entender como os valores de um conjunto de dados se distribuem.

## **Média aritmética, Moda e Mediana**

É possível realizar os cálculos dessa medida manualmente, por assim dizer. No entanto, utilizaremos bibliotecas para facilitar essa parte. Portanto, o primeiro passo é realizar a importação das mesmas.

In [None]:
# Manipulação de dados
import pandas as pd

# Algébra linear
import numpy as np

# Funções estatísticas
import statistics

# Biblioteca para cálculo matématicos
import math

Gerando dados fictícios.

In [None]:
# Criando uma tabela
dados = np.array([150, 151, 152, 152, 153, 154, 155, 155, 155, 155, 156, 156, 156,
                  157, 158, 158, 160, 160, 160, 160, 160, 161, 161, 161, 161, 162,
                  163, 163, 164, 164, 164, 165, 166, 167, 168, 168, 169, 170, 172,
                  173])

### *Média*

Breve Resumo:

A média aritmética é uma medida que representa o valor médio de um conjunto de dados, sendo útil para obter uma representação central em distribuições aproximadamente simétricas, sem a presença de valores extremos que possam distorcer o resultado (outliers).

Quando Utilizar:

- Para calcular uma representação central de um conjunto de dados.
- Quando se trabalha com dados numéricos que seguem uma distribuição simétrica.
- Em situações em que os valores extremos não têm um impacto desproporcional no resultado desejado.
- Em análises estatísticas simples onde a tendência central é a principal preocupação.

In [None]:
# Calculando a média e armazenando em uma variável
media = dados.mean()

# Exibindo a média
media

160.375

### *Mediana*

Breve Resumo:

A mediana, medida de posição em dados ordenados, é valiosa em distribuições onde outliers podem afetar a interpretação da média aritmética. Divide o conjunto em duas partes iguais, sendo o valor central quando os dados estão ordenados. Essencial em cenários onde robustez contra outliers é desejada.

Quando Utilizar:

- Em distribuições onde a presença de outliers pode afetar significativamente a média aritmética.
- Em conjunto com a média para avaliar a dispersão e simetria dos dados.
- Em situações em que se deseja uma medida de posição que seja menos sensível a valores extremos.
- Para compreender a distribuição central dos dados em diferentes cenários estatísticos.

In [None]:
# Calculando a mediana e armazenando em uma variável
mediana = np.median(dados)

# Exibindo a mediana
mediana

160.0

### *Moda*

Breve Resumo:

A moda representa o valor mais frequente em um conjunto de dados. Útil para identificar padrões e tendências de repetição nos dados. Enquanto média e mediana focam em valores centrais, a moda destaca valores mais recorrentes na distribuição.






Quando Utilizar:

- Para identificar o valor mais frequente em um conjunto de dados.
- Destacar padrões e repetições na distribuição.
- Em situações onde a frequência de ocorrência dos dados é crucial.
- Complementar informações fornecidas pela média e mediana.

In [None]:
# Calculando a moda e armazenando em uma variável
moda = statistics.mode(dados)

# Exibindo a moda
moda

160

Exibindo todos os valores.


In [None]:
print(f"A média de desses dados é igual a: {media}, a mediana é: {mediana} e a moda é: {moda}")

A média de desses dados é igual a: 160.375, a mediana é: 160.0 e a moda é: 160



Interessante observar que, já que os dados não têm valores exorbitantes (outliers), a média e a mediana estão bem parelhas.

## **Média ponderada**

Breve Resumo:

A média ponderada é uma medida de tendência central que ajusta os valores de um conjunto de dados com base em diferentes pesos atribuídos a cada elemento. Essa técnica é útil quando certos elementos têm maior importância, fornecendo uma representação mais precisa dos dados.

Quando Utilizar:

- Em situações onde alguns elementos do conjunto têm maior relevância que outros.
- Quando é necessário considerar a importância ou peso de cada valor na média final.
- Em cálculos que exigem uma representação mais precisa dos dados, levando em conta a influência de determinados elementos.
- Em contextos nos quais a média aritmética tradicional não reflete adequadamente a contribuição real de cada elemento.


Gerando dados

In [None]:
# criando um array
notas = np.array([9, 8, 7, 3])

# criando um array
pesos = np.array([1, 2, 3, 4])

Para calcular a média, será utilizada uma função do numpy, passando como parâmetros o vetor das notas e o vetor peso, referente aos bimestres neste caso.

In [None]:
# Calculando a média ponderada
media_ponderada = np.average(notas, weights=pesos)

# Exibindo a média ponderada
media_ponderada

5.8

## **Média harmônica**

Breve Resumo:

A média harmônica é uma medida estatística que difere da média aritmética tradicional. Ela é calculada como o inverso da média dos inversos dos valores.

A média harmônica pode ser utilizada em situações onde a ênfase em valores menores é crítica, como no cálculo de métricas de desempenho em problemas de classificação desbalanceada, onde a classe minoritária é crucial.

Importando o pacote

In [None]:
# Realizando a importação da biblioteca para cálculo da média harmônica
from scipy.stats.mstats import hmean

In [None]:
# Realizando o cálculo  da média
hmean(dados)

160.1647194799467

A média harmonica é uma medida de tendência central que leva em consideração a importância relativa dos números. Se os números são todos iguais, a média harmonica será igual à média aritmética. Se os números são mais dispersos, a média harmonica será mais diferente da média aritmética.

## **Média geométrica**


Breve Resumo:

A média geométrica é uma medida de tendência central que é obtida extraindo-se a raiz n-ésima da multiplicação dos n termos positivos de um conjunto de dados. Ela é útil para entender a variabilidade e posição relativa dos valores, especialmente em conjuntos de dados com valores positivos que se comportam como progressões geométricas.

Quando Utilizar:

- Na análise de dados para avaliar a variabilidade e identificar padrões, especialmente em conjuntos de dados com valores positivos que se comportam como progressões geométricas.
- Em situações onde se busca compreender a distribuição dos dados em diferentes partes, especialmente em conjuntos de dados com valores positivos que se comportam como progressões geométricas.
- Em análises exploratórias para entender a posição relativa dos valores em um conjunto de dados, especialmente em conjuntos de dados com valores positivos que se comportam como progressões geométricas.

Importando o pacote necessário para o cálculo dessa média.

In [None]:
# Importando a biblioteca
from scipy.stats.mstats import gmean

In [None]:
# Realizando o cálculo
gmean(dados)

160.26958390038905

A média geométrica é uma medida de tendência central que leva em consideração a ordem dos números. Se os números estão próximos uns dos outros, a média geométrica será mais próxima da média aritmética. Se os números estão mais dispersos, a média geométrica será mais diferente da média aritmética.

## **Média quadrática**

Breve Resumo:

A média quadrática é uma medida de tendência central que é obtida calculando-se a raiz quadrada da média aritmética dos quadrados dos valores de um conjunto de dados. Ela é útil para entender a variabilidade e posição relativa dos valores, especialmente em conjuntos de dados com valores positivos ou negativos que são distribuídos de forma simétrica.

Quando Utilizar:

- Na análise de dados para avaliar a variabilidade e identificar padrões, especialmente em conjuntos de dados com valores positivos ou negativos que são distribuídos de forma simétrica.
- Em situações onde se busca compreender a distribuição dos dados em diferentes partes, especialmente em conjuntos de dados com valores positivos ou negativos que são distribuídos de forma simétrica.
- Em análises exploratórias para entender a posição relativa dos valores em um conjunto de dados, especialmente em conjuntos de dados com valores positivos ou negativos que são distribuídos de forma simétrica.

Criando função para realizar o cálculo dessa média.

In [None]:
# Calculando a média quadrática
def quadratic_mean(dados):
  return math.sqrt(sum(n * n for n in dados) / len(dados))

In [None]:
# Aplicando a função
quadratic_mean(dados)

160.48091786876097

É possível observar que a mediana e a média quadrática estão bem próximas. Isso pode indicar que os dados estão bem simétricos. Por mais que sejam em sua maior parte diferentes, eles não estão concentrados em um mesmo ponto.

## **Quartis**

Breve Resumo:

Os quartis dividem um conjunto de dados em quatro partes iguais, fornecendo insights sobre a dispersão e simetria. Q1 indica o 25% inferior, Q3 o 75% inferior e Q2 é a mediana. São úteis para entender a variabilidade e posição relativa dos valores.

Quando Utilizar:

- Na análise de dados para avaliar a dispersão e identificar padrões.

- Em situações onde se busca compreender a distribuição dos dados em diferentes partes.

- Em análises exploratórias para entender a posição relativa dos valores em um conjunto de dados.

### *Numpy*

Nesta parte, os quartis serão calculados utilizando a biblioteca do NumPy.

In [None]:
# Calculando o Q1
q1 = np.quantile(dados, 0.25)

# Calculando o Q2
q2 = np.quantile(dados, 0.50)

# Calculando o Q3
q3 = np.quantile(dados, 0.75)

In [None]:
print(f"O Q1 é igual a: {q1}, o Q2 é igual a: {q2} e o Q3 é igual a {q3}")

O Q1 é igual a: 155.75, o Q2 é igual a: 160.0 e o Q3 é igual a 164.0


Podemos concluir que:
- 25% dos dados são menores ou iguais a 155.75,
- 50% dos dados são menores ou iguais a 160.0 e
- 75% dos dados são menores ou iguais a 164.0.

### *Pandas*

Utilizarei o Pandas para realizar o cálculo dos quartis.

In [None]:
# Transformando os dados em um Dataframe
df = pd.DataFrame(dados)

# Observando os dados
df.head()

Unnamed: 0,0
0,150
1,151
2,152
3,152
4,153


In [None]:
# Pegando os quartis, note que é possivél passar uma lista com os quartis desejados
df.quantile([0.25, 0.5, 0.75])

Unnamed: 0,0
0.25,155.75
0.5,160.0
0.75,164.0


Como os dados estão em um formato de DataFrame, é possível utilizar a função 'describe', que fornece várias estatísticas descritivas, incluindo quartis.

In [None]:
# Obtendo uma visão geral estatística dos dados
df.describe()

Unnamed: 0,0
count,40.0
mean,160.375
std,5.903877
min,150.0
25%,155.75
50%,160.0
75%,164.0
max,173.0


Ao utilizar a função **describe** em Pandas, podemos extrair informações valiosas sobre a distribuição dos dados:

- **Contagem (count):** Indica o número de entradas não nulas em nosso conjunto de dados.
- **Média (mean):** Representa a média aritmética dos valores, fornecendo um ponto de referência central.
- **Desvio padrão (std):** Oferece uma medida de dispersão, indicando o quão distantes os valores estão da média.
- **Valor Mínimo (min):** Aponta para o menor valor existente em nossos dados.
- **25º Percentil (25%):** Refere-se ao primeiro quartil, representando o valor abaixo do qual 25% dos dados estão concentrados.
- **50º Percentil (50%):** Denominado mediana, indica o ponto médio dos dados quando ordenados.
- **75º Percentil (75%):** Corresponde ao terceiro quartil, indicando o valor abaixo do qual 75% dos dados estão situados.
- **Valor Máximo (max):** Indica o maior valor presente em nossos dados.

Essas estatísticas proporcionam uma visão abrangente da distribuição e variabilidade dos dados, sendo essenciais para compreender a forma e características principais do conjunto de dados.


## **Percentis**

Breve Resumo:

Os percentis são medidas que dividem um conjunto de dados em 100 partes iguais, fornecendo insights sobre a dispersão, simetria e posição relativa dos valores. O percentil 25 indica o 25% inferior, o percentil 75 indica o 75% inferior e o percentil 50 é a mediana.

Quando Utilizar:

- Na análise de dados para avaliar a dispersão, identificar padrões e comparar grupos.
- Em situações onde se busca compreender a distribuição dos dados em diferentes partes.
- Em análises exploratórias para entender a posição relativa dos valores em um conjunto de dados.

In [None]:
# Percentil de 25%
percentil25 = np.percentile(dados, 25)

# Obetendo a mediana
percentil50 = np.percentile(dados, 50)

# Percentil de 75%
percentil75 = np.percentile(dados, 75)

In [None]:
print(f"O percentil 25% é igual a: {percentil25}, o percentil 50% é igual a: {percentil50} e o percentil 75% é igual a: {percentil75}")

O percentil 25% é igual a: 155.75, o percentil 50% é igual a: 160.0 e o percentil 75% é igual a: 164.0


Levando em consideração que esses dados se referem a alturas em centímetros, então é correto afirmar que 25% dos dados têm a altura girando em torno de 155 centímetros, enquanto 50% gira em torno de 160 e cerca de 75% da base tem altura inferior a 164 centímetros.

## **Desafio**

O objetivo desta tarefa é gerar as estatísticas para o atributo age da base de dados do censo

- Carregue o arquivo census.csv

- Calcule a média aritmética, média harmônica, média geométrica, média quadrática, a mediana e a moda. Compare os resultados

### *Carregando os dados*

In [None]:
# Acesso ao drive
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Importando os pacotes necessários.

In [None]:
# Manipulação de dados
import pandas as pd

# Algébra linear
import numpy as np

# Funções estatísticas
import statistics

# Biblioteca para cálculo matématicos
import math

In [None]:
# Importando o dataset
df = pd.read_csv('/content/drive/MyDrive/Estatística para ciência de dados/census.csv')

In [None]:
# Observando os dados
df.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


### *Calculando a média, mediana e a moda*

Esses cálculos devem ser realizados em uma coluna específica chamada 'age'. Dito isso, os cálculos que serão executados irão ser utilizando ela como base.

In [None]:
# Calculando a média
media = round(df['age'].mean(), 2)

# Calculando a mediana
mediana = df['age'].median()

# Calculando a moda
moda = df['age'].mode()

In [None]:
print(f"A média é igual a: {media}\nA mediana é igual a: {mediana}\nA moda é igual a: {moda}")

A média é igual a: 38.58
A mediana é igual a: 37.0
A moda é igual a: 0    36
Name: age, dtype: int64


É possível notar que a média e a mediana não estão tão distantes assim, demonstrando assim que os dados não possuem tantos outliers que estejam afetando grandemente a média. A moda desse conjunto de dados é 36, indicando que a maior parte dessa base de dados possui 36 anos.

### *Calculando a média geométrica, média harmônica, média quadrática*

Importando os pacotes

In [None]:
# Realizando a importação da biblioteca para cálculo da média harmônica
from scipy.stats.mstats import hmean

# Importando a biblioteca para calcular a média geométrica
from scipy.stats.mstats import gmean

Criando função para média quadrática

In [None]:
# Função para calcular a média quadrática
def quadratic_mean(dados):
  return math.sqrt(sum(n * n for n in dados) / len(dados))

Realizando os cálculos

In [None]:
# Calculando a média geométrica
media_geometrica = round(gmean(df['age']), 2)

# Calculando a média harmônica
media_harmonica = round(hmean(df['age']), 2)


# Calculando a média quadrática
media_quadratica = round(quadratic_mean(df['age']), 2)

In [None]:
print(f"A média geométrica é igual a: {media_geometrica}\nA média harmônica é igual a: {media_harmonica}\nA média quadrática a: {media_quadratica}")

A média geométrica é igual a: 36.21
A média harmônica é igual a: 33.92
A média quadrática a: 40.92


- A média geométrica de 36,21 está próxima da mediana que é de 37. Isso pode indicar que a presença de outliers não está afetando tanto a média geométrica.

- A média harmônica foi de 33,92, sendo menor que a mediana e que a média geométrica. Isso indica que possivelmente outliers estão afetando essa média.

- A média quadrática é de 40,92, sendo maior que todas as outras métricas. O que pode significar que outliers estão influenciando essa média.

Observando todas as métricas juntas.

In [None]:
print(f"A média é igual a: {media}\nA mediana é igual a: {mediana}\nA moda é igual a: {moda}")

print("-------------------------")

print(f"A média geométrica é igual a: {media_geometrica}\nA média harmônica é igual a: {media_harmonica}\nA média quadrática a: {media_quadratica}")

A média é igual a: 38.58
A mediana é igual a: 37.0
A moda é igual a: 0    36
Name: age, dtype: int64
-------------------------
A média geométrica é igual a: 36.21
A média harmônica é igual a: 33.92
A média quadrática a: 40.92


**Conclusão**

- A média de 38,58 indica que, em média, as pessoas do conjunto de dados têm 38 anos. A mediana de 37 indica que metade das pessoas do conjunto de dados tem 37 anos ou menos e metade tem 37 anos ou mais. A moda de 36 indica que a idade mais comum entre as pessoas do conjunto de dados é 36 anos.

- A média harmônica é menor que a média geométrica e a mediana, o que indica que os dados estão relativamente dispersos. A média quadrática é maior que a média geométrica e a mediana, o que também indica que os dados estão relativamente dispersos.

# **Medidas dispersão**

Breve Resumo:

Medidas de dispersão são estatísticas que resumem a variabilidade dos valores de um conjunto de dados em relação a um valor central. As medidas de dispersão mais comuns são a amplitude, a variância e o desvio padrão.

Quando Utilizar:

- Na análise de dados para descrever a variabilidade dos valores em um conjunto de dados.
- Em situações onde se busca compreender como os valores de um conjunto de dados se distribuem em relação a um valor central.
- Em análises exploratórias para entender como os valores de um conjunto de dados se espalham.

## **Amplitude total**

Breve Resumo:

A amplitude total, também conhecida como intervalo, é uma medida de dispersão que representa a diferença entre o maior e o menor valor de um conjunto de dados.

Quando Utilizar:

- Na análise de dados para descrever a variabilidade dos valores em um conjunto de dados.
- Em situações onde se busca compreender como os valores de um conjunto de dados se distribuem em relação a um valor central.
- Em análises exploratórias para entender como os valores de um conjunto de dados se espalham.

In [None]:
# Calculando a amplitude total
amplitude_total = dados.max() - dados.min()

# Exibindo o resultado
amplitude_total

23

Como utilizamos o conjunto de dados inicial podemos perceber uma amplitude total de 23, isso significa que a diferença entre o maior e menor valor dos dados é 23

## **Diferença interquartil**

Breve Resumo:

A diferença interquartil, também conhecida como amplitude interquartil ou IQR, é uma medida de dispersão que representa a diferença entre o terceiro quartil e o primeiro quartil.

Quando Utilizar:

- Na análise de dados para descrever a variabilidade dos valores em um conjunto de dados.
- Em situações onde se busca compreender como os valores de um conjunto de dados se distribuem em relação a um valor central.
- Em análises exploratórias para entender como os valores de um conjunto de dados se espalham.

Para realizar esse cálculo, será necessário saber primeiro qual o valor do terceiro e primeiro quartil.

In [None]:
# Obtendo o valor do terceiro quartil
q3 = np.quantile(dados, 0.75)

# Obtendo o valor do primeiro quartil
q1 = np.quantile(dados, 0.25)

# Exibindo os valores
print(f"O valor do primeiro quartil é: {q1} e o do terceiro quartil é: {q3}")

O valor do primeiro quartil é: 155.75 e o do terceiro quartil é: 164.0


Agora que já temos os valores, podemos dar continuidade aos cálculos.

In [None]:
# Realizando o cálculo
diferenca_interquartil = q3 - q1

# Observando o resultado
print(diferenca_interquartil)

8.25


Realizando a mesma operação, mas dessa vez utilizando uma biblioteca.

In [None]:
# Importando o pacote
import scipy.stats

# Realizando o cálculo
iqr = scipy.stats.iqr(dados)

# Observando o valor
print(iqr)

8.25


Como a diferença interquartil indica a distância entre o primeiro e o terceiro quartil, nesse caso, significa dizer que a diferença entre o primeiro e o terceiro é de 8,25 unidades. Se, por exemplo, o primeiro quartil é 20, o terceiro quartil seria 28,25.

## **Variância**


Breve Resumo:

A variância é uma medida de dispersão que representa a média dos quadrados das distâncias dos valores de um conjunto de dados em relação à média.

Quando Utilizar:

- Na análise de dados para descrever a variabilidade dos valores em um conjunto de dados.
- Em situações onde se busca compreender como os valores de um conjunto de dados se distribuem em relação a um valor central.
- Em análises exploratórias para entender como os valores de um conjunto de dados se espalham.

Importando bibliotecas necessarias

### *Numpy*

In [None]:
# Importando a biblioteca
import numpy as np

# Realizando o cálculo
variancia = np.var(dados)

# Exibindo o resultado
print(f"A variância é de: {variancia}")

A variância é de: 33.984375


### *Statistics*

In [None]:
# Funções estatísticas
import statistics

# Realizando o cálculo
variancia2 = statistics.variance(dados)

# Exibindo o resultado
print(f"A variância é de: {variancia2}")

A variância é de: 34


### Embora tenhamos uma variância de 33, ainda não podemos afirmar que temos uma variação média de 33 cm dos dados em relação à média. Para realizar uma afirmação como essa, precisamos calcular o desvio padrão.

## **Desvio padrão**

Breve Resumo:

O desvio padrão é uma medida de dispersão que representa a raiz quadrada da variância.

Dito isso utilizaremos a seguinte fórmula:
 - $\sigma = \sqrt{\sigma^2} $

Onde:

- $(\sigma)$ é o desvio padrão.
- $(\sigma^2)$ é a variância.

Quando Utilizar:

- Na análise de dados para descrever a variabilidade dos valores em um conjunto de dados.
- Em situações onde se busca compreender como os valores de um conjunto de dados se distribuem em relação a um valor central.
- Em análises exploratórias para entender como os valores de um conjunto de dados se espalham.

Utilizaremos novamente as bibliotecas NumPy e Statistics.

### *Numpy*

In [None]:
# Calculando o desvio
desvio_padrao = np.std(dados)

# Exibindo o resultado
print(desvio_padrao)

5.829611908180509


### *Statistics*

In [None]:
# Calculando o desvio
desviopadrao2 = statistics.stdev(dados)

#Exibindo o resultado
print(desviopadrao2)

5.830951894845301


### Um desvio padrão de 5,82 indica que, em média, os valores desse conjunto de dados estão a 5,82 unidades de distância da média.

### Levando em consideração que os dados são referentes a alturas em centímetros, podemos afirmar que os dados estão um pouco dispersos.

## **Coeficiente de variação**


Breve Resumo:

O coeficiente de variação é uma medida de dispersão relativa que representa o desvio padrão dividido pela média.

O coeficiente de variação é calculado da seguinte forma:

- $CV = σ / μ$

Onde:

- CV é o coeficiente de variação
- σ é o desvio padrão
- μ é a média

Quando Utilizar:

- Na análise de dados para comparar a variabilidade de dois ou mais conjuntos de dados com diferentes unidades de medida.
- Em situações onde se busca compreender a variabilidade dos valores de um conjunto de dados em relação à sua média.
- Em análises exploratórias para entender como os valores de um conjunto de dados se espalham em relação à sua média.

Calculando o coeficiente de variação **sem** o uso de pacotes

In [None]:
# Obtendo a média
media1 = dados.mean()

# Realizando o cálculo
coeficiente_variacao = round((desvio_padrao / media1) * 100, 2)

# Exibindo o resultado
print(f"O coeficiente de variação é de {coeficiente_variacao}%")

O coeficiente de variação é de 3.63%


Calculando o coeficiente de variação **com** o uso de pacotes

In [None]:
# Importando a biblioteca
import scipy.stats

# Realizando o cálculo
coeficiente_de_variacao2 = round(scipy.stats.variation(dados) * 100, 2)

# Exibindo o resultado
print(f"O coeficiente de variação é de {coeficiente_de_variacao2}%")

O coeficiente de variação é de 3.63%


Obtivemos um coeficiente de variação de 3,63%. Isso indica que os dados variam em média 3,63% da média.

# **Algoritmos de Machine Learning**

Breve Resumo:

Algoritmos de aprendizado de máquina são um tipo de inteligência artificial que permite que computadores aprendam a realizar tarefas sem serem explicitamente programados. Os algoritmos de aprendizado de máquina são treinados em um conjunto de dados de exemplos e, em seguida, podem ser usados para prever resultados para novos exemplos.

Quando Utilizar:

- Quando se deseja que um computador aprenda a realizar uma tarefa sem ser explicitamente programado.
- Quando se deseja que um computador seja capaz de aprender e se adaptar a novas informações.
- Quando se deseja que um computador seja capaz de tomar decisões de forma autônoma.

Nesta parte, a proposta é treinar três algoritmos de machine learning e analisar seus resultados utilizando como métricas as medidas tanto de posição quanto de dispersão. Dito isso, podemos seguir adiante.

### *Carregamento dos dados*

Nessa etapa do processo, é importante importar todas as bibliotecas necessárias para implementar um modelo de Machine Learning.

In [27]:
# Manipulação de arquivos
import pandas as pd

# Funções matemáticas
import numpy as np

# Biblioteca para visualização de dados
import seaborn as sns

# Importando as métricas de validação
from sklearn.metrics import accuracy_score, f1_score, recall_score, precision_score

# Bilioteca para realizção de amostras estratificadas
from sklearn.model_selection import train_test_split

Carregando os dados

In [28]:
# Acesso ao drive
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [29]:
# Importando o dataset
df = pd.read_csv('/content/drive/MyDrive/Estatística para ciência de dados/credit_data.csv')

In [30]:
# Observando as dimensões da base de dados
df.shape

(2000, 5)

In [31]:
# Observando os primeiros registros
df.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.64226,0
4,5,66952.688845,18.584336,8770.099235,1


Como todos os dados foram importados com sucesso e aparentemente estão em formatos compatíveis com os modelos, podemos seguir adiante.

### *Pré-Processamento*

Objetivos:

- Eliminar as variáveis que não serão utilizadas;
- Identificação de dados ausentes;

**Eliminando variavies que não serão utilizadas.**

A variável 'i#clientid' é referente ao ID do cliente. Logo, nessa situação, essa variável não é interessante. Sendo assim, ela será descartada.

In [32]:
# Removendo a coluna 'i#clientid' do Dataset
df = df.drop('i#clientid', axis = 1)

# Observando os valores
df.head()

Unnamed: 0,income,age,loan,c#default
0,66155.925095,59.017015,8106.532131,0
1,34415.153966,48.117153,6564.745018,0
2,57317.170063,63.108049,8020.953296,0
3,42709.534201,45.751972,6103.64226,0
4,66952.688845,18.584336,8770.099235,1


Agora que confirmamos a remoção da coluna, podemos dar continuidade ao processo.

**Tratando dados ausentes**

In [33]:
# Observando os valores ausentes
def sum_ausentes(df):
    p_faltantes = df.isnull().sum()
    valores_faltantes = pd.DataFrame({'Variavéis': df.columns,
                                           'Soma de ausentes': p_faltantes}
                                      ).reset_index(drop = True)

    return valores_faltantes.sort_values(by = ['Soma de ausentes'], ascending = False)

# Exibindo os valores
sum_ausentes(df)

Unnamed: 0,Variavéis,Soma de ausentes
1,age,3
0,income,0
2,loan,0
3,c#default,0


Aqui podemos confirmar que existem 3 dados ausentes na coluna 'idade'. 3 dados de 2000 não é uma quantidade tão relevante assim nesse caso. Sendo assim, vou excluir as linhas que possuem valores ausentes.

In [34]:
# Excluindo linhas com valores ausentes
df = df.dropna()

# Exibindo os valores
sum_ausentes(df)

Unnamed: 0,Variavéis,Soma de ausentes
0,income,0
1,age,0
2,loan,0
3,c#default,0


Agora podemos confirmar que não existem mais valores ausentes no conjunto de dados.

In [35]:
# Observando as dimensões da base de dados
df.shape

(1997, 4)

Como só existiam 3 linhas com valores ausentes e fizemos a remoção, podemos observar que agora nosso conjunto de dados tem apenas 1997 linhas, 3 a menos que antes da remoção.

Com essa etapa concluída, podemos prosseguir com o processo.

### *Machine Learning*

Importando os modelos que serão utilizados

In [18]:
# Importando os modelos
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

Separando os dados.

In [38]:
# Separando os dados em X e Y

# Variaveis preditoras
X = df.drop('c#default', axis = 1)

# Variavel resposta
y = df['c#default']

Criando listas para armazenar os resultados das predições

In [40]:
# Criando a lista para armazenar os resultado do Naive Bayes
resultados_naive_bayes = []

# Criando a lista para armazenar os resultado da Regressão Logística
resultados_logistica = []

# Criando lista para armazenar os resultados da Random Forest
resultados_forest = []

Criando um laço de repetição para testar cada modelo 30 vezes, para no final armazenar os resultados das prediçoes nas listas e obter suas métricas

In [41]:
# Criando o laço
for i in range(30):
  # Realizando a divisão entre os dados de treino e teste
  X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(X, y, test_size = 0.2,
                                                                   stratify = y, random_state = i)

  # Criando o modelo
  naive_bayes = GaussianNB()

  # Treinando o modelo
  naive_bayes.fit(X_treinamento, y_treinamento)

  # Incrementando o resultado da acurácia na lista criada anteriormente
  resultados_naive_bayes.append(accuracy_score(y_teste, naive_bayes.predict(X_teste)))

  # Criando o modelo
  logistica = LogisticRegression()

  # Treinando o modelo
  logistica.fit(X_treinamento, y_treinamento)

  # Incrementando o resultado da acurácia na lista criada anteriormente
  resultados_logistica.append(accuracy_score(y_teste, logistica.predict(X_teste)))

  # Criando o modelo
  random_forest = RandomForestClassifier()

  # Treinando o modelo
  random_forest.fit(X_treinamento, y_treinamento)

  # Incrementando o resultado da acurácia na lista criada anteriormente
  resultados_forest.append(accuracy_score(y_teste, random_forest.predict(X_teste)))

*Exibindo a lista com a acurácia de cada modelo cada vez que ele foi testado*

In [42]:
# Exibindo a acurácia de cada modelo
print(resultados_naive_bayes,'\n', resultados_logistica, '\n',resultados_forest)

[0.925, 0.925, 0.9325, 0.925, 0.92, 0.905, 0.9175, 0.9175, 0.9125, 0.9325, 0.9225, 0.9125, 0.935, 0.9175, 0.925, 0.9175, 0.9275, 0.92, 0.9325, 0.92, 0.93, 0.905, 0.9175, 0.9325, 0.9425, 0.9375, 0.94, 0.92, 0.935, 0.925] 
 [0.9325, 0.91, 0.9125, 0.9225, 0.9075, 0.89, 0.91, 0.9075, 0.8775, 0.915, 0.9175, 0.9, 0.925, 0.9175, 0.9025, 0.9125, 0.9525, 0.91, 0.9225, 0.9075, 0.925, 0.905, 0.9075, 0.945, 0.9225, 0.9275, 0.9225, 0.9175, 0.91, 0.9] 
 [0.97, 0.9875, 0.9825, 0.995, 0.98, 0.985, 0.9825, 0.9875, 0.9725, 0.985, 0.9825, 0.9825, 0.9725, 0.985, 0.98, 0.975, 0.9875, 0.9825, 0.99, 0.9875, 0.9775, 0.975, 0.98, 0.985, 0.9875, 0.995, 0.9925, 0.9825, 0.9875, 0.9925]


O proximo passo é transformar cada uma dessa lista em um DataFrame para utilizar a função 'describe' para conseguirmos um resumo estatistica inicial para nossos dados

#### *NaiveBayes*

In [47]:
# Transformando em um DataFrame
df_bayes = pd.DataFrame(resultados_naive_bayes)

# Observando os valores
df_bayes.head()

Unnamed: 0,0
0,0.925
1,0.925
2,0.9325
3,0.925
4,0.92


#### *Regressão Logística*

In [48]:
# Transformando em um DataFrame
df_logistica = pd.DataFrame(resultados_logistica)

# Observando os valores
df_logistica.head()

Unnamed: 0,0
0,0.9325
1,0.91
2,0.9125
3,0.9225
4,0.9075


#### *RandomForest*

In [46]:
# Transformando em um DataFrame
df_forest = pd.DataFrame(resultados_forest)

# Observando os valores
df_forest.head()

Unnamed: 0,0
0,0.97
1,0.9875
2,0.9825
3,0.995
4,0.98
