# <font color=blue> Aula 05 - Distribução de Frequência e Medidas de Posição

In [None]:
import pandas as pd
import numpy as np
import math
import statistics

## <font color = blue> 1. Medidas de Posição

### 1.1 Média Aritmética 

In [None]:
carros = pd.read_csv('../0_bases_originais/db.csv', delimiter=';')

In [None]:
carros.head()

In [None]:
carros.shape

In [None]:
carros.count()

In [None]:
def media(coluna):
  soma = 0
  contagem = 0
  for linha in coluna:
    soma = soma + linha
    contagem += 1
  media = soma / contagem
  return media

In [None]:
m = media(carros['Valor'])
print(f'A média do valor dos veículos é de {m:.2f}')

In [None]:
m2 = carros['Valor'].mean()
print(f'A média do valor dos veículos é de {m2:.2f}')

### 1.2 Mediana

In [None]:
mediana = carros['Valor'].median()
print(f'A mediana do valor dos veículos é de {mediana:.2f}')

### 1.3 Moda

In [None]:
moda_ano = statistics.mode(carros['Ano'])
moda_motor = statistics.mode(carros['Motor'])

In [None]:
carros['Ano'].mode()

In [None]:
print(f'O ano que mais se repete na base de dados é: {moda_ano}')

In [None]:
print(f'O modelo de motor que mais se repete é: {moda_motor}')

In [None]:
moda_nome = statistics.mode(carros['Nome'])

## <font color = blue> 2. Trabalhando com dados nulos

### 2.1 Encontrar dados nulos

In [None]:
carros.isnull().sum()

In [None]:
carros.isnull().sum() / carros.count() * 100

### 2.2 Excluir linhas que possuem dados nulos

In [None]:
carros_sem_null = carros.dropna()

In [None]:
carros_sem_null.head()

In [None]:
carros.shape

In [None]:
carros_sem_null.shape

In [None]:
100 - int(carros_sem_null.shape[0]) / int(carros.shape[0]) * 100

Como podemos ver ao excluir as linhas que possuem dados nulos perdemos quase 24% das informações contidas na base de dados.

### 2.3 Substituir valores nulos

Após analises feitas sobre a **média, mediana e moda** em nosso dataset, podemos substituir os valores nulos das variáveis quantitativas tanto discretas quanto continuas por alguma dessas méticas.
Para as variáveis qualitativas podemos substituir esses valores nulos para '*Não Informado*' por exemplo.

In [None]:
carros.head()

In [None]:
carros.isnull().sum() 40 e 34

In [None]:
carros[carros['Zero_km'] == True]

A primeira análise em nossso dataset mostra que os veículos que possúem quilomentragem nula são os veículos zero_km.

Sendo assim podemos substituir essas informações para 0

In [None]:
carros['Quilometragem'].fillna(0, inplace = True)

## <font color = blue> 3. Dados Agrupados por Categoria 

In [None]:
carros = pd.read_csv('../0_bases_originais/db.csv', delimiter=';')

In [None]:
carros['Quilometragem'].fillna(0, inplace = True)

In [None]:
carros.head()

In [None]:
ano_agrupado = carros.groupby('Ano')
motor_agrupado = carros.groupby('Motor')
zero_km_agrupado = carros.groupby('Zero_km')

In [None]:
ano_agrupado

In [None]:
carros['Ano'][carros['Ano'] <= 1992].count()

In [None]:
motor_agrupado.count()

In [None]:
motor_agrupado.count()[['Nome']]

In [None]:
zero_km_agrupado.count()[['Nome']]

In [None]:
zero_km_agrupado.sum()

In [None]:
zero_km_agrupado.mean()

In [None]:
motor_agrupado.mean()[['Valor']]

## <font color = blue> 4. Dados Agrupados por Classe

In [None]:
n = carros['Nome'].count()

In [None]:
k = 10

In [None]:
k

In [None]:
Li = min(carros['Ano'])

In [None]:
Ls = max(carros['Ano'])

In [None]:
Li

In [None]:
Ls

In [None]:
At = Ls - Li

In [None]:
At

In [None]:
Ac = At / k

In [None]:
Ac

In [None]:
Ac = 3

In [None]:
dicionario = {'1990 |- 1994': carros['Ano'][carros['Ano'] < 1994].count(), 
              '1994 |- 1997': carros['Ano'][(carros['Ano'] >= 1994) & (carros['Ano'] < 1997)].count(),
              '1997 |- 2000': carros['Ano'][(carros['Ano'] >= 1997) & (carros['Ano'] < 2000)].count(),
              '2000 |- 2004': carros['Ano'][(carros['Ano'] >= 2000) & (carros['Ano'] < 2004)].count(),
              '2004 |- 2007': carros['Ano'][(carros['Ano'] >= 2004) & (carros['Ano'] < 2007)].count(),
              '2007 |- 2010': carros['Ano'][(carros['Ano'] >= 2007) & (carros['Ano'] < 2010)].count(),
              '2010 |- 2013': carros['Ano'][(carros['Ano'] >= 2010) & (carros['Ano'] < 2013)].count(),
              '2013 |- 2016': carros['Ano'][(carros['Ano'] >= 2013) & (carros['Ano'] < 2016)].count(),
              '2016 |- 2019': carros['Ano'][(carros['Ano'] >= 2016) & (carros['Ano'] < 2019)].count(),
              '2019 |- 2022': carros['Ano'][(carros['Ano'] >= 2019) & (carros['Ano'] < 2022)].count()}


In [None]:
dicionario

In [None]:
classe_ano = pd.Series(data=dicionario)

In [None]:
classe_ano[1]

## <font color = blue> 5. Quartil

In [None]:
array_km = np.array(carros['Quilometragem'], dtype=int)

In [None]:
array_km

In [None]:
Q1 = np.quantile(array_km,0.25)
Q2 = np.quantile(array_km,0.5)
Q3 = np.quantile(array_km,0.75)
Q4 = np.quantile(array_km, 1)

print(f'Q1: {Q1}') 
print(f'Q2: {Q2}') 
print(f'Q3: {Q3}') 
print(f'Q4: {Q4}')  

## <font color = blue> 6. Percentil

In [None]:
percentil = np.percentile(array_km, 85)

In [None]:
print(f'O percentil 88 da quilometragem é de {percentil:.2f}')

In [None]:
carros.describe()