# Análise univariada

## Contextualização

A análise univariada corresponde a um processo de análise de dados que consiste em analisar um único
atributo de um conjunto de dados por vez. Dessa forma, cada atributo é analisado individualmente
de acordo com suas próprias características.

## Obtenção de dados

In [None]:
# needed packages
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

from enum import Enum

In [None]:
# load dataset
df = pd.read_csv("../datasets/processed/nps_dataset_processed.csv")

In [None]:
df.head()

### Helpers

In [None]:
# dataset entries
df_entries = df.shape[0]

class Quarter(Enum):
  Primeiro = 1
  Segundo = 2
  Terceiro = 3
  Quarto = 4

class Months(Enum):
  Janeiro = 1
  Fevereiro = 2
  Março = 3
  Abril = 4
  Maio = 5
  Junho = 6
  Julho = 7
  Agosto = 8
  Setembro = 9
  Outubro = 10
  Novembro = 11
  Dezembro = 12

## Análise exploratória

TIPOS DE VARIÁVEIS:

`Variáveis Quantitativas`: são as características que podem ser medidas em uma escala quantitativa, ou seja, apresentam valores numéricos que fazem sentido. Podem ser contínuas ou discretas.
* `Discretas`: características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores e, assim, somente fazem sentido valores inteiros. Geralmente são o resultado de contagens. Exemplos: número de filhos, número de bactérias por litro de leite, número de cigarros fumados por dia.
* `Contínuas`: características mensuráveis que assumem valores em uma escala contínua (na reta real), para as quais valores fracionais fazem sentido. Usualmente devem ser medidas através de algum instrumento. Exemplos: peso (balança), altura (régua), tempo (relógio), pressão arterial, idade.
---
`Variáveis Qualitativas (ou categóricas)`: são as características que não possuem valores quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja, representam uma classificação dos indivíduos. Podem ser nominais ou ordinais.
* `Nominais`: não existe ordenação dentre as categorias. Exemplos: sexo, cor dos olhos, fumante/não fumante, doente/sadio.
* `Ordinais`: existe uma ordenação entre as categorias. Exemplos: escolaridade (1o, 2o, 3o graus), estágio da doença (inicial, intermediário, terminal), mês de observação (janeiro, fevereiro,..., dezembro).

### Lista dos atributos a serem analisadas e seu tipo de variável

* `Market` - qualitativa categórica nominal
* `Survey date` - qualitativa categórica ordinais
* `Quarter` - qualitativa categórica ordinais
* `NPS` - qualitativa categórica ordinais


### `Market`

#### Q1. Quantos lugares foram abringidos?

In [None]:
market = df['Market'].unique()

print(market)
print(f"Há {len(market)} lugares abrangidos.")

#### Q2. Qual lugar teve maior número de avaliações?

In [None]:
number_of_reviews = df['Market'].value_counts()
number_of_reviews

In [None]:
market_with_more_reviews = number_of_reviews.index.values[0]
print(market_with_more_reviews)

In [None]:
number_of_reviews.plot(
  kind="bar",
  figsize=(20, 5),
  title='Número de avaliações por mercado',
  xlabel='Mercado'
)

plt.xticks(rotation = 0)

In [None]:
print(f"Q1 Resposta = O estado (mercado) com o maior numero de avaliações é {market_with_more_reviews}")

#### Q3. Qual lugar teve menor número de avaliações?

In [None]:
number_of_reviews = df['Market'].value_counts().sort_values(ascending=True)
number_of_reviews

In [None]:
number_of_reviews.plot(
  kind="bar",
  figsize=(20, 5),
  title='Número de avaliações por mercado',
  xlabel='Mercado'
)

plt.xticks(rotation = 0)

In [None]:
market_with_less_reviews = number_of_reviews.index.values[0]
print(f"Q1 Resposta = O estado (mercado) com o menor número de avaliações é {market_with_less_reviews}.")

### `Survey date`

#### Q1. Qual ano tem mais avaliações?

In [None]:
get_unique_years = df['Survey date'].str.split('-').str[0].astype(int)
get_unique_years_values = get_unique_years.value_counts()
get_unique_years = get_unique_years_values.index.values[0]

In [None]:
get_unique_years_values.plot(
  kind="bar",
  figsize=(20, 5),
  title='Número de avaliações de cada ano',
  xlabel='Ano'
)

plt.xticks(rotation = 0)

In [None]:
print(f"O ano com mais avaliações é {get_unique_years}.")

#### Q2. Qual mês tem mais avaliações?

In [None]:
get_unique_months = df['Survey date'].str.split('-').str[1].astype(int)
get_unique_months_values = get_unique_months.value_counts()
get_unique_months = get_unique_months_values.index.values[0]

In [None]:
get_unique_months_values.plot(
  kind="bar",
  figsize=(20, 5),
  title='Número de avaliações de cada mês',
  xlabel='Mês'
)

plt.xticks(rotation = 0)

In [None]:
print(f"O mês com mais avaliações é {Months(get_unique_months).name}.")

### `Quarter`

#### Q1. Qual trimestre tem mais avaliações?

In [None]:
quarter_with_reviews = df['Quarter'].value_counts()
quarter_with_reviews_output = df['Quarter'].value_counts().index[0]
quarter_with_reviews_output

In [None]:
quarter_with_reviews.plot(
  kind="bar",
  figsize=(20, 5),
  title='Número de avaliações de cada trimestre',
  xlabel='Trimestre'
)

plt.xticks(rotation = 0)

In [None]:
print(f"O {Quarter(quarter_with_reviews_output).name} trimestre tem mais avaliações.")

### `NPS`

#### Q1. Qual a média das avaliações?

In [None]:
reviews_mean = df['NPS'].mean()

result = ""

if reviews_mean < 7.0:
  result = "Detratores"
elif reviews_mean >= 7.0 and reviews_mean < 9.0:
  result = "Passivos"
else:
  result = "Promotores"

print(f"Com a nota {reviews_mean:.2f} as avaliações revelam que o NPS é: {result}")

#### Q2. Qual avaliação tem a maior aparição?

In [None]:
reviews_max = df['NPS'].max()

print(f"A maior nota dada nas avaliações é: {reviews_max}")

#### Q3. Quantidade de aparição de cada score

In [None]:
reviews_min = df['NPS'].min()

print(f"A menor nota dada nas avaliações é: {reviews_min}")

## Conclusão

Todas as respostas foram conseguidas e como próximo passo, vai ser criar um dashboard no Power BI.

obs: `Nesse EDA não vai ser feita a análise multivariada, para focar no dashboard do PowerBI`