Esse dataset eu peguei no kaggle, para enteder melhor os dados leia mais sobre o sataset [aqui](https://www.kaggle.com/datasets/ruchi798/data-science-job-salaries). Vamos utilizar esse dataset na maioria dos exemplos.

In [1]:
# Importando a biblioteca pandas
import pandas as pd 

# Importando o dataset
salarios_df = pd.read_csv('base-de-dados/ds_salaries.csv', index_col=0) 

# 🔺 Distribuição de frequências

Em uma pesquisa, por mais simples que ela seja, quando coletamos os dados, é fundamental que eles sejam organizados e analisados. A maneira mais comum de analizá-los é entendo como esses dados estão distribuidos.

## 🔹 Frequência absoluta

A frequência absoluta nada mais é que a quantidade de vezes que um mesmo elemento aparece num conjunto de dados. E a frequência absoluta acumulada nada mais é que a soma de frequências absolutas.<br>

Vamos pegar o nosso dataset e análisar a frequência absoluta da coluna **job_title** e ver qual profissão tem mais pessoas atuando. 

In [124]:
# calculando a frequência absoluta
freq_abs = salarios_df['job_title'].value_counts()

# visualiando as 5 profissões com mais pessoas atuando
freq_abs.head()

Data Scientist               143
Data Engineer                132
Data Analyst                  97
Machine Learning Engineer     41
Research Scientist            16
Name: job_title, dtype: int64

 <br>

Para ficar mais agradável a visualização dessa informação vamos criar um dataframe.

In [125]:
# criando o dataframe
job_title_freq_abs = pd.DataFrame({'Freq. absoluta': freq_abs})

# definindo um rótulo para a coluna de indices
job_title_freq_abs.rename_axis('Profissão', axis='columns', inplace=True)

# mostrando as 5 profissões com mais pessoas atuando
job_title_freq_abs.head()

Profissão,Freq. absoluta
Data Scientist,143
Data Engineer,132
Data Analyst,97
Machine Learning Engineer,41
Research Scientist,16


## 🔹 Frequência Relativa

A frequência relativa nada mais é que a frequência absoluta de um determinado dado divido pela quantidade de dados coletado. É muito comum representar esses dados em forma de porcentagem e para isso basta multiplicar o resultado da operação por 100. A frequência relativa acumulada é a soma de frequências relativas.<br>

Vamos pegar o dataframe sobre a frequência absoluta que criamos no tópico passado e acrescentar a ele uma nova coluna que informa a frequência relativa.

In [126]:
# acrescentando a coluna sobre freq. relativa no dataframe
job_title_freq_abs.loc[:,'Freq. relativa (%)'] = round(salarios_df['job_title'].value_counts(normalize=True) * 100, 2)

# visualisando o novo dataframe
job_title_freq_abs.head()

Profissão,Freq. absoluta,Freq. relativa (%)
Data Scientist,143,23.56
Data Engineer,132,21.75
Data Analyst,97,15.98
Machine Learning Engineer,41,6.75
Research Scientist,16,2.64


## 🔹 Histograma

Um histograma conciste em um gráfico com barras cujo o objetivo é ilustrar como um determinado conjunto de dados está distribuido, onde o eixo horizontal é dividido em pequenos intervalos, demonstrando valores assumidos pela variável de interesse. Já o eixo vertical é proporcional à frequência de observações da amostra onde os valores pertencem a tal intervalo.<br>

Um histograma torna fácil ver onde a maioria dos valores se classificam em uma escala de medição e quanta variação existe entre eles. Veja um exemplo:<br><br>

<img src='https://eprconsultoria.com.br/wp-content/uploads/2021/07/Grafico-de-Barra-vs-Histograma-1024x485.png' width = '700' style=float:left>

# 🔺 Medidas de tendência central

As medidas de tendencia central servem para descrever um certo conjunto de dados, para encontrar uma tendência central como o titulo ja diz, por isso fazem parte da estatística descritiva.

## 🔹 Média

A média é calculada somando-se todos os valores de um conjunto de dados e dividindo-se pelo número de elementos deste conjunto. Como a média é uma medida sensível aos valores da amostra, é mais adequada para situações em que os dados são distribuídos mais ou menos de forma uniforme, ou seja, valores sem grandes discrepâncias.

Vamos calcular a média da coluna **salary_in_usd**, que informa o salário de vários profissionais em dólares nos anos de 2020, 2021 e 2022. Vamos calcular a média salarial de cada ano.

In [127]:
# importando a biblioteca pandas
import pandas as pd 

# calculando a média salarial de cada ano 
medias = []
for ano in salarios_df['work_year'].unique():
    medias.append(round(salarios_df.loc[salarios_df['work_year'] == ano]['salary_in_usd'].mean(), 2))

# criando um dataframe para mostrar a informação de uma forma mais agradável
salary_media_anual = pd.DataFrame(medias, index=salarios_df['work_year'].unique(), columns=['Média (US$)'])
salary_media_anual.rename_axis('Ano', axis='columns', inplace=True)

# mostrando o dataframe
salary_media_anual

Ano,Média (US$)
2020,95813.0
2021,99853.79
2022,124522.01


## 🔹 Moda 


A Moda representa o valor mais frequente de um conjunto de dados, sendo assim, para defini-la basta observar a frequência com que os valores aparecem. É possivel que um conjunto de dados tenha mais de um valor que são repetidos e que possuam a mesma frêquencia.

Para calcular a moda vamos utilizar a coluna **employee_residence**, que representa o principal país de residência do funcionário durante o ano de trabalho.

In [148]:
# importando a biblioteca pandas
import pandas as pd 

# calculando a moda da coluna employee_residence
moda = salarios_df['employee_residence'].mode()
vezes = salarios_df['employee_residence'].value_counts().max()
print(f'A moda é {list(moda)} com uma comtabilidade de {vezes} aparições nessa coluna.')

A moda é ['US'] com uma comtabilidade de 332 aparições nessa coluna.


## 🔹 Mediana

A Mediana representa o valor central de um conjunto de dados, ou seja, aproximadamente 50% por cento dos dados estão abaixo dela e aproximadamente 50% estão acima dela. Para encontrar o valor da mediana é necessário colocar os valores em ordem crescente.

Quando o número de elementos de um conjunto é par, a mediana é encontrada pela média dos dois valores centrais. Assim, esses valores são somados e divididos por dois. Já quando o número de elementos for ímpar a mediana será o valor central.

Vamos calcular a mediana da coluna do **salary_in_usd** para entender melhor a distribuição dessa coluna. Vamos calcular a mediana de cada ano e uma mediana geral.

In [129]:
# importando a biblioteca pandas
import pandas as pd 

# calculando a mediana de cada ano da coluna salary_in_usd
medianas = []
for ano in salarios_df['work_year'].unique():
    medianas.append(round(salarios_df.loc[salarios_df['work_year'] == ano]['salary_in_usd'].median(), 2))
    
# calculando a mediana da coluna salary_in_usd
mediana_geral = salarios_df['salary_in_usd'].median()

# criando um dataframe para mostrar a informação de uma forma mais agradável
salary_mediana = pd.DataFrame(medianas+[mediana_geral], index=list(salarios_df['work_year'].unique())+['Geral'], columns=['Mediana (US$)'])
salary_mediana.rename_axis('Ano', axis='columns', inplace=True)

# mostrando o dataframe
salary_mediana

Ano,Mediana (US$)
2020,75544.0
2021,82528.0
2022,120000.0
Geral,101570.0
