Esse dataset eu peguei no kaggle, para enteder melhor os dados leia mais sobre o sataset [aqui](https://www.kaggle.com/datasets/ruchi798/data-science-job-salaries). Vamos utilizar esse dataset na maioria dos exemplos.

In [1]:
# Importando a biblioteca pandas
import pandas as pd 

# Importando o dataset
salarios_df = pd.read_csv('base-de-dados/ds_salaries.csv', index_col=0) 

# üî∫ Distribui√ß√£o de frequ√™ncias

Em uma pesquisa, por mais simples que ela seja, quando coletamos os dados, √© fundamental que eles sejam organizados e analisados. A maneira mais comum de analiz√°-los √© entendo como esses dados est√£o distribuidos.

## üîπ Frequ√™ncia absoluta

A frequ√™ncia absoluta nada mais √© que a quantidade de vezes que um mesmo elemento aparece num conjunto de dados. E a frequ√™ncia absoluta acumulada nada mais √© que a soma de frequ√™ncias absolutas.<br>

Vamos pegar o nosso dataset e an√°lisar a frequ√™ncia absoluta da coluna **job_title** e ver qual profiss√£o tem mais pessoas atuando. 

In [124]:
# calculando a frequ√™ncia absoluta
freq_abs = salarios_df['job_title'].value_counts()

# visualiando as 5 profiss√µes com mais pessoas atuando
freq_abs.head()

Data Scientist               143
Data Engineer                132
Data Analyst                  97
Machine Learning Engineer     41
Research Scientist            16
Name: job_title, dtype: int64

 <br>

Para ficar mais agrad√°vel a visualiza√ß√£o dessa informa√ß√£o vamos criar um dataframe.

In [125]:
# criando o dataframe
job_title_freq_abs = pd.DataFrame({'Freq. absoluta': freq_abs})

# definindo um r√≥tulo para a coluna de indices
job_title_freq_abs.rename_axis('Profiss√£o', axis='columns', inplace=True)

# mostrando as 5 profiss√µes com mais pessoas atuando
job_title_freq_abs.head()

Profiss√£o,Freq. absoluta
Data Scientist,143
Data Engineer,132
Data Analyst,97
Machine Learning Engineer,41
Research Scientist,16


## üîπ Frequ√™ncia Relativa

A frequ√™ncia relativa nada mais √© que a frequ√™ncia absoluta de um determinado dado divido pela quantidade de dados coletado. √â muito comum representar esses dados em forma de porcentagem e para isso basta multiplicar o resultado da opera√ß√£o por 100. A frequ√™ncia relativa acumulada √© a soma de frequ√™ncias relativas.<br>

Vamos pegar o dataframe sobre a frequ√™ncia absoluta que criamos no t√≥pico passado e acrescentar a ele uma nova coluna que informa a frequ√™ncia relativa.

In [126]:
# acrescentando a coluna sobre freq. relativa no dataframe
job_title_freq_abs.loc[:,'Freq. relativa (%)'] = round(salarios_df['job_title'].value_counts(normalize=True) * 100, 2)

# visualisando o novo dataframe
job_title_freq_abs.head()

Profiss√£o,Freq. absoluta,Freq. relativa (%)
Data Scientist,143,23.56
Data Engineer,132,21.75
Data Analyst,97,15.98
Machine Learning Engineer,41,6.75
Research Scientist,16,2.64


## üîπ Histograma

Um histograma conciste em um gr√°fico com barras cujo o objetivo √© ilustrar como um determinado conjunto de dados est√° distribuido, onde o eixo horizontal √© dividido em pequenos intervalos, demonstrando valores assumidos pela vari√°vel de interesse. J√° o eixo vertical √© proporcional √† frequ√™ncia de observa√ß√µes da amostra onde os valores pertencem a tal intervalo.<br>

Um histograma torna f√°cil ver onde a maioria dos valores se classificam em uma escala de medi√ß√£o e quanta varia√ß√£o existe entre eles. Veja um exemplo:<br><br>

<img src='https://eprconsultoria.com.br/wp-content/uploads/2021/07/Grafico-de-Barra-vs-Histograma-1024x485.png' width = '700' style=float:left>

# üî∫ Medidas de tend√™ncia central

As medidas de tendencia central servem para descrever um certo conjunto de dados, para encontrar uma tend√™ncia central como o titulo ja diz, por isso fazem parte da estat√≠stica descritiva.

## üîπ M√©dia

A m√©dia √© calculada somando-se todos os valores de um conjunto de dados e dividindo-se pelo n√∫mero de elementos deste conjunto. Como a m√©dia √© uma medida sens√≠vel aos valores da amostra, √© mais adequada para situa√ß√µes em que os dados s√£o distribu√≠dos mais ou menos de forma uniforme, ou seja, valores sem grandes discrep√¢ncias.

Vamos calcular a m√©dia da coluna **salary_in_usd**, que informa o sal√°rio de v√°rios profissionais em d√≥lares nos anos de 2020, 2021 e 2022. Vamos calcular a m√©dia salarial de cada ano.

In [127]:
# importando a biblioteca pandas
import pandas as pd 

# calculando a m√©dia salarial de cada ano 
medias = []
for ano in salarios_df['work_year'].unique():
    medias.append(round(salarios_df.loc[salarios_df['work_year'] == ano]['salary_in_usd'].mean(), 2))

# criando um dataframe para mostrar a informa√ß√£o de uma forma mais agrad√°vel
salary_media_anual = pd.DataFrame(medias, index=salarios_df['work_year'].unique(), columns=['M√©dia (US$)'])
salary_media_anual.rename_axis('Ano', axis='columns', inplace=True)

# mostrando o dataframe
salary_media_anual

Ano,M√©dia (US$)
2020,95813.0
2021,99853.79
2022,124522.01


## üîπ Moda 


A Moda representa o valor mais frequente de um conjunto de dados, sendo assim, para defini-la basta observar a frequ√™ncia com que os valores aparecem. √â possivel que um conjunto de dados tenha mais de um valor que s√£o repetidos e que possuam a mesma fr√™quencia.

Para calcular a moda vamos utilizar a coluna **employee_residence**, que representa o principal pa√≠s de resid√™ncia do funcion√°rio durante o ano de trabalho.

In [148]:
# importando a biblioteca pandas
import pandas as pd 

# calculando a moda da coluna employee_residence
moda = salarios_df['employee_residence'].mode()
vezes = salarios_df['employee_residence'].value_counts().max()
print(f'A moda √© {list(moda)} com uma comtabilidade de {vezes} apari√ß√µes nessa coluna.')

A moda √© ['US'] com uma comtabilidade de 332 apari√ß√µes nessa coluna.


## üîπ Mediana

A Mediana representa o valor central de um conjunto de dados, ou seja, aproximadamente 50% por cento dos dados est√£o abaixo dela e aproximadamente 50% est√£o acima dela. Para encontrar o valor da mediana √© necess√°rio colocar os valores em ordem crescente.

Quando o n√∫mero de elementos de um conjunto √© par, a mediana √© encontrada pela m√©dia dos dois valores centrais. Assim, esses valores s√£o somados e divididos por dois. J√° quando o n√∫mero de elementos for √≠mpar a mediana ser√° o valor central.

Vamos calcular a mediana da coluna do **salary_in_usd** para entender melhor a distribui√ß√£o dessa coluna. Vamos calcular a mediana de cada ano e uma mediana geral.

In [129]:
# importando a biblioteca pandas
import pandas as pd 

# calculando a mediana de cada ano da coluna salary_in_usd
medianas = []
for ano in salarios_df['work_year'].unique():
    medianas.append(round(salarios_df.loc[salarios_df['work_year'] == ano]['salary_in_usd'].median(), 2))
    
# calculando a mediana da coluna salary_in_usd
mediana_geral = salarios_df['salary_in_usd'].median()

# criando um dataframe para mostrar a informa√ß√£o de uma forma mais agrad√°vel
salary_mediana = pd.DataFrame(medianas+[mediana_geral], index=list(salarios_df['work_year'].unique())+['Geral'], columns=['Mediana (US$)'])
salary_mediana.rename_axis('Ano', axis='columns', inplace=True)

# mostrando o dataframe
salary_mediana

Ano,Mediana (US$)
2020,75544.0
2021,82528.0
2022,120000.0
Geral,101570.0
