*Aprendendo a criar gráficos estatísticos para explorar e comunicar informações presentes nos dados. Histogramas, boxplots, barras, etc.*

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/guilhermeonrails/data-jobs/refs/heads/main/salaries.csv")

df.head()

In [None]:
df.columns

In [None]:
# traduzindo o nome das colunas do arquivo de dados para o ptbr
renomear_colunas = {
    'work_year': 'ano',
    'experience_level': 'senioridade',
    'employment_type': 'contrato',
    'job_title' : 'cargo',
    'salary': 'salario',
    'salary_currency': 'moeda',
    'salary_in_usd': 'USD',
    'employee_residence': 'residencia',
    'remote_ratio': 'remoto',
    'company_location': 'empresa',
    'company_size': 'tamanho_empresa'
}

df.rename(columns=renomear_colunas, inplace=True)
df.head()

In [None]:
# .dropna() -> remove as linhas que possuem valores nulos
df_limpo = df.dropna()

In [None]:
df_limpo.head()

In [None]:
# Modificando o nome das categorias no arquivo base
senioridade = {
    'EN': 'Júnior',
    'MI': 'Pleno',
    'SE': 'Sênior',
    'EX': 'Especialista'
}

df["senioridade"] = df["senioridade"].replace(senioridade)
df["senioridade"].value_counts()

*Iniciando a visualização gráfica dos dados*

In [None]:
# Este código cria um gráfico de barras que mostra a contagem de valores na coluna 'senioridade'
# .value_counts() conta a frequência de cada valor único na coluna
# .plot(kind="bar") gera um gráfico de barras com essas contagens
# title="Distribuição de senioridade" adiciona um título ao gráfico

df_limpo['senioridade'].value_counts().plot(kind="bar", title="Distribuição de senioridade")

In [None]:
import seaborn as sns

*O Seaborn: É uma biblioteca de visualização de dados baseada no Matplotlib. Fornece uma interface de alto nível para criar gráficos estatísticos atraentes e informativos O alias 'sns' é comumente usado como abreviação*

In [None]:
sns.barplot(data=df_limpo, x="senioridade", y="USD")

*Personalizando o gráfico para adicionar mais informações no gráfico*

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.Figure(figsize=(8, 5))
sns.barplot(data=df_limpo, x="senioridade", y="USD")
plt.title("Média salarial por senioridade")
plt.xlabel("Senioridade")
plt.ylabel("Salário médio anual (USD)")

plt.show()

*Ordenar as barras do gráfico da maior barra para a menor barra*

In [None]:
df_limpo.groupby("senioridade")["USD"].mean().sort_values(ascending=False).plot(kind="bar")

*Agrupar os dados por senioridade e calcula a média salarial em USD para cada grupo. Ordenando os valores em ordem decrescente. Por fim, cria um gráfico de barras com os resultados*

In [None]:
# Outra forma de chegar ao mesmo resultado de ordenamento das barras do gráfico anterior

ordem = df_limpo.groupby("senioridade")["USD"].mean().sort_values(ascending=False).index
ordem

In [None]:
plt.Figure(figsize=(8, 5))
sns.barplot(data=df_limpo, x="senioridade", y="USD", order = ordem)
plt.title("Média salarial por senioridade")
plt.xlabel("Senioridade")
plt.ylabel("Salário médio anual (USD)")

plt.show()

*Ordenar as barras do gráfico da menor barra para a maior barra*

In [None]:
df_limpo.groupby("senioridade")["USD"].mean().sort_values(ascending=True).plot(kind="bar")

*Gráfico do tipo Histograma*

In [None]:
plt.figure(figsize=(8,4))
sns.histplot(df_limpo["USD"], bins=50, kde=True)
plt.title("Distribuição salarial")
plt.xlabel("Salário anual (USD)")
plt.ylabel("Frequência")

plt.show()

*No histograma  os valores estão voltados para os salarios mais baixos, caracterizando uma distribuição anormal. O normal seria o pico do histograma seria central.*

*Fazendo ajustes*

In [None]:
plt.figure(figsize=(10,5))
sns.histplot(df_limpo["USD"], bins=10, kde=True)
plt.title("Distribuição salarial")
plt.xlabel("Salário anual (USD)")
plt.ylabel("Frequência")

plt.show()

# Este código cria uma visualização da distribuição salarial usando:
# - plt.figure(figsize=(10,5)) - Define o tamanho da figura como 10x5 polegadas
# - sns.histplot() - Gera um histograma dos salários em USD
#   - bins -- divide os dados em 5 intervalos/barras
#   - kde=True adiciona uma curva de densidade estimada
# - plt.title() - Adiciona o título "Distribuição salarial" 
# - plt.xlabel() - Rotula o eixo X como "Salário anual (USD)"
# - plt.ylabel() - Rotula o eixo Y como "Frequência"
# - plt.show() - Exibe o gráfico

In [None]:
plt.figure(figsize=(8,5))
sns.boxplot(x = df_limpo["USD"])
plt.title("Boxplot Salário")
plt.xlabel("Salário anual (USD)")

plt.show()

**Sobre o gráfico com boxplot**

*A linha central representa a mediana. E após a extremidade direita, são os dados discrepantes, as exceções*

In [None]:
plt.figure(figsize=(8,5))
sns.boxplot(data=df_limpo, x="senioridade", y="USD", order = ordem)
plt.title("Boxplot distribuição por senioridade")
plt.xlabel("Senioridade")
plt.ylabel("Salário anual (USD)")

plt.show()

*Paletas de cores para o gráfico*

In [None]:
ordem_senioridade = ['junior', 'pleno', 'senior', 'especialista']

plt.figure(figsize=(8,5))
sns.boxplot(data=df_limpo, x="senioridade", y="USD", order = ordem, palette="Set2", hue='senioridade')
plt.title("Boxplot distribuição por senioridade")
plt.xlabel("Senioridade")
plt.ylabel("Salário anual (USD)")

plt.show()

*Gráficos interativos*

In [None]:
import plotly.express as px

In [None]:
senioridade_media_salarial = df_limpo.groupby("senioridade")["USD"].mean().sort_values(ascending=False).reset_index()

fig = px.bar(senioridade_media_salarial, x="senioridade", y="USD", title="Média salarial por senioridade", labels= {"senioridade" : "Nível de senioridade","USD" : "Salário médio anual (USD)"})

fig.show()

In [None]:
remoto_contagem = df_limpo["remoto"].value_counts().reset_index()
remoto_contagem.columns = ['tipo_trabalho', 'quantidade']

fig = px.pie(remoto_contagem, names="tipo_trabalho", values="quantidade", title="Proporção dos tipos de trabalho")

fig.show()


In [None]:
remoto_contagem = df_limpo["remoto"].value_counts().reset_index()
remoto_contagem.columns = ['tipo_trabalho', 'quantidade']

fig = px.pie(remoto_contagem, names="tipo_trabalho", values="quantidade", title="Proporção dos tipos de trabalho", hole = 0.5)

fig.show()

In [None]:
remoto_contagem = df_limpo["remoto"].value_counts().reset_index()
remoto_contagem.columns = ['tipo_trabalho', 'quantidade']

fig = px.pie(remoto_contagem, names="tipo_trabalho", values="quantidade", title="Proporção dos tipos de trabalho", hole = 0.5)

fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

Palavra-chave: MATPLOLIB