### Analise exploratoria de dados

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# carregar os dados
df = pd.read_csv('funcionarios_ti_nomes.csv')
df.head()

### Distribuição de Salários na Área de TI


Objetivo: Ver como os salários estão distribuídos, verificar a média, mediana e a presença de outliers.

 Estatística Básica

In [None]:

# Estatisticas descritivas dos salarios 

df['Salário'].describe() # Me traz todas as estatisticas descritivas

Boxplot para Identificação de Outliers

In [None]:
plt.figure(figsize=(10, 6))

sns.displot(x=df['Salário'],height=3, aspect=2, color='darkblue' , kde=True)

plt.title('Distribuição de Salário na Área de TI')
plt.xlabel('Salário(R$)')

plt.show()


### Criar um Histograma para Visualizar a Distribuição 

In [None]:
plt.figure(figsize=(10, 5))

sns.histplot(df['Salário'], bins=15 , kde=True, color= 'green')

plt.title('Histograma da Distribuição de Salários')
plt.xlabel('Salário (R$)')
plt.ylabel('Frequência')
plt.show()

 Verificar a Presença de Outliers

In [None]:
q1 = df['Salário'].quantile(0.25)
q3 = df['Salário'].quantile(0.75)
iqr = q3 - q1 #intervalo interquartil

limite_inferior = q1 - 1.5 * iqr
limite_superior = q3 + 1.5 * iqr


# Filtrar os outliers

outliers = df[(df["Salário"] < limite_inferior) | (df["Salário"] > limite_superior)]

outliers
print(f"Quantidade de outliers: {len(outliers)}")

#### Análise: Salário Médio por Cargo

Objetivo: Descobrir quais cargos pagam mais e quais têm salários mais baixos.



In [None]:
# Verficando os dados e colunas


df.head()

In [None]:
# Media de salario por cargo

salario_por_cargo = df.groupby('Cargo')['Salário'].mean().sort_values(ascending=False)

salario_por_cargo

## Visualizar com um gráfico de barras

#### O que esse gráfico mostra?

A hierarquia salarial entre os cargos.

Diferença entre os melhores e piores salários.

Se a curva salarial faz sentido para o mercado.


In [None]:
plt.figure(figsize=(10, 6))

sns.barplot(x=salario_por_cargo.values, y=salario_por_cargo.index, palette='viridis')

plt.title('Salário Médio por Cargo na Área de TI')
plt.xlabel('Salário Médio (R$)')
plt.show()

### Comparação de Médias Geral

Isso cria uma tabela onde os cargos acima da média ficam verdes e os abaixo vermelhos.

In [None]:
media_geral = df['Salário'].mean()
print(f'Sálario médio geral : R$ {media_geral:.2f}')

# Comparação de cada cargo com a media

df_media = salario_por_cargo.to_frame().reset_index()

df_media['Acima da Média?'] = df_media['Salário'] > media_geral

df_media.style.applymap(lambda x: "background-color: green" if x else "background-color: red", subset=["Acima da Média?"])

### Análise: Distribuição Geográfica dos Funcionários

 Objetivo: Descobrir onde há maior concentração de profissionais de TI.

In [None]:
 # Verificar se As colunas estão no formato correto

df.head()

In [None]:
cidades_comuns = df['Cidade'].value_counts().head(10)


# Grafico

plt.figure(figsize=(12, 6))

sns.barplot(x=cidades_comuns.values, y=cidades_comuns.index, palette='coolwarm')

plt.title('Top 10 Cidades com Mais Profissionais de TI') 
plt.xlabel('Quantidade de Profissionais')
plt.ylabel('Cidade')
plt.show()

### Distribuição por Estados

In [None]:
estados_comuns = df['Estado'].value_counts().head(10)

# Grafico
plt.figure(figsize=(12, 6))

sns.barplot(x=estados_comuns.values , y=estados_comuns.index, palette='Blues_r')

plt.title('Top 10 Estados com mais Proficionais de TI')
plt.xlabel('Quantidade de Profissionais')
plt.ylabel('Estados')
plt.show()


### Distribuição por País

 Contar funcionários por país

In [None]:
paises_comuns = df['País'].value_counts()

# Graficos

plt.figure(figsize=(10, 6))

sns.barplot(x=paises_comuns.values, y=paises_comuns.index, palette='viridis')

plt.title('Quantidade de Profissionais por País')
plt.xlabel('Quantidade de Profissionais')
plt.ylabel('Países')
plt.show()


### Criando um mapa de calor Geografico

In [None]:
import folium
from geopy.geocoders import Nominatim

In [None]:

# Criar um mapa centrado no Brasil
mapa = folium.Map(location=[-14.2350, -51.9253], zoom_start=4)

# Configurar o geolocalizador
geolocator = Nominatim(user_agent="geoapi")


for cidade in df["Cidade"].unique():
    try:
        location = geolocator.geocode(cidade + ", Brasil")
        if location:
            folium.Marker([location.latitude, location.longitude], popup=cidade).add_to(mapa)
    except:
        pass  

mapa
