# Exploração de Dados de Aplicações no Linkedin

## Instalar Bibliotecas

In [1]:
# Apenas para garantir que as bibliotecas estão instaladas
!pip install pandas plotly wordcloud




### 1️⃣ Exploração de Dados de Aplicações
Arquivo: Job Applications.csv

Desafio:
- Identifique quantas candidaturas foram feitas por empresa.
- Liste as empresas que mais receberam aplicações.
- Calcule o tempo médio entre a aplicação e a resposta (caso exista a coluna 'Status Date').
- Gere um gráfico de barras com as 10 empresas mais aplicadas.

Extra: analise o comportamento temporal das candidaturas.

## Carregar Bibliotecas e Dados do Exercício 1

In [14]:
import pandas as pd
import plotly.express as px

# Carregar o arquivo. O separador é ponto e vírgula (;)
try:
    df_apps = pd.read_csv('Job Applications.csv', sep=',')
    print("Arquivo 'Job Applications.csv' carregado com sucesso!")

    # Mostrar as 5 primeiras linhas para conferir
    print(df_apps.head())

except FileNotFoundError:
    print("ERRO: 'Job Applications_fake.csv' não encontrado. Faça o upload do arquivo.")
except Exception as e:
    print(f"Ocorreu um erro: {e}")

Arquivo 'Job Applications.csv' carregado com sucesso!
    Application Date                   Contact Email Contact Phone Number  \
0   2/20/24, 6:41 PM  gabrieldutraamarante@gmail.com       +5513988080923   
1  5/12/25, 12:32 PM  gabrieldutraamarante@gmail.com     +5513 98808-0923   
2   1/31/24, 1:52 PM  gabrieldutraamarante@gmail.com       +5513988080923   
3   1/21/25, 6:23 AM  gabrieldutraamarante@gmail.com     +5513 98808-0923   
4   5/11/25, 1:00 PM  gabrieldutraamarante@gmail.com     +5513 98808-0923   

                                      Company Name  \
0               MSC Mediterranean Shipping Company   
1                                          Lisa IT   
2                                 AML Reputacional   
3                                           Manole   
4  SOC - Software de Saúde e Segurança do Trabalho   

                    Job Title                                       Job Url  \
0    Full Stack Web Developer  http://www.linkedin.com/jobs/view/3824781124   


## Identificar Candidaturas por Empresa e Listar as Mais Frequentes

In [16]:
if 'df_apps' in locals():
    print("[1.1] Contagem de candidaturas por empresa:")

    # Contar quantas vezes cada empresa aparece
    apps_por_empresa = df_apps['Company Name'].value_counts()

    print(apps_por_empresa.to_string())

    print("\n[1.2] Empresas que mais receberam aplicações (Top 5):")
    print(apps_por_empresa.head(5))
else:
    print("DataFrame 'df_apps' não foi carregado. Execute a Célula 1.1 primeiro.")

[1.1] Contagem de candidaturas por empresa:
Company Name
MSC Mediterranean Shipping Company                 1
Lisa IT                                            1
AML Reputacional                                   1
Manole                                             1
SOC - Software de Saúde e Segurança do Trabalho    1
Zero Emissions World                               1
Capgemini                                          1
INDI Staffing Services                             1
Nearsure                                           1
Green Acesso                                       1
Andela                                             1
Sisttech Tecnologia Educacional                    1

[1.2] Empresas que mais receberam aplicações (Top 5):
Company Name
MSC Mediterranean Shipping Company                 1
Lisa IT                                            1
AML Reputacional                                   1
Manole                                             1
SOC - Software de Saúde e S

## Calcular o Tempo Médio de Resposta

In [20]:
if 'df_apps' in locals():
    print("[1.3] Cálculo do tempo médio de resposta:")

    # Converter a data de aplicação
    df_apps['app_datetime'] = pd.to_datetime(df_apps['Application Date'], errors='coerce')

    # Verificar se existe a coluna de status antes de tentar converter
    if 'status_date' in df_apps.columns:
        df_apps['status_datetime'] = pd.to_datetime(df_apps['status_date'], errors='coerce')
        df_apps['tempo_resposta_dias'] = (df_apps['status_datetime'] - df_apps['app_datetime']).dt.days
        media_dias = df_apps['tempo_resposta_dias'].dropna().mean()
        print(f"O tempo médio de resposta é: {media_dias:.0f} dias")
    else:
        print("⚠️ Nenhuma coluna 'status_date' encontrada — não é possível calcular o tempo de resposta.")
else:
    print("DataFrame 'df_apps' não foi carregado. Execute a Célula 1.1 primeiro.")


[1.3] Cálculo do tempo médio de resposta:
⚠️ Nenhuma coluna 'status_date' encontrada — não é possível calcular o tempo de resposta.


  df_apps['app_datetime'] = pd.to_datetime(df_apps['Application Date'], errors='coerce')


## Gerar Gráfico de Barras (Top 10 Empresas)

In [22]:
if 'apps_por_empresa' in locals():
    print("[1.4] Gerando gráfico de barras das 10 empresas mais aplicadas:")

    # Pegar as 10 primeiras empresas da nossa contagem
    top_10_empresas = apps_por_empresa.head(10).reset_index()
    # Renomear colunas para o gráfico
    top_10_empresas.columns = ['Empresa', 'Contagem']

    # Criar o gráfico de barras com Plotly Express (px)
    fig_bar = px.bar(
        top_10_empresas,
        y='Empresa',        # Empresas no eixo Y
        x='Contagem',       # Contagem no eixo X
        title='Top 10 Empresas com Mais Aplicações',
        orientation='h'     # Gráfico na horizontal
    )

    # Inverter a ordem do eixo Y para mostrar a maior em cima
    fig_bar.update_layout(yaxis={'categoryorder':'total ascending'})

    # Exibir o gráfico
    fig_bar.show()
else:
    print("Variável 'apps_por_empresa' não encontrada. Execute a Célula 1.2 primeiro.")

[1.4] Gerando gráfico de barras das 10 empresas mais aplicadas:


## (Extra): Análise Temporal das Candidaturas

In [23]:
if 'df_apps' in locals() and 'app_datetime' in df_apps.columns:
    print("[Extra] Análise temporal das candidaturas:")

    # Agrupar candidaturas por data (sem a hora) e contar
    # .dt.date extrai apenas a data (ex: 2025-10-23)
    df_apps['data_aplicacao'] = df_apps['app_datetime'].dt.date

    # Agrupar por data e contar quantas aplicações ocorreram naquele dia
    apps_por_dia = df_apps.groupby('data_aplicacao').size().reset_index(name='Contagem')

    # Criar o gráfico de linha com Plotly Express
    fig_line = px.line(
        apps_por_dia,
        x='data_aplicacao',
        y='Contagem',
        title='Candidaturas ao Longo do Tempo',
        markers=True # Adiciona bolinhas nos pontos de dados
    )

    fig_line.show()
else:
    print("DataFrame 'df_apps' ou coluna 'app_datetime' não encontrados. Execute a Célula 1.3 primeiro.")

[Extra] Análise temporal das candidaturas:


### 2️⃣ Análise de Respostas de Triagem

Arquivo: Job Applicant Saved Screening Question Responses.csv

Desafio:
- Extraia as perguntas de triagem mais frequentes.
- Classifique respostas por sentimento (positivo, neutro, negativo).

- Gere uma nuvem de palavras e um gráfico de dispersão entre o tamanho das respostas e o sentimento médio.

## Carregar Dados do Exercício 2

In [24]:
# Carregar o segundo arquivo. O separador também é ponto e vírgula (;)
try:
    df_respostas = pd.read_csv('Job Applicant Saved Screening Question Responses_fake.csv', sep=';')
    print("Arquivo 'Job Applicant Saved Screening Question Responses.csv' carregado com sucesso!")
    print(df_respostas.head())

except FileNotFoundError:
    print("ERRO: 'Job Applicant Saved Screening Question Responses_fake.csv' não encontrado. Faça o upload.")
except Exception as e:
    print(f"Ocorreu um erro: {e}")

ERRO: 'Job Applicant Saved Screening Question Responses_fake.csv' não encontrado. Faça o upload.


## Extrair Perguntas Mais Frequentes

In [25]:
if 'df_respostas' in locals():
    print("[2.1] Perguntas de triagem mais frequentes:")

    # Contar as perguntas mais comuns
    perguntas_frequentes = df_respostas['question'].value_counts()

    # Mostrar as 10 mais frequentes
    print(perguntas_frequentes.head(10).to_string())
else:
    print("DataFrame 'df_respostas' não foi carregado. Execute a Célula 2.1 primeiro.")

DataFrame 'df_respostas' não foi carregado. Execute a Célula 2.1 primeiro.


## Classificar Respostas por Sentimento

In [26]:
if 'df_respostas' in locals():
    print("[2.2] Classificação de respostas por sentimento:")

    # O arquivo fake que você forneceu já possui a coluna 'inferred_sentiment'.
    # Vamos usá-la para a contagem.
    if 'inferred_sentiment' in df_respostas.columns:
        contagem_sentimento = df_respostas['inferred_sentiment'].value_counts()

        print(contagem_sentimento)

        # BÔNUS: Gráfico de Pizza (simples e visual)
        fig_pie = px.pie(
            contagem_sentimento.reset_index(),
            names='inferred_sentiment',
            values='count',
            title='Distribuição de Sentimentos nas Respostas'
        )
        fig_pie.show()

    else:
        print("Coluna 'inferred_sentiment' não encontrada.")
        print("Se fosse o arquivo real, você precisaria criar uma função de sentimento aqui.")
else:
    print("DataFrame 'df_respostas' não foi carregado. Execute a Célula 2.1 primeiro.")

DataFrame 'df_respostas' não foi carregado. Execute a Célula 2.1 primeiro.


## Gerar Nuvem de Palavras

In [27]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt

if 'df_respostas' in locals():
    print("[2.3] Gerando nuvem de palavras das PERGUNTAS:")

    # Juntar todas as perguntas em um único bloco de texto
    texto_perguntas = " ".join(df_respostas['question'].dropna())

    # Gerar a nuvem de palavras
    wordcloud = WordCloud(
        width=1000,
        height=500,
        background_color='white',
        collocations=False # Evita palavras compostas
    ).generate(texto_perguntas)

    # Exibir a nuvem usando Matplotlib (é o jeito mais simples)
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off') # Remove os eixos X e Y
    plt.show()

else:
    print("DataFrame 'df_respostas' não foi carregado. Execute a Célula 2.1 primeiro.")

DataFrame 'df_respostas' não foi carregado. Execute a Célula 2.1 primeiro.


## Gráfico de Dispersão (Tamanho vs. Sentimento)

In [28]:
if 'df_respostas' in locals() and 'inferred_sentiment' in df_respostas.columns:
    print("[2.4] Gerando gráfico de dispersão (Tamanho da Resposta vs. Sentimento):")

    # 1. Calcular o tamanho (número de caracteres) de cada resposta
    df_respostas['tamanho_resposta'] = df_respostas['response'].astype(str).str.len()

    # 2. Mapear o sentimento (texto) para um número (para o eixo Y)
    #    Isso torna o gráfico mais fácil de ler
    sentiment_map = {'positive': 1, 'neutral': 0, 'negative': -1}
    df_respostas['score_sentimento'] = df_respostas['inferred_sentiment'].map(sentiment_map)

    # 3. Criar o gráfico de dispersão (scatter plot) com Plotly Express
    fig_scatter = px.scatter(
        df_respostas.dropna(subset=['score_sentimento']), # Ignora sentimentos não mapeados
        x='tamanho_resposta',
        y='score_sentimento',
        color='inferred_sentiment', # Cor de acordo com o sentimento
        title='Tamanho da Resposta vs. Sentimento',
        hover_data=['question', 'response'] # Mostra a pergunta/resposta ao passar o mouse
    )

    # Ajustar o eixo Y para mostrar -1, 0, 1
    fig_scatter.update_layout(yaxis=dict(tickmode='array', tickvals=[-1, 0, 1], ticktext=['Negativo', 'Neutro', 'Positivo']))

    fig_scatter.show()

else:
    print("DataFrame 'df_respostas' ou coluna 'inferred_sentiment' não encontrados. Execute as Células 2.1 e 2.3 primeiro.")

DataFrame 'df_respostas' ou coluna 'inferred_sentiment' não encontrados. Execute as Células 2.1 e 2.3 primeiro.
