In [1]:
import pandas as pd
import numpy as np

import re # para poder utilizar Regex

from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction import stop_words
from scipy.spatial.distance import pdist, squareform

import seaborn as sns
import matplotlib.pyplot as plt

import matplotlib.style as mlp
mlp.use('default')

%matplotlib inline

# Dataset: Google Job Skills

## Minha missão será entender melhor o perfil das vagas oferecidas pelo google.

Perguntas balisadoras: 

1. Quais são os países com mais vagas anunciadas pela Google? 

2. Qual o número de vagas oferecidas para o Brasil? 

3. Quais são as qualificações mínimas e desejáveis que o Google mais exige? 

4. Quais skills de programação são mais pedidas nas vagas do Google? 

5. Se eu tivesse um amigo que sonha em se candidatar a uma vaga no Google, que habilidades e skills você falaria para ele desenvolver? E que dicas você daria para ele? 

6. Se você quisesse montar um sistema de recomendação para a Google achar candidatos, que outras informações além dessas você adicionaria no dataset para melhorar o match com os candidatos?  

---------------------------------------------

# 1) Primeira parte: Leitura e Análises Preliminares

## 1a) Leitura do arquivo: 

In [2]:
df = pd.read_excel('job_skills.xlsx')

## 1b) Informações gerais:

In [3]:
df.head()

Unnamed: 0,Company,Title,Category,Location,Responsibilities,Minimum Qualifications,Preferred Qualifications
0,Google,Google Cloud Program Manager,Program Management,Singapore,"Shape, shepherd, ship, and show technical prog...",BA/BS degree or equivalent practical experienc...,Experience in the business technology market a...
1,Google,"Supplier Development Engineer (SDE), Cable/Con...",Manufacturing & Supply Chain,"Shanghai, China",Drive cross-functional activities in the suppl...,BS degree in an Engineering discipline or equi...,"BSEE, BSME or BSIE degree.\nExperience of usin..."
2,Google,"Data Analyst, Product and Tools Operations, Go...",Technical Solutions,"New York, NY, United States",Collect and analyze data to draw insight and i...,"Bachelor’s degree in Business, Economics, Stat...",Experience partnering or consulting cross-func...
3,Google,"Developer Advocate, Partner Engineering",Developer Relations,"Mountain View, CA, United States","Work one-on-one with the top Android, iOS, and...",BA/BS degree in Computer Science or equivalent...,"Experience as a software developer, architect,..."
4,Google,"Program Manager, Audio Visual (AV) Deployments",Program Management,"Sunnyvale, CA, United States",Plan requirements with internal customers.\nPr...,BA/BS degree or equivalent practical experienc...,CTS Certification.\nExperience in the construc...


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1250 entries, 0 to 1249
Data columns (total 7 columns):
Company                     1250 non-null object
Title                       1250 non-null object
Category                    1250 non-null object
Location                    1250 non-null object
Responsibilities            1235 non-null object
Minimum Qualifications      1236 non-null object
Preferred Qualifications    1236 non-null object
dtypes: object(7)
memory usage: 68.4+ KB


## 1c) Verificando as informações faltantes:

In [5]:
df[df.isnull().any(axis=1)]

Unnamed: 0,Company,Title,Category,Location,Responsibilities,Minimum Qualifications,Preferred Qualifications
15,Google,Manufacturing Test Engineer,Hardware Engineering,"South San Francisco, CA, United States",,,
72,Google,"Software Engineer, Android Applications, Veril...",Software Engineering,"Cambridge, MA, United States",,,
91,Google,"Analog / Mixed Signal IC Design Engineer, Veri...",Hardware Engineering,"South San Francisco, CA, United States",,,
97,Google,"Program Manager, Behavioral Health, Verily Lif...",Program Management,"South San Francisco, CA, United States",,,
98,Google,"Software Engineer, Android Applications, Veril...",Software Engineering,"South San Francisco, CA, United States",,,
123,Google,"Manufacturing Engineer, Verily Life Sciences -...",Hardware Engineering,"South San Francisco, CA, United States",,,
150,Google,"IC Test Engineer, Verily Life Sciences - South...",Hardware Engineering,"South San Francisco, CA, United States",,,
160,Google,"Software Engineer, Verily Life Sciences - Sout...",Software Engineering,"South San Francisco, CA, United States",,,
202,Google,"Firmware Engineer, Verily Life Sciences - Sout...",Software Engineering,"South San Francisco, CA, United States",,,
206,Google,"Software Test Engineer, Mobile and Web Applica...",Software Engineering,"Mountain View, CA, United States",,,


In [6]:
df[df.isnull().any(axis=1)].shape[0] #Apenas 15 linhas apresentam informações faltantes. Ainda assim, não vejo necessidade em retirar tais linhas ainda.

15

Este conjunto de vagas não apresenta informações quanto a uma ou mais destas colunas: 'Responsibilities' (responsabilidades), 'Minimum Qualifications' (qualificação mínima) e 'Preferred Qualifications' (qualificação desejada).

-------------------------------------

# 2) EDA: Exploratory Data Analysis

## 2a) Qual a composição da coluna 'Company'?

In [7]:
# Apenas para verificar a porcentagem de vagas anunciadas por cada companhia: 
df['Company'].value_counts()/df['Company'].shape[0]

Google     0.9816
YouTube    0.0184
Name: Company, dtype: float64

#### Em uma primeira análise, sabendo que o Youtube compõe o grupo Google, não criaremos distinções entre as duas.

In [8]:
# Apenas para ter um vislumbre dos dados de exclusividade do YouTube
df[df['Company']=='YouTube']

Unnamed: 0,Company,Title,Category,Location,Responsibilities,Minimum Qualifications,Preferred Qualifications
159,YouTube,"Product Strategist, Growth, YouTube",Business Strategy,"San Bruno, CA, United States",Help define the performance metrics and goals ...,BA/BS degree or equivalent practical experienc...,10 years of experience in an analytically-inte...
309,YouTube,"Performance Video Agency Specialist, YouTube",Sales & Account Management,"New York, NY, United States",Manage Performance relationships from C-level ...,BA/BS degree or equivalent practical experienc...,Established experience relationships and prese...
326,YouTube,"Quality Program Manager, Global Vendor Operati...",Product & Customer Support,"Hyderabad, India","Build a global quality assurance program, driv...",BA/BS degree or equivalent practical experienc...,Strong project management skills (e.g. ability...
421,YouTube,"Online Partner Manager (MENA), YouTube",Partnerships,"London, United Kingdom",Manage and help grow a portfolio of YouTube cr...,BA/BS degree or equivalent practical experienc...,"Experience in the video, media, and/or enterta..."
466,YouTube,"Product Strategist, Growth, YouTube",Business Strategy,"San Bruno, CA, United States",Help define the performance metrics and goals ...,BA/BS degree or equivalent practical experienc...,10 years of experience in an analytically-inte...
514,YouTube,"Enforcement Analyst, Trust and Safety, YouTube",Product & Customer Support,Singapore,Develop and implement strategies to enforce Yo...,Master of Science degree in a technical field ...,Experience or demonstrated interest in content...
601,YouTube,"Product Marketing Manager, YouTube",Marketing & Communications,"Stockholm, Sweden",Work across several aspects of marketing – fro...,BA/BS degree or equivalent practical experienc...,MBA degree in a related field.\nExperience dev...
643,YouTube,"Consumer Product Marketing Manager, YouTube",Marketing & Communications,"Mexico City, Mexico",Seek actionable consumer insights to inform pr...,BA/BS degree or equivalent practical experienc...,MBA degree.\nDemonstrated passion for consumer...
655,YouTube,Global Head of Music Social and Influencer Mar...,Marketing & Communications,"New York, NY, United States",Be responsible for building the social media a...,BA/BS degree or equivalent practical experienc...,"Experience in the music industry, with an unde..."
677,YouTube,Global Head of Music Social and Influencer Mar...,Marketing & Communications,"San Bruno, CA, United States",Be responsible for building the social media a...,BA/BS degree or equivalent practical experienc...,"Experience in the music industry, with an unde..."


## 2b) Que países anunciam mais vagas?
--------------------------------------

### Criação e ajuste da coluna 'Countries' com base na coluna 'Location'.

In [None]:
df['Location'].unique()

array(['Singapore', 'Shanghai, China', 'New York, NY, United States',
       'Mountain View, CA, United States', 'Sunnyvale, CA, United States',
       'Dublin, Ireland', 'Xinyi District, Taiwan',
       'Seattle, WA, United States', 'Amsterdam, Netherlands',
       'South San Francisco, CA, United States', 'Frankfurt, Germany',
       'Zürich, Switzerland', 'London, United Kingdom',
       'München, Germany', 'Berlin, Germany', 'Hamburg, Germany',
       'San Francisco, CA, United States', 'Milan, Italy',
       'Warszawa, Poland', 'Irvine, CA, United States', 'Paris, France',
       'Kirkland, WA, United States', 'Cambridge, MA, United States',
       'Sydney, Australia', 'Waterloo, ON, Canada', 'Gurugram, India',
       'Dubai - United Arab Emirates', 'Pittsburgh, PA, United States',
       'Chicago, IL, United States', 'Bucharest, Romania',
       'Stockholm, Sweden', 'Tokyo, Japan', 'Hyderabad, India',
       'Seoul, South Korea', 'Perth, Australia', 'Taipei, Taiwan',
       'San 

Para começar, vale notar o padrão da coluna 'Location', que registra os países como última informação após uma vírgula. 

Criarei uma coluna exclusiva para países chamada: 'Countries'. 

Para isso acessarei as strings da coluna 'Location', dividirei cada um delas nos lugares em que ocorre vírgula e manterei apenas a parte final. 

In [None]:
df['Countries'] = df['Location'].apply(lambda x: x.split(',')[-1]) 

In [None]:
df['Countries'].unique()

array(['Singapore', ' China', ' United States', ' Ireland', ' Taiwan',
       ' Netherlands', ' Germany', ' Switzerland', ' United Kingdom',
       ' Italy', ' Poland', ' France', ' Australia', ' Canada', ' India',
       'Dubai - United Arab Emirates', ' Romania', ' Sweden', ' Japan',
       ' South Korea', ' Brazil', ' Turkey', ' Philippines', ' Israel',
       'Hong Kong', ' Norway', ' Mexico', ' Finland', ' South Africa',
       ' Denmark', ' Belgium', ' Colombia', ' Austria', ' Indonesia',
       ' Russia', ' Czechia', ' Croatia', ' Greece', ' Hungary', ' Spain',
       ' Thailand', ' Slovakia', ' Lithuania', ' Kenya', ' Argentina',
       ' Ukraine', ' Portugal', 'Nigeria', ' USA'], dtype=object)

'Dubai - United Arab Emirates' fugiu ao padrão da vírgula, o que busco corrigir na linha seguinte:

In [None]:
df['Countries'] = df['Countries'].apply(lambda x: x.split('-')[-1].strip())

In [None]:
df['Countries'].unique()

array(['Singapore', 'China', 'United States', 'Ireland', 'Taiwan',
       'Netherlands', 'Germany', 'Switzerland', 'United Kingdom', 'Italy',
       'Poland', 'France', 'Australia', 'Canada', 'India',
       'United Arab Emirates', 'Romania', 'Sweden', 'Japan',
       'South Korea', 'Brazil', 'Turkey', 'Philippines', 'Israel',
       'Hong Kong', 'Norway', 'Mexico', 'Finland', 'South Africa',
       'Denmark', 'Belgium', 'Colombia', 'Austria', 'Indonesia', 'Russia',
       'Czechia', 'Croatia', 'Greece', 'Hungary', 'Spain', 'Thailand',
       'Slovakia', 'Lithuania', 'Kenya', 'Argentina', 'Ukraine',
       'Portugal', 'Nigeria', 'USA'], dtype=object)

O último ajuste necessário é eliminar formas diferentes de se referir ao mesmo objeto (o que causaria problemas de contagem no futuro). O único caso que merece nossa atenção neste sentido é 'USA' e 'United States'.

In [None]:
df['Countries'] = df['Countries'].apply(lambda x: 'USA' if 'United States' in x else x)

In [None]:
df['Countries'].unique()

array(['Singapore', 'China', 'USA', 'Ireland', 'Taiwan', 'Netherlands',
       'Germany', 'Switzerland', 'United Kingdom', 'Italy', 'Poland',
       'France', 'Australia', 'Canada', 'India', 'United Arab Emirates',
       'Romania', 'Sweden', 'Japan', 'South Korea', 'Brazil', 'Turkey',
       'Philippines', 'Israel', 'Hong Kong', 'Norway', 'Mexico',
       'Finland', 'South Africa', 'Denmark', 'Belgium', 'Colombia',
       'Austria', 'Indonesia', 'Russia', 'Czechia', 'Croatia', 'Greece',
       'Hungary', 'Spain', 'Thailand', 'Slovakia', 'Lithuania', 'Kenya',
       'Argentina', 'Ukraine', 'Portugal', 'Nigeria'], dtype=object)

## 2 - Vagas Anunciadas por País

In [None]:
plt.figure(figsize=(10,10))
plt.title('Oportunidades anunciadas X País', fontsize=20)
sns.countplot(y='Countries', data=df, order = df['Countries'].value_counts().index)
plt.xlabel('Contagem de oportunidades', fontsize=15)
plt.ylabel('Países', fontsize=15)
sns.set_style("whitegrid");

Talvez seja interessante registrar os dados agregados de oportunidades por país em forma de tabela:

In [None]:
# Pretendo agrupar os dados por país e utilizar qualquer coluna apenas para criar a contagem das vagas existentes.
# No caso, selecionarei a coluna 'Company' para fazer a contagem. Posteriormente esta coluna (que conterá a contagem de vagas)
# será renomeada para 'Oportunidades', deixando a interpretação mais intuitiva.

oportunidade_pais = df.groupby(['Countries']).agg({'Company': 'count'}).sort_values(by='Company', ascending=False).reset_index()
oportunidade_pais.columns = ['Countries', 'Oportunidades']
oportunidade_pais = oportunidade_pais.set_index('Countries')

# Vamos aproveitar e ver o número de vagas dos 10 países que mais oferecem vagas
oportunidade_pais.head(13)

In [None]:
# Alguns dados sobre a distribuição de vagas por país:
oportunidade_pais.describe()

In [None]:
# São 48 países em nossa lista.
# A média de oportunidades é de 26 vagas, mas a mediana é de 5 vagas apenas.

### Vamos eliminar os EUA ('USA') da visualização para entrarmos na escala dos demais países: 


In [None]:
oportunidade_pais.iloc[1:].sort_values(by='Oportunidades', ascending=True).plot(kind='barh', figsize=(15,15), legend=None)
plt.title('Oportunidades anunciadas X País (Sem USA)', fontsize=20)
plt.xlabel('Contagem de oportunidades', fontsize=15)
plt.ylabel('Países', fontsize=15)
plt.gca().spines['top'].set_visible(False)
plt.gca().spines['right'].set_visible(False);

In [None]:
# Apenas para criar a distinção entre vagas para o Youtube e vagas para o Google.
plt.figure(figsize=(10,10))
plt.title('Oportunidades anunciadas X País', fontsize=20)
sns.countplot(y='Countries', data=df, order = df['Countries'].value_counts().index, hue='Company')
plt.xlabel('Contagem de oportunidades')
plt.ylabel('Países');

In [None]:
# Em análises futuras poderíamos agregar estes dados em falantes de lingua inglesa e não inglesa, 
#  ou poderíamos agrupar por continentes, por exemplo.

-------------------------------------------------------------

# Vagas anunciadas para o Brasil:

In [None]:
vagas_brasil = df[df['Countries']=='Brazil']['Countries'].value_counts()[0]

print('Temos {} vagas anunciadas no Brasil'.format(vagas_brasil))

#### Em que categorias e títulos tais vagas estaríam distribuídas?

In [None]:
# 1) Restringirei nossos dados aos referentes ao Brasil: df[df['Countries']=='Brazil'
# 2) Farei uma tabela pivotante em que constem como colunas 'Category' e 'Title'.
# 3) Usarei qualquer outra coluna, no caso Company, apenas para fazer uma contagem de elementos.
# 4) Vou ajustá-la de forma a poder renomear as colunas na célula seguinte, deixando a interpretação mais intuitiva.

oportunidades_brasil = pd.pivot_table(data=df[df['Countries']=='Brazil'], 
               index=['Category','Title'], 
               columns=['Countries'], 
               aggfunc={'Company':'count'}).reset_index()

In [None]:
oportunidades_brasil.columns = ['Categoria', 'Título', 'Número de Oportunidades']
oportunidades_brasil

### Partindo para uma noção mais visual de como as vagas se distribuem no Brasil:

In [None]:
plt.figure(figsize=(10,10))
plt.subplot(2,1,2)
plt.title('Vagas no Brasil: Títulos', fontsize=15)
df[df['Countries']=='Brazil']['Title'].value_counts(ascending=True).plot(kind='barh')
plt.xticks([1,2,3,4,5])
plt.subplot(2,1,1)
plt.title('Vagas no Brasil: Categorias', fontsize=15)
df[df['Countries']=='Brazil']['Category'].value_counts(ascending=True).plot(kind='barh');


----------------------------------
# Categorias mais frequentes das vagas globais:

In [None]:
df['Category'].unique()

In [None]:
plt.figure(figsize=(10,10))
plt.title('Categorias mais Frequentes',  fontsize=20)
df['Category'].value_counts(ascending=True).plot(kind='barh');

In [None]:
df['Category'].value_counts(ascending=False)

As principais oportunidades são relacionadas a vendas e marketing e, em um terceiro lugar mais distante, finanças.

--------------------------------------------------------------------

# Qualificação mínima:

### Estudaremos a qualificação mínima quanto a:
1) Grau de formação;

2) Anos de experiência;

3) Habilidades relevantes: linguagem de programação, uso de ferramentas, etc;

In [None]:
df['Minimum Qualifications'].unique()

In [None]:
df['Minimum Qualifications'].nunique()/df['Minimum Qualifications'].count() #65% de descrições únicas.

Criarei mais uma coluna relacionada ao grau da formação mínima exigida.

Existe um certo padrão entre as descrições de 'Minimum Qualifications' em que a descrição do nível desejado precede a palavra degree. Faremos uso deste padrão na criação de uma nova coluna a seguir:

In [None]:
df['MQ_degree'] = df['Minimum Qualifications'].dropna().apply(lambda x: x.lower().split('degree')[0].strip())

In [None]:
df['MQ_degree'].nunique()

In [None]:
def find_degree(string):
    if 'ba/bs' in string:
        string = 'ba/bs'
        
    if ' ba ' in string:
        string = 'ba'
    
    if ' bs ' in string:
        string = 'bs'
    
    
    if 'phd' in string:
        string = 'phd'
        
    if 'ph.d' in string:
        string = 'phd'
        
    if 'jd' in string:
        string = 'jd'
    if 'j.d.' in string:
        string = 'jd'
    if 'ms' in string:
        string = 'ms'
    if 'master' in string:
        string = 'ms'
    if 'bachelor' in string:
        string = 'bachelor'
    if 'mba' in string:
        string = 'mba'
    if 'major' in string:
        string = 'major'
    return string

df['MQ_degree'] = df['MQ_degree'].dropna().apply(find_degree)

In [None]:
df['MQ_degree'].nunique()

In [None]:
df['MQ_degree'].unique()

In [None]:
df

In [None]:
# selecionando apenas os títulos principais para criar uma visualização
masked = df[df['MQ_degree'].isin(['ba/bs', 'ba','bs', 'bachelor', 'ms', 'jd', 'phd', 'mba', 'major'])]


plt.figure(figsize=(10,10))
plt.title('Requisitos Mínimos: Menções a Graus de Formação', fontsize=20)
sns.countplot(y='MQ_degree', data=df, order = masked['MQ_degree'].value_counts().index )
plt.yticks(fontsize=15)
plt.xticks(fontsize=10)
plt.xlabel('Menções nas Descrições das Vagas', fontsize=15)
plt.ylabel('Formação Mínima', fontsize=15);

# Um detalhe importante é que o gráfico a seguir separa as menções conjuntas a BA/BS de ocorrências isoladas de BA e BS. 
# Manterei a visualização desta forma apenas para registrar a indiferença quanto a BA (Bacharelado em Artes) e BS (Bacharelado em Ciências)
# por parte do recrutador.

Ter um bacharelado é, definitivamente, um requisito importante.

A principal descrição mais frequente refere-se a 'BA/BS', ou melhor, Bacharelado em Artes ou Bacharelado em Ciências.

A segunda descrição consta simplesmente como Bacharelado. Sendo seguido por Mestrado, MBA, Major, PHD e JD (Juris Doctor).

Quanto aos 'degrees' usei como referência o site https://study.com/different_degrees.html para ter um entendimento mais profundo.

## Buscarei brevemente entender como a exigência quanto a graus de formação se distribui em relação às categorias das vagas:

In [None]:
grau_de_formação = pd.pivot_table(data=df[df['MQ_degree'].isin(['ba/bs','ba','bs','bachelor','ms','jd','phd','mba','major'])],
                                  index=['Category'], 
                                  columns=['MQ_degree'], 
                                  aggfunc={'Company':'count'}).reset_index()

In [None]:
grau_de_formação.fillna(value=0, inplace=True) # Para fazer cálculos, substituirei NaN por 0

In [None]:
grau_de_formação.head()

In [None]:
grau_de_formação.columns

In [None]:
grau_de_formação.columns = grau_de_formação.columns.droplevel() #retirando um dos níveis de coluna, para facilitar a manipulação e compreensão.

In [None]:
grau_de_formação.head()

In [None]:
# O que farei agora é desmembrar a menção a 'ba/bs' em categorias 'ba' e 'bs' e retirarei a menção dupla.
# Vale lembrar que, com isso, cada vaga poderá ter mais de um 'representante' em grau de formação desejado.
grau_de_formação['ba'] = grau_de_formação['ba'] + grau_de_formação['ba/bs']
grau_de_formação['bs'] = grau_de_formação['bs'] + grau_de_formação['ba/bs']
grau_de_formação.drop(columns=['ba/bs'], inplace=True)

In [None]:
# Agora criarei uma coluna para computar o grau de menções feitos ao grau de formação para cada categoria.
grau_de_formação['totais_mencionados'] =  grau_de_formação['ba'] + grau_de_formação['bs'] + grau_de_formação['bachelor'] + grau_de_formação['jd'] + grau_de_formação['major'] + grau_de_formação['mba'] + grau_de_formação['ms'] + grau_de_formação['phd']

In [None]:
# Finalmente, um registro em tabela dos graus de formação exigidos:
grau_de_formação.sort_values(by='totais_mencionados', ascending=False)

In [None]:
tabela_grau_formacao = pd.DataFrame(grau_de_formação.drop(columns=['totais_mencionados']).sum()).reset_index().iloc[1:8]

In [None]:
tabela_grau_formacao.set_index('MQ_degree', drop=True, inplace=True)


In [None]:
tabela_grau_formacao.columns = ['contagem']
tabela_grau_formacao.sort_values(by='contagem', ascending=False)

In [None]:
tabela_grau_formacao.sort_values(by='contagem', ascending=False).plot(kind='bar', figsize=(8,8), legend=None)
plt.title('Requisitos Mínimos: Menções a Graus de Formação', fontsize=20)
plt.ylabel('Número de Menções', fontsize=15)
plt.xlabel('Formação Mínima Requerida', fontsize=15)
plt.gca().spines['top'].set_visible(False)
plt.gca().spines['right'].set_visible(False)
plt.yticks(fontsize=15)
plt.xticks(fontsize=15, rotation=50);

# Lembremos que há vagas que mencionam mais de um grau, e estamos contando as menções de forma que estão inflando a quantidade de oportunidades.

### ANOS DE EXPERIÊNCIA: Passemos a verificar a quantidade de anos de experiência exigidos em cada vaga.

In [None]:
# Criarei mais uma coluna que registre o número de anos de experiência exigido pela vaga.
# Geralmente a menção a anos de experiência vem no formado: um ou mais algarismos + 'years'.
# Farei uso deste padrão e utilizarei regex para capturar todos os casos.
# Obs: verifiquei que nem todas as menções a anos sugerem necessariamente anos de experiência (em um caso, por exemplo, 
# refere-se à idade de crianças). Ainda assim, o padrão é suficientemente geral para que eu aceite o risco de errar poucas 
# vezes e tenha que refinar o tratamento mais tarde.

def find_year(string):
    finded = re.findall(r'([0-9]+) years', string) #encontrando descrições no formado: um ou mais algarismos + 'years'. Manterei apenas a parte numérica.
    try: 
        finded = finded[0] #manterei apenas a primeira menção a anos de experiência, considerando que o mais relevante costuma ser mencionado antes
        return finded 
    except:
        return finded

df['Years of Experience'] = df['Minimum Qualifications'].dropna().apply(lambda x: find_year(x)) 

In [None]:
df['Years of Experience'] = df['Years of Experience'].apply(lambda x: int(x) if type(x)==str else 0)
df['Years of Experience']

In [None]:
# Histograma: distribuição de anos de experiência mais solicitados



df['Years of Experience'].hist(bins=12, figsize=(6,6))
plt.title('Oportunidades X Anos de Experiência Anterior', fontsize=20)
plt.xlabel('Anos de experiência exigidos')
plt.ylabel('Contagem de oportunidades');

In [None]:
# Histograma: distribuição de anos de experiência mais solicitados (retirando o 0)

df['Years of Experience'].hist(bins=10, range=[1,20], figsize=(6,6)) # Retirando o 0 da visualização
plt.title('Distribuição de Anos de Experiência', fontsize=20)
plt.xlabel('Anos de experiência exigidos')
plt.ylabel('Contagem de oportunidades'); 

In [None]:
# Em um ranking de anos de experiência mais solicitados:

df['Years of Experience'].value_counts(ascending=True).plot(kind='barh', figsize=(10,6))
plt.title('Ranking: Anos de Experiência mais Solicitados', fontsize=15)
plt.xlabel('Contagem de oportunidades')
plt.ylabel('Anos de experiência exigidos'); 

### Pretendo agora verificar como estes anos de experiência exigidos são distribuídos nas diversas categorias de vagas:

In [None]:
#Primeiro criarei uma lista ordenada dos anos de experiência solicitados:

anos_de_experiência = list((df['Years of Experience'].unique()))

anos_de_experiência.sort()

anos_de_experiência

In [None]:
# Agora, para cada ano de experiência mencionado nas vagas, quero saber quantas oportunidades existem em cada categoria de vaga. 

for year in anos_de_experiência:
    
    plt.title('Vagas para {} anos de experiência'.format(year), fontsize=15)
    plt.xlabel('Número de Vagas', fontsize=10)
    df[df['Years of Experience']==year].Category.value_counts(ascending=True).plot(kind='barh', figsize=(10,10))
    plt.show()

### OBS: As oportunidades mudam bastante de acordo com o número de anos de experiência acumulada em determinada área.

#### Nota-se, por exemplo, o grande número de vagas para as áreas de vendas e soluções técnicas que não mencionam experiência prévia.

#### Por outro lado, diversas vagas de Finanças exigem muitos anos de experiência.

### Buscarei ilustrar estes pontos com um gráfico abaixo:

In [None]:
plt.figure(figsize=(10,40))
plt.title('Contagem de Vagas por Categoria X Anos de Experiência', fontsize=15)
sns.countplot(y='Category', data=df, order = df['Category'].value_counts().index, hue='Years of Experience')
plt.xlabel('Contagem de oportunidades')
plt.ylabel('Categoria')
plt.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.);

# Linguagens de programação

### Agora vamos analisar que linguagens de programação e tecnologias similares são mais requisitadas nas vagas:

Adotei como ponto de partida o seguinte site para facilitar minha busca por linguagens de programação:
https://www.ubuntupit.com/top-20-most-popular-programming-languages-to-learn-for-your-open-source-project/

In [None]:
df_prog = df[['Minimum Qualifications', 'Title', 'Category']].copy(deep=True)

In [None]:
popular_lang = ['JavaScript','Python', 'Java', 'PHP', 'C', 'C#', 'C\+\+', 'TypeScript', 'Shell', 'Ruby', 
                'SQL', 'Swift', 'Go', 'R Programming Language', 'R', 'Perl', 'Kotlin', 'Rust',
               'Scheme', 'Elixir', 'Haskell', 'Scala', 'matlab', 'Stata', 'SAS', 'HTML', 'CSS', 
                'NodeJS', 'NET', 'Tableau',  'MapReduce', 'Hadoop', 'Spark', 'Flume', 'Hive', 'Impala', 'Spark', 'BigQuery']

#detalhe: esta lista será usada para encontrar padrões com regex. E C++ apresentará problemas com metacaracteres, motivo pelo 
# qual estou já inserindo a '\' para o '+' ser entendido apenas como um caractere e não como um metacaracter.

# Obs: desculpem-me por chamar HTML de linguagem... só achei que ela poderia pegar uma carona aqui. Da mesma forma, acrescentei
# Tableau, que é uma tecnologia de visualização, e não uma linguagem. E, generalizando o pensamento, resolvi acrescentar uma série
# de tecnologias relacionadas ao mundo da programação (tais como o Software BigQuery).

# Futuramente seria interessante ampliar esta abordagem para todas as hard skills e soft skills de todas as áreas.

popular_lang = [x.lower() for x in popular_lang]
popular_lang

In [None]:
for lang in popular_lang:
    
    pattern = "[\s]\(?("+lang+")[.,;\/\)]?[\s]"

# Estou prevendo um espaço na anterior à ocorrência de cada palavra, bem como a possibilidade 
# de algum tipo de pontuação depois da palavra, seguido de novo espaço. Pensei justamente na necessidade de
# diferenciar 'C' e 'Java' de 'C#', 'C++' ou 'Javascript' (que tem 'Java' como parte da palavra).

# Finalmente, precisei acrescentar um espaço antecedendo 'C ' e 'R ' para não correr o risco de contar palavras terminadas em c ou r.

# Também considerei o caso da palavra estar englobada em parênteses. 

# Ainda podem existir ajustes a serem feitos, mas esta é uma aproximação boa para um primeiro exame.
    
    
    df_prog[lang] = df_prog['Minimum Qualifications'].apply(lambda x: 1 if re.search(pattern, str(x).lower()) else 0)

In [None]:
df_prog.sum()

In [None]:
# Vou retirar a coluna referente a todas as linguagens de programação que não tiveram nehum representante:
for lang in popular_lang:
    if df_prog[lang].sum()==0:
        df_prog.drop(columns=[lang], inplace=True)

In [None]:
plt.figure(figsize=(10,10))
df_prog.sum().sort_values(ascending=False).plot('bar',  color='xkcd:lightish blue')
plt.title('Linguagens de Programação e Afins Mais Solicitadas', fontsize=20)
plt.gca().spines['top'].set_visible(False)
plt.gca().spines['right'].set_visible(False)
plt.ylabel('Número de Menções')
plt.yticks(fontsize=15);
plt.xticks(fontsize=15, rotation=65);

In [None]:
df_prog.columns

In [None]:
df_prog[df_prog['c']==1]

In [None]:
df_prog.iloc[108]['Minimum Qualifications'] #Apenas verificando a exigência de C.

In [None]:

#Para vermos um pouco de como as competências em cada linguagem são requeridas em cada campo de atuação.

category_lang = pd.pivot_table(data=df_prog, index=['Category'], aggfunc='sum').T
category_lang

In [None]:
df_prog[df_prog['python']==1]

In [None]:
# Neste quero investigar a distribuição de linguagens de programação por setor. 
# Manterei a mesma escala para todos os gráficos para ter visão de escala.

for cat in list(df_prog.Category.unique()):
    plt.figure(figsize=(7,7))
    plt.title(cat, fontsize=15)
    category_lang[cat].sort_values().plot(kind='barh', color='xkcd:lightish blue')
    plt.xticks([n for n in range(40)])
    plt.xticks(rotation=90)
    plt.xlabel('Número de Menções', fontsize=15)
    plt.show()

In [None]:
# neste darei preferência para ajustar à melhor escala para cada caso:

# Obs: sei que não é bonito um gráfico que não mostra nada, como no caso de 'Real State & Workplace Services', mas
# vou mantê-lo apenas como um lembrete de que a categoria existe, mas não exige linguagens de programação.
for cat in list(df_prog.Category.unique()):
    plt.figure(figsize=(7,7))
    plt.title(cat)
    category_lang[cat].sort_values().plot(kind='barh')
    plt.xticks(rotation=90)
    plt.show()

In [None]:
plt.figure(figsize=(10,10))
plt.title('Similaridade entre categorias de acordo com as linguagens/tecnologias usadas')
sns.heatmap(category_lang.corr(), annot=True);

In [None]:
# A primeira tentativa de abordar este problema de forma generalista será a partir de um bag_of_words, 
# para verificar a frequência com que cada palavra aparece.


In [None]:
#from scipy.spatial.distance import pdist, squareform
similar = pd.DataFrame(1/(1+squareform(pdist(category_lang.T, 'euclidean'))), 
                       index=category_lang.columns, 
                       columns=category_lang.columns)


similar

# Aqui estamos calculando a similaridade entre as categorias considerando distância euclidiana temdo como base 
# as skills relacionadas a programação. No futuro será interessante enriquecer o dataset com outras soft e hard skills
# relacionadas a todas as áreas. E estou fazendo isso com relação a Categorias, mas poderia ter feiro com relação ao 
#título das vagas.

In [None]:
plt.figure(figsize=(10,10))
sns.heatmap(data=similar, linewidths=1);

In [None]:
df['MQ_degree'].value_counts()

In [None]:
df.head()

In [None]:
# Field for minimum qualification

In [None]:


def find_field(string):
    finded = re.findall(r'in (.*?)\.', string) #encontrando descrições após palavra in e antes do próximo ponto. 
    try: 
        finded = finded[0]
        return finded 
    except:
        return finded

df['MQ_field'] = df['Minimum Qualifications'].dropna().apply(lambda x: find_field(x))

In [None]:
df['MQ_field'] = df['MQ_field'].astype(str)

In [None]:
df['MQ_field'].unique()

In [None]:
corpus = []

corpus = list(df['Minimum Qualifications'].dropna().values)

def removeStuff(string):
    import re # pacote para executar regex
    pattern = [
    r"[.%!+;={}():/\[\]\@\?\"]",   #remove pontuação
    r"\d*",          #remove números (vamos eliminá-los em uma primeira análise)
    r"\b[a-z]\b",    #remove caracteres únicos
    ]  
    for x in pattern:
        string = re.sub(x, '', string)
    return string

corpus = [removeStuff(string) for string in corpus]


In [None]:

list_stop_words = list(stop_words.ENGLISH_STOP_WORDS)

vectorizer = CountVectorizer()
freq = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())

In [None]:
print(freq.toarray())

In [None]:
FreqPalavras = pd.DataFrame(freq.toarray(), columns=vectorizer.get_feature_names())
FreqPalavras

In [None]:
retirar = [word for word in list_stop_words if word in list(vectorizer.get_feature_names())]

plt.figure(figsize=(10,10))
plt.title('Palavras mais frequentes')
FreqPalavras.drop(columns=retirar).sum().sort_values(ascending=False)[0:40].sort_values(ascending=True).plot(kind='barh', color='xkcd:lightish blue');

In [None]:
#detalhe: o babs refere-se a 'ba/bs'

In [None]:
# Vou repetir o processo com a coluna recém criada: MQ_field

In [None]:
corpus = []

corpus = list(df['MQ_field'].dropna().values)

def removeStuff(string):
    import re # pacote para executar regex
    pattern = [
    r"[.%!+;={}():/\[\]\@\?\"]",   #remove pontuação
    r"\d*",          #remove números (vamos eliminá-los em uma primeira análise)
    r"\b[a-z]\b",    #remove caracteres únicos
    ]  
    for x in pattern:
        string = re.sub(x, '', string)
    return string

corpus = [removeStuff(string) for string in corpus]


list_stop_words = list(stop_words.ENGLISH_STOP_WORDS)

vectorizer = CountVectorizer()
freq = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())

FreqPalavras = pd.DataFrame(freq.toarray(), columns=vectorizer.get_feature_names())

retirar = [word for word in list_stop_words if word in list(vectorizer.get_feature_names())]

plt.figure(figsize=(10,10))
plt.title('Palavras mais frequentes')
FreqPalavras.drop(columns=retirar).sum().sort_values(ascending=False)[0:50].sort_values(ascending=True).plot(kind='barh');

In [None]:
FreqPalavras[['science', 'computer','engineering', 'management','business', 'sales', 'marketing', 'consulting', 'statistics', 'administration', 'accounting', 'operations']].sum().sort_values(ascending=True).plot(kind='barh')

In [None]:
#Para o caso do Brasil

corpus = []

corpus = list(df[df['Countries']=='Brazil']['MQ_field'].dropna().values)

def removeStuff(string):
    import re # pacote para executar regex
    pattern = [
    r"[.%!+;={}():/\[\]\@\?\"]",   #remove pontuação
    r"\d*",          #remove números (vamos eliminá-los em uma primeira análise)
    r"\b[a-z]\b",    #remove caracteres únicos
    ]  
    for x in pattern:
        string = re.sub(x, '', string)
    return string

corpus = [removeStuff(string) for string in corpus]


list_stop_words = list(stop_words.ENGLISH_STOP_WORDS)

vectorizer = CountVectorizer()
freq = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())

FreqPalavras = pd.DataFrame(freq.toarray(), columns=vectorizer.get_feature_names())

retirar = [word for word in list_stop_words if word in list(vectorizer.get_feature_names())]

plt.figure(figsize=(10,10))
plt.title('Palavras mais frequentes')
FreqPalavras.drop(columns=retirar).sum().sort_values(ascending=True).plot(kind='barh')

In [None]:
df[df['Countries']=='Brazil'].shape[0]

In [None]:
# Sobre vagas idênticas:

In [None]:
df[df.duplicated()]

In [None]:
df[df.duplicated()].shape[0]

In [None]:
def cloud_from_column(column):
    corpus1 = list(column.dropna().values)

    text=''
    for string in corpus1:
        text = text + ' ' + string

    wordcloud = WordCloud().generate(text)

    plt.figure(figsize=(10,10))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis("off")
    plt.show()

In [None]:
corpus1 = list(df['Minimum Qualifications'].dropna().values)

text=''
for string in corpus1:
    text = text + ' ' + string

wordcloud = WordCloud(background_color="white").generate(text)

plt.figure(figsize=(10,10))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

In [None]:
corpus2 = list(df['Preferred Qualifications'].dropna().values)

text2=''
for string in corpus2:
    text2 = text2 + ' ' + string

wordcloud = WordCloud().generate(text2)

plt.figure(figsize=(10,10))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

In [None]:
corpus3 = list(df['Responsibilities'].dropna().values)

text3=''
for string in corpus3:
    text3 = text3 + ' ' + string

wordcloud = WordCloud().generate(text3)

plt.figure(figsize=(10,10))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

In [None]:
cloud_from_column(df[df['Countries']=='Brazil']['Minimum Qualifications'])


Referência para wordcloud: https://www.datacamp.com/community/tutorials/wordcloud-python

Referência para sistemas de recomandação: http://coral.ufsm.br/pet-si/index.php/sistemas-de-recomendacao-desvendando-uma-parte-da-magica/

Sobre clusterização: https://lamfo-unb.github.io/2017/10/05/Introducao_basica_a_clusterizacao/

In [None]:
# Verificar também outros conhecimentos técnicos: Unix, linux, codec, etc. Verificar outras ferramentas de cada área.

# Criar uma Cloud para cada categoria.


In [None]:
# Se meu amigo quer muito trabalhar no google a primeira pergunta é: 
# Ele está com pressa e quer entrar onde der ou
# ele tem tempo de se preparar e sabe em que setor quer atuar? 
# E a segunda é: Qual o nível de experiência que ele já tem? 
# Se ele tem pressa, a maior parte das vagas que não exigem anos de experiência estão nos setores: ______
# mesmo assim, ele muito provavelmente vai precisar de ao menos um bacharelado.

# Agora, se ele tem tempo de adquirir experiência e quer direcionar o que ele deve dominar,
# temos que ter em mente quais os conhecimentos necessários em cada setor.

In [None]:
# Sobre o sistema de recomendação: abrir nas ferramentas e coisas que devem ser dominadas em cada setor.