#**Mineração e Análise de Dados do Linkedin**

1. Baixe seus arquivos do Linkedin [aqui](https://https://www.linkedin.com/mypreferences/d/download-my-data). Você receberá os arquivos por email em 24h.
2. Baixe e descompacte o arquivo recebido, busque os arquivos indicados ao longo do código.
3. Usaremos os arquivos de conexões e convites, faremos a limpeza dos dados e em seguida iremos anonimizar.

## Bases de dados em .csv

In [1]:
import pandas as pd
import plotly.express as px
import numpy as np

In [None]:
!pip install --upgrade plotly

### Conexões

Acesse Connection.csv e apague as linhas que não são referentes aos dados.

In [2]:
conexoes = pd.read_csv('Connections.csv')

In [3]:
conexoes.columns

Index(['First Name', 'Last Name', 'URL', 'Email Address', 'Company',
       'Position', 'Connected On'],
      dtype='object')

In [4]:
conexoes.shape

(622, 7)

In [None]:
conexoes.head() #Apagados para fins de respeito aos dados pessoais

In [6]:
conexoes.drop(labels = ['Email Address'], axis=1, inplace=True)

In [None]:
conexoes.head()

In [8]:
conexoes.isna().sum()

Unnamed: 0,0
First Name,8
Last Name,8
URL,8
Company,14
Position,13
Connected On,0


In [9]:
conexoes.shape

(622, 6)

In [10]:
conexoes.dropna(inplace=True)
conexoes.shape

(608, 6)

In [11]:
conexoes.isna().sum()

Unnamed: 0,0
First Name,0
Last Name,0
URL,0
Company,0
Position,0
Connected On,0


In [None]:
conexoes['Full Name'] = conexoes['First Name'] + ' ' + conexoes['Last Name']
conexoes.head()

### Convites

In [None]:
convites = pd.read_csv('Invitations.csv')

In [None]:
convites.columns

In [None]:
convites.shape

In [None]:
convites.head(10)

In [None]:
convites.isna().sum()

In [None]:
convites[convites['Message'].notnull()].head(10)

In [None]:
convites.shape

In [None]:
convites = convites[convites['Direction'] == 'INCOMING']
convites.shape

In [None]:
np.unique(convites['Direction'])

In [None]:
convites['Company'] = ''
convites.head()

In [None]:
conexoes[conexoes['Full Name'] == 'Milos Naflas']['Company'].values[0]

In [None]:
len(convites)

In [None]:
convites = convites.reset_index(drop=True)
convites

In [None]:
for i in range(0, len(convites)):
  #print(i, convites['From'][i])
  try:
    company = conexoes[conexoes['Full Name'] == convites['From'][i]]['Company'].values[0]
    #print(company)
    convites['Company'][i] = company
  except:
    continue

In [None]:
convites

In [None]:
convites.drop(labels=['From', 'To', 'Sent At', 'Message', 'Direction'], axis=1, inplace=True)
convites

In [None]:
convites.to_csv('convites.csv')

### Geração de dados fake

In [18]:
conexoes.drop(labels = ['First Name', 'Last Name', 'Full Name', 'URL'], axis = 1, inplace = True)
conexoes

Unnamed: 0,Company,Position,Connected On
0,Idiomus,Analista de RH,07 Sep 2025
1,Gut Sorvetes,Gerente administrativo,15 Apr 2025
2,Ampix Software,Software Developer,29 Mar 2025
3,IMPLY,Desenvolvedor de front-end,29 Mar 2025
4,Compass UOL,Estagiário de desenvolvimento back-end,25 Mar 2025
...,...,...,...
617,IMPLY,Gerente de Inovação,08 May 2018
618,Hapvida NotreDame Intermédica,Analista de sistemas sênior,07 May 2018
619,CP SOLUÇÕES EM PREVENÇÃO,CONSULTOR,07 May 2018
620,ADCloud Digital,Marketing,28 Mar 2018


In [19]:
!pip install faker

Collecting faker
  Downloading faker-37.12.0-py3-none-any.whl.metadata (15 kB)
Downloading faker-37.12.0-py3-none-any.whl (2.0 MB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/2.0 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m2.0/2.0 MB[0m [31m112.6 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m54.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-37.12.0


In [20]:
from faker import Faker

In [21]:
fake = Faker()

In [22]:
fake.name()

'Richard Mckenzie'

In [24]:
conexoes['Full Name'] = ''
conexoes.head()

Unnamed: 0,Company,Position,Connected On,Full Name
0,Idiomus,Analista de RH,07 Sep 2025,
1,Gut Sorvetes,Gerente administrativo,15 Apr 2025,
2,Ampix Software,Software Developer,29 Mar 2025,
3,IMPLY,Desenvolvedor de front-end,29 Mar 2025,
4,Compass UOL,Estagiário de desenvolvimento back-end,25 Mar 2025,


In [25]:
conexoes = conexoes.reset_index(drop=True)

In [26]:
for i in range(0, len(conexoes)):
  conexoes['Full Name'][i] = fake.name()

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  conexoes['Full Name'][i] = fake.name()


In [27]:
conexoes

Unnamed: 0,Company,Position,Connected On,Full Name
0,Idiomus,Analista de RH,07 Sep 2025,Erik Villa
1,Gut Sorvetes,Gerente administrativo,15 Apr 2025,Julie Kelly
2,Ampix Software,Software Developer,29 Mar 2025,Michelle Scott
3,IMPLY,Desenvolvedor de front-end,29 Mar 2025,Tammy Phillips
4,Compass UOL,Estagiário de desenvolvimento back-end,25 Mar 2025,Kevin Hunt
...,...,...,...,...
603,IMPLY,Gerente de Inovação,08 May 2018,Samuel Adams
604,Hapvida NotreDame Intermédica,Analista de sistemas sênior,07 May 2018,Colleen Robinson
605,CP SOLUÇÕES EM PREVENÇÃO,CONSULTOR,07 May 2018,Chelsea Nguyen
606,ADCloud Digital,Marketing,28 Mar 2018,Emily Rojas


In [28]:
conexoes.to_csv('conexoes.csv')

### Mensagens

In [None]:
mensagens = pd.read_csv('messages.csv')

In [None]:
mensagens.columns

In [None]:
mensagens.shape

In [None]:
mensagens.head(1)

In [None]:
mensagens = mensagens['CONTENT']

In [None]:
mensagens

In [None]:
mensagens.isna().sum()

In [None]:
mensagens.dropna(inplace=True)
mensagens.shape

In [None]:
mensagens.to_csv('mensagens.csv')

## Conexões



### Número de conexões por período

In [29]:
import datetime
import pandas as pd
import plotly.express as px
import numpy as np

In [30]:
!pip install --upgrade plotly



In [31]:
conexoes = pd.read_csv('conexoes.csv')
conexoes.drop(labels = ['Unnamed: 0'], axis = 1, inplace=True)

In [32]:
conexoes.head()

Unnamed: 0,Company,Position,Connected On,Full Name
0,Idiomus,Analista de RH,07 Sep 2025,Erik Villa
1,Gut Sorvetes,Gerente administrativo,15 Apr 2025,Julie Kelly
2,Ampix Software,Software Developer,29 Mar 2025,Michelle Scott
3,IMPLY,Desenvolvedor de front-end,29 Mar 2025,Tammy Phillips
4,Compass UOL,Estagiário de desenvolvimento back-end,25 Mar 2025,Kevin Hunt


In [33]:
def converte_data(data):
  return datetime.datetime.strptime(data, '%d %b %Y').strftime('%Y-%m-%d')

In [34]:
conexoes['Connected On'] = conexoes['Connected On'].apply(converte_data)

In [35]:
conexoes.head()

Unnamed: 0,Company,Position,Connected On,Full Name
0,Idiomus,Analista de RH,2025-09-07,Erik Villa
1,Gut Sorvetes,Gerente administrativo,2025-04-15,Julie Kelly
2,Ampix Software,Software Developer,2025-03-29,Michelle Scott
3,IMPLY,Desenvolvedor de front-end,2025-03-29,Tammy Phillips
4,Compass UOL,Estagiário de desenvolvimento back-end,2025-03-25,Kevin Hunt


In [36]:
grafico = px.scatter(conexoes, x = 'Full Name', y = 'Connected On')
grafico.show()

In [37]:
conexoes.groupby(by = 'Connected On').count()

Unnamed: 0_level_0,Company,Position,Full Name
Connected On,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2018-03-25,1,1,1
2018-03-28,1,1,1
2018-05-07,2,2,2
2018-05-08,3,3,3
2018-05-13,1,1,1
...,...,...,...
2025-03-22,1,1,1
2025-03-25,1,1,1
2025-03-29,2,2,2
2025-04-15,1,1,1


In [38]:
grafico = px.line(conexoes.groupby(by = 'Connected On').count(), title = 'Novas conexões por data')
grafico.show()

In [39]:
def converte_data_mes(data):
  return datetime.datetime.strptime(data, '%Y-%m-%d').strftime('%m')

In [40]:
conexoes['Connected Month'] = conexoes['Connected On'].apply(converte_data_mes)
conexoes

Unnamed: 0,Company,Position,Connected On,Full Name,Connected Month
0,Idiomus,Analista de RH,2025-09-07,Erik Villa,09
1,Gut Sorvetes,Gerente administrativo,2025-04-15,Julie Kelly,04
2,Ampix Software,Software Developer,2025-03-29,Michelle Scott,03
3,IMPLY,Desenvolvedor de front-end,2025-03-29,Tammy Phillips,03
4,Compass UOL,Estagiário de desenvolvimento back-end,2025-03-25,Kevin Hunt,03
...,...,...,...,...,...
603,IMPLY,Gerente de Inovação,2018-05-08,Samuel Adams,05
604,Hapvida NotreDame Intermédica,Analista de sistemas sênior,2018-05-07,Colleen Robinson,05
605,CP SOLUÇÕES EM PREVENÇÃO,CONSULTOR,2018-05-07,Chelsea Nguyen,05
606,ADCloud Digital,Marketing,2018-03-28,Emily Rojas,03


In [41]:
conexoes.groupby(by = 'Connected Month').count()

Unnamed: 0_level_0,Company,Position,Connected On,Full Name
Connected Month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,7,7,7,7
2,7,7,7,7
3,16,16,16,16
4,258,258,258,258
5,222,222,222,222
6,28,28,28,28
7,20,20,20,20
8,13,13,13,13
9,11,11,11,11
10,10,10,10,10


In [42]:
grafico = px.line(conexoes.groupby(by = 'Connected Month').count(), title = 'Novas conexões por mês')
grafico.show()

In [43]:
def converte_data_ano(data):
  return datetime.datetime.strptime(data, '%Y-%m-%d').strftime('%Y')

In [44]:
conexoes['Connected Year'] = conexoes['Connected On'].apply(converte_data_ano)
conexoes

Unnamed: 0,Company,Position,Connected On,Full Name,Connected Month,Connected Year
0,Idiomus,Analista de RH,2025-09-07,Erik Villa,09,2025
1,Gut Sorvetes,Gerente administrativo,2025-04-15,Julie Kelly,04,2025
2,Ampix Software,Software Developer,2025-03-29,Michelle Scott,03,2025
3,IMPLY,Desenvolvedor de front-end,2025-03-29,Tammy Phillips,03,2025
4,Compass UOL,Estagiário de desenvolvimento back-end,2025-03-25,Kevin Hunt,03,2025
...,...,...,...,...,...,...
603,IMPLY,Gerente de Inovação,2018-05-08,Samuel Adams,05,2018
604,Hapvida NotreDame Intermédica,Analista de sistemas sênior,2018-05-07,Colleen Robinson,05,2018
605,CP SOLUÇÕES EM PREVENÇÃO,CONSULTOR,2018-05-07,Chelsea Nguyen,05,2018
606,ADCloud Digital,Marketing,2018-03-28,Emily Rojas,03,2018


In [45]:
conexoes.groupby(by = 'Connected Year').count()

Unnamed: 0_level_0,Company,Position,Connected On,Full Name,Connected Month
Connected Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018,18,18,18,18,18
2019,29,29,29,29,29
2020,10,10,10,10,10
2021,7,7,7,7,7
2022,39,39,39,39,39
2023,16,16,16,16,16
2024,483,483,483,483,483
2025,6,6,6,6,6


In [46]:
grafico = px.line(conexoes.groupby(by = 'Connected Year').count(), title = 'Novas conexões por ano')
grafico.show()

### Empresas

In [52]:
np.unique(conexoes['Company'], return_counts=True)

(array(['3M', '4U EdTech', '5C Company LLC', '<Mappit> Talenses Group',
        'A-Players', 'ADCloud Digital', 'ADP Brazil Labs',
        'AGCO Corporation', 'AGR', 'AI/R', 'AMcom', 'Accenture Brasil',
        'Ademicon', 'Advogada Autônoma', 'Advolve.ai', 'Affilired',
        'Ag. da Casa - Unisc', 'Agile Directive', 'Ago Social',
        'Air Liquide', 'Algar Tech', 'Allia Health Group', 'Amazon',
        'Ampix Software', 'Ana Luiza Monteiro', 'Analítica 3M',
        'Arquipélago - estratégias e culturas que transformam',
        'Associação Cultural Érico Veríssimo', 'Ateliê do Texto', 'Atlas',
        'Atlas Technologies', 'Autônoma / Freelancer', 'Autônomo',
        'Autônomo - Headhunter', 'Auxiliadora Predial',
        'BAMHUB MEDIA - Brasil', 'BAT', 'BRQ Digital Solutions',
        'Banco PAN', 'Bandeira Studio', 'Batuca', 'Beiraflor', 'Bel',
        'Bell Ventures', 'Berneck S.A. Painéis e Serrados',
        'Betha Sistemas', 'BookSports', 'Bradesco', 'Brantive',
        'Bú

In [53]:
conexoes.shape

(608, 6)

In [54]:
len(np.unique(conexoes['Company']))

477

In [55]:
grafico = px.histogram(conexoes['Company'])
grafico.show()

In [56]:
grafico = px.treemap(conexoes, path=['Company', 'Position', 'Full Name'])
grafico.show()

### Cargos

In [57]:
np.unique(conexoes['Position'], return_counts=True)

(array([' SSr Data Scientist',
        ' Specialist Product Designer – Visual Design and Usability for Gaming Platforms',
        'Advogado', 'Almoxarife', 'Aluno pesquisador de pós-graduação',
        'Analista Educacional Sênior ', 'Analista Pleno | Design Gráfico',
        'Analista Senior de Inovação Digital',
        'Analista Sênior em Marketing de Comunicação',
        'Analista administrativo - RH Generalista',
        'Analista de Atração e Seleção de Pessoas',
        'Analista de Business Intelligence II', 'Analista de Criação',
        'Analista de Customer Onboarding Bilíngue Jr.',
        'Analista de DHO Jr.', 'Analista de DHO | T&D',
        'Analista de Dados | PL', 'Analista de Desenvolvimento Comercial',
        'Analista de Desenvolvimento Humano e Organizacional II',
        'Analista de Engenharia TI PL', 'Analista de Gente e Cultura',
        'Analista de Growth Marketing', 'Analista de Infraestrutura SR',
        'Analista de Marketing & Design', 'Analista de Ma

In [58]:
conexoes.shape

(608, 6)

In [59]:
len(np.unique(conexoes['Position']))

498

In [60]:
grafico = px.histogram(conexoes['Position'])
grafico.show()

In [61]:
def altera_cargo(cargo):
  novo_cargo = cargo
  if cargo == 'Data Scientist':
    novo_cargo = 'Cientista de Dados'
  elif cargo == 'Cientista de dados':
    novo_cargo = 'Cientista de Dados'
  return novo_cargo

In [62]:
conexoes['Position'] = conexoes['Position'].apply(altera_cargo)

In [63]:
len(conexoes[conexoes['Position'] == 'Cientista de Dados'])

2

In [64]:
grafico = px.treemap(conexoes, path = ['Position', 'Company', 'Full Name'])
grafico.show()

### Agrupamento dos cargos

#### Distância de edição (Levenshtein)

In [65]:
# pip install nltk
import nltk

In [66]:
from nltk.metrics.distance import edit_distance

In [67]:
edit_distance('rain', 'shine')

3

In [68]:
edit_distance('pai', 'cai')

1

In [69]:
edit_distance('Analista de Dados', 'Analista de dados')

1

In [70]:
edit_distance('Consultant', 'Consultor')

3

In [71]:
edit_distance('Cientista de Dados', 'Data Scientist')

15

In [72]:
edit_distance('Cientista de Dados', 'Cientista de Dados')

0

#### Similaridade n-grama

In [73]:
'analista de business intelligence'.split()

['analista', 'de', 'business', 'intelligence']

In [74]:
bigramas_cargo1 = list(nltk.bigrams('analista de business intelligence'.split(), pad_right=True, pad_left=True))
bigramas_cargo1

[(None, 'analista'),
 ('analista', 'de'),
 ('de', 'business'),
 ('business', 'intelligence'),
 ('intelligence', None)]

In [75]:
bigramas_cargo2 = list(nltk.bigrams('cientista de dados'.split(), pad_right=True, pad_left=True))
bigramas_cargo2

[(None, 'cientista'), ('cientista', 'de'), ('de', 'dados'), ('dados', None)]

In [76]:
bigramas_cargo3 = list(nltk.bigrams('analista de dados'.split(), pad_right=True, pad_left=True))
bigramas_cargo3

[(None, 'analista'), ('analista', 'de'), ('de', 'dados'), ('dados', None)]

In [77]:
set(['A', 'B', 'C']).intersection(set(['C', 'D', 'E']))

{'C'}

In [78]:
# Cargo 1 x Cargo 2
len(set(bigramas_cargo1).intersection(set(bigramas_cargo2)))

0

In [79]:
# Cargo 1 x Cargo 3
len(set(bigramas_cargo1).intersection(set(bigramas_cargo3)))

2

In [80]:
# Cargo 2 x Cargo 3
len(set(bigramas_cargo2).intersection(set(bigramas_cargo3)))

2

In [81]:
# Cargo 1 x Cargo 1
len(set(bigramas_cargo1).intersection(set(bigramas_cargo1)))

5

#### Distância de Jaccard

In [82]:
cargo1 = 'analista de business intelligence'.split()
cargo2 = 'cientista de dados'.split()
cargo3 = 'analista de dados'.split()

In [83]:
cargo1, cargo2, cargo3

(['analista', 'de', 'business', 'intelligence'],
 ['cientista', 'de', 'dados'],
 ['analista', 'de', 'dados'])

In [None]:
# Cargo 1 x Cargo 3

In [84]:
intersecao = set(cargo1).intersection(set(cargo3))
intersecao

{'analista', 'de'}

In [85]:
uniao = set(cargo1).union(set(cargo3))
uniao

{'analista', 'business', 'dados', 'de', 'intelligence'}

In [86]:
len(intersecao), len(uniao)

(2, 5)

In [87]:
(len(uniao) - len(intersecao)) / len(uniao)

0.6

In [88]:
from nltk.metrics.distance import jaccard_distance

In [89]:
# Cargo 1 x Cargo 3
jaccard_distance(set(cargo1), set(cargo3))

0.6

In [90]:
# Cargo 1 x Cargo 2
jaccard_distance(set(cargo1), set(cargo2))

0.8333333333333334

In [91]:
# Cargo 2 x Cargo 3
jaccard_distance(set(cargo2), set(cargo3))

0.5

In [92]:
# Cargo 1 x Cargo 1
jaccard_distance(set(cargo1), set(cargo1))

0.0

#### Agrupamento dos cargos

##### Teste com poucos registros

In [93]:
cargos_df = pd.DataFrame(columns=['Position'], data=['Programador', 'Cientista de Dados',
                                                     'Cientista de dados', 'Analista de business intelligence',
                                                     'Analista de dados', 'Consultant', 'Consultor',
                                                     'Consultora', 'Professor on-line', 'Professor universitário'])

In [94]:
cargos_df

Unnamed: 0,Position
0,Programador
1,Cientista de Dados
2,Cientista de dados
3,Analista de business intelligence
4,Analista de dados
5,Consultant
6,Consultor
7,Consultora
8,Professor on-line
9,Professor universitário


In [95]:
todos_cargos = cargos_df['Position'].values
todos_cargos

array(['Programador', 'Cientista de Dados', 'Cientista de dados',
       'Analista de business intelligence', 'Analista de dados',
       'Consultant', 'Consultor', 'Consultora', 'Professor on-line',
       'Professor universitário'], dtype=object)

In [96]:
set(todos_cargos)

{'Analista de business intelligence',
 'Analista de dados',
 'Cientista de Dados',
 'Cientista de dados',
 'Consultant',
 'Consultor',
 'Consultora',
 'Professor on-line',
 'Professor universitário',
 'Programador'}

In [97]:
for cargo1 in todos_cargos:
  print(cargo1)
  print('-------------')
  print('\n')
  for cargo2 in todos_cargos:
    print(cargo2, jaccard_distance(set(cargo1), set(cargo2)))
  print('\n')

Programador
-------------


Programador 0.0
Cientista de Dados 0.8
Cientista de dados 0.7857142857142857
Analista de business intelligence 0.8333333333333334
Analista de dados 0.8
Consultant 0.8461538461538461
Consultor 0.8461538461538461
Consultora 0.7692307692307693
Professor on-line 0.8
Professor universitário 0.8235294117647058


Cientista de Dados
-------------


Programador 0.8
Cientista de Dados 0.0
Cientista de dados 0.09090909090909091
Analista de business intelligence 0.5294117647058824
Analista de dados 0.3076923076923077
Consultant 0.5384615384615384
Consultor 0.6428571428571429
Consultora 0.5714285714285714
Professor on-line 0.625
Professor universitário 0.5882352941176471


Cientista de dados
-------------


Programador 0.7857142857142857
Cientista de Dados 0.09090909090909091
Cientista de dados 0.0
Analista de business intelligence 0.5
Analista de dados 0.25
Consultant 0.5
Consultor 0.6153846153846154
Consultora 0.5384615384615384
Professor on-line 0.6
Professor universi

In [98]:
limite = 0.4
clusters = {}
for cargo1 in todos_cargos:
  clusters[cargo1] = []
  for cargo2 in todos_cargos:
    if cargo2 in clusters[cargo1] or cargo2 in clusters and cargo1 in clusters[cargo2]:
      continue

    distancia = jaccard_distance(set(cargo1), set(cargo2))
    if distancia <= limite:
      clusters[cargo1].append(cargo2)

In [99]:
clusters

{'Programador': ['Programador'],
 'Cientista de Dados': ['Cientista de Dados',
  'Cientista de dados',
  'Analista de dados'],
 'Cientista de dados': ['Cientista de dados', 'Analista de dados'],
 'Analista de business intelligence': ['Analista de business intelligence',
  'Analista de dados'],
 'Analista de dados': ['Analista de dados'],
 'Consultant': ['Consultant', 'Consultor', 'Consultora'],
 'Consultor': ['Consultor', 'Consultora'],
 'Consultora': ['Consultora'],
 'Professor on-line': ['Professor on-line', 'Professor universitário'],
 'Professor universitário': ['Professor universitário']}

In [100]:
clusters = [clusters[cargo] for cargo in clusters if len(clusters[cargo]) > 1]
clusters

[['Cientista de Dados', 'Cientista de dados', 'Analista de dados'],
 ['Cientista de dados', 'Analista de dados'],
 ['Analista de business intelligence', 'Analista de dados'],
 ['Consultant', 'Consultor', 'Consultora'],
 ['Consultor', 'Consultora'],
 ['Professor on-line', 'Professor universitário']]

##### Aplicação na base de dados

In [101]:
todos_cargos = conexoes['Position'].values
len(todos_cargos)

608

In [102]:
todos_cargos = set(todos_cargos)
len(todos_cargos)

497

In [103]:
limite = 0.3
clusters = {}
for cargo1 in todos_cargos:
  clusters[cargo1] = []
  for cargo2 in todos_cargos:
    if cargo2 in clusters[cargo1] or cargo2 in clusters and cargo1 in clusters[cargo2]:
      continue

    distancia = jaccard_distance(set(cargo1), set(cargo2))
    if distancia <= limite:
      clusters[cargo1].append(cargo2)

In [104]:
clusters = [clusters[cargo] for cargo in clusters if len(clusters[cargo]) > 1]
clusters, len(clusters)

([['Product Designer',
   'Product Designer Pleno',
   'Product Design Specialist',
   'Senior Product Manager',
   'Product & Design Manager',
   'Product Design Manager',
   'Head of Product Design',
   'Product Designer | UX/UI Designer | Designer',
   'Product Designer (Projeto Getnet)',
   'Product Design Lead ',
   'Product Design Leader',
   'Product Designer @HP e-commerce',
   'Sócia e Product Designer',
   'Lead Designer and Art Director',
   'Product Designer, Sales',
   'Pleno Product Designer | UI/UX Designer',
   'Coordenadora de Produto Digital',
   'Analista de Produto Digital  II',
   'Senior Product Designer',
   'Product Designer Pleno ',
   'Designer de Produto',
   'Lead Product Designer'],
  ['Recursos humanos', 'Tech Recruiter / Recursos Humanos'],
  ['Senior Creative Manager / Creative Director',
   'Senior Creative Strategist'],
  ['Analista de Marketing de Produtos',
   'Analyste en Marketing de Contenu',
   'Analista de Marketing & Design',
   'Product & Desi

##### Vinculação para os usuários

In [105]:
for contato in range(0, len(conexoes)):
  print(conexoes['Position'][contato])

Analista de RH
Gerente administrativo
Software Developer
Desenvolvedor de front-end
Estagiário de desenvolvimento back-end
Analista de Infraestrutura SR
Assistente administrativo
Gerente de atendimento ao cliente
Ilustradora
Revisora de texto - português
Senior Employee Relationship Consultant – Latin America 
Experience Design Manager
Analista de movimentação de pessoas
Analista de RH Pleno
Supervisora
Autônoma
Business Intelligence Analyst
Product Design Specialist
Jornalista
Editorial Designer
Sócia Fundadora e Líder de Marketing Estratégico
Líder de Engenharia de Dados
Auxiliar de escritório 
Gerente de design
Desenvolvedor full stack
Professor
Coordenadora de recrutamento e seleção
Professor
Analista de tecnologia da informação
Designer | Vale
Design Lead
Art Editor in Chief
Assistente de comunicação e marketing
Cofundadora & Designer
Redatora publicitária
Tech Recruiting Assistant 
Professora de Graduação - Colaboração e Influência Social (LifeLab)
Assistente de desenvolvimento d

In [106]:
cluster_contatos = {}
for cluster in clusters:
  #print(cluster)
  cluster_contatos[tuple(cluster)] = []
  for contato in range(0, len(conexoes)):
    if conexoes['Position'][contato] in cluster:
      cluster_contatos[tuple(cluster)].append(conexoes['Full Name'][contato])

In [107]:
cluster_contatos

{('Product Designer',
  'Product Designer Pleno',
  'Product Design Specialist',
  'Senior Product Manager',
  'Product & Design Manager',
  'Product Design Manager',
  'Head of Product Design',
  'Product Designer | UX/UI Designer | Designer',
  'Product Designer (Projeto Getnet)',
  'Product Design Lead ',
  'Product Design Leader',
  'Product Designer @HP e-commerce',
  'Sócia e Product Designer',
  'Lead Designer and Art Director',
  'Product Designer, Sales',
  'Pleno Product Designer | UI/UX Designer',
  'Coordenadora de Produto Digital',
  'Analista de Produto Digital  II',
  'Senior Product Designer',
  'Product Designer Pleno ',
  'Designer de Produto',
  'Lead Product Designer'): ['Michael Anderson MD',
  'Derrick Raymond',
  'Catherine Mcgee',
  'Lisa Frazier',
  'Shane Gordon',
  'William Morales',
  'Steven Rollins',
  'Jose Hunter',
  'Chelsey Miller',
  'Caleb Hill',
  'Robert Munoz',
  'Leslie Smith',
  'Sheryl Velasquez',
  'Jonathan Robinson',
  'Gavin Gardner',
  'Vi

### Visualização do agrupamento

In [108]:
from IPython.core.display import HTML
for cargos in cluster_contatos:
  lista_cargos = 'Lista de cargos no grupo: ' + ', '.join(cargos)
  #print(lista_cargos)

  termos = set(cargos[0].split())
  for palavras in cargos:
    termos.intersection_update(set(palavras.split()))
  if len(termos) == 0:
    termos = ['***Nenhum termo em comum****']
  termos_impressao = 'Termos comuns: ' + ', '.join(termos)

  display(HTML(f'<h3>{lista_cargos}</h3>'))
  display(HTML(f'<p>{termos_impressao}</p>'))
  display(HTML(f'<p>{"-" * 70}</p>'))
  display(HTML(f'<p><mark>{", ".join(cluster_contatos[cargos])}</mark></p>'))

  #print(lista_cargos)
  #print('\n' + termos_impressao)
  #print('-' * 70)
  #print('\n'.join(cluster_contatos[cargos]))
  #print()

### Exportação dos grupos para JSON

In [109]:
from IPython.display import HTML
from IPython.core.display import display
import json

In [110]:
cluster_contatos

{('Product Designer',
  'Product Designer Pleno',
  'Product Design Specialist',
  'Senior Product Manager',
  'Product & Design Manager',
  'Product Design Manager',
  'Head of Product Design',
  'Product Designer | UX/UI Designer | Designer',
  'Product Designer (Projeto Getnet)',
  'Product Design Lead ',
  'Product Design Leader',
  'Product Designer @HP e-commerce',
  'Sócia e Product Designer',
  'Lead Designer and Art Director',
  'Product Designer, Sales',
  'Pleno Product Designer | UI/UX Designer',
  'Coordenadora de Produto Digital',
  'Analista de Produto Digital  II',
  'Senior Product Designer',
  'Product Designer Pleno ',
  'Designer de Produto',
  'Lead Product Designer'): ['Michael Anderson MD',
  'Derrick Raymond',
  'Catherine Mcgee',
  'Lisa Frazier',
  'Shane Gordon',
  'William Morales',
  'Steven Rollins',
  'Jose Hunter',
  'Chelsey Miller',
  'Caleb Hill',
  'Robert Munoz',
  'Leslie Smith',
  'Sheryl Velasquez',
  'Jonathan Robinson',
  'Gavin Gardner',
  'Vi

In [None]:
cluster_contatos[(('Systems Development Analyst','System Analyst','Senior Data Analyst'))]

In [113]:
saida_json = {'name': 'Linkedin', 'children': []}
contador = 1
for grupos in cluster_contatos:
  #print(grupos)
  if contador > 10:
    break

  saida_json['children'].append({'name': ', '.join(grupos)[:20],
                                 'children': [{'name': contato} for contato in cluster_contatos[grupos]]})
  f = open('dados.json', 'w')
  f.write(json.dumps(saida_json, indent=1))
  f.close()

  contador += 1

In [114]:
data = json.load(open('dados.json'))

In [115]:
data

{'name': 'Linkedin',
 'children': [{'name': 'Product Designer, Pr',
   'children': [{'name': 'Michael Anderson MD'},
    {'name': 'Derrick Raymond'},
    {'name': 'Catherine Mcgee'},
    {'name': 'Lisa Frazier'},
    {'name': 'Shane Gordon'},
    {'name': 'William Morales'},
    {'name': 'Steven Rollins'},
    {'name': 'Jose Hunter'},
    {'name': 'Chelsey Miller'},
    {'name': 'Caleb Hill'},
    {'name': 'Robert Munoz'},
    {'name': 'Leslie Smith'},
    {'name': 'Sheryl Velasquez'},
    {'name': 'Jonathan Robinson'},
    {'name': 'Gavin Gardner'},
    {'name': 'Victoria Barry'},
    {'name': 'Jenna Thomas'},
    {'name': 'Anthony Franklin'},
    {'name': 'Erin Burnett'},
    {'name': 'Steven Sims'},
    {'name': 'Dana Macdonald'},
    {'name': 'Shawn Richard'},
    {'name': 'Richard Johnson'},
    {'name': 'Christine French'},
    {'name': 'Kyle Palmer'},
    {'name': 'James Price'},
    {'name': 'Susan Mclaughlin'},
    {'name': 'Peter Huffman DDS'},
    {'name': 'Sierra Ball'},
  

In [116]:
valores = json.dumps(data)
valores

'{"name": "Linkedin", "children": [{"name": "Product Designer, Pr", "children": [{"name": "Michael Anderson MD"}, {"name": "Derrick Raymond"}, {"name": "Catherine Mcgee"}, {"name": "Lisa Frazier"}, {"name": "Shane Gordon"}, {"name": "William Morales"}, {"name": "Steven Rollins"}, {"name": "Jose Hunter"}, {"name": "Chelsey Miller"}, {"name": "Caleb Hill"}, {"name": "Robert Munoz"}, {"name": "Leslie Smith"}, {"name": "Sheryl Velasquez"}, {"name": "Jonathan Robinson"}, {"name": "Gavin Gardner"}, {"name": "Victoria Barry"}, {"name": "Jenna Thomas"}, {"name": "Anthony Franklin"}, {"name": "Erin Burnett"}, {"name": "Steven Sims"}, {"name": "Dana Macdonald"}, {"name": "Shawn Richard"}, {"name": "Richard Johnson"}, {"name": "Christine French"}, {"name": "Kyle Palmer"}, {"name": "James Price"}, {"name": "Susan Mclaughlin"}, {"name": "Peter Huffman DDS"}, {"name": "Sierra Ball"}, {"name": "Daniel Wilkins"}, {"name": "Stacey Luna"}, {"name": "Anthony Mack"}, {"name": "Gina Estrada"}, {"name": "Ju

### Visualização com dendrograma

In [117]:
visualizacao = """<!DOCTYPE html>
<meta charset='utf-8'>
<style>

.node circle {
  fill: #fff;
  stroke: steelblue;
  stroke-width: 1.5px;
}

.node {
  font: 10px sans-serif;
}

.link {
  fill: none;
  stroke: #ccc;
  stroke-width: 1.5px;
}

</style>
<body>
<script src='https://d3js.org/d3.v3.min.js'></script>
<script>

root = %s;
//j = JSON.parse(valores);

var width = 960,
    height = 2200;

var cluster = d3.layout.cluster()
    .size([height, width - 160]);

var diagonal = d3.svg.diagonal()
    .projection(function(d) { return [d.y, d.x]; });

var svg = d3.select('body').append('svg')
    .attr('width', width)
    .attr('height', height)
  .append('g')
    .attr('transform', 'translate(40,0)');

console.log(root);


var nodes = cluster.nodes(root),
    links = cluster.links(nodes);

var link = svg.selectAll('.link')
    .data(links)
  .enter().append('path')
    .attr('class', 'link')
    .attr('d', diagonal);

var node = svg.selectAll('.node')
    .data(nodes)
  .enter().append('g')
    .attr('class', 'node')
    .attr('transform', function(d) { return 'translate(' + d.y + ',' + d.x + ')'; })

node.append('circle')
    .attr('r', 4.5);

node.append('text')
    .attr('dx', function(d) { return d.children ? -8 : 8; })
    .attr('dy', 3)
    .style('text-anchor', function(d) { return d.children ? 'end' : 'start'; })
    .text(function(d) { return d.name; });


d3.select(self.frameElement).style('height', height + 'px');

</script>
"""


In [118]:
display(HTML(visualizacao % (valores)))

### Visualização com árvore

In [119]:
visualizacao = """<!DOCTYPE html>
<meta charset="utf-8">
<style>

.node circle { fill: #fff; stroke: steelblue; stroke-width: 1.5px; }
.node { font: 10px sans-serif; }
.link { fill: none; stroke: #ccc; stroke-width: 1.5px; }

</style>
<body>
<script src="https://d3js.org/d3.v3.min.js"></script>
<script>

var diameter = 960;

var tree = d3.layout.tree()
    .size([360, diameter / 2 - 120])
    .separation(function(a, b) { return (a.parent == b.parent ? 1 : 2) / a.depth; });

var diagonal = d3.svg.diagonal.radial()
    .projection(function(d) { return [d.y, d.x / 180 * Math.PI]; });

var svg = d3.select("body").append("svg")
    .attr("width", diameter)
    .attr("height", diameter - 150)
  .append("g")
    .attr("transform", "translate(" + diameter / 2 + "," + diameter / 2 + ")");

root = %s;

var nodes = tree.nodes(root),
    links = tree.links(nodes);

var link = svg.selectAll(".link")
    .data(links)
  .enter().append("path")
    .attr("class", "link")
    .attr("d", diagonal);

var node = svg.selectAll(".node")
    .data(nodes)
  .enter().append("g")
    .attr("class", "node")
    .attr("transform", function(d) { return "rotate(" + (d.x - 90) + ")translate(" + d.y + ")"; })

node.append("circle")
    .attr("r", 4.5);

node.append("text")
    .attr("dy", ".31em")
    .attr("text-anchor", function(d) { return d.x < 180 ? "start" : "end"; })
    .attr("transform", function(d) { return d.x < 180 ? "translate(8)" : "rotate(180)translate(-8)"; })
    .text(function(d) { return d.name; });


d3.select(self.frameElement).style("height", diameter - 150 + "px");

</script>
"""

In [120]:
display(HTML(visualizacao % (valores)))

### Localização dos contatos

#### Teste com a API do Google Maps

In [None]:
# https://console.developers.google.com
# https://developers.google.com/maps/documentation/geocoding/usage-and-billing

In [None]:
!pip install geopy

In [None]:
from geopy import geocoders

In [None]:
g = geocoders.GoogleV3('') #substitua com a sua chave

In [None]:
import pandas as pd
conexoes = pd.read_csv('conexoes.csv')
conexoes.drop(labels = ['Unnamed: 0'], axis = 1, inplace=True)
conexoes.head()

In [None]:
localizacao = g.geocode('Google Canada')
localizacao

In [None]:
localizacao.latitude, localizacao.longitude

#### Latitude e longitude dos contatos

In [None]:
conexoes['Latitude'] = None
conexoes['Longitude'] = None
conexoes.head()

In [None]:
for i in range(0, len(conexoes)):
  #print(conexoes['Company'][i])
  try:
    localizacao = g.geocode(conexoes['Company'][i])
  except:
    print(conexoes['Company'][i])

  if localizacao != None:
    conexoes['Latitude'][i] = localizacao.latitude
    conexoes['Longitude'][i] = localizacao.longitude

In [None]:
conexoes

In [None]:
conexoes.to_csv('conexoes_localizacao.csv')

In [None]:
import pandas as pd
conexoes = pd.read_csv('conexoes_localizacao.csv')
conexoes.drop(labels = ['Unnamed: 0'], axis = 1, inplace=True)
conexoes.head()

#### Mapa de localizações com BaseMap

In [None]:
!apt-get install libgeos-3.5.0
!apt-get install libgeos-dev
!pip install https://github.com/matplotlib/basemap/archive/master.zip

In [None]:
from mpl_toolkits.basemap import Basemap
import matplotlib.pyplot as plt

In [None]:
conexoes['Latitude'].describe()

In [None]:
conexoes['Longitude'].describe()

In [None]:
lat1, lat2 = conexoes['Latitude'].min(), conexoes['Latitude'].max()
lon1, lon2 = conexoes['Longitude'].min(), conexoes['Longitude'].max()

In [None]:
plt.figure(figsize=(10,10))
m = Basemap(projection='cyl', resolution='h',
            llcrnrlat = lat1, urcrnrlat = lat2,
            llcrnrlon = lon1, urcrnrlon = lon2)
m.drawcoastlines()
m.fillcontinents(color = 'palegoldenrod', lake_color = 'lightskyblue')
m.drawmapboundary(fill_color='lightskyblue')
m.scatter(conexoes['Longitude'], conexoes['Latitude'], s = 30, c = 'red', zorder = 2);

#### Obtenção dos países e cidades

In [None]:
!pip install reverse_geocoder

In [None]:
import reverse_geocoder as rg

In [None]:
localizacao = rg.search((conexoes['Latitude'][4], conexoes['Longitude'][4]))
localizacao

In [None]:
localizacao[0]['cc'], localizacao[0]['name']

In [None]:
conexoes['Pais'] = None
conexoes['Cidade'] = None
conexoes.head()

In [None]:
for i in range(0, len(conexoes)):
  try:
    localizacao = rg.search((conexoes['Latitude'][i], conexoes['Longitude'][i]))
    conexoes['Pais'][i] = localizacao[0]['cc']
    conexoes['Cidade'][i] = localizacao[0]['name']
  except:
    print(conexoes['Company'][i])

In [None]:
conexoes

In [None]:
conexoes.to_csv('conexoes_localizacao_completo.csv')

In [None]:
import pandas as pd
conexoes = pd.read_csv('conexoes_localizacao_completo.csv')
conexoes.drop(labels = ['Unnamed: 0'], axis = 1, inplace=True)
conexoes.head()

#### Gráfico por países e cidades

In [None]:
!pip install --upgrade plotly

In [None]:
import plotly.express as px

In [None]:
grafico = px.histogram(x = conexoes['Pais'], title = 'Contatos por país')
grafico.show()

In [None]:
grafico = px.treemap(conexoes[conexoes['Pais'].notnull()], path = ['Pais', 'Cidade', 'Position', 'Full Name'])
grafico.show()

In [None]:
grafico = px.histogram(x = conexoes['Cidade'], title = 'Contatos por cidade')
grafico.show()

In [None]:
grafico = px.treemap(conexoes[conexoes['Cidade'].notnull()], path = ['Cidade', 'Position', 'Full Name'])
grafico.show()

In [None]:
conexoes_us = conexoes[conexoes['Pais'] == 'US']
conexoes_us.shape

In [None]:
conexoes.shape

In [None]:
conexoes_us

In [None]:
grafico = px.treemap(conexoes_us, path = ['Cidade', 'Position', 'Full Name'])
grafico.show()

#### Agrupamento de usuários por localização com k-means

In [None]:
from sklearn.cluster import KMeans

In [None]:
conexoes.head(1)

In [None]:
X = conexoes.iloc[:, 4:6].dropna().values
X

In [None]:
kmeans = KMeans(n_clusters=15)
kmeans.fit(X)

In [None]:
kmeans.labels_

In [None]:
kmeans.cluster_centers_

#### Geração do arquivo para visualização no Google Earth

In [None]:
!pip install simplekml

In [None]:
import simplekml

In [None]:
kml_contatos = simplekml.Kml()
for i in range(0, len(conexoes)):
  kml_contatos.newpoint(name = conexoes['Full Name'][i],
                        coords = [(conexoes['Longitude'][i], conexoes['Latitude'][i])])
kml_contatos.save('conexoes.kml')

In [None]:
kml_grupos = simplekml.Kml()
for i in range(len(kmeans.cluster_centers_)):
  kml_grupos.newpoint(name = 'Grupo {}'.format(i),
                      coords = [(kmeans.cluster_centers_[i][1], kmeans.cluster_centers_[i][0])])
kml_grupos.save('grupos.kml')

## Convites

In [None]:
import pandas as pd
convites = pd.read_csv('Invitations.csv')
convites.drop(labels = ['Unnamed: 0'], axis = 1, inplace=True)

In [None]:
convites.head()

In [None]:
convites['Latitude'] = None
convites['Longitude'] = None
convites['Pais'] = None
convites['Cidade'] = None
convites.head()

In [None]:
from geopy import geocoders
g = geocoders.GoogleV3('') #substitua com a sua chave
for i in range(0, len(convites)):
  try:
    localizacao = g.geocode(convites['Company'][i])
  except:
    print(convites['Company'][i])

  if localizacao != None:
    convites['Latitude'][i] = localizacao.latitude
    convites['Longitude'][i] = localizacao.longitude

In [None]:
convites.head()

In [None]:
!pip install reverse_geocoder
import reverse_geocoder as rg

In [None]:
for i in range(0, len(convites)):
  try:
    localizacao = rg.search((convites['Latitude'][i], convites['Longitude'][i]))
    convites['Pais'][i] = localizacao[0]['cc']
    convites['Cidade'][i] = localizacao[0]['name']
  except:
    print(convites['Company'][i])

In [None]:
convites.head()

In [None]:
convites.to_csv('convites_localizacao.csv')

In [None]:
import pandas as pd
import plotly.express as px
convites = pd.read_csv('convites_localizacao.csv')
convites.drop(labels = ['Unnamed: 0'], axis = 1, inplace=True)
convites.head()

In [None]:
!pip install --upgrade plotly

In [None]:
grafico = px.treemap(convites[convites['Company'].notnull()], path = ['Company'])
grafico.show()

In [None]:
convites2 = convites.loc[(convites['Pais'].notnull()) & (convites['Company'].notnull())]

In [None]:
convites.shape, convites2.shape

In [None]:
grafico = px.treemap(convites2, path=['Pais', 'Company', 'Cidade'])
grafico.show()

## Mensagens

### Carregamento da base de dados

In [None]:
!pip install --upgrade plotly

In [None]:
import pandas as pd
import plotly.express as px
mensagens = pd.read_csv('mensagens.csv')
mensagens.drop(labels = ['Unnamed: 0'], axis = 1, inplace=True)
mensagens

In [None]:
mensagens.isnull().sum()

In [None]:
mensagens['CONTENT'][446]

In [None]:
mensagens['CONTENT'][4]

In [None]:
mensagens.describe()

### Pré-processamento dos textos

In [None]:
from bs4 import BeautifulSoup

In [None]:
import re

In [None]:
import nltk
nltk.download('punkt')

In [None]:
nltk.download('stopwords')

In [None]:
print(nltk.corpus.stopwords.words('portuguese'))

In [None]:
len(nltk.corpus.stopwords.words('portuguese'))

In [None]:
import string
string.punctuation

In [None]:
def pre_processamento(texto):
  texto = texto.lower()
  texto = BeautifulSoup(texto, 'lxml').text
  texto = re.sub(r'https?://[A-Za-z0-9./]+', ' ', texto)
  tokens = []
  for token in nltk.word_tokenize(texto):
    tokens.append(token)
  #print(tokens)

  tokens = [palavra for palavra in tokens if palavra not in nltk.corpus.stopwords.words('portuguese') and palavra not in string.punctuation]
  #print(tokens)
  texto_formatado = ' '.join([str(elemento) for elemento in tokens])

  return texto_formatado

In [None]:
pre_processamento(mensagens['CONTENT'][446] + 'https://www.iaexpert.academy')

### Pré-processamento da base de dados

In [None]:
mensagens

In [None]:
mensagens['CONTENT'] = mensagens['CONTENT'].apply(pre_processamento)

In [None]:
mensagens

In [None]:
mensagens['tamanho'] = mensagens['CONTENT'].apply(len)
mensagens

In [None]:
mensagens['tamanho'].describe()

In [None]:
len('olá jones robotic process automation rpa'.split())

In [None]:
def conta_palavras(texto):
  return len(texto.split())

In [None]:
mensagens['palavras'] = mensagens['CONTENT'].apply(conta_palavras)
mensagens

In [None]:
mensagens['palavras'].describe()

In [None]:
mensagens.shape

In [None]:
mensagens = mensagens[mensagens['palavras'] > 5]
mensagens.shape

### Detecção do idioma

In [None]:
import spacy

In [None]:
!python3 -m spacy download pt

In [None]:
!pip install spacy-langdetect

In [None]:
from spacy_langdetect import LanguageDetector
pln = spacy.load('pt')
pln

In [None]:
pln.add_pipe(LanguageDetector(), name='language_detector', last=True)
texto = 'Este é um texto em português'
doc = pln(texto)
print(doc._.language)

In [None]:
texto = 'This is an english text'
doc = pln(texto)
print(doc._.language)

In [None]:
doc._.language['language']

In [None]:
mensagens = mensagens.reset_index(drop = True)

In [None]:
mensagens['Idioma'] = None
for i in range(0, len(mensagens)):
  doc = pln(mensagens['CONTENT'][i])
  mensagens['Idioma'][i] = doc._.language['language']

In [None]:
mensagens

In [None]:
# Siglas: https://support.mozilla.org/pt-BR/kb/abreviacao-de-localizacao
grafico = px.histogram(x = mensagens['Idioma'])
grafico.show()

In [None]:
mensagens_pt = mensagens[mensagens['Idioma'] == 'pt']
mensagens_pt.shape

In [None]:
mensagens_en = mensagens[mensagens['Idioma'] == 'en']
mensagens_en.shape

### Nuvem de palavras

In [None]:
textos = mensagens_pt['CONTENT'].tolist()
len(textos)

In [None]:
print(textos[0:10])

In [None]:
textos_string = ' '.join(textos)
textos_string

In [None]:
len(textos_string)

In [None]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt
plt.figure(figsize=(20,20))
plt.imshow(WordCloud().generate(textos_string));

### Extração de entidades nomeadas

In [None]:
documento = pln(textos_string)

In [None]:
from spacy import displacy
displacy.render(documento, style = 'ent', jupyter = True)

In [None]:
for entidade in documento.ents:
  if entidade.label_ == 'LOC':
    print(entidade.text, entidade.label_)

### Classificação de sentimentos em inglês

In [None]:
nltk.download('vader_lexicon')

In [None]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer

In [None]:
classificador = SentimentIntensityAnalyzer()
classificador.polarity_scores('I love this food')

In [None]:
classificador.polarity_scores('I hate this food')

In [None]:
resultado = classificador.polarity_scores('I have this food')

In [None]:
resultado

In [None]:
resultado['neu']

In [None]:
mensagens_en = mensagens_en.reset_index(drop=True)

In [None]:
mensagens_en['Sentimento'] = None
for i in range(0, len(mensagens_en)):
  sentimento = classificador.polarity_scores(mensagens_en['CONTENT'][i])
  if sentimento['pos'] > sentimento['neg'] and sentimento['pos'] > sentimento['neu']:
    mensagens_en['Sentimento'][i] = 'Positivo'
  elif sentimento['neg'] > sentimento['pos'] and sentimento['neg'] > sentimento['neu']:
    mensagens_en['Sentimento'][i] = 'Negativo'
  elif sentimento['neu'] > sentimento['pos'] and sentimento['neu'] > sentimento['neg']:
    mensagens_en['Sentimento'][i] = 'Neutro'
  else:
    mensagens_en['Sentimento'][i] = 'Sem classificação'

In [None]:
mensagens_en

### Classificação de sentimentos em português

#### Lematização

In [None]:
def pre_processamento2(texto):
  documento = pln(texto)

  lista = []
  for token in documento:
    lista.append(token.lemma_)
  lista = ' '.join([str(elemento) for elemento in lista])
  return lista

In [None]:
mensagens_pt = mensagens_pt.reset_index(drop=True)

In [None]:
mensagens_pt['CONTENT'][4]

In [None]:
pre_processamento2(mensagens_pt['CONTENT'][4])

In [None]:
mensagens_pt.head(3)

In [None]:
mensagens_pt['CONTENT'] = mensagens_pt['CONTENT'].apply(pre_processamento2)

In [None]:
mensagens_pt.head(3)

#### Carregamento do classificador

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
classificador = spacy.load('/content/drive/MyDrive/Cursos - recursos/Mineração e Análise de Dados do LinkedIn/modelo')
classificador

#### Classificação

In [None]:
mensagens_pt['CONTENT'][4]

In [None]:
previsao = classificador(mensagens_pt['CONTENT'][4])
previsao.cats

In [None]:
previsao.cats['POSITIVO']

In [None]:
mensagens_pt['Sentimento'] = None
for i in range(0, len(mensagens_pt)):
  sentimento = classificador(mensagens_pt['CONTENT'][i])
  if sentimento.cats['POSITIVO'] > sentimento.cats['NEGATIVO']:
    mensagens_pt['Sentimento'][i] = 'Positivo'
  else:
    mensagens_pt['Sentimento'][i] = 'Negativo'

In [None]:
mensagens_pt

In [None]:
grafico = px.histogram(x = mensagens_pt['Sentimento'])
grafico.show()

In [None]:
mensagens_pt[mensagens_pt['Sentimento'] == 'Negativo']