#**Mineração e Análise de Dados do Linkedin**

1. Baixe seus arquivos do Linkedin [aqui](https://https://www.linkedin.com/mypreferences/d/download-my-data). Você receberá os arquivos por email em 24h.
2. Baixe e descompacte o arquivo recebido, busque os arquivos indicados ao longo do código.
3. Usaremos os arquivos de conexões e convites, faremos a limpeza dos dados e em seguida iremos anonimizar.

## Bases de dados em .csv

In [None]:
import pandas as pd
import plotly.express as px
import numpy as np

In [None]:
!pip install --upgrade plotly

### Conexões

In [None]:
conexoes = pd.read_csv('Connections.csv')

In [None]:
conexoes.columns

In [None]:
conexoes.shape

In [None]:
conexoes.head()

In [None]:
conexoes.drop(labels = ['Email Address'], axis=1, inplace=True)

In [None]:
conexoes.head()

In [None]:
conexoes.isna().sum()

In [None]:
conexoes.shape

In [None]:
conexoes.dropna(inplace=True)
conexoes.shape

In [None]:
conexoes.isna().sum()

In [None]:
conexoes['Full Name'] = conexoes['First Name'] + ' ' + conexoes['Last Name']
conexoes.head()

### Convites

In [None]:
convites = pd.read_csv('Invitations.csv')

In [None]:
convites.columns

In [None]:
convites.shape

In [None]:
convites.head(10)

In [None]:
convites.isna().sum()

In [None]:
convites[convites['Message'].notnull()].head(10)

In [None]:
convites.shape

In [None]:
convites = convites[convites['Direction'] == 'INCOMING']
convites.shape

In [None]:
np.unique(convites['Direction'])

In [None]:
convites['Company'] = ''
convites.head()

In [None]:
conexoes[conexoes['Full Name'] == 'Milos Naflas']['Company'].values[0]

In [None]:
len(convites)

In [None]:
convites = convites.reset_index(drop=True)
convites

In [None]:
for i in range(0, len(convites)):
  #print(i, convites['From'][i])
  try:
    company = conexoes[conexoes['Full Name'] == convites['From'][i]]['Company'].values[0]
    #print(company)
    convites['Company'][i] = company
  except:
    continue

In [None]:
convites

In [None]:
convites.drop(labels=['From', 'To', 'Sent At', 'Message', 'Direction'], axis=1, inplace=True)
convites

In [None]:
convites.to_csv('convites.csv')

### Geração de dados fake

In [None]:
conexoes.drop(labels = ['First Name', 'Last Name', 'Full Name'], axis = 1, inplace = True)
conexoes

In [None]:
!pip install faker

In [None]:
from faker import Faker

In [None]:
fake = Faker()

In [None]:
fake.name()

In [None]:
conexoes['Full Name'] = ''
conexoes.head()

In [None]:
conexoes = conexoes.reset_index(drop=True)

In [None]:
for i in range(0, len(conexoes)):
  conexoes['Full Name'][i] = fake.name()

In [None]:
conexoes

In [None]:
conexoes.to_csv('conexoes.csv')

### Mensagens

In [None]:
mensagens = pd.read_csv('messages.csv')

In [None]:
mensagens.columns

In [None]:
mensagens.shape

In [None]:
mensagens.head(1)

In [None]:
mensagens = mensagens['CONTENT']

In [None]:
mensagens

In [None]:
mensagens.isna().sum()

In [None]:
mensagens.dropna(inplace=True)
mensagens.shape

In [None]:
mensagens.to_csv('mensagens.csv')

## Conexões



### Número de conexões por período

In [None]:
import datetime
import pandas as pd
import plotly.express as px
import numpy as np

In [None]:
!pip install --upgrade plotly

In [None]:
conexoes = pd.read_csv('conexoes.csv')
conexoes.drop(labels = ['Unnamed: 0'], axis = 1, inplace=True)

In [None]:
conexoes.head()

In [None]:
def converte_data(data):
  return datetime.datetime.strptime(data, '%d %b %Y').strftime('%Y-%m-%d')

In [None]:
conexoes['Connected On'] = conexoes['Connected On'].apply(converte_data)

In [None]:
conexoes.head()

In [None]:
grafico = px.scatter(conexoes, x = 'Full Name', y = 'Connected On')
grafico.show()

In [None]:
conexoes.groupby(by = 'Connected On').count()

In [None]:
grafico = px.line(conexoes.groupby(by = 'Connected On').count(), title = 'Novas conexões por data')
grafico.show()

In [None]:
def converte_data_mes(data):
  return datetime.datetime.strptime(data, '%Y-%m-%d').strftime('%m')

In [None]:
conexoes['Connected Month'] = conexoes['Connected On'].apply(converte_data_mes)
conexoes

In [None]:
conexoes.groupby(by = 'Connected Month').count()

In [None]:
grafico = px.line(conexoes.groupby(by = 'Connected Month').count(), title = 'Novas conexões por mês')
grafico.show()

In [None]:
def converte_data_ano(data):
  return datetime.datetime.strptime(data, '%Y-%m-%d').strftime('%Y')

In [None]:
conexoes['Connected Year'] = conexoes['Connected On'].apply(converte_data_ano)
conexoes

In [None]:
conexoes.groupby(by = 'Connected Year').count()

In [None]:
grafico = px.line(conexoes.groupby(by = 'Connected Year').count(), title = 'Novas conexões por ano')
grafico.show()

### Empresas

In [None]:
np.unique(conexoes['Company'], return_counts=True)

In [None]:
conexoes.shape

In [None]:
len(np.unique(conexoes['Company']))

In [None]:
grafico = px.histogram(conexoes['Company'])
grafico.show()

In [None]:
grafico = px.treemap(conexoes, path=['Company', 'Position', 'Full Name'])
grafico.show()

### Cargos

In [None]:
np.unique(conexoes['Position'], return_counts=True)

In [None]:
conexoes.shape

In [None]:
len(np.unique(conexoes['Position']))

In [None]:
grafico = px.histogram(conexoes['Position'])
grafico.show()

In [None]:
def altera_cargo(cargo):
  novo_cargo = cargo
  if cargo == 'Data Scientist':
    novo_cargo = 'Cientista de Dados'
  elif cargo == 'Cientista de dados':
    novo_cargo = 'Cientista de Dados'
  return novo_cargo

In [None]:
conexoes['Position'] = conexoes['Position'].apply(altera_cargo)

In [None]:
len(conexoes[conexoes['Position'] == 'Cientista de Dados'])

In [None]:
grafico = px.treemap(conexoes, path = ['Position', 'Company', 'Full Name'])
grafico.show()

### Agrupamento dos cargos

#### Distância de edição (Levenshtein)

- https://pt.wikipedia.org/wiki/Dist%C3%A2ncia_Levenshtein#:~:text=Em%20teoria%20da%20informa%C3%A7%C3%A3o%2C%20a,transformar%20um%20string%20no%20outro.
- Quantas inserções, exclusões e substituições são necessárias para converter uma string em outra
- Exemplo: pai e cai: 1 substituição

In [None]:
# pip install nltk
import nltk

In [None]:
from nltk.metrics.distance import edit_distance

In [None]:
edit_distance('rain', 'shine')

In [None]:
edit_distance('pai', 'cai')

In [None]:
edit_distance('Analista de Dados', 'Analista de dados')

In [None]:
edit_distance('Consultant', 'Consultor')

In [None]:
edit_distance('Cientista de Dados', 'Data Scientist')

In [None]:
edit_distance('Cientista de Dados', 'Cientista de Dados')

#### Similaridade n-grama

- n-grama é uma forma de expressar cada sequência consecutiva possível de n tokens de um texto
- Computamos os "bigramas" para todos os tokens de duas strings e pontuamos a similaridade contando o número de bigramas comuns
- Outras métricas para avaliação: https://tedboy.github.io/nlps/generated/generated/nltk.BigramAssocMeasures.html

In [None]:
'analista de business intelligence'.split()

In [None]:
bigramas_cargo1 = list(nltk.bigrams('analista de business intelligence'.split(), pad_right=True, pad_left=True))
bigramas_cargo1

In [None]:
bigramas_cargo2 = list(nltk.bigrams('cientista de dados'.split(), pad_right=True, pad_left=True))
bigramas_cargo2

In [None]:
bigramas_cargo3 = list(nltk.bigrams('analista de dados'.split(), pad_right=True, pad_left=True))
bigramas_cargo3

In [None]:
set(['A', 'B', 'C']).intersection(set(['C', 'D', 'E']))

In [None]:
# Cargo 1 x Cargo 2
len(set(bigramas_cargo1).intersection(set(bigramas_cargo2)))

In [None]:
# Cargo 1 x Cargo 3
len(set(bigramas_cargo1).intersection(set(bigramas_cargo3)))

In [None]:
# Cargo 2 x Cargo 3
len(set(bigramas_cargo2).intersection(set(bigramas_cargo3)))

In [None]:
# Cargo 1 x Cargo 1
len(set(bigramas_cargo1).intersection(set(bigramas_cargo1)))

#### Distância de Jaccard

- Número de itens em comum dividido pelo número total de itens distintos em dois conjuntos
- Usa n-gramas
- https://en.wikipedia.org/wiki/Jaccard_index

In [None]:
cargo1 = 'analista de business intelligence'.split()
cargo2 = 'cientista de dados'.split()
cargo3 = 'analista de dados'.split()

In [None]:
cargo1, cargo2, cargo3

In [None]:
# Cargo 1 x Cargo 3

In [None]:
intersecao = set(cargo1).intersection(set(cargo3))
intersecao

In [None]:
uniao = set(cargo1).union(set(cargo3))
uniao

In [None]:
len(intersecao), len(uniao)

In [None]:
(len(uniao) - len(intersecao)) / len(uniao)

In [None]:
from nltk.metrics.distance import jaccard_distance

In [None]:
# Cargo 1 x Cargo 3
jaccard_distance(set(cargo1), set(cargo3))

In [None]:
# Cargo 1 x Cargo 2
jaccard_distance(set(cargo1), set(cargo2))

In [None]:
# Cargo 2 x Cargo 3
jaccard_distance(set(cargo2), set(cargo3))

In [None]:
# Cargo 1 x Cargo 1
jaccard_distance(set(cargo1), set(cargo1))

#### Agrupamento dos cargos

- Exemplos baseados em: https://github.com/mikhailklassen/Mining-the-Social-Web-3rd-Edition/blob/master/notebooks/Chapter%204%20-%20Mining%20LinkedIn.ipynb

##### Teste com poucos registros

In [None]:
cargos_df = pd.DataFrame(columns=['Position'], data=['Programador', 'Cientista de Dados',
                                                     'Cientista de dados', 'Analista de business intelligence',
                                                     'Analista de dados', 'Consultant', 'Consultor',
                                                     'Consultora', 'Professor on-line', 'Professor universitário'])

In [None]:
cargos_df

In [None]:
todos_cargos = cargos_df['Position'].values
todos_cargos

In [None]:
set(todos_cargos)

In [None]:
for cargo1 in todos_cargos:
  print(cargo1)
  print('-------------')
  print('\n')
  for cargo2 in todos_cargos:
    print(cargo2, jaccard_distance(set(cargo1), set(cargo2)))
  print('\n')

In [None]:
limite = 0.4
clusters = {}
for cargo1 in todos_cargos:
  clusters[cargo1] = []
  for cargo2 in todos_cargos:
    if cargo2 in clusters[cargo1] or cargo2 in clusters and cargo1 in clusters[cargo2]:
      continue

    distancia = jaccard_distance(set(cargo1), set(cargo2))
    if distancia <= limite:
      clusters[cargo1].append(cargo2)

In [None]:
clusters

In [None]:
clusters = [clusters[cargo] for cargo in clusters if len(clusters[cargo]) > 1]
clusters

##### Aplicação na base de dados

In [None]:
todos_cargos = conexoes['Position'].values
len(todos_cargos)

In [None]:
todos_cargos = set(todos_cargos)
len(todos_cargos)

In [None]:
limite = 0.3
clusters = {}
for cargo1 in todos_cargos:
  clusters[cargo1] = []
  for cargo2 in todos_cargos:
    if cargo2 in clusters[cargo1] or cargo2 in clusters and cargo1 in clusters[cargo2]:
      continue

    distancia = jaccard_distance(set(cargo1), set(cargo2))
    if distancia <= limite:
      clusters[cargo1].append(cargo2)

In [None]:
clusters = [clusters[cargo] for cargo in clusters if len(clusters[cargo]) > 1]
clusters, len(clusters)

##### Vinculação para os usuários

In [None]:
for contato in range(0, len(conexoes)):
  print(conexoes['Position'][contato])

In [None]:
cluster_contatos = {}
for cluster in clusters:
  #print(cluster)
  cluster_contatos[tuple(cluster)] = []
  for contato in range(0, len(conexoes)):
    if conexoes['Position'][contato] in cluster:
      cluster_contatos[tuple(cluster)].append(conexoes['Full Name'][contato])

In [None]:
cluster_contatos

### Visualização do agrupamento

In [None]:
from IPython.core.display import HTML
for cargos in cluster_contatos:
  lista_cargos = 'Lista de cargos no grupo: ' + ', '.join(cargos)
  #print(lista_cargos)

  termos = set(cargos[0].split())
  for palavras in cargos:
    termos.intersection_update(set(palavras.split()))
  if len(termos) == 0:
    termos = ['***Nenhum termo em comum****']
  termos_impressao = 'Termos comuns: ' + ', '.join(termos)

  display(HTML(f'<h3>{lista_cargos}</h3>'))
  display(HTML(f'<p>{termos_impressao}</p>'))
  display(HTML(f'<p>{"-" * 70}</p>'))
  display(HTML(f'<p><mark>{", ".join(cluster_contatos[cargos])}</mark></p>'))

  #print(lista_cargos)
  #print('\n' + termos_impressao)
  #print('-' * 70)
  #print('\n'.join(cluster_contatos[cargos]))
  #print()

### Exportação dos grupos para JSON

In [None]:
from IPython.display import HTML
from IPython.core.display import display
import json

In [None]:
cluster_contatos

In [None]:
cluster_contatos[(('Systems Development Analyst','System Analyst','Senior Data Analyst'))]

In [None]:
saida_json = {'name': 'Linkedin', 'children': []}
contador = 1
for grupos in cluster_contatos:
  #print(grupos)
  if contador > 10:
    break

  saida_json['children'].append({'name': ', '.join(grupos)[:20],
                                 'children': [{'name': contato} for contato in cluster_contatos[grupos]]})
  f = open('dados.json', 'w')
  f.write(json.dumps(saida_json, indent=1))
  f.close()

  contador += 1

In [None]:
data = json.load(open('dados.json'))

In [None]:
data

In [None]:
valores = json.dumps(data)
valores

### Visualização com dendrograma

In [None]:
# Exemplo baseado no livro Mineração de Dados da Web Social
visualizacao = """<!DOCTYPE html>
<meta charset='utf-8'>
<style>

.node circle {
  fill: #fff;
  stroke: steelblue;
  stroke-width: 1.5px;
}

.node {
  font: 10px sans-serif;
}

.link {
  fill: none;
  stroke: #ccc;
  stroke-width: 1.5px;
}

</style>
<body>
<script src='https://d3js.org/d3.v3.min.js'></script>
<script>

root = %s;
//j = JSON.parse(valores);

var width = 960,
    height = 2200;

var cluster = d3.layout.cluster()
    .size([height, width - 160]);

var diagonal = d3.svg.diagonal()
    .projection(function(d) { return [d.y, d.x]; });

var svg = d3.select('body').append('svg')
    .attr('width', width)
    .attr('height', height)
  .append('g')
    .attr('transform', 'translate(40,0)');

console.log(root);


var nodes = cluster.nodes(root),
    links = cluster.links(nodes);

var link = svg.selectAll('.link')
    .data(links)
  .enter().append('path')
    .attr('class', 'link')
    .attr('d', diagonal);

var node = svg.selectAll('.node')
    .data(nodes)
  .enter().append('g')
    .attr('class', 'node')
    .attr('transform', function(d) { return 'translate(' + d.y + ',' + d.x + ')'; })

node.append('circle')
    .attr('r', 4.5);

node.append('text')
    .attr('dx', function(d) { return d.children ? -8 : 8; })
    .attr('dy', 3)
    .style('text-anchor', function(d) { return d.children ? 'end' : 'start'; })
    .text(function(d) { return d.name; });


d3.select(self.frameElement).style('height', height + 'px');

</script>
"""


In [None]:
display(HTML(visualizacao % (valores)))

### Visualização com árvore

In [None]:
# Exemplo baseado no livro Mineração de Dados da Web Social
visualizacao = """<!DOCTYPE html>
<meta charset="utf-8">
<style>

.node circle { fill: #fff; stroke: steelblue; stroke-width: 1.5px; }
.node { font: 10px sans-serif; }
.link { fill: none; stroke: #ccc; stroke-width: 1.5px; }

</style>
<body>
<script src="https://d3js.org/d3.v3.min.js"></script>
<script>

var diameter = 960;

var tree = d3.layout.tree()
    .size([360, diameter / 2 - 120])
    .separation(function(a, b) { return (a.parent == b.parent ? 1 : 2) / a.depth; });

var diagonal = d3.svg.diagonal.radial()
    .projection(function(d) { return [d.y, d.x / 180 * Math.PI]; });

var svg = d3.select("body").append("svg")
    .attr("width", diameter)
    .attr("height", diameter - 150)
  .append("g")
    .attr("transform", "translate(" + diameter / 2 + "," + diameter / 2 + ")");

root = %s;

var nodes = tree.nodes(root),
    links = tree.links(nodes);

var link = svg.selectAll(".link")
    .data(links)
  .enter().append("path")
    .attr("class", "link")
    .attr("d", diagonal);

var node = svg.selectAll(".node")
    .data(nodes)
  .enter().append("g")
    .attr("class", "node")
    .attr("transform", function(d) { return "rotate(" + (d.x - 90) + ")translate(" + d.y + ")"; })

node.append("circle")
    .attr("r", 4.5);

node.append("text")
    .attr("dy", ".31em")
    .attr("text-anchor", function(d) { return d.x < 180 ? "start" : "end"; })
    .attr("transform", function(d) { return d.x < 180 ? "translate(8)" : "rotate(180)translate(-8)"; })
    .text(function(d) { return d.name; });


d3.select(self.frameElement).style("height", diameter - 150 + "px");

</script>
"""

In [None]:
display(HTML(visualizacao % (valores)))

### Localização dos contatos

#### Teste com a API do Google Maps

In [None]:
# https://console.developers.google.com
# https://developers.google.com/maps/documentation/geocoding/usage-and-billing

In [None]:
!pip install geopy

In [None]:
from geopy import geocoders

In [None]:
g = geocoders.GoogleV3('')

In [None]:
import pandas as pd
conexoes = pd.read_csv('conexoes.csv')
conexoes.drop(labels = ['Unnamed: 0'], axis = 1, inplace=True)
conexoes.head()

In [None]:
localizacao = g.geocode('Google Canada')
localizacao

In [None]:
localizacao.latitude, localizacao.longitude

#### Latitude e longitude dos contatos

In [None]:
conexoes['Latitude'] = None
conexoes['Longitude'] = None
conexoes.head()

In [None]:
for i in range(0, len(conexoes)):
  #print(conexoes['Company'][i])
  try:
    localizacao = g.geocode(conexoes['Company'][i])
  except:
    print(conexoes['Company'][i])

  if localizacao != None:
    conexoes['Latitude'][i] = localizacao.latitude
    conexoes['Longitude'][i] = localizacao.longitude

In [None]:
conexoes

In [None]:
conexoes.to_csv('conexoes_localizacao.csv')

In [None]:
import pandas as pd
conexoes = pd.read_csv('conexoes_localizacao.csv')
conexoes.drop(labels = ['Unnamed: 0'], axis = 1, inplace=True)
conexoes.head()

#### Mapa de localizações com BaseMap

In [None]:
!apt-get install libgeos-3.5.0
!apt-get install libgeos-dev
!pip install https://github.com/matplotlib/basemap/archive/master.zip

In [None]:
from mpl_toolkits.basemap import Basemap
import matplotlib.pyplot as plt

In [None]:
conexoes['Latitude'].describe()

In [None]:
conexoes['Longitude'].describe()

In [None]:
lat1, lat2 = conexoes['Latitude'].min(), conexoes['Latitude'].max()
lon1, lon2 = conexoes['Longitude'].min(), conexoes['Longitude'].max()

In [None]:
plt.figure(figsize=(10,10))
m = Basemap(projection='cyl', resolution='h',
            llcrnrlat = lat1, urcrnrlat = lat2,
            llcrnrlon = lon1, urcrnrlon = lon2)
m.drawcoastlines()
m.fillcontinents(color = 'palegoldenrod', lake_color = 'lightskyblue')
m.drawmapboundary(fill_color='lightskyblue')
m.scatter(conexoes['Longitude'], conexoes['Latitude'], s = 30, c = 'red', zorder = 2);

#### Obtenção dos países e cidades

In [None]:
# https://github.com/thampiman/reverse-geocoder
!pip install reverse_geocoder

In [None]:
import reverse_geocoder as rg

In [None]:
localizacao = rg.search((conexoes['Latitude'][4], conexoes['Longitude'][4]))
localizacao

In [None]:
localizacao[0]['cc'], localizacao[0]['name']

In [None]:
conexoes['Pais'] = None
conexoes['Cidade'] = None
conexoes.head()

In [None]:
for i in range(0, len(conexoes)):
  try:
    localizacao = rg.search((conexoes['Latitude'][i], conexoes['Longitude'][i]))
    conexoes['Pais'][i] = localizacao[0]['cc']
    conexoes['Cidade'][i] = localizacao[0]['name']
  except:
    print(conexoes['Company'][i])

In [None]:
conexoes

In [None]:
conexoes.to_csv('conexoes_localizacao_completo.csv')

In [None]:
import pandas as pd
conexoes = pd.read_csv('conexoes_localizacao_completo.csv')
conexoes.drop(labels = ['Unnamed: 0'], axis = 1, inplace=True)
conexoes.head()

#### Gráfico por países e cidades

- Sigla dos países: http://manualdemarcas.inpi.gov.br/projects/manual-de-marcas-2-edicao-1-revisao/wiki/Siglas_de_pa%C3%ADses_e_organizações

In [None]:
!pip install --upgrade plotly

In [None]:
import plotly.express as px

In [None]:
grafico = px.histogram(x = conexoes['Pais'], title = 'Contatos por país')
grafico.show()

In [None]:
grafico = px.treemap(conexoes[conexoes['Pais'].notnull()], path = ['Pais', 'Cidade', 'Position', 'Full Name'])
grafico.show()

In [None]:
grafico = px.histogram(x = conexoes['Cidade'], title = 'Contatos por cidade')
grafico.show()

In [None]:
grafico = px.treemap(conexoes[conexoes['Cidade'].notnull()], path = ['Cidade', 'Position', 'Full Name'])
grafico.show()

In [None]:
conexoes_us = conexoes[conexoes['Pais'] == 'US']
conexoes_us.shape

In [None]:
conexoes.shape

In [None]:
conexoes_us

In [None]:
grafico = px.treemap(conexoes_us, path = ['Cidade', 'Position', 'Full Name'])
grafico.show()

#### Agrupamento de usuários por localização com k-means

In [None]:
from sklearn.cluster import KMeans

In [None]:
conexoes.head(1)

In [None]:
X = conexoes.iloc[:, 4:6].dropna().values
X

In [None]:
kmeans = KMeans(n_clusters=15)
kmeans.fit(X)

In [None]:
kmeans.labels_

In [None]:
kmeans.cluster_centers_

#### Geração do arquivo para visualização no Google Earth

In [None]:
!pip install simplekml

In [None]:
import simplekml

In [None]:
kml_contatos = simplekml.Kml()
for i in range(0, len(conexoes)):
  kml_contatos.newpoint(name = conexoes['Full Name'][i],
                        coords = [(conexoes['Longitude'][i], conexoes['Latitude'][i])])
kml_contatos.save('conexoes.kml')

In [None]:
kml_grupos = simplekml.Kml()
for i in range(len(kmeans.cluster_centers_)):
  kml_grupos.newpoint(name = 'Grupo {}'.format(i),
                      coords = [(kmeans.cluster_centers_[i][1], kmeans.cluster_centers_[i][0])])
kml_grupos.save('grupos.kml')

## Convites

In [None]:
import pandas as pd
convites = pd.read_csv('Invitations.csv')
convites.drop(labels = ['Unnamed: 0'], axis = 1, inplace=True)

In [None]:
convites.head()

In [None]:
convites['Latitude'] = None
convites['Longitude'] = None
convites['Pais'] = None
convites['Cidade'] = None
convites.head()

In [None]:
from geopy import geocoders
g = geocoders.GoogleV3('')
for i in range(0, len(convites)):
  try:
    localizacao = g.geocode(convites['Company'][i])
  except:
    print(convites['Company'][i])

  if localizacao != None:
    convites['Latitude'][i] = localizacao.latitude
    convites['Longitude'][i] = localizacao.longitude

In [None]:
convites.head()

In [None]:
!pip install reverse_geocoder
import reverse_geocoder as rg

In [None]:
for i in range(0, len(convites)):
  try:
    localizacao = rg.search((convites['Latitude'][i], convites['Longitude'][i]))
    convites['Pais'][i] = localizacao[0]['cc']
    convites['Cidade'][i] = localizacao[0]['name']
  except:
    print(convites['Company'][i])

In [None]:
convites.head()

In [None]:
convites.to_csv('convites_localizacao.csv')

In [None]:
import pandas as pd
import plotly.express as px
convites = pd.read_csv('convites_localizacao.csv')
convites.drop(labels = ['Unnamed: 0'], axis = 1, inplace=True)
convites.head()

In [None]:
!pip install --upgrade plotly

In [None]:
grafico = px.treemap(convites[convites['Company'].notnull()], path = ['Company'])
grafico.show()

In [None]:
convites2 = convites.loc[(convites['Pais'].notnull()) & (convites['Company'].notnull())]

In [None]:
convites.shape, convites2.shape

In [None]:
grafico = px.treemap(convites2, path=['Pais', 'Company', 'Cidade'])
grafico.show()

## Mensagens

### Carregamento da base de dados

In [None]:
!pip install --upgrade plotly

In [None]:
import pandas as pd
import plotly.express as px
mensagens = pd.read_csv('mensagens.csv')
mensagens.drop(labels = ['Unnamed: 0'], axis = 1, inplace=True)
mensagens

In [None]:
mensagens.isnull().sum()

In [None]:
mensagens['CONTENT'][446]

In [None]:
mensagens['CONTENT'][4]

In [None]:
mensagens.describe()

### Pré-processamento dos textos

In [None]:
# https://www.crummy.com/software/BeautifulSoup/bs4/doc/
from bs4 import BeautifulSoup

In [None]:
import re

In [None]:
import nltk
nltk.download('punkt')

In [None]:
nltk.download('stopwords')

In [None]:
print(nltk.corpus.stopwords.words('portuguese'))

In [None]:
len(nltk.corpus.stopwords.words('portuguese'))

In [None]:
import string
string.punctuation

In [None]:
def pre_processamento(texto):
  texto = texto.lower()
  texto = BeautifulSoup(texto, 'lxml').text
  texto = re.sub(r'https?://[A-Za-z0-9./]+', ' ', texto)
  tokens = []
  for token in nltk.word_tokenize(texto):
    tokens.append(token)
  #print(tokens)

  tokens = [palavra for palavra in tokens if palavra not in nltk.corpus.stopwords.words('portuguese') and palavra not in string.punctuation]
  #print(tokens)
  texto_formatado = ' '.join([str(elemento) for elemento in tokens])

  return texto_formatado

In [None]:
pre_processamento(mensagens['CONTENT'][446] + 'https://www.iaexpert.academy')

### Pré-processamento da base de dados

In [None]:
mensagens

In [None]:
mensagens['CONTENT'] = mensagens['CONTENT'].apply(pre_processamento)

In [None]:
mensagens

In [None]:
mensagens['tamanho'] = mensagens['CONTENT'].apply(len)
mensagens

In [None]:
mensagens['tamanho'].describe()

In [None]:
len('olá jones robotic process automation rpa'.split())

In [None]:
def conta_palavras(texto):
  return len(texto.split())

In [None]:
mensagens['palavras'] = mensagens['CONTENT'].apply(conta_palavras)
mensagens

In [None]:
mensagens['palavras'].describe()

In [None]:
mensagens.shape

In [None]:
mensagens = mensagens[mensagens['palavras'] > 5]
mensagens.shape

### Detecção do idioma

In [None]:
import spacy

In [None]:
!python3 -m spacy download pt

In [None]:
!pip install spacy-langdetect

In [None]:
from spacy_langdetect import LanguageDetector
pln = spacy.load('pt')
pln

In [None]:
pln.add_pipe(LanguageDetector(), name='language_detector', last=True)
texto = 'Este é um texto em português'
doc = pln(texto)
print(doc._.language)

In [None]:
texto = 'This is an english text'
doc = pln(texto)
print(doc._.language)

In [None]:
doc._.language['language']

In [None]:
mensagens = mensagens.reset_index(drop = True)

In [None]:
mensagens['Idioma'] = None
for i in range(0, len(mensagens)):
  doc = pln(mensagens['CONTENT'][i])
  mensagens['Idioma'][i] = doc._.language['language']

In [None]:
mensagens

In [None]:
# Siglas: https://support.mozilla.org/pt-BR/kb/abreviacao-de-localizacao
grafico = px.histogram(x = mensagens['Idioma'])
grafico.show()

In [None]:
mensagens_pt = mensagens[mensagens['Idioma'] == 'pt']
mensagens_pt.shape

In [None]:
mensagens_en = mensagens[mensagens['Idioma'] == 'en']
mensagens_en.shape

### Nuvem de palavras

In [None]:
textos = mensagens_pt['CONTENT'].tolist()
len(textos)

In [None]:
print(textos[0:10])

In [None]:
textos_string = ' '.join(textos)
textos_string

In [None]:
len(textos_string)

In [None]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt
plt.figure(figsize=(20,20))
plt.imshow(WordCloud().generate(textos_string));

### Extração de entidades nomeadas

- Siglas: https://spacy.io/api/annotation#named-entities

In [None]:
documento = pln(textos_string)

In [None]:
from spacy import displacy
displacy.render(documento, style = 'ent', jupyter = True)

In [None]:
for entidade in documento.ents:
  if entidade.label_ == 'LOC':
    print(entidade.text, entidade.label_)

### Classificação de sentimentos em inglês

In [None]:
nltk.download('vader_lexicon')

In [None]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer

In [None]:
classificador = SentimentIntensityAnalyzer()
classificador.polarity_scores('I love this food')

In [None]:
classificador.polarity_scores('I hate this food')

In [None]:
resultado = classificador.polarity_scores('I have this food')

In [None]:
resultado

In [None]:
resultado['neu']

In [None]:
mensagens_en = mensagens_en.reset_index(drop=True)

In [None]:
mensagens_en['Sentimento'] = None
for i in range(0, len(mensagens_en)):
  sentimento = classificador.polarity_scores(mensagens_en['CONTENT'][i])
  if sentimento['pos'] > sentimento['neg'] and sentimento['pos'] > sentimento['neu']:
    mensagens_en['Sentimento'][i] = 'Positivo'
  elif sentimento['neg'] > sentimento['pos'] and sentimento['neg'] > sentimento['neu']:
    mensagens_en['Sentimento'][i] = 'Negativo'
  elif sentimento['neu'] > sentimento['pos'] and sentimento['neu'] > sentimento['neg']:
    mensagens_en['Sentimento'][i] = 'Neutro'
  else:
    mensagens_en['Sentimento'][i] = 'Sem classificação'

In [None]:
mensagens_en

### Classificação de sentimentos em português

#### Lematização

In [None]:
def pre_processamento2(texto):
  documento = pln(texto)

  lista = []
  for token in documento:
    lista.append(token.lemma_)
  lista = ' '.join([str(elemento) for elemento in lista])
  return lista

In [None]:
mensagens_pt = mensagens_pt.reset_index(drop=True)

In [None]:
mensagens_pt['CONTENT'][4]

In [None]:
pre_processamento2(mensagens_pt['CONTENT'][4])

In [None]:
mensagens_pt.head(3)

In [None]:
mensagens_pt['CONTENT'] = mensagens_pt['CONTENT'].apply(pre_processamento2)

In [None]:
mensagens_pt.head(3)

#### Carregamento do classificador

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
classificador = spacy.load('/content/drive/MyDrive/Cursos - recursos/Mineração e Análise de Dados do LinkedIn/modelo')
classificador

#### Classificação

In [None]:
mensagens_pt['CONTENT'][4]

In [None]:
previsao = classificador(mensagens_pt['CONTENT'][4])
previsao.cats

In [None]:
previsao.cats['POSITIVO']

In [None]:
mensagens_pt['Sentimento'] = None
for i in range(0, len(mensagens_pt)):
  sentimento = classificador(mensagens_pt['CONTENT'][i])
  if sentimento.cats['POSITIVO'] > sentimento.cats['NEGATIVO']:
    mensagens_pt['Sentimento'][i] = 'Positivo'
  else:
    mensagens_pt['Sentimento'][i] = 'Negativo'

In [None]:
mensagens_pt

In [None]:
grafico = px.histogram(x = mensagens_pt['Sentimento'])
grafico.show()

In [None]:
mensagens_pt[mensagens_pt['Sentimento'] == 'Negativo']