## Analisando Meus Dados do LinkedIn até 30/08/2021

### Inspirado pelo material do PORTAL DADOS AO CUBO, resolvi analisar as minhas conexões.

https://dadosaocubo.com/analisando-dados-do-linkedin/

In [4]:
pip install wordcloud

Collecting wordcloud
  Downloading wordcloud-1.8.1-cp38-cp38-win_amd64.whl (155 kB)
Installing collected packages: wordcloud
Successfully installed wordcloud-1.8.1
Note: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'C:\Users\marce\AppData\Local\Programs\Python\Python38\python.exe -m pip install --upgrade pip' command.


In [38]:
import pandas as pd
import random, string # Para geração de strings aleatórias para anominzar os dados pessoais
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud

In [2]:
!ls Connections.csv

Connections.csv


In [3]:
# Importando os dados
df_conexoes = pd.read_csv('Connections.csv')

### Não será utilizado o head() par causa da LGPD, protegendo os dados pessoais

In [4]:
# Verificando as colunas que poderão conter dados pessoais
df_conexoes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 831 entries, 0 to 830
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   First Name     828 non-null    object
 1   Last Name      828 non-null    object
 2   Email Address  51 non-null     object
 3   Company        817 non-null    object
 4   Position       817 non-null    object
 5   Connected On   831 non-null    object
dtypes: object(6)
memory usage: 39.1+ KB


### Eliminando Dados Pessoais do DataFrame, por causa da Lei Geral de Proteção de Dados (LGPD)

In [5]:
# Ocultando as informações pessoais
df_conexoes.drop(columns=['First Name','Last Name','Email Address'], inplace=True)
df_conexoes.head()

Unnamed: 0,Company,Position,Connected On
0,FICO®,Big Data Solutions,29 Aug 2021
1,Dataside,DBA Support,27 Aug 2021
2,datApto,Partner,25 Aug 2021
3,iMdg | iMaps Data Group,CEO,24 Aug 2021
4,APF ADMINISTRADORA,Gerente financeiro,18 Aug 2021


In [6]:
# Como os dados pessoais foram apagados, será criado uma coluna com um id aleatório para cada pessoa (linha)
# Primeiro será criado um id intermediário com index que vai ser utilizado para criação do id de cada pessoa

df_conexoes.reset_index(inplace=True)
df_conexoes.rename(columns={'index':'id'}, inplace=True)

In [7]:
# Criado um id aleatório para cada linha (pessoa)
df_conexoes

Unnamed: 0,id,Company,Position,Connected On
0,0,FICO®,Big Data Solutions,29 Aug 2021
1,1,Dataside,DBA Support,27 Aug 2021
2,2,datApto,Partner,25 Aug 2021
3,3,iMdg | iMaps Data Group,CEO,24 Aug 2021
4,4,APF ADMINISTRADORA,Gerente financeiro,18 Aug 2021
...,...,...,...,...
826,826,SISNEMA Informática,Proprietário,14 Nov 2019
827,827,Autônomo,Cyber Security Analyst,03 Nov 2019
828,828,Sol e Vento,Técnico de energias renováveis,27 Oct 2019
829,829,CETP,Coordenador de operações,26 Oct 2019


In [8]:
# Função para criar um id de 8 caracteres aleatório
def get_id():
    id = ''.join(random.choice(string.ascii_uppercase + string.ascii_lowercase + string.digits) for _ in range(8))
    return id

In [9]:
# Para finalizar, será feito um loop FOR passando por cada linha do dataframe
# substituindo o id intermediário pelo novo id de 8 caracteres aleatório.

for r in range(df_conexoes.shape[0]):
    df_conexoes['id'].iloc._setitem_with_indexer(r, get_id())

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_conexoes['id'].iloc._setitem_with_indexer(r, get_id())


In [10]:
# Desta forma a identidade das pessoas foi ANONIMIZADA
df_conexoes

Unnamed: 0,id,Company,Position,Connected On
0,NvUzlbZg,FICO®,Big Data Solutions,29 Aug 2021
1,Udo3pKhw,Dataside,DBA Support,27 Aug 2021
2,yLXd8LTV,datApto,Partner,25 Aug 2021
3,rGkbhlTS,iMdg | iMaps Data Group,CEO,24 Aug 2021
4,TogW89sp,APF ADMINISTRADORA,Gerente financeiro,18 Aug 2021
...,...,...,...,...
826,QUP5qFeB,SISNEMA Informática,Proprietário,14 Nov 2019
827,L6MaP5La,Autônomo,Cyber Security Analyst,03 Nov 2019
828,3hQKCQBO,Sol e Vento,Técnico de energias renováveis,27 Oct 2019
829,tAmpStXX,CETP,Coordenador de operações,26 Oct 2019


In [11]:
# Salvando as conexões anonimizadas
df_conexoes.to_csv('Connections_Anonimizadas.csv')

### ANALISE INICIAL

In [12]:
df_conexoes.count()

id              831
Company         817
Position        817
Connected On    831
dtype: int64

In [13]:
# Conexões por empresa
df_conexoes['Company'].value_counts()

HypeFlame                                                       15
Semantix                                                        12
White Cube Tecnologia da Informação                              7
Hospital Moinhos de Vento                                        7
DBC Company                                                      6
                                                                ..
Solte a Língua                                                   1
B2W Digital                                                      1
FIESC - Federação das Indústrias do Estado de Santa Catarina     1
Arruda Consulting                                                1
 +A Educação                                                     1
Name: Company, Length: 644, dtype: int64

In [14]:
# Conexões por Cargo
df_conexoes['Position'].value_counts()

Data Engineer                      17
Engenheiro de dados                15
CEO                                14
Senior Data Engineer               10
Tech Recruiter                     10
                                   ..
Founder | CEO                       1
Gerente de Operações de TI          1
Fraud Associate Operations Team     1
Partner & Attorney-at-law           1
Head - Ciência de Dados             1
Name: Position, Length: 647, dtype: int64

In [15]:
# Conexões por Data de
df_conexoes['Connected On'].value_counts()

13 Jan 2021    19
24 Mar 2021     8
12 May 2021     7
20 Feb 2020     7
05 Jun 2020     7
               ..
18 Jul 2020     1
27 Aug 2021     1
19 Jul 2020     1
02 Apr 2021     1
24 Apr 2020     1
Name: Connected On, Length: 410, dtype: int64

### TRATAMENTO DOS DADOS

In [16]:
# Transformando tudo em UPPERCASE
df_conexoes = df_conexoes.apply(lambda x: x.astype(str).str.upper())

# Removendo pontuação da coluna Position
df_conexoes['Position'] = df_conexoes['Position'].str.replace('[,.:;!?]+', '', regex=True).copy()

# Removendo caracteres especiais da coluna Position
df_conexoes['Position'] = df_conexoes['Position'].str.replace('[/<>()|\+\-\–$%&#@\'\"]+', '', regex=True).copy()

# Removendo espaço duplo da coluna Position
df_conexoes['Position'] = df_conexoes['Position'].str.replace('  ', ' ', regex=True).copy()

In [17]:
df_conexoes.head()

Unnamed: 0,id,Company,Position,Connected On
0,NVUZLBZG,FICO®,BIG DATA SOLUTIONS,29 AUG 2021
1,UDO3PKHW,DATASIDE,DBA SUPPORT,27 AUG 2021
2,YLXD8LTV,DATAPTO,PARTNER,25 AUG 2021
3,RGKBHLTS,IMDG | IMAPS DATA GROUP,CEO,24 AUG 2021
4,TOGW89SP,APF ADMINISTRADORA,GERENTE FINANCEIRO,18 AUG 2021


In [18]:
# Função que altera o cargo baseado em uma string exata
def change_position(position,new_position):
    df_conexoes['Position'].iloc[df_conexoes.query('Position == @position').index] = new_position

# Função que altera o cargo que contenha a string
def change_position_full(position,new_position):
    df_conexoes['Position'].iloc[df_conexoes.query('Position.str.contains(@position)', engine='python').index] = new_position

In [19]:
# Conexões por Cargo
df_conexoes['Position'].value_counts()

ENGENHEIRO DE DADOS                                   17
DATA ENGINEER                                         17
CEO                                                   14
NAN                                                   14
TECH RECRUITER                                        11
                                                      ..
TECHNICAL SOLUTIONS ARCHITECT ENTERPRISE ARCHITECT     1
FULL STACK DEVELOPER                                   1
IT INFRASTRUCTURE MANAGER                              1
ANALISTA DE SISTEMAS DE TI ENGENHEIRO DE DADOS         1
DESENVOLVEDOR PYTHON                                   1
Name: Position, Length: 629, dtype: int64

In [20]:
# Transformando DATA ENGINEER e ENGENHEIRO DE DADOS em úm só

change_position_full('DATA ENGINEER','ENGENHEIRO DE DADOS')
change_position('ENGENHEIRO DE DADOS','ENGENHEIRO DE DADOS')
change_position('NAN'   ,'SEM CARGO INFORMADO')
change_position('DATA ANALYST','ANALISTA DE DADOS')

### Top 10 Cargos das Minhas Conexões do LinkedIn até 31/08/2021

In [23]:
df_conexoes['Position'].value_counts().head(10)

ENGENHEIRO DE DADOS                  62
SEM CARGO INFORMADO                  14
CEO                                  14
ANALISTA DE DADOS                    11
TECH RECRUITER                       11
PROFESSOR                             7
CIENTISTA DE DADOS                    7
ANALISTA DE BUSINESS INTELLIGENCE     7
FOUNDER                               6
DATA SCIENTIST                        4
Name: Position, dtype: int64

### Os dados mostram que a maioria das minhas conexões atuam com Engenharia de Dados em empresas que atuam fortemente com conceito Data-driven.

In [24]:
# Criação da coluna Area
df_conexoes['Area'] = 'OUTRAS'
df_conexoes

Unnamed: 0,id,Company,Position,Connected On,Area
0,NVUZLBZG,FICO®,BIG DATA SOLUTIONS,29 AUG 2021,OUTRAS
1,UDO3PKHW,DATASIDE,DBA SUPPORT,27 AUG 2021,OUTRAS
2,YLXD8LTV,DATAPTO,PARTNER,25 AUG 2021,OUTRAS
3,RGKBHLTS,IMDG | IMAPS DATA GROUP,CEO,24 AUG 2021,OUTRAS
4,TOGW89SP,APF ADMINISTRADORA,GERENTE FINANCEIRO,18 AUG 2021,OUTRAS
...,...,...,...,...,...
826,QUP5QFEB,SISNEMA INFORMÁTICA,PROPRIETÁRIO,14 NOV 2019,OUTRAS
827,L6MAP5LA,AUTÔNOMO,CYBER SECURITY ANALYST,03 NOV 2019,OUTRAS
828,3HQKCQBO,SOL E VENTO,TÉCNICO DE ENERGIAS RENOVÁVEIS,27 OCT 2019,OUTRAS
829,TAMPSTXX,CETP,COORDENADOR DE OPERAÇÕES,26 OCT 2019,OUTRAS


In [25]:
# Função que altera a área baseado em uma string exata
def change_area(position,new_area):
    df_conexoes['Area'].iloc[df_conexoes.query('Position == @position').index] = new_area

# Função que altera a área que contenha a string exata
def change_area_full(position,new_area):
    df_conexoes['Area'].iloc[df_conexoes.query('Position.str.contains(@position)', engine='python').index] = new_area

In [26]:
df_conexoes

Unnamed: 0,id,Company,Position,Connected On,Area
0,NVUZLBZG,FICO®,BIG DATA SOLUTIONS,29 AUG 2021,OUTRAS
1,UDO3PKHW,DATASIDE,DBA SUPPORT,27 AUG 2021,OUTRAS
2,YLXD8LTV,DATAPTO,PARTNER,25 AUG 2021,OUTRAS
3,RGKBHLTS,IMDG | IMAPS DATA GROUP,CEO,24 AUG 2021,OUTRAS
4,TOGW89SP,APF ADMINISTRADORA,GERENTE FINANCEIRO,18 AUG 2021,OUTRAS
...,...,...,...,...,...
826,QUP5QFEB,SISNEMA INFORMÁTICA,PROPRIETÁRIO,14 NOV 2019,OUTRAS
827,L6MAP5LA,AUTÔNOMO,CYBER SECURITY ANALYST,03 NOV 2019,OUTRAS
828,3HQKCQBO,SOL E VENTO,TÉCNICO DE ENERGIAS RENOVÁVEIS,27 OCT 2019,OUTRAS
829,TAMPSTXX,CETP,COORDENADOR DE OPERAÇÕES,26 OCT 2019,OUTRAS


In [35]:
change_area_full('DADOS','DADOS')
change_area_full('DATA','DADOS')
change_area_full('ANALYTICS','DADOS')
change_area_full('COORDENADOR','COORDENADOR')
change_area_full('FINANCEIRO','FINANCEIRO')
change_area_full('SECURITY','SECURITY')
change_area_full('LGPD','LGPD')
change_area_full('CEO','CEO')
change_area_full('TÉCNICO','TÉCNICO')
change_area_full('SUPPORT','SUPORTE')
change_area_full('PARTNER','PARTNER')
change_area_full('PROPRIETÁRIO','CEO')

In [36]:
df_conexoes

Unnamed: 0,id,Company,Position,Connected On,Area
0,NVUZLBZG,FICO®,BIG DATA SOLUTIONS,29 AUG 2021,DADOS
1,UDO3PKHW,DATASIDE,DBA SUPPORT,27 AUG 2021,SUPORTE
2,YLXD8LTV,DATAPTO,PARTNER,25 AUG 2021,PARTNER
3,RGKBHLTS,IMDG | IMAPS DATA GROUP,CEO,24 AUG 2021,CEO
4,TOGW89SP,APF ADMINISTRADORA,GERENTE FINANCEIRO,18 AUG 2021,FINANCEIRO
...,...,...,...,...,...
826,QUP5QFEB,SISNEMA INFORMÁTICA,PROPRIETÁRIO,14 NOV 2019,CEO
827,L6MAP5LA,AUTÔNOMO,CYBER SECURITY ANALYST,03 NOV 2019,SECURITY
828,3HQKCQBO,SOL E VENTO,TÉCNICO DE ENERGIAS RENOVÁVEIS,27 OCT 2019,TÉCNICO
829,TAMPSTXX,CETP,COORDENADOR DE OPERAÇÕES,26 OCT 2019,COORDENADOR
