
# Análisis de los datos de contactos de LinkedIn

El propósito de este Notebook es mostrar la facilidad de analizar los contactos de LinkedIn y mostrar los datos en gráficos interactivos, usando Pandas y Plotly Express. 

Está basado en el artículo original publicado en https://towardsdatascience.com/analyzing-my-own-linkedin-data-24df63a9dc28


## Descarga de los datos

En LinkedIn, en la opción ["Configuración y Privacidad"](https://www.linkedin.com/psettings/member-data) descargamos una copia de los datos, seleccionando los datos de "Contactos". En unos minutos nos llegará un email con el link para descargar el archivo csv con nuestros datos.

En este notebook, he modificado el archivo descargado eliminando los apellidos e emails de los contactos antes de la carga.

## Carga de los datos

In [24]:
#Importamos las librerías que usaremos en el proyecto
import pandas as pd
import plotly.express as px

In [25]:
#cargamos el fichero de conexiones a un dataframe
df = pd.read_csv("Connections.csv",";")
#mostramos los primeros registros
df.head(10)

Unnamed: 0,First Name,Company,Position,Connected On
0,Elisa,,Consultora de Recursos Humanos&Coach profesional,30-oct-09
1,Pedro,@PersonasDeCalidad,"Digital Transformation, New Thinking & Lean St...",01 Dec 2016
2,Antonio,1telco.com,CEO 1telco.com,21 Jan 2021
3,Angela,247Degrees,COO,18-jun-20
4,Enrique,2MARES,CEO & Co-Founder,12-sep-11
5,sonia,300 kilos,Directora creativa ejecutiva,11-mar-14
6,Jose Antonio,3M,Healthcare IT Consultant,12-feb-18
7,Jose A.,3VASES,CEO en 3VASES,20-jun-12
8,Raquel,91 GRADOS,CEO 91º,04-may-20
9,Alba,A y C Investment,Directora Comercial,13-sep-18


In [26]:
#descripción del dataframe
df.describe()

Unnamed: 0,First Name,Company,Position,Connected On
count,1158,1151,1153,1158
unique,562,770,1008,807
top,David,Optare Solutions,CEO,08-oct-19
freq,36,65,20,13


In [65]:
#para trabajar correctamente transformamos el campo Connected On en un campo fecha
df['Connected On'] = pd.to_datetime(df['Connected On'])

## Visualizaciones usando plotty xpress

Vamos a mostrar varios gráficos para analizar los contactos de LinkedIn.

### 1. Visualización de las conexiones por fecha

In [67]:
#visualizamos las conexiones por fecha
fig1 = px.line(df.groupby(by="Connected On").count().reset_index(), x="Connected On", y="First Name", labels={"First Name":"Nº de contactos"}, title="Número de conexiones por fecha")
fig1.show()

### 2. Visualización de contactos por compañía

Vamos a mostrar los contactos por empresa actual, y lo haremos con dos tipos de gráficos

In [29]:
# En primer lugar agrupamos la información por compañía y ordenamos

In [55]:
df_by_company = df.groupby(by="Company").count().reset_index().sort_values(by="First Name", ascending=False).reset_index(drop=True)

El primer gráfico a mostrar es un gráfico de barras de las 20 primeras empresas. Se personaliza usando 

In [57]:
fig2 = px.bar(df_by_company[:20], x="Company", y="First Name", 
              hover_data=["Company","First Name"], color="First Name",
              labels={"First Name":"Nº de Contactos"}, 
              title="Contactos por empresa")
fig2.show()

Y para ver otra visualización que puede aportar otra visión, vamos a usar el gráfico Treemap

In [59]:
fig3 = px.treemap(df_by_company[:100], path=["Company"], values="First Name", hover_data=["Company","First Name"], color="First Name", labels={"First Name":"Nº de contactos"})
fig3.show()

### 3. Análisis por puesto

Ahora hacemos un análisis de los puestos de todos los contactos

In [39]:
# agrupamos por puesto
df_by_position = df.groupby(by="Position").count().reset_index().sort_values(by="First Name", ascending=False).reset_index(drop=True)


y ahora mostramos la información en gráficos. Primero el gráfico de barras

In [60]:
#creamos el gráfico de barras y lo mostramos
fig4 = px.bar(df_by_position[:20], x="Position", y="First Name", labels={"First Name":"Nº de contactos"}, hover_data=["Position", "First Name"], color="First Name",title="Contactos por puesto")
fig4.show()

Y ahora mostramos un TreeMap que nos da otra visión de los mismos datos

In [61]:
fig5 = px.treemap(df_by_position[:100], path=["Position"], values="First Name",
                  hover_data=["Position", "First Name"], color="First Name",
                  labels={"First Name":"Nº de contactos"}, title="Mapa de contactos por posición")
fig5.show()

### 4. Análisis de los nombres de los contactos

Haremos un análisis del Nombre de los contactos de LinkedIn mostrándolos en un TreeMap

In [40]:
#agrupamos y ordenamos
df_by_Name = df.groupby(by="First Name").count().sort_values(by="Company", ascending=False).reset_index()


In [62]:
#Mostramos un TreeMap con los nombres
fig6 = px.treemap(df_by_Name[:100], path=["First Name"], values="Company", hover_data=["First Name", "Company"], color="Company", labels={"First Name":"Nº de contactos"}, title="Contactos por nombre")
fig6.show()

Realizado por [Sergio Pereira](https://www.linkedin.com/in/sergiopereiralema) 