# Data Wrangling - Case 1 

Se você fosse gerente em uma empresa, o que você faria diferente caso descobrisse que alguns de seus funcionários estão pensando em sair? Daria um aumento, buscaria contratar outro ou tentaria ver como melhorar? De toda forma, seria útil e evitaria muitos problemas!

No case de hoje, vamos fazer exatamente isso! 

Daily Happiness & Employee Turnover
Is There a Relationship Between Employee Happiness and Job Turnover?


Dataset: https://www.kaggle.com/harriken/employeeturnover?select=votes.csv


## Importe as bibliotecas necessárias:

In [1]:
import pandas as pd
import numpy as np
# adicione outras aqui

## Importe os arquivos necessários:

- <b>Arquivo de churn</b>:
Descreve se o funcionário ainda está na empresa, indicando os que já sairam (<i>churn</i>). Ignorar ids negativos, o id do funcionário é único dentro da empresa somente (funcionários distintos em empresas diferentes podem ter o mesmo ID).
Arquivo: data/churn.csv

- <b>Arquivo de Interação nos Comentários</b>:
Descreve os usuário que interagiram com os comentários postados, dando like ou deslike. Arquivo: data/commentInteractions.csv

- <b>Arquivo de Comentários Anônimos</b>:
Descreve cada comentário escrito pelos funcionários e uma visão geral da quantidade de likes e deslikes. Arquivo: data/comments_clean_anonimized.csv

- <b>Arquivo de Votação</b>: 
Representa os votos do funcionário na pesquisa de statisfação, sendo que cada voto mede a felicidade de 1 a 4, sendo 4 o mais feliz. Arquivo: data/votes.csv

In [2]:
df_churn = pd.read_csv("churn.csv")
df_churn.head()

Unnamed: 0,employee,companyAlias,numVotes,lastParticipationDate,stillExists
0,512,56aec740f1ef260003e307d6,4,Thu Feb 23 12:48:04 CET 2017,True
1,-2,56aec740f1ef260003e307d6,0,Wed Jan 18 14:00:55 CET 2017,False
2,2,56aec740f1ef260003e307d6,72,Fri Mar 17 01:00:00 CET 2017,True
3,487,56aec740f1ef260003e307d6,14,Sat Nov 19 15:02:14 CET 2016,False
4,3,56aec740f1ef260003e307d6,22,Thu Feb 16 01:00:00 CET 2017,True


In [3]:
df_churn.shape

(4847, 5)

Interação nos comentários

In [4]:
df_comment_interactions = pd.read_csv("commentInteractions.csv")
df_comment_interactions.head()

  exec(code_obj, self.user_global_ns, self.user_ns)


Unnamed: 0,employee,companyAlias,liked,disliked,commentId
0,307,56aec740f1ef260003e307d6,True,False,58d018d7e010990004e38070
1,36,56aec740f1ef260003e307d6,True,False,58d018d7e010990004e38070
2,276,56aec740f1ef260003e307d6,True,False,58d018d7e010990004e38070
3,24,56aec740f1ef260003e307d6,True,False,58d018d7e010990004e38070
4,382,56aec740f1ef260003e307d6,True,False,58d0179ae010990004e3806d


In [5]:
df_comment_interactions.shape

(336960, 5)

Comentários Anônimos

In [6]:
df_comments_clean_anonimized = pd.read_csv("comments_clean_anonimized.csv")
df_comments_clean_anonimized.head()

Unnamed: 0,employee,companyAlias,commentId,txt,likes,dislikes,commentDate
0,307,56aec740f1ef260003e307d6,58d018d7e010990004e38070,**********************************************...,4.0,0.0,Mon Mar 20 19:00:17 CET 2017
1,382,56aec740f1ef260003e307d6,58d0179ae010990004e3806d,*****************************,1.0,2.0,Mon Mar 20 18:55:16 CET 2017
2,172,56aec740f1ef260003e307d6,58cff8cde010990004e37f6a,***************************,3.0,0.0,Mon Mar 20 16:44:02 CET 2017
3,135,56aec740f1ef260003e307d6,58cfefeee010990004e37f60,***************************,1.0,1.0,Mon Mar 20 16:06:08 CET 2017
4,225,56aec740f1ef260003e307d6,58cfd9b4e010990004e37f52,*********************************,3.0,2.0,Mon Mar 20 14:30:50 CET 2017


In [7]:
df_comments_clean_anonimized.shape

(82756, 7)

In [8]:
df_votes = pd.read_csv("votes.csv")
df_votes.head()

Unnamed: 0,employee,companyAlias,voteDate,vote
0,31,56aec740f1ef260003e307d6,Mon Feb 01 01:00:00 CET 2016,4
1,33,56aec740f1ef260003e307d6,Mon Feb 01 01:00:00 CET 2016,4
2,79,56aec740f1ef260003e307d6,Mon Feb 01 01:00:00 CET 2016,4
3,94,56aec740f1ef260003e307d6,Mon Feb 01 01:00:00 CET 2016,4
4,16,56aec740f1ef260003e307d6,Mon Feb 01 01:00:00 CET 2016,2


In [9]:
df_votes.shape

(221232, 4)

## Entenda o seu dado

a) Qual a sua variável target?

In [10]:
df_churn.stillExists

0        True
1       False
2        True
3       False
4        True
        ...  
4842     True
4843     True
4844     True
4845     True
4846     True
Name: stillExists, Length: 4847, dtype: bool

In [11]:
df_churn.lastParticipationDate

0        Thu Feb 23 12:48:04 CET 2017
1        Wed Jan 18 14:00:55 CET 2017
2        Fri Mar 17 01:00:00 CET 2017
3        Sat Nov 19 15:02:14 CET 2016
4        Thu Feb 16 01:00:00 CET 2017
                    ...              
4842     Fri Mar 17 15:43:58 CET 2017
4843     Fri Mar 17 17:00:00 CET 2017
4844     Fri Mar 17 17:01:54 CET 2017
4845    Tue Jun 28 02:00:00 CEST 2016
4846    Mon Jul 04 19:02:03 CEST 2016
Name: lastParticipationDate, Length: 4847, dtype: object

b) Quais as colunas do seu dataset que podem te ajudar a prever isso?

- df_churn:
  - numVotes
- df_comments_clean_anonimized:
  - likes
  - dislikes
  - qt dias entre comentário e churn
- df_comment_interactions:
  - flag funcionário deu like em comentario xyz?
- votes:
  - vote
  - há quanto tempo ele deu essa nota




c) Existem outras informações (talvez na internet) que poderiam te ajudar a prever?

- preço da ação da companhia
- média de avaliação da companhia em sites de empresa
- número de funcionários da companhia no linked_in

d) Como os 4 datasets se relacionam? Quais as chaves de cada um?


In [12]:
list(df_churn.columns)
# Chaves: 'employee', 'companyAlias'

['employee',
 'companyAlias',
 'numVotes',
 'lastParticipationDate',
 'stillExists']

In [13]:
list(df_comments_clean_anonimized.columns)
# Chaves: 'employee', 'companyAlias', 'commentId'

['employee',
 'companyAlias',
 'commentId',
 'txt',
 'likes',
 'dislikes',
 'commentDate']

In [14]:
list(df_comment_interactions.columns)
# Chaves: 'employee', 'companyAlias', 'commentId'
# -- qual a diferença?
# -- o número de linhas é igual que a anterior?

['employee', 'companyAlias', 'liked', 'disliked', 'commentId']

In [15]:
list(df_votes.columns)
# Chaves: 'employee', 'companyAlias', 'voteDate'

['employee', 'companyAlias', 'voteDate', 'vote']

e) Filtre o comentário de id "58cff8cde010990004e37f6a" nas bases df_comment_interactions e df_comments_clean_anonimized. Qual a diferença?

In [16]:
df_comments_clean_anonimized.loc[df_comments_clean_anonimized.commentId=="58cff8cde010990004e37f6a"]

Unnamed: 0,employee,companyAlias,commentId,txt,likes,dislikes,commentDate
2,172,56aec740f1ef260003e307d6,58cff8cde010990004e37f6a,***************************,3.0,0.0,Mon Mar 20 16:44:02 CET 2017
5115,172,56aec740f1ef260003e307d6,58cff8cde010990004e37f6a,***************************,3.0,0.0,Mon Mar 20 16:44:02 CET 2017


In [17]:
df_comment_interactions.loc[df_comment_interactions.commentId=="58cff8cde010990004e37f6a"]

Unnamed: 0,employee,companyAlias,liked,disliked,commentId
7,164,56aec740f1ef260003e307d6,True,False,58cff8cde010990004e37f6a
8,34,56aec740f1ef260003e307d6,True,False,58cff8cde010990004e37f6a
9,152,56aec740f1ef260003e307d6,True,False,58cff8cde010990004e37f6a


Resp: Na base de cima temos o registro do comentário escrito pelo funcionario 172. Na debaixo, temos a interação de 3 outros funcionários (164, 34  152) com esse comentário.

f) Qual(is) chave(s) se relaciona(m) entre elas?


Resp: commentId	(e companyAlias)

##  Analise o seu dado

a) Qual o tipo de variável que você tem?

df_churn:

- employee: Tipo Indefinido (apesar de ser um Int, é uma chave sem significado)
- companyAlias: Tipo Indefinido
- numVotes: Contagem
- lastParticipationDate: Temporal
- stillExists: Binário (Bool)



In [18]:
df_churn.head(1)

Unnamed: 0,employee,companyAlias,numVotes,lastParticipationDate,stillExists
0,512,56aec740f1ef260003e307d6,4,Thu Feb 23 12:48:04 CET 2017,True


In [19]:
df_churn.dtypes

employee                  int64
companyAlias             object
numVotes                  int64
lastParticipationDate    object
stillExists                bool
dtype: object

df_votes:

- employee: Tipo Indefinido (apesar de ser um Int, é uma chave sem significado)
- companyAlias: Tipo Indefinido
- voteDate: Data -> Temporal
- vote: Intervalos


In [20]:
df_votes.head(1)

Unnamed: 0,employee,companyAlias,voteDate,vote
0,31,56aec740f1ef260003e307d6,Mon Feb 01 01:00:00 CET 2016,4


In [21]:
df_votes.dtypes

employee         int64
companyAlias    object
voteDate        object
vote             int64
dtype: object

df_comments_clean_anonimized:

- employee: Tipo Indefinido (apesar de ser um Int, é uma chave sem significado)
- companyAlias: Tipo Indefinido
- commentId: Tipo Indefinido
- txt: Texto livre (Nominal Não-Categórico) -> Precisa de transformação!
- likes: Contagem
- dislikes: Contagem
- commentDate: Data -> Temporal


In [22]:
df_comments_clean_anonimized.head(1)

Unnamed: 0,employee,companyAlias,commentId,txt,likes,dislikes,commentDate
0,307,56aec740f1ef260003e307d6,58d018d7e010990004e38070,**********************************************...,4.0,0.0,Mon Mar 20 19:00:17 CET 2017


In [23]:
df_comments_clean_anonimized.dtypes

employee          int64
companyAlias     object
commentId        object
txt              object
likes           float64
dislikes        float64
commentDate      object
dtype: object

df_comment_interactions:

- employee: Tipo Indefinido (apesar de ser um Int, é uma chave sem significado)
- companyAlias: Tipo Indefinido
- commentId: Tipo Indefinido
- liked: Binária (Bool)
- disliked: Binária (Bool)


In [24]:
df_comment_interactions.head(1)

Unnamed: 0,employee,companyAlias,liked,disliked,commentId
0,307,56aec740f1ef260003e307d6,True,False,58d018d7e010990004e38070


In [25]:
df_comment_interactions.dtypes

employee         int64
companyAlias    object
liked           object
disliked        object
commentId       object
dtype: object

b) Existe alguma conversão de tipo que precisa ser feita (string para datas / float para int / etc.)? Aproveite esse momento para realizar as conversões necessárias de modo que a gente consiga analisar as faixas de valor dos dados de forma apropriada.

Dica 1: para as datas, consulte https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes .

Dica 2: nesse dataset, as datas estão na timezone CET e algumas no horário de verão (CEST). Como o Pandas não reconhece o formato CEST, sugiro substituir o CEST por EET, um outro fuso com a mesma quantidade de horas de diferença.

Dica 3: após a conversão usando o pd.to_datetime(), aplique o mapping .map(lambda x: x.tz_convert(None)) para converter para a timezone UTC (padrão). Isso evitará erros na frente.

<u>Resp: sim, as datas precisam ser convertidas para formato de data e o campo employee_interaction deveria ser int ao invés de float.</u>

In [26]:
# pd.to_datetime("Mon Mar 20 19:00:17 CEST 2017", format="%a %b %d %X %Z %Y")

In [27]:
pd.to_datetime("Mon Mar 20 19:00:17 EET 2017", format="%a %b %d %X %Z %Y").tz_convert(None)

Timestamp('2017-03-20 17:00:17')

In [28]:
df_churn.lastParticipationDate = df_churn.lastParticipationDate.astype(str).map(lambda x: x.replace("CEST", "EET"))
df_votes.voteDate = df_votes.voteDate.astype(str).map(lambda x: x.replace("CEST", "EET"))
df_comments_clean_anonimized.commentDate = df_comments_clean_anonimized.commentDate.astype(str).map(lambda x: x.replace("CEST", "EET"))

In [29]:
df_churn.lastParticipationDate

0       Thu Feb 23 12:48:04 CET 2017
1       Wed Jan 18 14:00:55 CET 2017
2       Fri Mar 17 01:00:00 CET 2017
3       Sat Nov 19 15:02:14 CET 2016
4       Thu Feb 16 01:00:00 CET 2017
                    ...             
4842    Fri Mar 17 15:43:58 CET 2017
4843    Fri Mar 17 17:00:00 CET 2017
4844    Fri Mar 17 17:01:54 CET 2017
4845    Tue Jun 28 02:00:00 EET 2016
4846    Mon Jul 04 19:02:03 EET 2016
Name: lastParticipationDate, Length: 4847, dtype: object

In [30]:
df_churn.lastParticipationDate = pd.to_datetime(df_churn.lastParticipationDate, format="%a %b %d %X %Z %Y").map(lambda x: x.tz_convert(None))
df_votes.voteDate = pd.to_datetime(df_votes.voteDate, format="%a %b %d %X %Z %Y").map(lambda x: x.tz_convert(None))
df_comments_clean_anonimized.commentDate = pd.to_datetime(df_comments_clean_anonimized.commentDate, format="%a %b %d %X %Z %Y").map(lambda x: x.tz_convert(None))

In [31]:
df_churn.head()

Unnamed: 0,employee,companyAlias,numVotes,lastParticipationDate,stillExists
0,512,56aec740f1ef260003e307d6,4,2017-02-23 11:48:04,True
1,-2,56aec740f1ef260003e307d6,0,2017-01-18 13:00:55,False
2,2,56aec740f1ef260003e307d6,72,2017-03-17 00:00:00,True
3,487,56aec740f1ef260003e307d6,14,2016-11-19 14:02:14,False
4,3,56aec740f1ef260003e307d6,22,2017-02-16 00:00:00,True


In [32]:
def bool2int(df):
    bool_cols = df.select_dtypes('bool').columns
    for col in bool_cols:
        df[col] = df[col].map(lambda x: 1 if x is True else 0)
    return df

In [33]:
df_churn = bool2int(df_churn)

In [34]:
df_votes = bool2int(df_votes)

In [35]:
df_comment_interactions.liked=df_comment_interactions.liked.map(bool)
df_comment_interactions.disliked=df_comment_interactions.disliked.map(bool)

In [36]:
df_comment_interactions = bool2int(df_comment_interactions)

In [37]:
df_comments_clean_anonimized = bool2int(df_comments_clean_anonimized)

In [38]:
df_comment_interactions.head()

Unnamed: 0,employee,companyAlias,liked,disliked,commentId
0,307,56aec740f1ef260003e307d6,1,0,58d018d7e010990004e38070
1,36,56aec740f1ef260003e307d6,1,0,58d018d7e010990004e38070
2,276,56aec740f1ef260003e307d6,1,0,58d018d7e010990004e38070
3,24,56aec740f1ef260003e307d6,1,0,58d018d7e010990004e38070
4,382,56aec740f1ef260003e307d6,1,0,58d0179ae010990004e3806d


b) Qual a faixa de valores de cada uma delas?

In [39]:
df_churn.describe()

Unnamed: 0,employee,numVotes,stillExists
count,4847.0,4847.0,4847.0
mean,167.37549,45.896431,0.757788
std,208.271041,71.302128,0.428466
min,-218.0,0.0,0.0
25%,33.0,3.0,1.0
50%,113.0,16.0,1.0
75%,231.0,59.0,1.0
max,999.0,740.0,1.0


In [40]:
df_churn.shape

(4847, 5)

In [41]:
df_churn = df_churn.loc[df_churn.employee>=0]
df_votes = df_votes.loc[df_votes.employee>=0]
df_comment_interactions = df_comment_interactions.loc[df_comment_interactions.employee>=0]
df_comments_clean_anonimized = df_comments_clean_anonimized.loc[df_comments_clean_anonimized.employee>=0]

In [42]:
df_churn.shape

(4418, 5)

In [43]:
df_churn.companyAlias.nunique()

37

In [50]:
import plotly.express as px
#import matplotlib.pyplot as plt
# Here we use a column with categorical data
#df_churn['companyAlias'].hist()
#plt.xticks(rotation=1)
#df.loc[df['bene_count_ge65'] < 200, 'bene_count_ge65'].dropna().hist(bins=20)
fig = px.histogram(df_churn, x="companyAlias")
fig.show()

ValueError: Mime type rendering requires nbformat>=4.2.0 but it is not installed

In [None]:
df_churn.lastParticipationDate.describe()

In [None]:
# Using plotly.express
import plotly.express as px

fig = px.histogram(df_churn, x="lastParticipationDate")
fig.show()

In [None]:
df_churn[['numVotes']].hist(bins=20)

In [None]:
df_votes.describe()

In [None]:
df_votes.vote=df_votes.vote.map(int)

In [None]:
import plotly.express as px
# Here we use a column with categorical data
fig = px.histogram(df_votes, x="vote")
fig.show()

In [None]:
# Using plotly.express
fig = px.histogram(df_votes, x="voteDate")
fig.show()

In [None]:
df_comments_clean_anonimized.describe()

In [None]:
df_comments_clean_anonimized[['likes']].hist(bins=20)

In [None]:
df_comments_clean_anonimized[['dislikes']].hist(bins=20)

In [None]:
# Using plotly.express
fig = px.histogram(df_comments_clean_anonimized, x="commentDate")
fig.show()

e) Existem registros duplicados em alguma base (use o .drop_duplicates())? Se houver, elimine-os.

In [None]:
df_votes.shape

In [None]:
df_votes = df_votes.drop_duplicates()
df_votes.shape

In [None]:
df_comments_clean_anonimized = df_comments_clean_anonimized.drop_duplicates()
df_comments_clean_anonimized.shape

In [None]:
df_comment_interactions.shape

In [None]:
df_comment_interactions = df_comment_interactions.drop_duplicates()
df_comment_interactions.shape

## Estruturando

Precisamos gerar uma base final com a estrtutura da df_churn, que cada registro é representado unicamente por cada employee e company.
Vamos começar adaptando a base df_votes para essa estrutura. 

a) Precisaremos agregar a base df_votes por employee, company. Para isso, podemos criar métricas agregadas das variáveis vote e voteDate. 

Todavia, a variável voteDate ainda não está no formato de intervalo temporal. Para isso vamos precisar calcular a diferença dela para o nosso referencial (o lastParticipationDate), que se encontra na base df_churn.

Junte (merge) os datasets a seguir por meio de suas chaves, criando esse novos dataset:
- df_votes com df_churn (trazer somente a coluna lastParticipationDate) -> df_votes_merge

In [None]:
df_votes_merge = df_churn[['employee', 'companyAlias', 'lastParticipationDate']].merge(df_votes,on=['employee', 'companyAlias'],how="left")
df_votes_merge.head()

b) Agora crie a variável qt_dias_diff_vote que represente a quantidade de dias de diferença entre voteDate e lastParticipationDate.

In [None]:
df_churn.dtypes

In [None]:
df_votes_merge['qt_dias_diff_vote'] = (df_votes_merge.lastParticipationDate - df_votes_merge.voteDate).map(lambda x: x.components.days)

In [None]:
df_votes_merge['qt_dias_diff_vote'].describe()

c) Veja quantos valores não-positivos existem na variável qt_dias_diff_vote e remova-os da base. Não podemos usar no modelo nenhuma informação que seja futura à nossa variável target (stillExists, mensurada após o lastParticipationDate)

In [None]:
df_votes_merge[df_votes_merge['qt_dias_diff_vote']<=0].shape

In [None]:
df_votes_merge = df_votes_merge[df_votes_merge['qt_dias_diff_vote']>0]

In [None]:
df_votes_merge.shape

In [None]:
df_votes_merge.head()

In [None]:
# Using plotly.express
fig = px.histogram(df_votes_merge, x="qt_dias_diff_vote")
fig.show()

d) Agora vamos agrupar a nossa base por <employee, companyAlias> e derivar as seguintes métricas:
- vote: mean, mode (use a função abaixo), min, max, count
- qt_dias_diff_vote: min, max, median

    Chame essa nova base de df_votes_group. Lembre de dar um flat no nome das colunas.

In [None]:
def mode(x):
    return pd.Series.mode(x)[0]

In [None]:
df_votes_group = df_votes_merge.groupby(by=["employee", "companyAlias"], as_index=False).agg({
    'vote': ['mean', mode, 'min', 'max', 'count'],
    'qt_dias_diff_vote': ['min', 'max', 'median']
})
df_votes_group.head()

In [None]:
df_votes_group.columns = ['_'.join(col).strip() if col[1] != "" else col[0] for col in df_votes_group.columns.values]

In [None]:
df_votes_group.head()

In [None]:
df_votes_group.shape

e) Agora vamos estruturar nossa base de comentários. Na parte 1 do nosso case, vamos ignorar a base de interações dos comentários e deixar ela para a parte 2.

Essa base possui a variável commentDate, que ainda não está no formato de intervalo temporal. Para isso também vamos precisar calcular a diferença dela para o nosso referencial (o lastParticipationDate), que se encontra na base df_churn.

Junte (merge) os datasets a seguir por meio de suas chaves, criando esse novos dataset:
- df_comments_clean_anonimized com df_churn (trazer somente a coluna lastParticipationDate) -> df_comments_merge

In [None]:
df_comments_merge = df_churn[['employee', 'companyAlias', 'lastParticipationDate']].merge(df_comments_clean_anonimized,on=['employee', 'companyAlias'],how="inner")
df_comments_merge.head()

f) Veja quantos registros nulos há para a variável commentDate, rodando o código abaixo e elimine-os.

In [None]:
df_comments_merge[df_comments_merge.commentDate.isna()]

In [None]:
df_comments_merge = df_comments_merge[~ df_comments_merge.commentDate.isna()]

g) Agora crie a variável qt_dias_diff_comment que represente a quantidade de dias de diferença entre commentDate e lastParticipationDate.


In [None]:
df_comments_merge['qt_dias_diff_comment'] = (df_comments_merge.lastParticipationDate - df_comments_merge.commentDate).map(lambda x: x.components.days)

In [None]:
df_comments_merge['qt_dias_diff_comment'].describe()

h) Veja quantos valores não-positivos existem na variável qt_dias_diff_comment e remova-os da base. Não podemos usar no modelo nenhuma informação que seja futura à nossa variável target (stillExists, mensurada após o lastParticipationDate)

In [None]:
df_comments_merge[df_comments_merge['qt_dias_diff_comment']<=0].shape

In [None]:
df_comments_merge = df_comments_merge[df_comments_merge['qt_dias_diff_comment']>0]

In [None]:
df_comments_merge.shape

In [None]:
df_comments_merge.head()

In [None]:
# Using plotly.express
fig = px.histogram(df_comments_merge, x="qt_dias_diff_comment")
fig.show()

i) Agora vamos agrupar a nossa base por <employee, companyAlias> e derivar as seguintes métricas:
- likes: mean, min, max
- dislikes: mean, min, max
- qt_dias_diff_comment: min, max, median
- commentId: count

    Chame essa nova base de df_comments_group. Lembre de dar um flat no nome das colunas.

In [None]:
df_comments_group = df_comments_merge.groupby(by=["employee", "companyAlias"], as_index=False).agg({
    'likes': ['mean','min', 'max'],
    'dislikes': ['mean','min', 'max'],
    'qt_dias_diff_comment': ['min', 'max', 'median'],
    'commentId': ['count']
})
df_comments_group.head()

In [None]:
df_comments_group.columns = ['_'.join(col).strip() if col[1] != "" else col[0] for col in df_comments_group.columns.values]

In [None]:
df_comments_group.head()

In [None]:
df_comments_group.shape

j) Por fim, vamos juntar as 3 bases: df_churn, df_votes_group e df_comments_group. Dica: selecione somente as variáveis que você quer levar pro dataset final, deixando as que não serão mais utilizadas.

In [None]:
df_churn_merge = df_churn.merge(df_votes_group,on=['employee', 'companyAlias'],how="left")
df_churn_merge.head()

In [None]:
df_churn_merge = df_churn_merge.merge(df_comments_group,on=['employee', 'companyAlias'],how="left")
df_churn_merge.head()

In [None]:
df_churn_merge.shape

## Limpeza

Agora que temos um dataset estruturado, precisamos terminar de limpar nossos dados. Já fizemos algumas limpezas as longo do caminho, mas ainda restam outras.

a) Vamos começar fazendo uma seleção do range de data a ser considerado para a análise. Relembre a distribuição da variável lastParticipationDate. Observe que há alguns registros muito antigos e pouco significativos.

In [None]:
# Using plotly.express
import plotly.express as px

fig = px.histogram(df_churn_merge, x="lastParticipationDate")
fig.show()

Remova os registros anteriores a Abril de 2016 para considerarmos o histórico de apenas 1 ano. 

In [None]:
df_churn_merge = df_churn_merge[df_churn_merge.lastParticipationDate>='2016-04-01']

In [None]:
df_churn_merge.shape

b) Vamos agora fazer uma análise da quantidade de nulos e decidir como tratar cada um deles. O que você observa?

In [None]:
for col in df_churn_merge.columns:
    print(df_churn_merge[col].isna().value_counts())

c) É possível notar que para as variáveis que vieram da base de Votação há sempre a mesma quantidade de nulos. Isso significa que os funcionários não participaram da votação. 

As que vieram da base de Comentários também, já que são funcionários que não comentaram. 

Imaginando que após a etapa de Data Wrangling você irá ter que rodar um modelo preditivo de churn que não aceita nulos, como você sugere tratar o nulo em cada um dos casos abaixo? Implemente!

- vote_mean
- vote_mode
- vote_min
- vote_max
- vote_count
- qt_dias_diff_vote_min
- qt_dias_diff_vote_max
- qt_dias_diff_vote_median


- likes_mean
- likes_min
- likes_max
- dislikes_mean
- dislikes_min
- dislikes_max
- qt_dias_diff_comment_min
- qt_dias_diff_comment_max
- qt_dias_diff_comment_median
- commentId_count

OBS: Caso esses dados tivesse que ser mostrados pro cliente ao invés de ir para o modelo, o mais indicado seria calcular os gráficos desconsiderando os registros nulos.

In [None]:
df_churn_merge.describe()

<u>Resp:</u>
- vote_mean: pode subsitituir por média geral
- vote_mode: pode subsitituir por moda geral 
- vote_min: pode subsitituir por mediana geral 
- vote_max: pode subsitituir por mediana geral 
- vote_count: pode substituir por 0 porque de fato é 0
- qt_dias_diff_vote_min: pode subsitituir por mediana geral 
- qt_dias_diff_vote_max: pode subsitituir por mediana geral 
- qt_dias_diff_vote_median: pode subsitituir por mediana geral 


- likes_mean: pode subsitituir por média geral
- likes_min: pode subsitituir por mediana geral 
- likes_max: pode subsitituir por mediana geral 
- dislikes_mean: pode subsitituir por média geral
- dislikes_min: pode subsitituir por mediana geral 
- dislikes_max: pode subsitituir por mediana geral 
- qt_dias_diff_comment_min: pode subsitituir por mediana geral
- qt_dias_diff_comment_max: pode subsitituir por mediana geral
- qt_dias_diff_comment_median: pode subsitituir por mediana geral
- commentId_count: pode substituir por 0 porque de fato é 0

In [None]:
mean_cols=['vote_mean','likes_mean', 'dislikes_mean']
for col in mean_cols:
    avg=df_churn_merge[col].mean()
    df_churn_merge.loc[df_churn_merge[col].isna(),col]=avg
    print(col,"- substituição de nulos por",avg)

In [None]:
median_cols=['vote_mode','vote_max', 'vote_min', 'qt_dias_diff_vote_min', 'qt_dias_diff_vote_max', 'qt_dias_diff_vote_median',
          'likes_min','likes_max','dislikes_min','dislikes_max','qt_dias_diff_comment_min','qt_dias_diff_comment_max',
           'qt_dias_diff_comment_median']
for col in median_cols:
    med=df_churn_merge[col].median()
    df_churn_merge.loc[df_churn_merge[col].isna(),col]=med
    print(col,"- substituição de nulos por",med)

d) Para fechar, vamos para a nossa etapa de tratamento de outliers! Rode o describe com os seguintes percentis [0.01,0.1,0.25,0.50,0.75,0.90,0.99].

In [None]:
df_churn_merge.describe(percentiles=[0.01,0.1,0.25,0.50,0.75,0.90,0.99])

Como a variável employee é um tipo Indefinido, podemos ignorar ela nesse caso. Para quais você observa uma grande diferença entre o percentil 99% e o Max?

<u>Resp:</u> numVotes, vote_count, qt_dias_diff_vote_min, qt_dias_diff_vote_max, likes_mean, likes_min, likes_max, dislikes_mean, dislikes_min, dislikes_max, qt_dias_diff_comment_min, qt_dias_diff_comment_max,	qt_dias_diff_comment_median, commentId_count

e)  Plot o box plot para a variável numVotes.

In [None]:
import seaborn as sns

sns.boxplot(data=df_churn_merge,x=df_churn_merge['numVotes'])

f) Utilizando o z-score, calcule quantos outliers existem para a lista de colunas abaixo.

In [None]:
from scipy import stats
out_cols=['numVotes', 
       'vote_count', 'qt_dias_diff_vote_min', 'qt_dias_diff_vote_max',
       'qt_dias_diff_vote_median', 'likes_mean', 'likes_min', 'likes_max',
       'dislikes_mean', 'dislikes_min', 'dislikes_max',
       'qt_dias_diff_comment_min', 'qt_dias_diff_comment_max',
       'qt_dias_diff_comment_median', 'commentId_count']

In [None]:
for col in out_cols:
    z=np.abs(stats.zscore(df_churn_merge[col]))
    print(col, df_churn_merge[z>3].shape)

Para a variável numVotes, vamos eliminar os registros outliers para não adicionar no nosso modelos casos como esse que podem indicar algum erro.

In [None]:
z=np.abs(stats.zscore(df_churn_merge.numVotes))
df_churn_merge = df_churn_merge[z<3]

Para as demais, vamos substituir os outliers pelos limites inferiores e superiores.

In [None]:
out_cols=[ 'qt_dias_diff_vote_min', 'qt_dias_diff_vote_max',
       'qt_dias_diff_vote_median', 'likes_mean', 'likes_min', 'likes_max',
       'dislikes_mean', 'dislikes_min', 'dislikes_max',
       'qt_dias_diff_comment_min', 'qt_dias_diff_comment_max',
       'qt_dias_diff_comment_median']
for col in out_cols:
    lower_bound = df_churn_merge[col].mean()-3*df_churn_merge[col].std()
    upper_bound = df_churn_merge[col].mean()+3*df_churn_merge[col].std()
    df_churn_merge.loc[ df_churn_merge[col]<lower_bound, col] = int(lower_bound)
    df_churn_merge.loc[(df_churn_merge[col]>upper_bound), col] = int(upper_bound)

In [None]:
df_churn_merge.describe(percentiles=[0.01,0.1,0.25,0.50,0.75,0.90,0.99])

## Fim! 

Dataset pronto e limpo! Nas próximas aulas aprenderemos a como enriquecer os dados, criando dados novos a partir dos dados que já temos.

In [None]:
df_churn_merge.head()

Vamos salvar os datasets!

In [None]:
df_churn_merge.to_csv('data/df_churn_merge.csv',sep=',',index=False)
df_comment_interactions.to_csv('data/df_comment_interactions.csv',sep=',',index=False)
df_comments_clean_anonimized.to_csv('data/df_comments_clean_anonimized.csv',sep=',',index=False)
df_votes.to_csv('data/df_votes.csv',sep=',',index=False)