# Projeto 2: Análise Exploratória do Email Pessoal

*Baseado no código do capítulo 3 do livro "Hands on Exploratory Data Analysis with Python", com os códigos disponíveis no [github](https://github.com/PacktPublishing/Hands-on-Exploratory-Data-Analysis-with-Python)*.

#### Objetivo: extrair e pre-processar dados do email pessoal do gmail, para responder perguntas sobre os dados obtidos

#### __Construção do dataset__

__Etapa 1: Seleção dos itens a serem baixados__

Inicialmente nós temos que construir o conjunto de dados com o qual iremos trabalhar. Os dados aqui são oriundos do email pessoal de cada um, então por motivos mais que óbvios, espera-se que a probabilidade de duas contas terem os mesmos emails seja nula...

Para baixar os dados de seu email, considere os passos a seguir:

1. entre na sua conta gmail;
2. vá para o link: [https://takeout.google.com/](https://takeout.google.com/). Esse link o leva para uma página onde você pode escolher fazer download de qualquer serviço do google vinculado a sua conta. Desmarque todos, e, depois, encontre somente a opção E-mail e marque, como ilustra a figura abaixo:

![](opcoes_google_1.png)

3. Na opção "Todos os dados de email inclusos", você tem a opção de escolher que informações você quer que conste no dataset: caixa de entrada, lixeira, enviados, rascunho, etc. Sugiro escolher somente uma de forma a ter um conjunto de dados de bom tamanho, mas não gigantesco e que ajude você no exercícios de análise.

4. Após, isso, clique em "Próxima etapa" (final da página).

__Etapa 2: Escolha do tipo de arquivo, frequência e destino__

Nessa etapa você vai selecionar onde quer salvar os dados selecionados para download na etapa anterior. Seguiremos os seguintes passos:

1. Seleção do método de envio: a depender da quantidade de email que você espera baixar, minha sugestão é escolher o google drive, para evitar problemas de espaço;

2. Na frequência, escolha "exportar uma vez", para evitar que constantemente seja feito esse download (a menos que você deseje...)

3. Por fim, selecione o tipo de arquivo (.zip ou .tgz) e o tamanho mínimo do arquivo (se ficar maior, o arquivo será partido em parcelas do tamanho especificado por você).

Pronto!

Agora é só esperar a exportação terminar! 

___ATENÇÃO!!___ __esse processo pode demorar bastante, a depender da quantidade de dados que terá de ser exportado. Contabilize isso quando for começar o projeto para não haver atrasos!__

#### __Pré-processando o conjunto de dados__

Vamos começar carregando as bibliotecas que nós comumente usamos.

In [1]:
import pandas as pd
import mailbox

A biblioteca `mailbox` permite acessar e manipular diferentes tipos de formatação de emails e outros dados oriundos de mensagens na internet e nos será útil para processarmos os dados do arquivo `mbox` que foi baixado. Para mais informações, veja a [documentação](https://docs.python.org/pt-br/3/library/mailbox.html).

Para carregar os dados, basta fazer

In [2]:
mbox = mailbox.mbox('emails.mbox') # emails.mbox é o nome que eu dei ao meu arquivo...
mbox

<mailbox.mbox at 0x7f67c5cfba00>

O arquivo com formato .mbox lembra um dicionário. Dessa forma, podemos verificar as chaves existentes nesse dicionário fazendo

In [3]:
for chaves in mbox[0]: print(chaves)

X-GM-THRID
X-Gmail-Labels
Delivered-To
Received
X-Google-Smtp-Source
X-Received
ARC-Seal
ARC-Message-Signature
ARC-Authentication-Results
Return-Path
Received
Received-SPF
Authentication-Results
X-MSFBL
DKIM-Signature
Date
From
Reply-To
To
Message-ID
Subject
MIME-Version
Content-Type
X-Binding
List-Unsubscribe
X-PVIQ
X-MarketoID
X-Mailfrom
X-MktArchive
X-MSYS-API
X-MktMailDKIM


Cada chave dessa está relacionada a uma variável armazenada no conjunto de dados. Embora haja muitos objetos retornados pelos dados extraídos, não precisamos de todos os itens. Vamos extrair apenas os campos obrigatórios. A limpeza de dados é uma das etapas essenciais na fase de análise de dados. Para nossa análise, tudo que precisamos são dados para o seguinte: _subject_, _from_, _date_, _to_, _label_, e _thread_. 

Para fazer essa limpeza, vamos criar um um arquivo csv com adaptações para que consigamos ler o arquivo em um dataframe e realizar nossos trabalhos.

In [4]:
import csv

with open('emails.csv', 'w') as outputfile:
  writer = csv.writer(outputfile)
  writer.writerow(['subject','from','date','to',
                   'label','thread'])
    
  for message in mbox:
    writer.writerow([message['subject'], message['from'],  
                     message['date'], message['to'],  
                     message['X-Gmail-Labels'], message['X-GM-THRID']])

E agora podemos abrir o arquivo csv em um dataframe Pandas, contendo somente os campos que nos interessam.

In [5]:
df = pd.read_csv('emails.csv')

In [6]:
df

Unnamed: 0,subject,from,date,to,label,thread
0,Last Chance - Getting Started with Coursera fo...,Coursera for Campus <campus-info@coursera.org>,"Tue, 20 Apr 2021 10:02:41 -0500 (CDT)",paulo.lins@ifpb.edu.br,"=?UTF-8?Q?Caixa_de_entrada,Aberto,Categoria:_p...",1697572158564630672
1,=?UTF-8?Q?O_seu_arquivo_de_dados_completo_do_L...,LinkedIn <messages-noreply@linkedin.com>,"Fri, 16 Apr 2021 20:58:23 +0000 (UTC)",=?UTF-8?Q?Paulo_Ribeiro_Lins_J=C3=BAnior?= <pa...,"=?UTF-8?Q?Caixa_de_entrada,Categoria:_redes_so...",1697232153747212327
2,Please verify your email address.,XMind Notifications <notifications@mail.xmind....,"Mon, 19 Apr 2021 12:13:00 +0000",paulo.lins@ifpb.edu.br,"=?UTF-8?Q?Caixa_de_entrada,Importante,A?=\r\n ...",1697470884753140228
3,Get organized with data projects,"""data.world team"" <help@data.world>","Mon, 19 Apr 2021 07:12:39 -0500",paulo.lins@ifpb.edu.br,"=?UTF-8?Q?Caixa_de_entrada,Categoria:_promo=C3...",1697470856932487918
4,[Ceia-l] Final CfP: Knowledge Discovery and Bu...,Marcos Domingues <maddomingues@gmail.com>,"Fri, 16 Apr 2021 17:31:41 -0300",ceia-l@sbc.org.br,"=?UTF-8?Q?Caixa_de_entrada,Aberto,Categoria:_f...",1697230483745778968
...,...,...,...,...,...,...
9650,[sbc-l] Eventos presenciais ou remotos em 2021?,"""Carlos Augusto Prolo por \(sbc-l\)"" <sbc-l@sb...","Tue, 22 Dec 2020 19:03:17 -0300",Lista da SBC <Sbc-l@sbc.org.br>,"=?UTF-8?Q?Caixa_de_entrada,Aberto,Categoria:_f...",1686817575081197128
9651,[sbc-l] =?utf-8?q?WEI_2021_=E2=80=93_29=C2=BA_...,"""Tayana Conte por \(sbc-l\)"" <sbc-l@sbc.org.br>","Wed, 17 Feb 2021 14:44:30 -0400",sbc-l <sbc-l@sbc.org.br>,"=?UTF-8?Q?Caixa_de_entrada,Categoria:_f=C3=B3r...",1691969128189943249
9652,Ending soon - 50% off premium!,"""Dataquest"" <hello@dataquest.io>","Thu, 07 Jan 2021 14:00:02 +0000",paulo.lins@ifpb.edu.br,"=?UTF-8?Q?Caixa_de_entrada,Categori?=\r\n =?UT...",1688236749882081327
9653,"[EDAS-CFP] CFP FOR IEMTRONICS 2021,Toronto, Ca...","""malay.ganguly@iemcal.com"" <malay.ganguly=iemc...","Wed, 27 Jan 2021 11:39:59 +0000",Paulo Ribeiro Lins =?UTF-8?B?SsO6bmlvcg==?= <p...,"=?UTF-8?Q?Caixa_de_entrada,Categoria:_promo=C3...",1690039851424374926


Vamos analisar nosso dataframe.

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9655 entries, 0 to 9654
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   subject  9606 non-null   object
 1   from     9655 non-null   object
 2   date     9655 non-null   object
 3   to       9581 non-null   object
 4   label    9655 non-null   object
 5   thread   9655 non-null   int64 
dtypes: int64(1), object(5)
memory usage: 452.7+ KB


Notemos que a variável `date` está assinalada como `object`, mas é uma data, e deveria ser do tipo `datetime`, que é como o Pandas aloca variáveis relacionadas a datas.

Para fazer essa conversão, vamos usar a função `to_datetime` do Pandas, da seguinte forma:

In [8]:
df['date'] = df['date'].apply(lambda x: pd.to_datetime(x, 
                                                       errors='coerce', 
                                                       utc=True))

E fazendo uma nova inspeção, vemos

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9655 entries, 0 to 9654
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype              
---  ------   --------------  -----              
 0   subject  9606 non-null   object             
 1   from     9655 non-null   object             
 2   date     9641 non-null   datetime64[ns, UTC]
 3   to       9581 non-null   object             
 4   label    9655 non-null   object             
 5   thread   9655 non-null   int64              
dtypes: datetime64[ns, UTC](1), int64(1), object(4)
memory usage: 452.7+ KB


Por último, precisamos fazer alguns refatoramentos. Por exemplo, ao inspecionar a variável `from`, obtemos 

In [10]:
df['from']

0          Coursera for Campus <campus-info@coursera.org>
1                LinkedIn <messages-noreply@linkedin.com>
2       XMind Notifications <notifications@mail.xmind....
3                     "data.world team" <help@data.world>
4               Marcos Domingues <maddomingues@gmail.com>
                              ...                        
9650    "Carlos Augusto Prolo por \(sbc-l\)" <sbc-l@sb...
9651      "Tayana Conte por \(sbc-l\)" <sbc-l@sbc.org.br>
9652                     "Dataquest" <hello@dataquest.io>
9653    "malay.ganguly@iemcal.com" <malay.ganguly=iemc...
9654              "reis por \(sbc-l\)" <sbc-l@sbc.org.br>
Name: from, Length: 9655, dtype: object

e percebemos que não são alocados somente os emails de origem, mas algumas informações que não são necessariamente úteis para nós.

O processo de "limpar" essa informação extra é chamada de refatoramento, e, para nosso caso, usaremos uma abordagem baseada em expressões regulares para essa tarefa, usando a biblioteca `re` do Python (se você não sabe o que é uma expressão regular, dá uma lida nesse [tutorial](https://realpython.com/regex-python/) e divirta-se!).

In [11]:
import re

Vamos criar uma função que pega um string em qualquer coluna e extrai somente a parte do email existente nela:

In [12]:
def extracao_email(string):
  email = re.findall(r'<(.+?)>', string) #aqui está a expressão regular
  if not email:
    email = list(filter(lambda y: '@' in y, string.split()))
  return email[0] if email else np.nan #se tiver email, ok; senão, retorna nan.

Sugiro, caso não conheça todas as partes envolvidas nessa função, tentar buscar entender. Dá um belo exercício.

Agora, basta aplicar a função a coluna `from`.

In [13]:
df['from'] = df['from'].apply(lambda x: extracao_email(x))

Inspecionando novamente, obtemos somente emails!

In [14]:
df['from']

0                 campus-info@coursera.org
1            messages-noreply@linkedin.com
2             notifications@mail.xmind.net
3                          help@data.world
4                   maddomingues@gmail.com
                       ...                
9650                      sbc-l@sbc.org.br
9651                      sbc-l@sbc.org.br
9652                    hello@dataquest.io
9653    malay.ganguly=iemcal.com@edas.info
9654                      sbc-l@sbc.org.br
Name: from, Length: 9655, dtype: object

Vamos agora olhar para a variável `label`, que, como está mostrando, indica basicamente a "posição" do email na caixa de entrada: se foi um email recebido, se está na pasta de enviados, etc.

Paara facilitar nossa vida vamos modificar os valores apresentados no `label` para que tenhamos dois tipos de emails: "enviados" e "inbox". A lógica é bem simples: se o valor na variável `from` for o seu email pessoal, então é um email enviado, caso contrário, é inbox.

In [16]:
df['label'] = df['from'].apply(lambda x: 
                               'enviado' if x=='paulo.lins@ifpb.edu.br' else 'inbox')

In [18]:
df['label'].unique()

array(['inbox', 'enviado'], dtype=object)

Nossa última tarefa é tentar resolver os eventuais problemas relacionados a fuso horário. Para isso, precisamos ajustar os horários para uma _timezone_ relacionada a nossa localização, usando duas bibliotecas Python: `datetime` e `pytz`. Essa parte do processamento é baseada, também, em parte, nesse [tutorial](https://www.alura.com.br/artigos/lidando-com-datas-e-horarios-no-python) e na [documentação do pytz](https://pypi.org/project/pytz/).

In [19]:
import datetime
import pytz

Precisamos, primeiramente, saber qual é a nossa _timezone_. Para isso, vamos fazer

In [20]:
for tz in pytz.all_timezones: print(tz)

Africa/Abidjan
Africa/Accra
Africa/Addis_Ababa
Africa/Algiers
Africa/Asmara
Africa/Asmera
Africa/Bamako
Africa/Bangui
Africa/Banjul
Africa/Bissau
Africa/Blantyre
Africa/Brazzaville
Africa/Bujumbura
Africa/Cairo
Africa/Casablanca
Africa/Ceuta
Africa/Conakry
Africa/Dakar
Africa/Dar_es_Salaam
Africa/Djibouti
Africa/Douala
Africa/El_Aaiun
Africa/Freetown
Africa/Gaborone
Africa/Harare
Africa/Johannesburg
Africa/Juba
Africa/Kampala
Africa/Khartoum
Africa/Kigali
Africa/Kinshasa
Africa/Lagos
Africa/Libreville
Africa/Lome
Africa/Luanda
Africa/Lubumbashi
Africa/Lusaka
Africa/Malabo
Africa/Maputo
Africa/Maseru
Africa/Mbabane
Africa/Mogadishu
Africa/Monrovia
Africa/Nairobi
Africa/Ndjamena
Africa/Niamey
Africa/Nouakchott
Africa/Ouagadougou
Africa/Porto-Novo
Africa/Sao_Tome
Africa/Timbuktu
Africa/Tripoli
Africa/Tunis
Africa/Windhoek
America/Adak
America/Anchorage
America/Anguilla
America/Antigua
America/Araguaina
America/Argentina/Buenos_Aires
America/Argentina/Catamarca
America/Argentina/ComodRivad

Observamos que o mais próximo da gente seria a opção `America/Recife`, por motivos óbvios.

Precisamos agora converter os horários para essa _timezone_, e, para isso, usaremos uma função

In [21]:
def ref_timezone(x): return x.astimezone(pytz.timezone('America/Recife'))

E vamos usar essa função para ajustar as datas, na coluna `date`

In [22]:
df['date'] = df['date'].apply(lambda x: ref_timezone(x))

ValueError: NaTType does not support astimezone

Aqui temos um probleminha. Quando fizemos a conversão do tipo `object` para `datetime`, lá atrás, o próprio Pandas substitui as datas que possuem algum tipo de erro pelo tipo `NaT`, algo como um `nan` só que para datas. Nesses pontos em que a data é tipo `NaT`, não se consegue fazer a alteração do _timezone_. 

Nossa saída então é filtrar essa ocorrências e apagá-las.

Para nossa sorte, o Pandas nos dá uma colher de chá que já conhecemos: o `dropna`! 

In [23]:
df.dropna(inplace=True)

Para confirmar se houve a limpeza, vamos fazer uma inspeção em `date`.

In [24]:
df['date'].unique()

<DatetimeArray>
['2021-04-20 15:02:41+00:00', '2021-04-16 20:58:23+00:00',
 '2021-04-19 12:13:00+00:00', '2021-04-19 12:12:39+00:00',
 '2021-04-16 20:31:41+00:00', '2021-04-19 17:13:21+00:00',
 '2021-04-17 07:45:41+00:00', '2021-04-12 14:15:23+00:00',
 '2021-04-14 10:26:55+00:00', '2021-04-19 11:00:00+00:00',
 ...
 '2021-02-06 15:40:17+00:00', '2021-02-12 18:05:16+00:00',
 '2020-12-05 18:53:41+00:00', '2021-02-13 12:58:39+00:00',
 '2020-12-23 00:06:48+00:00', '2020-12-22 22:03:17+00:00',
 '2021-02-17 18:44:30+00:00', '2021-01-07 14:00:02+00:00',
 '2021-01-27 11:39:59+00:00', '2020-12-08 13:03:30+00:00']
Length: 9446, dtype: datetime64[ns, UTC]

E nada de `NaT`. Assim,  

In [26]:
df['date'] = df['date'].apply(lambda x: ref_timezone(x))

In [27]:
df['date']

0      2021-04-20 12:02:41-03:00
1      2021-04-16 17:58:23-03:00
2      2021-04-19 09:13:00-03:00
3      2021-04-19 09:12:39-03:00
4      2021-04-16 17:31:41-03:00
                  ...           
9650   2020-12-22 19:03:17-03:00
9651   2021-02-17 15:44:30-03:00
9652   2021-01-07 11:00:02-03:00
9653   2021-01-27 08:39:59-03:00
9654   2020-12-08 10:03:30-03:00
Name: date, Length: 9518, dtype: datetime64[ns, America/Recife]

e não temos mais nenhum erro!

Para facilitar ainda mais nossa vida, nós podemos fracionar essa informação disponível em `date`. Vamos fazer isso criando algumas novas variáveis.

A primeira variável será `daysofweek`, na qual colocaremos o dia da semana (segunda, terça, etc.). Para isso, usaremos o método `day_name` do próprio Pandas

In [28]:
df['dayofweek'] = df['date'].apply(lambda x: x.day_name())

In [29]:
df['dayofweek']

0         Tuesday
1          Friday
2          Monday
3          Monday
4          Friday
          ...    
9650      Tuesday
9651    Wednesday
9652     Thursday
9653    Wednesday
9654      Tuesday
Name: dayofweek, Length: 9518, dtype: object

e depois vamos transformar a variável `dayofweek` em categórica, para facilitar futuras análises.

In [30]:
df['dayofweek'] = pd.Categorical(df['dayofweek'], categories=[
    'Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday',
    'Saturday', 'Sunday'], ordered=True)

In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9518 entries, 0 to 9654
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype                         
---  ------     --------------  -----                         
 0   subject    9518 non-null   object                        
 1   from       9518 non-null   object                        
 2   date       9518 non-null   datetime64[ns, America/Recife]
 3   to         9518 non-null   object                        
 4   label      9518 non-null   object                        
 5   thread     9518 non-null   int64                         
 6   dayofweek  9518 non-null   category                      
dtypes: category(1), datetime64[ns, America/Recife](1), int64(1), object(4)
memory usage: 530.2+ KB


Em seguida, criaremos `timeofday`, que apresentará a hora do dia, usando, para isso

In [32]:
df['timeofday'] = df['date'].apply(lambda x: x.hour + x.minute/60 + x.second/3600)

a variável `year`, que trará o ano do email

In [33]:
df['year'] = df['date'].apply(lambda x: x.year)

e a variável `month`, que trará o mês do email

In [34]:
df['month'] = df['date'].apply(lambda x: x.month_name())

e que também transformaremos em categórica

In [35]:
df['month'] = pd.Categorical(df['month'], categories=[
    'January', 'February', 'March', 'April', 'May', 'June', 'July', "August", 
    'September', 'October', 'November', 'December'], ordered=True)

E como separamos todas as informações referentes a data em partes que possam facilitar a análise, não faz mais sentido manter a coluna `date`. Assim,

In [36]:
df.drop('date', axis=1, inplace=True)

In [37]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9518 entries, 0 to 9654
Data columns (total 9 columns):
 #   Column     Non-Null Count  Dtype   
---  ------     --------------  -----   
 0   subject    9518 non-null   object  
 1   from       9518 non-null   object  
 2   to         9518 non-null   object  
 3   label      9518 non-null   object  
 4   thread     9518 non-null   int64   
 5   dayofweek  9518 non-null   category
 6   timeofday  9518 non-null   float64 
 7   year       9518 non-null   int64   
 8   month      8850 non-null   category
dtypes: category(2), float64(1), int64(2), object(4)
memory usage: 614.2+ KB


Por fim, minha sugestão é gravar esse dataframe pré-processado em um arquivo .csv novo. Por que fazer isso? Porque se for necessário fechar o notebook por algum motivo, não será necessário fazer novamente todo o processo que fizemos até aqui.

Para fazer isso, usaremos

In [38]:
df.to_csv('emails_processado.csv')