# Projeto 2: Análise Exploratória do Email Pessoal

*Baseado no código do capítulo 3 do livro "Hands on Exploratory Data Analysis with Python", com os códigos disponíveis no [github](https://github.com/PacktPublishing/Hands-on-Exploratory-Data-Analysis-with-Python)*.

#### Objetivo: extrair e pre-processar dados do email pessoal do gmail, para responder perguntas sobre os dados obtidos

#### __Construção do dataset__

__Etapa 1: Seleção dos itens a serem baixados__

Inicialmente nós temos que construir o conjunto de dados com o qual iremos trabalhar. Os dados aqui são oriundos do email pessoal de cada um, então por motivos mais que óbvios, espera-se que a probabilidade de duas contas terem os mesmos emails seja nula...

Para baixar os dados de seu email, considere os passos a seguir:

1. entre na sua conta gmail;
2. vá para o link: [https://takeout.google.com/](https://takeout.google.com/). Esse link o leva para uma página onde você pode escolher fazer download de qualquer serviço do google vinculado a sua conta. Desmarque todos, e, depois, encontre somente a opção E-mail e marque, como ilustra a figura abaixo:

![](opcoes_google_1.png)

3. Na opção "Todos os dados de email inclusos", você tem a opção de escolher que informações você quer que conste no dataset: caixa de entrada, lixeira, enviados, rascunho, etc. Sugiro escolher somente uma de forma a ter um conjunto de dados de bom tamanho, mas não gigantesco e que ajude você no exercícios de análise.

4. Após, isso, clique em "Próxima etapa" (final da página).

__Etapa 2: Escolha do tipo de arquivo, frequência e destino__

Nessa etapa você vai selecionar onde quer salvar os dados selecionados para download na etapa anterior. Seguiremos os seguintes passos:

1. Seleção do método de envio: a depender da quantidade de email que você espera baixar, minha sugestão é escolher o google drive, para evitar problemas de espaço;

2. Na frequência, escolha "exportar uma vez", para evitar que constantemente seja feito esse download (a menos que você deseje...)

3. Por fim, selecione o tipo de arquivo (.zip ou .tgz) e o tamanho mínimo do arquivo (se ficar maior, o arquivo será partido em parcelas do tamanho especificado por você).

Pronto!

Agora é só esperar a exportação terminar! 

___ATENÇÃO!!___ __esse processo pode demorar bastante, a depender da quantidade de dados que terá de ser exportado. Contabilize isso quando for começar o projeto para não haver atrasos!__

#### __Pré-processando o conjunto de dados__

Vamos começar carregando as bibliotecas que nós comumente usamos.

In [1]:
import pandas as pd
import mailbox

A biblioteca `mailbox` permite acessar e manipular diferentes tipos de formatação de emails e outros dados oriundos de mensagens na internet e nos será útil para processarmos os dados do arquivo `mbox` que foi baixado. Para mais informações, veja a [documentação](https://docs.python.org/pt-br/3/library/mailbox.html).

Para carregar os dados, basta fazer

In [2]:
mbox = mailbox.mbox('Categoria_ promoções.mbox') # emails.mbox é o nome que eu dei ao meu arquivo...
mbox

<mailbox.mbox at 0x7fe482d0edf0>

O arquivo com formato .mbox lembra um dicionário. Dessa forma, podemos verificar as chaves existentes nesse dicionário fazendo

In [3]:
for chaves in mbox[0]: print(chaves)

X-GM-THRID
X-Gmail-Labels
Delivered-To
Received
X-Google-Smtp-Source
X-Received
ARC-Seal
ARC-Message-Signature
ARC-Authentication-Results
Return-Path
Received
Received-SPF
Authentication-Results
DKIM-Signature
Mime-Version
Date
List-Unsubscribe
Message-ID
X-Campaign-ID
X-Email-Type
X-Email-ID
To
Reply-To
Feedback-ID
X-Mail-IP
From
Subject
Sender
Content-Type
Content-Transfer-Encoding


Cada chave dessa está relacionada a uma variável armazenada no conjunto de dados. Embora haja muitos objetos retornados pelos dados extraídos, não precisamos de todos os itens. Vamos extrair apenas os campos obrigatórios. A limpeza de dados é uma das etapas essenciais na fase de análise de dados. Para nossa análise, tudo que precisamos são dados para o seguinte: _subject_, _from_, _date_, _to_, _label_, e _thread_. 

Para fazer essa limpeza, vamos criar um um arquivo csv com adaptações para que consigamos ler o arquivo em um dataframe e realizar nossos trabalhos.

In [4]:
import csv

with open('emailss.csv', 'w') as outputfile:
  writer = csv.writer(outputfile)
  writer.writerow(['subject','from','date','to',
                   'label','thread'])
    
  for message in mbox:
    writer.writerow([message['subject'], message['from'],  
                     message['date'], message['to'],  
                     message['X-Gmail-Labels'], message['X-GM-THRID']])

E agora podemos abrir o arquivo csv em um dataframe Pandas, contendo somente os campos que nos interessam.

In [5]:
df = pd.read_csv('emailss.csv')

In [6]:
df

Unnamed: 0,subject,from,date,to,label,thread
0,=?UTF-8?q?Voc=C3=AA_tem_que_ter_estes_itens_em...,Wish <offers@wish.com>,"Fri, 26 Feb 2021 06:57:48 -0800","""=?utf-8?q?Vin=C3=ADcius_Medeiros?="" <viniapnm...","=?UTF-8?Q?Lixeira,Categoria:_promo=C3=A7=C3=B5...",1692770206194795587
1,=?UTF-8?Q?=E3=80=90E-Pal=E3=80=91?=,"""official@epal.gg"" <official@epal.gg>","Sat, 06 Mar 2021 14:56:44 -0800 (PST)",viniapnm@gmail.com,"=?UTF-8?Q?Lixeira,Categoria:_promo=C3=A7=C3=B5...",1693525113471893522
2,DSCO is now available!,"""VSCO"" <vsco@official.vsco.co>","Mon, 01 Mar 2021 00:23:21 +0000 (UTC)",viniapnm@gmail.com,"=?UTF-8?Q?Lixeira,Categoria:_promo=C3=A7=C3=B5...",1692992869753561945
3,=?UTF-8?q?=E2=9A=A1=F0=9F=94=8C_Todo_o_materia...,Wish <offers@wish.com>,"Sat, 24 Apr 2021 07:28:52 -0700","""=?utf-8?q?Vin=C3=ADcius_Medeiros?="" <viniapnm...","=?UTF-8?Q?Spam,Categoria:_promo=C3=A7=C3=B5es,...",1697932412812193275
4,=?UTF-8?q?=F0=9F=8E=89_Confira_o_que_acabou_de...,Wish <offers@wish.com>,"Thu, 04 Feb 2021 05:19:29 -0800","""=?utf-8?q?Vin=C3=ADcius_Medeiros?="" <viniapnm...","=?UTF-8?Q?Lixeira,Categoria:_promo=C3=A7=C3=B5...",1690770887097317107
...,...,...,...,...,...,...
1154,=?UTF-8?q?Fique_confort=C3=A1vel_em_um_dos_nos...,Wish <offers@wish.com>,"Mon, 16 Dec 2019 05:19:47 -0800","""=?utf-8?q?Vin=C3=ADcius_Medeiros?="" <viniapnm...","=?UTF-8?Q?Caixa_de_entrada,Categoria:_promo=C3...",1653082570994743628
1155,=?UTF-8?q?Voc=C3=AA_j=C3=A1_viu_a_nova_m=C3=A1...,Wish <offers@wish.com>,"Fri, 06 Nov 2020 13:56:40 -0800","""=?utf-8?q?Vin=C3=ADcius_Medeiros?="" <viniapnm...","=?UTF-8?Q?Caixa_de_entrada,Categoria:_promo=C3...",1682649698556022420
1156,=?UTF-8?q?=F0=9F=92=A1=F0=9F=95=AF;=EF=B8=8F_A...,Wish <offers@wish.com>,"Tue, 27 Oct 2020 07:43:35 -0700","""=?utf-8?q?Vin=C3=ADcius_Medeiros?="" <viniapnm...","=?UTF-8?Q?Caixa_de_entrada,Categoria:_promo=C3...",1681716481326820081
1157,"=?UTF-8?q?60%,_70%_ou_80%_de_desconto_em_bolsa...",Wish <offers@wish.com>,"Tue, 13 Aug 2019 07:42:16 -0700","""=?utf-8?q?Vin=C3=ADcius_Medeiros?="" <viniapnm...","=?UTF-8?Q?Caixa_de_entrada,Categoria:_promo=C3...",1641763136745729943


Vamos analisar nosso dataframe.

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1159 entries, 0 to 1158
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   subject  1159 non-null   object
 1   from     1159 non-null   object
 2   date     1159 non-null   object
 3   to       1159 non-null   object
 4   label    1159 non-null   object
 5   thread   1159 non-null   int64 
dtypes: int64(1), object(5)
memory usage: 54.5+ KB


Notemos que a variável `date` está assinalada como `object`, mas é uma data, e deveria ser do tipo `datetime`, que é como o Pandas aloca variáveis relacionadas a datas.

Para fazer essa conversão, vamos usar a função `to_datetime` do Pandas, da seguinte forma:

In [8]:
df['date'] = df['date'].apply(lambda x: pd.to_datetime(x, 
                                                       errors='coerce', 
                                                       utc=True))

E fazendo uma nova inspeção, vemos

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1159 entries, 0 to 1158
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype              
---  ------   --------------  -----              
 0   subject  1159 non-null   object             
 1   from     1159 non-null   object             
 2   date     1159 non-null   datetime64[ns, UTC]
 3   to       1159 non-null   object             
 4   label    1159 non-null   object             
 5   thread   1159 non-null   int64              
dtypes: datetime64[ns, UTC](1), int64(1), object(4)
memory usage: 54.5+ KB


Por último, precisamos fazer alguns refatoramentos. Por exemplo, ao inspecionar a variável `from`, obtemos 

In [10]:
df['from']

0                      Wish <offers@wish.com>
1       "official@epal.gg" <official@epal.gg>
2              "VSCO" <vsco@official.vsco.co>
3                      Wish <offers@wish.com>
4                      Wish <offers@wish.com>
                        ...                  
1154                   Wish <offers@wish.com>
1155                   Wish <offers@wish.com>
1156                   Wish <offers@wish.com>
1157                   Wish <offers@wish.com>
1158                   Wish <offers@wish.com>
Name: from, Length: 1159, dtype: object

e percebemos que não são alocados somente os emails de origem, mas algumas informações que não são necessariamente úteis para nós.

O processo de "limpar" essa informação extra é chamada de refatoramento, e, para nosso caso, usaremos uma abordagem baseada em expressões regulares para essa tarefa, usando a biblioteca `re` do Python (se você não sabe o que é uma expressão regular, dá uma lida nesse [tutorial](https://realpython.com/regex-python/) e divirta-se!).

In [11]:
import re

Vamos criar uma função que pega um string em qualquer coluna e extrai somente a parte do email existente nela:

In [12]:
def extracao_email(string):
  email = re.findall(r'<(.+?)>', string) #aqui está a expressão regular
  if not email:
    email = list(filter(lambda y: '@' in y, string.split()))
  return email[0] if email else np.nan #se tiver email, ok; senão, retorna nan.

Sugiro, caso não conheça todas as partes envolvidas nessa função, tentar buscar entender. Dá um belo exercício.

Agora, basta aplicar a função a coluna `from`.

In [13]:
df['from'] = df['from'].apply(lambda x: extracao_email(x))

Inspecionando novamente, obtemos somente emails!

In [14]:
df['from']

0             offers@wish.com
1            official@epal.gg
2       vsco@official.vsco.co
3             offers@wish.com
4             offers@wish.com
                ...          
1154          offers@wish.com
1155          offers@wish.com
1156          offers@wish.com
1157          offers@wish.com
1158          offers@wish.com
Name: from, Length: 1159, dtype: object

Vamos agora olhar para a variável `label`, que, como está mostrando, indica basicamente a "posição" do email na caixa de entrada: se foi um email recebido, se está na pasta de enviados, etc.

Paara facilitar nossa vida vamos modificar os valores apresentados no `label` para que tenhamos dois tipos de emails: "enviados" e "inbox". A lógica é bem simples: se o valor na variável `from` for o seu email pessoal, então é um email enviado, caso contrário, é inbox.

In [15]:
df['label'] = df['from'].apply(lambda x: 
                               'enviado' if x=='viniapnm@gmail.com' else 'inbox')

In [16]:
df['label'].unique()

array(['inbox'], dtype=object)

Nossa última tarefa é tentar resolver os eventuais problemas relacionados a fuso horário. Para isso, precisamos ajustar os horários para uma _timezone_ relacionada a nossa localização, usando duas bibliotecas Python: `datetime` e `pytz`. Essa parte do processamento é baseada, também, em parte, nesse [tutorial](https://www.alura.com.br/artigos/lidando-com-datas-e-horarios-no-python) e na [documentação do pytz](https://pypi.org/project/pytz/).

In [17]:
import datetime
import pytz

Precisamos, primeiramente, saber qual é a nossa _timezone_. Para isso, vamos fazer

In [18]:
for tz in pytz.all_timezones: print(tz)

Africa/Abidjan
Africa/Accra
Africa/Addis_Ababa
Africa/Algiers
Africa/Asmara
Africa/Asmera
Africa/Bamako
Africa/Bangui
Africa/Banjul
Africa/Bissau
Africa/Blantyre
Africa/Brazzaville
Africa/Bujumbura
Africa/Cairo
Africa/Casablanca
Africa/Ceuta
Africa/Conakry
Africa/Dakar
Africa/Dar_es_Salaam
Africa/Djibouti
Africa/Douala
Africa/El_Aaiun
Africa/Freetown
Africa/Gaborone
Africa/Harare
Africa/Johannesburg
Africa/Juba
Africa/Kampala
Africa/Khartoum
Africa/Kigali
Africa/Kinshasa
Africa/Lagos
Africa/Libreville
Africa/Lome
Africa/Luanda
Africa/Lubumbashi
Africa/Lusaka
Africa/Malabo
Africa/Maputo
Africa/Maseru
Africa/Mbabane
Africa/Mogadishu
Africa/Monrovia
Africa/Nairobi
Africa/Ndjamena
Africa/Niamey
Africa/Nouakchott
Africa/Ouagadougou
Africa/Porto-Novo
Africa/Sao_Tome
Africa/Timbuktu
Africa/Tripoli
Africa/Tunis
Africa/Windhoek
America/Adak
America/Anchorage
America/Anguilla
America/Antigua
America/Araguaina
America/Argentina/Buenos_Aires
America/Argentina/Catamarca
America/Argentina/ComodRivad

Observamos que o mais próximo da gente seria a opção `America/Recife`, por motivos óbvios.

Precisamos agora converter os horários para essa _timezone_, e, para isso, usaremos uma função

In [19]:
def ref_timezone(x): return x.astimezone(pytz.timezone('America/Recife'))

E vamos usar essa função para ajustar as datas, na coluna `date`

In [20]:
df['date'] = df['date'].apply(lambda x: ref_timezone(x))

Aqui temos um probleminha. Quando fizemos a conversão do tipo `object` para `datetime`, lá atrás, o próprio Pandas substitui as datas que possuem algum tipo de erro pelo tipo `NaT`, algo como um `nan` só que para datas. Nesses pontos em que a data é tipo `NaT`, não se consegue fazer a alteração do _timezone_. 

Nossa saída então é filtrar essa ocorrências e apagá-las.

Para nossa sorte, o Pandas nos dá uma colher de chá que já conhecemos: o `dropna`! 

In [21]:
df.dropna(inplace=True)

Para confirmar se houve a limpeza, vamos fazer uma inspeção em `date`.

In [22]:
df['date'].unique()

<DatetimeArray>
['2021-02-26 11:57:48-03:00', '2021-03-06 19:56:44-03:00',
 '2021-02-28 21:23:21-03:00', '2021-04-24 11:28:52-03:00',
 '2021-02-04 10:19:29-03:00', '2021-02-05 10:35:38-03:00',
 '2021-04-15 12:18:57-03:00', '2020-09-04 12:01:09-03:00',
 '2021-01-09 10:42:37-03:00', '2020-11-11 10:14:28-03:00',
 ...
 '2019-03-16 18:50:29-03:00', '2019-05-21 19:39:14-03:00',
 '2021-03-24 12:20:10-03:00', '2019-07-19 12:00:03-03:00',
 '2019-08-19 19:40:44-03:00', '2019-12-16 10:19:47-03:00',
 '2020-11-06 18:56:40-03:00', '2020-10-27 11:43:35-03:00',
 '2019-08-13 11:42:16-03:00', '2020-07-11 12:06:03-03:00']
Length: 1157, dtype: datetime64[ns, America/Recife]

E nada de `NaT`. Assim,  

In [23]:
df['date'] = df['date'].apply(lambda x: ref_timezone(x))

In [24]:
df['date']

0      2021-02-26 11:57:48-03:00
1      2021-03-06 19:56:44-03:00
2      2021-02-28 21:23:21-03:00
3      2021-04-24 11:28:52-03:00
4      2021-02-04 10:19:29-03:00
                  ...           
1154   2019-12-16 10:19:47-03:00
1155   2020-11-06 18:56:40-03:00
1156   2020-10-27 11:43:35-03:00
1157   2019-08-13 11:42:16-03:00
1158   2020-07-11 12:06:03-03:00
Name: date, Length: 1159, dtype: datetime64[ns, America/Recife]

e não temos mais nenhum erro!

Para facilitar ainda mais nossa vida, nós podemos fracionar essa informação disponível em `date`. Vamos fazer isso criando algumas novas variáveis.

A primeira variável será `daysofweek`, na qual colocaremos o dia da semana (segunda, terça, etc.). Para isso, usaremos o método `day_name` do próprio Pandas

In [25]:
df['dayofweek'] = df['date'].apply(lambda x: x.day_name())

In [26]:
df['dayofweek']

0         Friday
1       Saturday
2         Sunday
3       Saturday
4       Thursday
          ...   
1154      Monday
1155      Friday
1156     Tuesday
1157     Tuesday
1158    Saturday
Name: dayofweek, Length: 1159, dtype: object

e depois vamos transformar a variável `dayofweek` em categórica, para facilitar futuras análises.

In [27]:
df['dayofweek'] = pd.Categorical(df['dayofweek'], categories=[
    'Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday',
    'Saturday', 'Sunday'], ordered=True)

In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1159 entries, 0 to 1158
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype                         
---  ------     --------------  -----                         
 0   subject    1159 non-null   object                        
 1   from       1159 non-null   object                        
 2   date       1159 non-null   datetime64[ns, America/Recife]
 3   to         1159 non-null   object                        
 4   label      1159 non-null   object                        
 5   thread     1159 non-null   int64                         
 6   dayofweek  1159 non-null   category                      
dtypes: category(1), datetime64[ns, America/Recife](1), int64(1), object(4)
memory usage: 64.9+ KB


Em seguida, criaremos `timeofday`, que apresentará a hora do dia, usando, para isso

In [29]:
df['timeofday'] = df['date'].apply(lambda x: x.hour + x.minute/60 + x.second/3600)

a variável `year`, que trará o ano do email

In [30]:
df['year'] = df['date'].apply(lambda x: x.year)

e a variável `month`, que trará o mês do email

In [31]:
df['month'] = df['date'].apply(lambda x: x.month_name())

e que também transformaremos em categórica

In [32]:
df['month'] = pd.Categorical(df['month'], categories=[
    'January', 'February', 'March', 'April', 'May', 'June', 'July', "August", 
    'September', 'October', 'November', 'December'], ordered=True)

E como separamos todas as informações referentes a data em partes que possam facilitar a análise, não faz mais sentido manter a coluna `date`. Assim,

Por fim, minha sugestão é gravar esse dataframe pré-processado em um arquivo .csv novo. Por que fazer isso? Porque se for necessário fechar o notebook por algum motivo, não será necessário fazer novamente todo o processo que fizemos até aqui.

Para fazer isso, usaremos

In [33]:
df.to_csv('emails_processadoss.csv')

In [34]:
df

Unnamed: 0,subject,from,date,to,label,thread,dayofweek,timeofday,year,month
0,=?UTF-8?q?Voc=C3=AA_tem_que_ter_estes_itens_em...,offers@wish.com,2021-02-26 11:57:48-03:00,"""=?utf-8?q?Vin=C3=ADcius_Medeiros?="" <viniapnm...",inbox,1692770206194795587,Friday,11.963333,2021,February
1,=?UTF-8?Q?=E3=80=90E-Pal=E3=80=91?=,official@epal.gg,2021-03-06 19:56:44-03:00,viniapnm@gmail.com,inbox,1693525113471893522,Saturday,19.945556,2021,March
2,DSCO is now available!,vsco@official.vsco.co,2021-02-28 21:23:21-03:00,viniapnm@gmail.com,inbox,1692992869753561945,Sunday,21.389167,2021,February
3,=?UTF-8?q?=E2=9A=A1=F0=9F=94=8C_Todo_o_materia...,offers@wish.com,2021-04-24 11:28:52-03:00,"""=?utf-8?q?Vin=C3=ADcius_Medeiros?="" <viniapnm...",inbox,1697932412812193275,Saturday,11.481111,2021,April
4,=?UTF-8?q?=F0=9F=8E=89_Confira_o_que_acabou_de...,offers@wish.com,2021-02-04 10:19:29-03:00,"""=?utf-8?q?Vin=C3=ADcius_Medeiros?="" <viniapnm...",inbox,1690770887097317107,Thursday,10.324722,2021,February
...,...,...,...,...,...,...,...,...,...,...
1154,=?UTF-8?q?Fique_confort=C3=A1vel_em_um_dos_nos...,offers@wish.com,2019-12-16 10:19:47-03:00,"""=?utf-8?q?Vin=C3=ADcius_Medeiros?="" <viniapnm...",inbox,1653082570994743628,Monday,10.329722,2019,December
1155,=?UTF-8?q?Voc=C3=AA_j=C3=A1_viu_a_nova_m=C3=A1...,offers@wish.com,2020-11-06 18:56:40-03:00,"""=?utf-8?q?Vin=C3=ADcius_Medeiros?="" <viniapnm...",inbox,1682649698556022420,Friday,18.944444,2020,November
1156,=?UTF-8?q?=F0=9F=92=A1=F0=9F=95=AF;=EF=B8=8F_A...,offers@wish.com,2020-10-27 11:43:35-03:00,"""=?utf-8?q?Vin=C3=ADcius_Medeiros?="" <viniapnm...",inbox,1681716481326820081,Tuesday,11.726389,2020,October
1157,"=?UTF-8?q?60%,_70%_ou_80%_de_desconto_em_bolsa...",offers@wish.com,2019-08-13 11:42:16-03:00,"""=?utf-8?q?Vin=C3=ADcius_Medeiros?="" <viniapnm...",inbox,1641763136745729943,Tuesday,11.704444,2019,August
