# Projeto de Regressão Logística


Neste projeto estaremos trabalhando com um conjunto de dados falso de publicidade, indicando se um usuário de internet específico clicou ou não em uma propaganda. Vamos tentar criar um modelo que preveja se clicará ou não em um anúncio baseado nos recursos desse usuário.

Este conjunto de dados contém os seguintes recursos:

* **tempo_diario_site**: tempo diário no site em minutos.
* **idade**: idade do consumidor.
* **renda_media_regiao**: Média da renda do consumidor na região.
* **tempo_medio_internet**: Média em minutos por dia que o consumidor está na internet.
* **titulo**: Título do anúncio.
* **cidade**: Cidade do consumidor.
* **sexo**: Se o consumidor era ou não masculino.
* **pais**: País do consumidor.
* **timestamp_clique'**: hora em que o consumidor clicou no anúncio ou janela fechada.
* **clique**: 0 ou 1 indicam se clicou ou não no anúncio.

## Etapas do projeto
- Coleta de dados
- Análise de dados
- Criação de modelos
- Validação de modelos
- Apresentação dos resultados

In [8]:
## Importar bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
%config InlineBackend.figure_format = 'svg'

## 1. Coleta de dados

In [9]:
anuncios = pd.read_csv('advertising.csv')

** Verifique o cabeçalho do ad_data **

In [10]:
anuncios.head()

Unnamed: 0,tempo_diario_site,idade,renda_media_regiao,tempo_medio_internet,titulo,cidade,sexo,pais,timestamp_clique,clique
0,68.95,35,61833.9,256.09,Cloned 5thgeneration orchestration,Wrightburgh,0,Tunisia,2016-03-27 00:53:11,0
1,80.23,31,68441.85,193.77,Monitored national standardization,West Jodi,1,Nauru,2016-04-04 01:39:02,0
2,69.47,26,59785.94,236.5,Organic bottom-line service-desk,Davidton,0,San Marino,2016-03-13 20:35:42,0
3,74.15,29,54806.18,245.89,Triple-buffered reciprocal time-frame,West Terrifurt,1,Italy,2016-01-10 02:31:19,0
4,68.37,35,73889.99,225.58,Robust logistical utilization,South Manuel,0,Iceland,2016-06-03 03:36:18,0


** Use info() e describe() em ad_data **

In [11]:
anuncios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   tempo_diario_site     1000 non-null   float64
 1   idade                 1000 non-null   int64  
 2   renda_media_regiao    1000 non-null   float64
 3   tempo_medio_internet  1000 non-null   float64
 4   titulo                1000 non-null   object 
 5   cidade                1000 non-null   object 
 6   sexo                  1000 non-null   int64  
 7   pais                  1000 non-null   object 
 8   timestamp_clique      1000 non-null   object 
 9   clique                1000 non-null   int64  
dtypes: float64(3), int64(3), object(4)
memory usage: 78.2+ KB


In [12]:
anuncios.describe()

Unnamed: 0,tempo_diario_site,idade,renda_media_regiao,tempo_medio_internet,sexo,clique
count,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0
mean,65.0002,36.009,55000.00008,180.0001,0.481,0.5
std,15.853615,8.785562,13414.634022,43.902339,0.499889,0.50025
min,32.6,19.0,13996.5,104.78,0.0,0.0
25%,51.36,29.0,47031.8025,138.83,0.0,0.0
50%,68.215,35.0,57012.3,183.13,0.0,0.5
75%,78.5475,42.0,65470.635,218.7925,1.0,1.0
max,91.43,61.0,79484.8,269.96,1.0,1.0


## 2. Análise de dados exploratória

- Vamos usar o Pandas profiling para gerar um relatórios dos dados
- Vamos usar o Seaborn para explorar os insights!


In [13]:
from pandas_profiling import ProfileReport

AttributeError: module 'numpy' has no attribute 'asscalar'

In [14]:
relatorio = ProfileReport(anuncios, title='Relatório dos Anúncios')
relatorio.to_file('relatorio_dos_anuncios_v1.html')

NameError: name 'ProfileReport' is not defined

In [None]:
relatorio

### Questionamentos 

- Existem dados ausentes? 
    - Não!
- Precisamos representar variáveis de outra forma? 
    - Sim a variável timestamp 
- Existem dados duplicados?
    - Não 
- Existem features compostas?
    - Sim a variável timestamp 
- Podemos integrar mais dados para análise?
    - Não! 
- Quais perguntas eu posso responder com estes dados?
- Como estão os dados? As feature alvo é balanceada?

### Informações
- São 10 variáveis (4 numericas e 6 categoricas: 3 float64, 3 int64 e 4 object)

### Insights

** transformação de feature composta timestamp_clique **

In [None]:
anuncios['timestamp_clique']

In [None]:
anuncios['timestamp_clique'].dtype

In [None]:
anuncios['timestamp_clique'] = pd.to_datetime(anuncios['timestamp_clique'])

In [None]:
anuncios['ano'] = anuncios['timestamp_clique'].dt.year
anuncios['mes'] = anuncios['timestamp_clique'].dt.month
anuncios['day'] = anuncios['timestamp_clique'].dt.day

In [None]:
anuncios

In [None]:
anuncios

###### ** Qual a idade padrão dos consumidores? 

In [None]:
sns.set_style('whitegrid')
anuncios['idade'].hist(bins=15)
plt.xlabel('idade')

- Uma grande parte dos consumidores possuem idade entre 25 e 45 anos

In [None]:
anuncios.head()

###### Consumidores mais velhos possuem renda média da região maiores do que os mais novos?

In [None]:
sns.jointplot(x='idade', y='renda_media_regiao',data=anuncios)

- Não existe uma linearidade muito forte entre as variáveis
- A renda não é tão dependente da idade

######  Pessoas mais novas gastam mais tempo no site do que pessoas mais velhas??

In [None]:
##use KDE
sns.set_style('dark')
sns.jointplot(x='idade',y='tempo_diario_site',data=anuncios, kind='kde', color='purple');

- Existe uma concentração de pontos na parte superior do gráfico mais a esquerda
- Com o KDE conseguimos exerga que as pessoas que gastam mais tempo no site
- A concentração de consumidores com idades entre 20 e 40 anos e tempo médio diário de 70 a 80 possuem uma maior concentração 

In [None]:
anuncios

###### Quem usa mais a internet gasta mais?

In [None]:
sns.jointplot(x='tempo_diario_site',y='tempo_medio_internet',data=anuncios, color='red');

- pessoas que ficam mais tempo no site constumam ficar mais tempo em outros sites da internet
- pessoas que ficam poouco tempo no site tendem a ficar menos tempo também em sites na internet

######  Quem são os consumidores que clicaram mais no site??

In [None]:
sns.pairplot(anuncios,hue='clique')

- Os dados se separam de alguma forma com as variáveis


# Regressão Logística

Agora é hora de quebrar nossos dados em treino e teste e fitar nosso modelo.

Você terá a liberdade aqui para escolher colunas em que deseja treinar!

** Divida os dados em conjunto de treinamento e conjunto de testes usando train_test_split **

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
anuncios.columns

In [None]:
X = anuncios[['tempo_diario_site', 'idade', 'tempo_medio_internet']] 
y = anuncios['clique']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)

** Treine e ajuste um modelo de regressão logística no conjunto de treinamento. **

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score

In [None]:
logmodel = LogisticRegression()

In [None]:
logmodel.fit(X_train,y_train)

## Previsões e avaliações
** Agora preveja valores para os dados de teste. **

In [None]:
ỹ_test = logmodel.predict(X_test)

** Crie um relatório de classificação para o modelo. **

In [None]:
accuracy_score(y_test, ỹ_test)

In [None]:
print(classification_report(y_test,ỹ_test))

## Acurácia de acordo com a entrada
- tempo_diario_site, idade, renda_media_regiao, tempo_medio_internet, sexo  -> **90.60%**
- tempo_diario_site, idade, renda_media_regiao, tempo_medio_internet, sexo, mês -> **90,00%**
- tempo_diario_site, idade, renda_media_regiao, tempo_medio_internet, sexo, mês, dia -> **90,30%**
- idade, renda_media_regiao, tempo_medio_internet, sexo, mes, day -> **86,96%**
- tempo_diario_site, renda_media_regiao, tempo_medio_internet, sexo, mês, dia -> **66,06%**
- tempo_diario_site, idade, tempo_medio_internet, sexo  -> **94.54%**
- tempo_diario_site, idade, renda_media_regiao, sexo  -> **90.60%**
- tempo_diario_site, idade, renda_media_regiao,tempo_medio_internet -> **90.60%**
- tempo_diario_site, idade, tempo_medio_internet -> **94,54%**

### Conclusões
- O modelo atingiu bons resultados considerando 90.60% de acurácia usando 5 variáveis
- O mês e dia não ajudou a separar o modelo, talvez a quantidade de dados seja insuficiente para considerar o tempo
- O tempo diario no site, a idade e o tempo médio de internet são os atributos mais importantes para o clique
- Poderiamos melhorar o resultado integrando mais dados ou fazendo engenharia de features