#Análise dos Dados da 9CaBer

**Objetivo**: Analisar os dados fornecidos para descobrir os melhores segmentos a serem usados para a próxima campanha da RankMyApp

##Vistoria Inicial da Fonte de Dados

**Fonte de Dados**: Os dados a serem utilizados pertencem ao aplicativo de Taxi 9CaBer, do período do mês de Maio de 2018

In [46]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as pt

%matplotlib inline

In [47]:
#Importação do Arquivo CSV criado contendo os dados a serem analisados
taxi_app = pd.read_csv("Report_TaxiApp_2018-07-17.csv")

#Checagem dos valores iniciais dos dados importados
display(taxi_app.head())
print("Quantidade de Amostras: {0}. \tQuantidade de Atributos: {1}.".format(taxi_app.shape[0], taxi_app.shape[1]))

Unnamed: 0,Postback Timestamp,Click ID,Transaction ID,Country,Traffic Source ID,OS,Isp,Mobile Carrier,Connection Type,IP,Site ID
0,5/31/18 23:56,w9AJMV0C671MQ33EHLHVRH92,install,Brazil,9a2a1675-584d-491d-9fc9-aeaa674c6e2d,Android,Telefonica Brasil s.a.,Vivo,Mobile,177118105122,24138
1,5/31/18 23:55,w2D5EHI6SH04BQAE1VRLD74O,install,Brazil,5cff49a9-50d7-4272-917f-614a822124de,Android,Brasil Telecom Sa - Filial Distrito Federal,,Xdsl,201.89.13.176,7c0ajw76178_6761_652_60601652
2,5/31/18 23:25,wFS5T9UIREPS4QAEHBURP7DG,first_ride,Brazil,9a2a1675-584d-491d-9fc9-aeaa674c6e2d,Android,Claro Brazil,Claro,Mobile,187.26.74.123,12088
3,5/31/18 23:22,wDAIK3RD8OL0LQAEH6N197BG,install,Brazil,9a2a1675-584d-491d-9fc9-aeaa674c6e2d,Android,Telefonica Brasil s.a.,,Broadband,201.86.248.165,12088
4,5/31/18 23:14,wJH7VPPNE5G2SLAEHEHSBR68,install,Brazil,9a2a1675-584d-491d-9fc9-aeaa674c6e2d,Android,Telemar Norte Leste s.a.,,Broadband,186.247.61.28,26896


Quantidade de Amostras: 27199. 	Quantidade de Atributos: 11.


Os dados mostrados acima são apenas um breve resumo da quantidade total de dados a serem analisados, no caso *27199*. Com relação aos atributos presentes para esses dados, temos:

**Postback Timestamp**: Momento em que a conversão foi registrada.

**Click ID**: ID único para cada usuário registrado. Pode se repetir caso haja mais de um evento para um único usuário.

**Transaction ID**: Tipo de transação ou evento.

**Country**: País em que a conversão foi registrada.

**Traffic Source ID**: ID único de cada fonte de tráfego, sendo que *Fontes de tráfego* 
são os canais que veiculam a campanha e possuem um inventário único.

**OS**: Tipo de sistema operacional da conversão.

**Isp**: Operadora ou empresa provedora de internet.

**Mobile Carrier**: Operadora móvel.

**Connection Type**: Tipo de conexão utilizada (ex.: Wifi, 3G, etc).

**IP**: IP registrado no momento da conversão.

**Site ID**: ID único para cada site disponível no inventário de cada fonte de tráfego. 

Agora, será apresentado os tipos de cada coluna. Esse método permite o conhecimento do tipo de dado armazenado em cada coluna, podendo assim ser cada coluna analisada de acordo com o mesmo:

In [48]:
#Método para verificar os tipos das colunas:
for column in taxi_app.columns:
        print("coluna: {0}, tipo: {1}.\n".format(column, type(taxi_app[column][1])))

coluna: Postback Timestamp, tipo: <class 'str'>.

coluna: Click ID, tipo: <class 'str'>.

coluna: Transaction ID, tipo: <class 'str'>.

coluna: Country, tipo: <class 'str'>.

coluna: Traffic Source ID, tipo: <class 'str'>.

coluna: OS, tipo: <class 'str'>.

coluna: Isp, tipo: <class 'str'>.

coluna: Mobile Carrier, tipo: <class 'float'>.

coluna: Connection Type, tipo: <class 'str'>.

coluna: IP, tipo: <class 'str'>.

coluna: Site ID, tipo: <class 'str'>.



Portanto, com exceção da coluna **Connection Type**, todas as colunas são do tipo *String*, ou seja *Texto*.

##Tratamento de Dados

Nesse tópico ocorrerá a passagem do conjunto de dados e sua verificação por condições que possam impedir sua efetiva e completa análise.

Inicialmente, será verificada a existência de *Valores Nulos* nos atributos do Conjunto de Dados:

In [49]:
#Método para Verificar Quantidade de Valores Totais de um Conjunto em relação ao Total de Dados Nõa-Nulos em um Atributo:
print("Quantidade Total de Amostras: {0}\n\n".format(taxi_app.shape[0]))
for column in taxi_app.columns:
    print("Total de Valores Não-Nulos na Coluna {0}: {1}.\n".format(column, taxi_app[column].count()))

Quantidade Total de Amostras: 27199


Total de Valores Não-Nulos na Coluna Postback Timestamp: 27199.

Total de Valores Não-Nulos na Coluna Click ID: 27199.

Total de Valores Não-Nulos na Coluna Transaction ID: 27199.

Total de Valores Não-Nulos na Coluna Country: 27198.

Total de Valores Não-Nulos na Coluna Traffic Source ID: 27199.

Total de Valores Não-Nulos na Coluna OS: 27199.

Total de Valores Não-Nulos na Coluna Isp: 27195.

Total de Valores Não-Nulos na Coluna Mobile Carrier: 7360.

Total de Valores Não-Nulos na Coluna Connection Type: 27199.

Total de Valores Não-Nulos na Coluna IP: 27199.

Total de Valores Não-Nulos na Coluna Site ID: 27189.



Conforme visto pelo texto acima, as colunas **Country**, **Isp**, **Mobile Carrier** e **Site ID** tem valores não-nulos menores que o total de amostras presentes, concluindo que estas possuem valores nulos:

In [50]:
taxi_app.isna().sum()

Postback Timestamp        0
Click ID                  0
Transaction ID            0
Country                   1
Traffic Source ID         0
OS                        0
Isp                       4
Mobile Carrier        19839
Connection Type           0
IP                        0
Site ID                  10
dtype: int64

Desses atributos contendo valores negativos, a maior quantidade de valores nulos reside em **Mobile Carrier**. Por possuir essa grande quantidade de valores nulos, prejudicando os demais atributos ao retirá-los do conjunto de dados, essa coluna não será utilizada para a análise dos dados: 

In [51]:
#Remoção da Coluna Mobile Carrier do Dataset
taxi_app_antigo = taxi_app
taxi_app = taxi_app.drop(["Mobile Carrier"], axis = 1)
display(taxi_app.head())

Unnamed: 0,Postback Timestamp,Click ID,Transaction ID,Country,Traffic Source ID,OS,Isp,Connection Type,IP,Site ID
0,5/31/18 23:56,w9AJMV0C671MQ33EHLHVRH92,install,Brazil,9a2a1675-584d-491d-9fc9-aeaa674c6e2d,Android,Telefonica Brasil s.a.,Mobile,177118105122,24138
1,5/31/18 23:55,w2D5EHI6SH04BQAE1VRLD74O,install,Brazil,5cff49a9-50d7-4272-917f-614a822124de,Android,Brasil Telecom Sa - Filial Distrito Federal,Xdsl,201.89.13.176,7c0ajw76178_6761_652_60601652
2,5/31/18 23:25,wFS5T9UIREPS4QAEHBURP7DG,first_ride,Brazil,9a2a1675-584d-491d-9fc9-aeaa674c6e2d,Android,Claro Brazil,Mobile,187.26.74.123,12088
3,5/31/18 23:22,wDAIK3RD8OL0LQAEH6N197BG,install,Brazil,9a2a1675-584d-491d-9fc9-aeaa674c6e2d,Android,Telefonica Brasil s.a.,Broadband,201.86.248.165,12088
4,5/31/18 23:14,wJH7VPPNE5G2SLAEHEHSBR68,install,Brazil,9a2a1675-584d-491d-9fc9-aeaa674c6e2d,Android,Telemar Norte Leste s.a.,Broadband,186.247.61.28,26896


Com esse atributo retirado do conjunto, será analisado os valores nulos restantes.

Na Coluna **Country**, por ter apenas um valor nulo, pode-se tanto retirar essa tupla, ou seja linha do conjunto de dados, quanto acrescentar em seu lugar o texto com maior frequência dentro desse atributo:

In [63]:
print("Países presentes nesse Conjunto de Dados: {0}\n".format(taxi_app["Country"].unique()))
print("Total de Países presentes: {0}.".format(taxi_app["Country"].nunique()))

Países presentes nesse Conjunto de Dados: ['Brazil' 'United States' 'Spain' 'Mexico' 'Argentina' 'Peru' 'Paraguay'
 'Ecuador' 'Portugal' 'Colombia' 'France' 'Costa Rica' nan]

Total de Países presentes: 12.


In [58]:
#Verificação da média de valores presentes na coluna Country
taxi_app["Country"].describe()

count      27198
unique        12
top       Brazil
freq       27080
Name: Country, dtype: object

Com isso, foi descoberto que *Brazil* é o país com maior ocorrência de frequência ao longo dos dados. Portanto, será adicionado ao lugar do valor nulo:

In [71]:
#Preenchendo o Valor Nulo da coluna Country pelo texto "Brazil"
taxi_app['Country'].fillna("Brazil", inplace=True)
print("Países presentes nesse Conjunto de Dados: {0}\n".format(taxi_app["Country"].unique()))
print("Total de Valores Não-Nulos: {0}".format(taxi_app["Country"].count()))

Países presentes nesse Conjunto de Dados: ['Brazil' 'United States' 'Spain' 'Mexico' 'Argentina' 'Peru' 'Paraguay'
 'Ecuador' 'Portugal' 'Colombia' 'France' 'Costa Rica']

Total de Valores Não-Nulos: 27199


Ainda, é necessário a limpeza dos dados nulos de **Site ID**:

In [72]:
print("Total de Sites ID presentes: {0}.".format(taxi_app["Site ID"].nunique()))

Total de Sites ID presentes: 568.


In [73]:
taxi_app["Site ID"].describe()

count     27189
unique      568
top       12088
freq       4575
Name: Site ID, dtype: object

Como esse atributo possui um dado de maior frequência, coloca-se o mesmo nos valores nulos:

In [77]:
taxi_app["Site ID"].fillna("12088", inplace=True)
print("Total de Valores Nulos em Site ID: {0}".format(taxi_app["Site ID"].isna().sum()))

Total de Valores Nulos em Site ID: 0


Por fim, têm-se a limpeza de dados de **Isp**:

In [79]:
print("Total de Operadoras presentes: {0}.".format(taxi_app["Isp"].nunique()))

Total de Operadoras presentes: 2129.


In [80]:
taxi_app["Isp"].describe()

count            27195
unique            2129
top       Claro Brazil
freq              6997
Name: Isp, dtype: object

Portanto, ocorre a inserção do dado de maior frequência nos valores nulos:

In [82]:
taxi_app["Isp"].fillna("Claro Brazil", inplace=True)
print("Total de Valores Nulos em Isp: {0}".format(taxi_app["Isp"].isna().sum()))

Total de Valores Nulos em Isp: 0


In [86]:
print("Total de Dados Não-Nulos no conjunto:\n\n{0}".format(taxi_app.count()))

Total de Dados Não-Nulos no conjunto:

Postback Timestamp    27199
Click ID              27199
Transaction ID        27199
Country               27199
Traffic Source ID     27199
OS                    27199
Isp                   27199
Connection Type       27199
IP                    27199
Site ID               27199
dtype: int64


In [None]:
Logo, não há mais valores nulos no Dataset, ou seja, o Conjunto de Dados.