***
![Netflix-Logo.png](..\Images\Netflix-Logo.png)
# `Projeto:` Análise da Saúde Financeira da Empresa Netflix

## `Data:` novembro, 2020

## `Cientista de Dados:` Walter Trevisan
***

## `02-` Get The Data:

Nesta fase, vamos realizar as seguintes atividades:

1. **Carregar** o nosso dataset;

2. Analisar se existem **Registros duplicados** em nosso dataset;

3. Analisar se existem **Missing Values** em nosso dataset;

4. Realizar o pré-processamento dos dados como *limpeza* e *transformação* (***Feature Engineering***);

5. Salvar os datasets como um objeto *dataframe*, em um formato específico chamado de **feather**.

## Descrição do Dataset:

>**Netflix_Data.xlsx**: este é o “dataset” que será utilizado em nosso projeto. Este dataset possui dados financeiros da **`Netflix`**, no período de **2012 até 2018**.

## Descrição das Variáveis:

O nosso dataset possui **`13`** variáveis, descritas a seguir:
01. **`Time`**: é a data do último dia de cada trimestre de cada ano;


02. **`Total subscriptions at end of period`**(`Total de assinaturas no final do período`): é o volume total de clientes (assinaturas), **`acumulado`**, no último dia de cada trimestre de cada ano. Portanto, o volume informado no dia **31/12** é o volume total de clientes em cada ano. É também a **soma** das **Assinaturas pagas** e **Avaliações Gratuitas**;


03. **`Paid subscriptions at end of period`**(`Assinaturas pagas no final do período`): é o volume total de clientes (assinaturas), **`acumulado`**, que pagaram suas assinaturas no último dia de cada trimestre de cada ano. Portanto, o volume informado no dia **31/12** é o volume total de clientes *pagantes* em cada ano;


04. **`Free Trials`**(`Avaliações Gratuitas`): é o volume total de clientes (assinaturas), **`acumulado`**, que estão avaliando gratuitamente o plano do segmento de transmissão doméstica (*Domestic Streaming*), no último dia de cada trimestre de cada ano, ou seja, estes clientes ainda não estão pagando suas assinaturas. O volume informado no dia **31/12** é o volume total de clientes *não pagantes* em cada ano;


05. **`Revenue`**(`Receita`): é o valor total da receita no último dia de cada **trimestre** de cada ano. Portanto, o **valor total da receita** em cada **ano** é a **`soma`** do valor total da receita em cada trimestre do respectivo ano;


06. **`Cost of revenues`**(`Custo das receitas`): é o valor total do custo das receitas no último dia de cada **trimestre** de cada ano. Portanto, o **valor total dos custos das receitas** em cada **ano** é a **`soma`** do valor total dos custos das receitas em cada trimestre do respectivo ano;


07. **`Marketing`**: é o valor total dos custos de marketing no último dia de cada **trimestre** de cada ano. Portanto, o **valor total dos custos de marketing** em cada **ano** é a **`soma`** do valor total dos custos de marketing em cada trimestre do respectivo ano;


08. **`Contribution profit`**(`Lucro de Contribuição`): é calculado, no último dia de cada **trimestre** de cada ano, pela seguinte fórmula: `Lucro de contribuição = Receita - Custo das receitas - Marketing`. Portanto, o **valor total dos lucros de contribuição** em cada **ano** é a **`soma`** do valor total dos lucros de contribuição em cada trimestre do respectivo ano;


09. **`Contribution Margin`**(`Margem de Contribuição`): é calculado, no último dia de cada **trimestre** de cada ano, pela seguinte fórmula: `Margem de contribuição = Lucro de contribuição/Receita`. Portanto, a **margem de contribuição** em cada **ano** é a **`soma`** do valor total dos lucros de contribuição em cada trimestre, **`dividido`** pela **`soma`** do valor total da receita em cada trimestre do respectivo ano. Para maiores informações sobre *margem de contribuição* **[clique aqui](https://pt.wikipedia.org/wiki/Margem_de_contribui%C3%A7%C3%A3o)**;


10. **`Cost per Customer`**(`Custo por Cliente`), excluindo Marketing: é calculado, no último dia de cada **trimestre** de cada ano, pela seguinte fórmula: `Custo por Cliente = Custos das receitas/Total de assinaturas`. Portanto, o **custo por cliente** em cada **ano** é a **`soma`** do valor total dos custos das receitas em cada trimestre, **`dividido`** pelo **volume total de clientes** (assinaturas) informado no dia **31/12** (**Q4**), do respectivo ano;


11. **`Revenue per Customer`**(`Receita por Cliente`): é calculado, no último dia de cada **trimestre** de cada ano, pela seguinte fórmula: `Receita por Cliente = Receita/Total de assinaturas`. Portanto, a **receita por cliente** em cada **ano** é a **`soma`** do valor total das receitas em cada trimestre, **`dividido`** pelo volume total de clientes (assinaturas) informado no dia **31/12** (**Q4**), do respectivo ano;


12. **`Earnings per Customer`**(`Ganhos/Rendimentos por Cliente`): é calculado, no último dia de cada **trimestre** de cada ano, pela seguinte fórmula: `Rendimentos por Cliente = Receita por Cliente - Custo por Cliente`. Portanto, os **ganhos (rendimentos) por cliente** em cada **ano**, é a receita por cliente **`menos`** o custo por cliente do respectivo ano;


13. **`Segment`**(`Segmento`): é o tipo de segmento (negócio) ao qual se referem os dados. Neste caso é o segmento  de **Transmissão Doméstica** (***Domestic Streaming***), ou simplesmente ***Streaming***.

***
## Setup
>### Pacotes e Funções

In [1]:
# Carregando os pacotes:
sprintf('Loading "feather" package...')
library(feather)

sprintf('Loading "readxl" package...')
library(readxl)

sprintf('Loading "lubridate" package...')
library(lubridate)

sprintf('Loading "tidyverse" package...')
library(tidyverse)

# Configurando o diretório de trabalho:
setwd("D:/Portfolio/Netflix-Analise_Saude_Financeira/Solution")

# Definindo o diretório e o nome onde está armazenado o dataset original do projeto:
PROJECT_DATASET_DIR = "../Datasets/"
PROJECT_DATASET_FILE = "Netflix_Data.xlsx"

# Definindo o nome completo (path) onde está armazenado o dataset original do projeto:
PROJECT_DATASET_PATH = paste(PROJECT_DATASET_DIR,PROJECT_DATASET_FILE, sep = "")

# Definindo o diretório onde ficará armazenado o "dataset" do projeto como um objeto "dataframe":
PROJECT_DATA_PATH = "./Data/"
# Criando o diretório, se ele não existir:
if (dir.exists(PROJECT_DATA_PATH) == FALSE){
    dir.create(PROJECT_DATA_PATH)
}

sprintf("Diretórios do projeto:")
list.dirs(path = "..", full.names = TRUE, recursive = TRUE)

# Configura a linguagem para o ambiente de desenvolvimento:
Sys.setenv(LANGUAGE = "en")

sprintf("Setup Complete!")


Attaching package: 'lubridate'

The following object is masked from 'package:base':

    date



Registered S3 method overwritten by 'rvest':
  method            from
  read_xml.response xml2
-- Attaching packages --------------------------------------- tidyverse 1.2.1 --
v ggplot2 3.3.2     v purrr   0.3.4
v tibble  3.0.1     v dplyr   1.0.0
v tidyr   0.8.3     v stringr 1.4.0
v readr   1.3.1     v forcats 0.4.0
"package 'dplyr' was built under R version 3.6.3"-- Conflicts ------------------------------------------ tidyverse_conflicts() --
x lubridate::as.difftime() masks base::as.difftime()
x lubridate::date()        masks base::date()
x dplyr::filter()          masks stats::filter()
x lubridate::intersect()   masks base::intersect()
x dplyr::lag()             masks stats::lag()
x lubridate::setdiff()     masks base::setdiff()
x lubridate::union()       masks base::union()


## `01-` Carregando o Dataset:

In [2]:
# Fazendo a leitura do dataset e salvando os dados em um objeto "dataframe":
df_data <- read_xlsx(path = PROJECT_DATASET_PATH, sheet = "Dados")
head(df_data)

Time,Total subscriptions at end of period,Paid subscriptions at end of period,Free Trials,Revenue,Cost of revenues,Marketing,Contribution profit,Contribution Margin,Cost per Customer (excluding marketing),Revenue per Customer,Earnings per Customer,Segment
"March 31,2012",23410,22022,1388,506665,360776,79381,66508,0.131,15.41119,21.6431,6.231909,Streaming
"June 30,2012",23938,22686,1252,532705,378574,70959,83172,0.156,15.81477,22.25353,6.438758,Streaming
"September 30,2012",25101,23801,1300,556027,399124,65955,90948,0.164,15.90072,22.15159,6.250866,Streaming
"December 31,2012",27146,25471,1675,589471,420390,59777,109304,0.185,15.48626,21.71484,6.228579,Streaming
"March 31,2013",29174,27913,1261,638649,440334,66965,131350,0.206,15.09337,21.89103,6.797662,Streaming
"June 30,2013",29807,28624,1183,671089,452598,67177,151314,0.225,15.18429,22.51448,7.330191,Streaming


In [3]:
# Resumo dos dados:
str(df_data)

tibble [28 x 13] (S3: tbl_df/tbl/data.frame)
 $ Time                                   : chr [1:28] "March 31,2012" "June 30,2012" "September 30,2012" "December 31,2012" ...
 $ Total subscriptions at end of period   : num [1:28] 23410 23938 25101 27146 29174 ...
 $ Paid subscriptions at end of period    : num [1:28] 22022 22686 23801 25471 27913 ...
 $ Free Trials                            : num [1:28] 1388 1252 1300 1675 1261 ...
 $ Revenue                                : num [1:28] 506665 532705 556027 589471 638649 ...
 $ Cost of revenues                       : num [1:28] 360776 378574 399124 420390 440334 ...
 $ Marketing                              : num [1:28] 79381 70959 65955 59777 66965 ...
 $ Contribution profit                    : num [1:28] 66508 83172 90948 109304 131350 ...
 $ Contribution Margin                    : num [1:28] 0.131 0.156 0.164 0.185 0.206 0.225 0.237 0.234 0.252 0.271 ...
 $ Cost per Customer (excluding marketing): num [1:28] 15.4 15.8 15.9 15.5 15

## `02-` Analisando Informações (Observações) Duplicadas no Dataset:

In [4]:
# Verificando se existem registros/linhas duplicadas no DataFrame "df_data":
anyDuplicated(df_data)

## `03-` Analisando *Missing Values* (*`NaN`*) no Dataset:

In [5]:
# Verificando se existem valores ausentes no DataFrame "df_data":
sum(is.na(df_data))

## `04-` Realizando o pré-processamento dos dados:

Nesta etapa vamos realizar as seguintes tarefas de pré-processamento:

* Trocar os nomes das variáveis (colunas);


* Converter a variável `Data` para *datetime* (formato data/hora);


* Criar a variável `Trimestre` e depois convertê-la para categórica ordinal (classes: `Q1`, `Q2`, `Q3` e `Q4`);


* Criar a variável `Ano` e depois convertê-la para categórica ordinal (classes: `2012`, `2013`, ...`2018`);


* Converter a variável `Segmento` para categórica nominal;


* Criar a variável `custo_total`, cujo cálculo é dado por: `custo_total = custo_da_receita + custo_marketing`;


* Criar a variável `prop_clientes_novos`, cujo cálculo é dado por: `prop_clientes_novos = clientes_novos/total_clientes`;


* Criar um outro dataframe, agrupando os dados por **`ano`**. 

### `4.1-` Substituindo os nomes das colunas (`variáveis`) do nosso dataset:

In [6]:
# Substituindo os nomes das colunas (variáveis) do nosso dataset:
features_names <- c('data', 'total_clientes', 'clientes_atuais', 'clientes_novos', 'receita_total', 'custo_da_receita',
                    'custo_marketing', 'lucro_de_contribuicao', 'margem_de_contribuicao', 'custo_por_cliente',
                    'receita_por_cliente', 'rendimento_por_cliente', 'segmento'
                   )

# Alterando os nomes das colunas (variáveis):
colnames(df_data) <- features_names

# Verificando os nomes das colunas (variáveis) alterados:
colnames(df_data)

### `4.2-` Feature Engineering:

In [7]:
# Realizando "Feature Engineering" nos dados:
df_data <- mutate(df_data,
                  # Convertendo a variável "data" para o tipo "date" (data):
                  data = mdy(data),
                  # Criando a variável "trimestre":
                  trimestre = quarter(x = data, with_year = FALSE),
                  # Criando a variável "ano":
                  ano = year(x = data),
                  # Convertendo a variável "segmento" para o tipo "factor" (categórica nominal):
                  segmento = factor(segmento, sort(unique(segmento))),
                  # Criando a variável "custo_total" em cada trimestre:
                  custo_total = custo_da_receita + custo_marketing,
                  # Criando a variável "prop_clientes_novos", acumulada, em cada trimestre:
                  prop_clientes_novos = clientes_novos/total_clientes,
                  # Convertendo a variável "trimestre" para o tipo "factor" (categórica ordinal):
                  trimestre_cat = factor(trimestre, sort(unique(trimestre)), c("Q1","Q2", "Q3", "Q4"), 
                                         ordered = TRUE),
                  # Convertendo a variável "ano" para o tipo "factor" (categórica ordinal):
                  ano_cat = factor(ano, sort(unique(ano)), ordered = TRUE)
                 )

In [8]:
# Resumo dos dados atualizados:
str(df_data)

tibble [28 x 19] (S3: tbl_df/tbl/data.frame)
 $ data                  : Date[1:28], format: "2012-03-31" "2012-06-30" ...
 $ total_clientes        : num [1:28] 23410 23938 25101 27146 29174 ...
 $ clientes_atuais       : num [1:28] 22022 22686 23801 25471 27913 ...
 $ clientes_novos        : num [1:28] 1388 1252 1300 1675 1261 ...
 $ receita_total         : num [1:28] 506665 532705 556027 589471 638649 ...
 $ custo_da_receita      : num [1:28] 360776 378574 399124 420390 440334 ...
 $ custo_marketing       : num [1:28] 79381 70959 65955 59777 66965 ...
 $ lucro_de_contribuicao : num [1:28] 66508 83172 90948 109304 131350 ...
 $ margem_de_contribuicao: num [1:28] 0.131 0.156 0.164 0.185 0.206 0.225 0.237 0.234 0.252 0.271 ...
 $ custo_por_cliente     : num [1:28] 15.4 15.8 15.9 15.5 15.1 ...
 $ receita_por_cliente   : num [1:28] 21.6 22.3 22.2 21.7 21.9 ...
 $ rendimento_por_cliente: num [1:28] 6.23 6.44 6.25 6.23 6.8 ...
 $ segmento              : Factor w/ 1 level "Streaming": 1 1 1 1

### Agora, vamos resumir os dados por `ano`, criando um outro *`dataframe`*:

In [9]:
# Criando um dataframe temporário, onde algumas informações foram somadas e agrupadas por "ano":
df_temp1_by_year <- df_data %>%
    group_by(ano) %>%
    summarise(
        receita_total = sum(receita_total, na.rm = TRUE),
        custo_da_receita = sum(custo_da_receita, na.rm = TRUE),
        custo_marketing = sum(custo_marketing, na.rm = TRUE),
        lucro_de_contribuicao = sum(lucro_de_contribuicao, na.rm = TRUE),
        n = n()
    )

# Criando um segundo dataframe temporário, onde selecionamos algumas informações por "ano":
df_temp2_by_year <- filter(select(df_data, total_clientes, clientes_atuais, clientes_novos, trimestre_cat),
                           trimestre_cat == "Q4")

# Juntando os dois dataframes:
df_data_by_year <- cbind(df_temp1_by_year, df_temp2_by_year)
# Eliminando as colunas que não serão utilizadas:
df_data_by_year$n = NULL
df_data_by_year$trimestre_cat = NULL

# Calculando outras informações importantes por ano:
df_data_by_year <- mutate(df_data_by_year,
                          # Calculando a margem de contribuição por ano:
                          margem_de_contribuicao = lucro_de_contribuicao/receita_total,
                          # Calculando o custo por cliente por ano:
                          custo_por_cliente = custo_da_receita/total_clientes,
                          # Calculando a receita por cliente por ano:
                          receita_por_cliente = receita_total/total_clientes,
                          # Calculando o rendimento por cliente por ano:
                          rendimento_por_cliente = receita_por_cliente - custo_por_cliente,
                          # Calculando o custo total por ano:
                          custo_total = custo_da_receita + custo_marketing,
                          # Calculando a proporção de clientes novos, acumulada, por ano:
                          prop_clientes_novos = clientes_novos/total_clientes,
                          # Convertendo a variável "ano" para o tipo "factor" (categórica ordinal):
                          ano_cat = factor(ano, sort(unique(ano)), ordered = TRUE)
                         )

# Visualizando o dataframe com todas as variáveis criadas:
df_data_by_year

`summarise()` ungrouping output (override with `.groups` argument)


ano,receita_total,custo_da_receita,custo_marketing,lucro_de_contribuicao,total_clientes,clientes_atuais,clientes_novos,margem_de_contribuicao,custo_por_cliente,receita_por_cliente,rendimento_por_cliente,custo_total,prop_clientes_novos,ano_cat
2012,2184868,1558864,276072,349932,27146,25471,1675,0.1601616,57.42518,80.48582,23.06064,1834936,0.06170338,2012
2013,2751375,1863376,265232,622767,33420,31712,1708,0.2263476,55.75631,82.3272,26.57089,2128608,0.05110712,2013
2014,3431434,2201761,293453,936220,39114,37698,1416,0.2728364,56.29087,87.72905,31.43818,2495214,0.03620187,2014
2015,4180339,2487193,317646,1375500,44738,43401,1337,0.3290403,55.59464,93.44045,37.84581,2804839,0.02988511,2015
2016,5077307,2951973,412928,1712406,47905,46379,1526,0.3372666,61.6214,105.987,44.3656,3364901,0.03185471,2016
2017,6153025,3470859,603746,2078420,52810,50870,1940,0.3377883,65.72352,116.5125,50.78898,4074605,0.03673547,2017
2018,7646647,4038394,1025351,2582902,58486,56421,2065,0.3377823,69.0489,130.7432,61.6943,5063745,0.03530759,2018


In [10]:
# Resumo dos dados:
str(df_data_by_year)

'data.frame':	7 obs. of  15 variables:
 $ ano                   : num  2012 2013 2014 2015 2016 ...
 $ receita_total         : num  2184868 2751375 3431434 4180339 5077307 ...
 $ custo_da_receita      : num  1558864 1863376 2201761 2487193 2951973 ...
 $ custo_marketing       : num  276072 265232 293453 317646 412928 ...
 $ lucro_de_contribuicao : num  349932 622767 936220 1375500 1712406 ...
 $ total_clientes        : num  27146 33420 39114 44738 47905 ...
 $ clientes_atuais       : num  25471 31712 37698 43401 46379 ...
 $ clientes_novos        : num  1675 1708 1416 1337 1526 ...
 $ margem_de_contribuicao: num  0.16 0.226 0.273 0.329 0.337 ...
 $ custo_por_cliente     : num  57.4 55.8 56.3 55.6 61.6 ...
 $ receita_por_cliente   : num  80.5 82.3 87.7 93.4 106 ...
 $ rendimento_por_cliente: num  23.1 26.6 31.4 37.8 44.4 ...
 $ custo_total           : num  1834936 2128608 2495214 2804839 3364901 ...
 $ prop_clientes_novos   : num  0.0617 0.0511 0.0362 0.0299 0.0319 ...
 $ ano_cat       

## `05-` Salvando os objetos *dataframe* em um formato específico chamado de `feather`:

### `5.1-` Salvando a base de dados completa:

In [11]:
# Definindo o "path completo" onde será salvo o arquivo:
file_path = paste(PROJECT_DATA_PATH,"netflix_df.feather", sep = "")

# Salvando o dataframe "df_data" com todos os dados transformados:
write_feather(x = df_data, path = file_path)

### `5.2-` Salvando a base de dados agrupada por `ano`:

In [12]:
# Definindo o "path completo" onde será salvo o arquivo:
file_path = paste(PROJECT_DATA_PATH,"netflix_by_year_df.feather", sep = "")

# Salvando o dataframe "df_data" com todos os dados transformados:
write_feather(x = df_data_by_year, path = file_path)

# Verificando se os arquivos foram salvos com sucesso:
list.files(PROJECT_DATA_PATH)

## <font color='black'>FIM</font>