![Insper](https://github.com/danielscarvalho/Insper-DS-Dicas/blob/master/Insper-Logo.png?raw=true)

# Insper Pós-Graduação
## Programa Avançado em Data Science e Decisão [»](https://www.insper.edu.br/pos-graduacao/programas-avancados/programa-avancado-em-data-science-e-decisao/)


# Atividade Integradora
## Setup

### Dependencias

In [None]:
import pandas as pd
import numpy as np
from dfply import *
import altair as alt
import missingno as msno
from ydata_profiling import ProfileReport
import matplotlib
import matplotlib.pyplot as plt 

### Carregamento dos Dados

In [None]:
data = pd.read_csv("cs_bisnode_panel.csv")
dicionario_de_dados_0 = pd.read_excel("bisnode_variable_names.xls", header=4)

In [None]:
data.head()

## Limpeza dos Dados

### Dicionário de dados - Limpeza

Ao carregar o dicionário de dados a primeira coluna pega seu nome da quarta linha da tabela (argumento `header=4` acima). As outras três colunas são nomeadas abaixo.

In [None]:
dicionario_de_dados_1 = dicionario_de_dados_0.rename({'Unnamed: 1': 'description',
                                                      'Unnamed: 2': 'type',
                                                      'Unnamed: 3': 'footnote'},
                                                     axis=1)

In [None]:
dicionario_de_dados_1.columns

Então retiramos as linhas não relevantes para a analize, incluindo linhas totalmente em branco e uma linha com informação de versão da base de dados: 
 - `v 0.92. 2021-02-04`

In [None]:
dicionario_de_dados = dicionario_de_dados_1\
                       .drop(index=54)\
                       .dropna(how="all")\
                       .reset_index()\
                       .drop('index', axis='columns')

In [None]:
dicionario_de_dados.sample(5)

## Dados
### Removendo colunas específicas:

In [None]:
columns_to_remove = ['COGS', 'finished_prod', 'net_dom_sales', 'net_exp_sales', 'wages', 'D']

data.drop(columns=columns_to_remove, inplace=True)

data.columns

### Removendo dados do ano 2016:
---

Registros que começaram ou terminaram (ocorreram em) 2016 são removidos do conjunto.

In [None]:
colunas_data = ["begin", "end", "founded_date", "exit_date"]

data.dtypes[colunas_data]

Dados destas colunas precisam estar em formato de datetime para serem operados corretamente, então vamos converte-los.

In [None]:
missing_data_2 = show_missing(data).sort_values("pc_missing", ascending=False, ignore_index = True)

index_full_data_2 = list(missing_data_2[missing_data_2["missing"]==0].index)

missing_data_2.drop(labels=index_full_data_2, axis="index", inplace=True)

missing_data_2

Removendo Registros do ano de 2016:

In [None]:
Agora vamos tratar os dados que estão com faltas consideráveis e se faz sentido a falta de dados.

### Criando coluna para Variável Dependente:
---

- Vamos operar com o conceito de "atividade", empresas que não tiveram atividade por mais de 2 anos são consideradas "inativas".

Obs.: ativa = 0, inativa = 1

In [None]:
# Sort the DataFrame by company and year
data.sort_values(by=['comp_id', 'year'], inplace=True)

# Create shifted columns to check sales in the following 2 years
conditions_x1 = [((data['comp_id'] == data['comp_id'].shift(-1)) &
                  (data['year'] == data['year'].shift(-1) - 1)),

                 ((data['comp_id'] != data['comp_id'].shift(-1)) |
                  data['year'] != data['year'].shift(-1))]

values_x1 = [data['sales'].shift(-1),
             np.nan]

data['sales_x1'] = np.select(conditions_x1, values_x1)


conditions_x2 = [
    ((data['comp_id'] == data['comp_id'].shift(-1)) &
     (data['year'] == data['year'].shift(-1) - 2)),

    ((data['comp_id'] == data['comp_id'].shift(-2)) &
     (data['year'] == data['year'].shift(-2) - 2)),

    True
]

values_x2 = [data['sales'].shift(-1),
             data['sales'].shift(-2),
             np.nan]

data['sales_x2'] = np.select(conditions_x2, values_x2)


# Create a condition to identify companies that ceased to operate 
# (sem vendas por mais de 2 anos)
condition = (data['sales_x1'] == 0) & (data['sales_x2'] == 0)

# Create a new 'dependente' column with 1 for ceased companies and 0 otherwise
data['dependente'] = condition.astype(int)


Vamos conferir os valores da variavel dependente para as duas primeiras empresas do dataframe:

In [None]:
# lista de colunas para avaliação:
check_list=["comp_id", "year", "sales", "sales_x1", "sales_x2", "dependente"]

data[check_list].head(18)

In [117]:
data[check_list].describe()

Unnamed: 0,comp_id,year,sales,sales_x1,sales_x2,dependente
count,258729.0,258729.0,258729.0,258728.0,258727.0,258729.0
mean,154015600000.0,2010.448319,473118.3,473119.9,473121.5,0.091714
std,138264300000.0,3.066244,3775571.0,3775578.0,3775585.0,0.288622
min,1001034.0,2005.0,-14725590.0,-14725590.0,-14725590.0,0.0
25%,28572900000.0,2008.0,4744.444,4744.444,4744.444,0.0
50%,115307800000.0,2011.0,30422.22,30422.22,30422.22,0.0
75%,259326500000.0,2013.0,110670.4,110670.4,110670.4,0.0
max,464120900000.0,2015.0,111029400.0,111029400.0,111029400.0,1.0


Vemos que temos dados de venda com erros, onde há valores negativos para vendas, vamos tratar estes dados substituindo valores negativos por nulos (valor = 0)

In [118]:
# Remodelando os dados de vendas para corrigir os erros:

for x in ["sales", "sales_x1", "sales_x2"]:
    data[x] = np.where(data[x]<0, 0, data[x])

data['dependente'] = condition.astype(int)

In [119]:
data[check_list].describe()

Unnamed: 0,comp_id,year,sales,sales_x1,sales_x2,dependente
count,258729.0,258729.0,258729.0,258728.0,258727.0,258729.0
mean,154015600000.0,2010.448319,473198.4,473199.9,473201.5,0.091714
std,138264300000.0,3.066244,3775438.0,3775446.0,3775453.0,0.288622
min,1001034.0,2005.0,0.0,0.0,0.0,0.0
25%,28572900000.0,2008.0,4744.444,4744.444,4744.444,0.0
50%,115307800000.0,2011.0,30422.22,30422.22,30422.22,0.0
75%,259326500000.0,2013.0,110670.4,110670.4,110670.4,0.0
max,464120900000.0,2015.0,111029400.0,111029400.0,111029400.0,1.0


Corrigimos os valores de vendas negativas, e assim também de dependentes que pudessem estar sendo afetados.

Vamos agora:
 
- tratar por fim os casos em que não há informações de venda para um próximo ano (por não haver um próximo ano;

- criar uma coluna de vendas em "Log" para tratar a assimetria dos dados.

Vamos averiguar agora os anos em que as empresas tiveram atividade e inatividade:

In [None]:
data_grouped = data.groupby('comp_id')

#Contando anos de acompanhamento
comp_years = data_grouped['year'].count()

#Contando anos de "atividade"
active_years = data_grouped.apply(lambda group: (group['sales'] > 0).sum())

#contando anos de "inatividade"
inactive_years = data_grouped.apply(lambda group: (group['sales'] == 0).sum())

#Contando anos de "dependência"
depend_years = data_grouped.apply(lambda group: (group['dependente'] == 1).sum())

In [None]:
activity_df = pd.DataFrame({"Total years":comp_years,
                            "Active years":active_years, 
                            "Inactive years":inactive_years,
                            "Dependent years":depend_years})

activity_df

## 2012

In [None]:
data_2012 = data[data['year'] == 2012]
data_2012.year.unique()

In [None]:
import math

### Sales

In [None]:
data_2012.sales.describe()

Valores negativos não são válidos para a váriavel `sales`. O tratamento escolhido nesse caso é substituir valores negativos por 0.

In [None]:
data_2012.loc[data['sales'] < 0] = 0
data_2012.sales.describe()

Podemos ver ainda nas estatísticas descritivas que a média é maior que o terceiro quartil, indicando uma distribuição bastante assimétrica. Criamos então uma com o logarítmo de `sales` para auxiliar na análise.

In [None]:
data_2012.loc[:,'log_sales'] = data_2012.sales\
                                        .apply(lambda x: math.log(x)\
                                               if x != 0\
                                               else 0)

data_2012.log_sales.describe()

### Idade da Empresa
A idade da empresa eh calculada pela subtracao de `year` por `founded_year`, e a informacao eh guardada em `comp_age`.

In [None]:
data.year.isna().sum()

In [None]:
data.founded_year.isna().sum()

In [None]:
duplicates = {'company': [], 'years': []}
nulls = {'company': [], 'years': []}

for company in data_2012.comp_id.unique():
    company_year = data_2012.loc[data_2012['comp_id'] == company,
                                 'founded_year'].unique()
    if len(company_year) != 1:
        duplicates['company'].append(company)
        duplicates['years'].append(company_year)
    elif np.nan in company_year:
        nulls['company'].append(company)
        nulls['years'].append(company_year)

nulls

In [None]:
data_2012.loc[data_2012['comp_id'] == 1001034,
              'founded_year'].unique()

In [None]:
data_2012.loc[(data_2012['comp_id'] == 1001034) &
              (data_2012['founded_year'] == np.nan)]