![alt text](https://cienciadosdados.com/images/Cpia_de_HEADER.png)



# <font color='Blue'> Venture Capital - Avaliação de Investimentos em Startups </font>  

![](https://i.pinimg.com/originals/69/9c/ee/699cee51b6059fe6a5d4ca2f0a89d97a.gif)




## **Contextualização**

![](https://cienciadosdados.com/images/2022/03/o_que__VC.png)

![](https://cienciadosdados.com/images/2022/03/VC_X_PE.png)

![](https://cienciadosdados.com/images/2022/03/valor-investido-stp.png)

![](https://cienciadosdados.com/images/2022/03/soft-stp.png)

![](https://cienciadosdados.com/images/2022/03/softbank.png)

SoftBank Group Corp. é uma corporação multinacional japonesa de telecomunicações e Internet, estabelecida em 3 de setembro de 1981 e com sede em Tóquio. Tem operações em banda larga, telecomunicações de linha fixa, comércio eletrônico, serviços de tecnologia, finanças, mídia e marketing, design de semicondutores e outras empresas.[1] A empresa é chefiada pelo fundador Masayoshi Son.

A SoftBank foi classificado na lista Forbes Global 2000 como a 62ª maior empresa de capital aberto do mundo[2] e a terceira maior no Japão, após Toyota e Mitsubishi UFJ Financial.[3] Entre 2009 e 2014, a capitalização de mercado da SoftBank aumentou 557%, o quarto maior aumento relativo no mundo durante esse período.[4]

![](https://cienciadosdados.com/images/2022/03/distrito.png)

# <font color='grey'> **Aula 1 - Resolvendo Problemas de Negócio com Ciência de Dados e Automação** </font>

#1° Problema de Negócio 
![](https://i.pinimg.com/originals/78/63/36/7863362124aee1020dd1784a9f95a4ae.gif)


Você foi contratado como Cientista de Dados pelo SoftBank para desenvolver uma aplicação de Ciência de Dados, cujo objetivo é desenvolver uma metodologia com Machine Learning, para embasar, recomendar o investimento em Startups, de forma automatizada, para serem investidas pelo Venture Capital da Instituição. 

A aplicação tem que ser simples mas com usabilidade bem prática e em ambiente Web. Isso porque os dados das Startups estarão ao alcance dos executivos do Softbank para que sejam realizadas simulações para decidir se deve ou não investir nas Startups.

##### **Fonte dos Dados**

Usaremos a base de dados "**venture_capital**" com a Série Histórica dos Dados de 150 Startups Investidas pelo SoftBank.


###### **Dicionário dos Dados** 

* **startup**  : Número de identificação da startup
* **Indice_Falencia_Setorial**        : Índice Falências Setorial
* **Indice_Faturamento**: Índice faturamento Projetado para a empresa
* **Indice_Investimento** : Indice de Investimento Necessário para a Startup se tornar Operacional
* **Indice_Expertise_Estrategica**   : Índice referente aos dados de Perfis dos Técnicos da Startup
* **Avaliação**       : Resultado da Metodologia tendo como output uma graduação de Riscos (Alto Médio Baixo)

# 2° Análise Exploratória dos Dados
![](https://thumbs.gfycat.com/FavorableDarkDrafthorse-size_restricted.gif)
![](https://cdn.dribbble.com/users/720825/screenshots/3253310/slim-jim-_dribbble_-_800x600_.gif)


### Importação de Pacotes/Bibliotecas para o Trabalho

In [None]:
# Importando Bibliotecas Essenciais
import pandas as pd                                       # Pacote de Manipulação de Dados
import numpy as np                                        # Pacote para cálculos matemáticos
import matplotlib.pyplot as plt                           # Biblioteca de Gráficos
import seaborn as sns                                     # Pacote de Gráficos
from sklearn.preprocessing import StandardScaler          # Função de Escalonamento dos Dados 
from sklearn.model_selection import train_test_split      # Função de Amostragem de Dados
from sklearn.neighbors import KNeighborsClassifier        # Algoritmo de Machine Learning
from sklearn.svm import SVC                               # Algoritmo de Machine Learning
from sklearn import metrics                               # Função de Avaliação de resultados
%matplotlib inline                                        

### Conexão/Importação dos Dados

In [None]:
# Se conectando com os dados - Nesse caso, a Fonte de Dados é um Arquivo
dataset = pd.read_csv('/content/venture_capital.csv' , delimiter=',')

In [None]:
# Imprime na Tela os primeiros registros
dataset.head()

### Instalação de Pacote de Automação de Relatórios de Dados

In [None]:
#Instalação do Pacote
!pip install dataprep

In [None]:
# Relatório Automatizado
from dataprep.eda import create_report
create_report(dataset)

In [None]:
# Forma adicional de criar a Tab. de Frequência
dataset.Avaliacao.value_counts()

In [None]:
# Criação do Gráfico de dispersão (scatter) conhecido como pairplot
sns.pairplot(dataset, hue='Avaliacao', kind="reg") # kind=reg é a reta de regressão

# 3° Pré-Processamento dos Dados
![](https://greymatter.com/wp-content/uploads/2021/12/ezgif.com-optimize.gif)


### Eliminando Variáveis que não são explicativas

In [None]:
#Eliminar a coluna de identificação, pois ela não é variável explicativa, é somente a identificação do cliente
dataset = dataset.drop(columns='Startup')

### Separando as Variáveis Explicativas e o Target

In [None]:
# Separando as Variáveis de Entrada e Saída do Modelo
X = dataset.iloc[:,:-1].values  #variáveis independentes
y = dataset.iloc[:,-1].values  #Target/labe/class/vairável dependente

In [None]:
# Printar na tela os valores de X
X

In [None]:
# Printar na tela os valores de Y
y

### Amostragem dos Dados - Separando os dados entre Treino e Teste

In [None]:
#Divide o dataset em Train and Test 
X_train, X_test, y_train, y_test = train_test_split(X ,y, test_size=0.2, random_state = 7) 

### Padronizando as Features - As variáveis explicativas (variáveis de entrada)


In [None]:
# Função de Padronização para deixar os Dados na mesma Escala
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()

In [None]:
#Aplica a função de padronização
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test) 

# <font color='grey'> **Aula 2 - Construíndo Máquinas Preditivas com Machine Learning** </font>

# 3° Pré-Processamento dos Dados
![](https://greymatter.com/wp-content/uploads/2021/12/ezgif.com-optimize.gif)


### Eliminando Variáveis que não são explicativas

In [None]:
dataset

In [None]:
#Eliminar a coluna de identificação, pois ela não é variável explicativa, é somente a identificação do cliente
dataset = dataset.drop(columns='Startup')

In [None]:
dataset

Unnamed: 0,Indice_Faturamento,Indice_Setorial,Indice_Inovacao,Indice_Falencias,Indice_Expertise_Estrategica,Avaliacao
0,5.1,3.5,1.4,0.2,0.6,Risco_Alto
1,4.9,3.0,1.4,0.2,0.6,Risco_Alto
2,4.7,3.2,1.3,0.2,0.5,Risco_Alto
3,4.6,3.1,1.5,0.2,0.3,Risco_Alto
4,5.0,3.6,1.4,0.2,1.0,Risco_Alto
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,0.6,Risco_Baixo
146,6.3,2.5,5.0,1.9,0.0,Risco_Baixo
147,6.5,3.0,5.2,2.0,0.5,Risco_Baixo
148,6.2,3.4,5.4,2.3,0.3,Risco_Baixo


### Separando as Variáveis Explicativas e o Target

In [None]:
# Separando as Variáveis de Entrada e Saída do Modelo
X = dataset.iloc[:,:-1].values  #variáveis independentes
y = dataset.iloc[:,-1].values  #Target/labe/class/vairável dependente

In [None]:
# Printar na tela os valores de X
X

In [None]:
# Printar na tela os valores de Y
y

### Amostragem dos Dados - Separando os dados entre Treino e Teste

In [None]:
#Divide o dataset em Train and Test 
X_train, X_test, y_train, y_test = train_test_split(X ,y, test_size=0.2, random_state = 7) 

In [None]:
X_train

In [None]:
X_test

In [None]:
y_train

In [None]:
y_test

### Padronizando as Features - As variáveis explicativas (variáveis de entrada)


In [None]:
dataset.describe()

Unnamed: 0,Indice_Faturamento,Indice_Setorial,Indice_Inovacao,Indice_Falencias,Indice_Expertise_Estrategica
count,150.0,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667,0.507333
std,0.828066,0.433594,1.76442,0.763161,0.291972
min,4.3,2.0,1.0,0.1,0.0
25%,5.1,2.8,1.6,0.3,0.3
50%,5.8,3.0,4.35,1.3,0.5
75%,6.4,3.3,5.1,1.8,0.8
max,7.9,4.4,6.9,2.5,1.0


In [None]:
# Função de Padronização para deixar os Dados na mesma Escala
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()

In [None]:
# Aplica a função de padronização
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test) 

In [None]:
X_train

In [None]:
X_test

# 4° Construindo a Máquina Preditiva
![](https://www.genymotion.com/wp-content/uploads/2017/03/animation_genymotion_aws_facebook-1.gif)

### 1° Versão da Máquina Preditiva: Criando um **baseline**

Aqui nós vamos criar a primeira versão da Máquina Preditiva. Depois, vamos buscar formas de melhorar a assertividade do modelo. 

In [None]:
# Importando a Biblioteca KNN
from sklearn.neighbors import KNeighborsClassifier
Maquina_Preditiva = KNeighborsClassifier(n_neighbors=30) #[1,10,30,50]



In [None]:
Maquina_Preditiva

In [None]:
#Treinando a Máquina preditiva com os dados de treino
Maquina_Preditiva = Maquina_Preditiva.fit(X_train,y_train)



In [None]:
#Fazendo novas Previsões com os dados de teste
y_pred = Maquina_Preditiva.predict(X_test)


print("\n---------------------------\n")
print("Valores Reais com dados de teste :\n",y_test)

print("\n---------------------------\n")
print("Valores Preditos com a Máquina Preditiva com dados de Teste :\n",y_pred)

#5° Avaliando a Máquina Preditiva

![](https://territorystudio.com/wp-content/uploads/2020/11/AWS-NFL-Season-Closer-Ad-02.gif)

In [None]:
# Calculando a Acurácia
from sklearn import metrics
print("Acurácia da Máquina = ", metrics.accuracy_score(y_test, y_pred)*100)

In [None]:
# Comparando Real e Predito com dados de Teste
print("\nReal vs Predito \n------------------------------\n")
error_df = pd.DataFrame({"Real" : y_test,
                         "Predito" : y_pred})

error_df.head(5)

In [None]:
#Usando a confusion matrix  e o classification report para avaliar a acurácia e demais indicadores
from sklearn.metrics import confusion_matrix, classification_report
from sklearn import metrics

print("Acurácia da Máquina = ", metrics.accuracy_score(y_test, y_pred)*100)
cm = confusion_matrix(y_test,y_pred)
cr = classification_report(y_test, y_pred)
print(cm)
print(cr)

### 2° Versão da Máquina Preditiva: Máquina Definitiva 

In [None]:
# Importando a Biblioteca do SVM
from sklearn.svm import SVC
Maquina_Preditiva = SVC(kernel='rbf',             # ['linear', 'rbf']
                        random_state=7)




In [None]:
Maquina_Preditiva

SVC(random_state=7)

In [None]:
#Treinando a Máquina com o SVC
Maquina_Preditiva.fit(X_train,y_train)



SVC(random_state=7)

In [None]:
#Fazendo novas previsões com os dados de teste
y_pred = Maquina_Preditiva.predict(X_test)

print("\n---------------------------\n")
print("Predicted Values for Test Set :\n",y_pred)
print("\n---------------------------\n")
print("Actual Values for Test Set :\n",y_test)


---------------------------

Predicted Values for Test Set :
 ['Risco_Baixo' 'Risco_Medio' 'Risco_Alto' 'Risco_Medio' 'Risco_Medio'
 'Risco_Alto' 'Risco_Medio' 'Risco_Medio' 'Risco_Alto' 'Risco_Medio'
 'Risco_Baixo' 'Risco_Medio' 'Risco_Alto' 'Risco_Baixo' 'Risco_Alto'
 'Risco_Baixo' 'Risco_Baixo' 'Risco_Baixo' 'Risco_Alto' 'Risco_Alto'
 'Risco_Medio' 'Risco_Baixo' 'Risco_Medio' 'Risco_Medio' 'Risco_Baixo'
 'Risco_Baixo' 'Risco_Medio' 'Risco_Medio' 'Risco_Baixo' 'Risco_Baixo']

---------------------------

Actual Values for Test Set :
 ['Risco_Baixo' 'Risco_Medio' 'Risco_Alto' 'Risco_Medio' 'Risco_Baixo'
 'Risco_Alto' 'Risco_Medio' 'Risco_Medio' 'Risco_Alto' 'Risco_Medio'
 'Risco_Medio' 'Risco_Medio' 'Risco_Alto' 'Risco_Baixo' 'Risco_Alto'
 'Risco_Medio' 'Risco_Baixo' 'Risco_Baixo' 'Risco_Alto' 'Risco_Alto'
 'Risco_Medio' 'Risco_Baixo' 'Risco_Medio' 'Risco_Baixo' 'Risco_Baixo'
 'Risco_Baixo' 'Risco_Medio' 'Risco_Medio' 'Risco_Baixo' 'Risco_Baixo']


In [None]:
#Imprimindo os hyperparâmetros utilizados na criação da Maquina Preditiva Definitiva
Maquina_Preditiva

SVC(random_state=7)

In [None]:
# Calculando a Acurácia da Máquina Preditiva
from sklearn import metrics
print("Prediction Accuracy = ", metrics.accuracy_score(y_test, y_pred))

# Comparando valores Reais com Preditos pela Máquina
print("\nActual vs Predicted  \n------------------------------\n")
error_df = pd.DataFrame({"Actual" : y_test,
                         "Predicted" : y_pred})

error_df.head(5)

Prediction Accuracy =  0.8666666666666667

Actual vs Predicted  
------------------------------



Unnamed: 0,Actual,Predicted
0,Risco_Baixo,Risco_Baixo
1,Risco_Medio,Risco_Medio
2,Risco_Alto,Risco_Alto
3,Risco_Medio,Risco_Medio
4,Risco_Baixo,Risco_Medio


In [None]:

#Usando a confusion matrix e o classification report para avaliar a Máquina
from sklearn.metrics import confusion_matrix, classification_report

cm = confusion_matrix(y_test,y_pred)
cr = classification_report(y_test, y_pred)

In [None]:
# Imprimindo a Confusion Matrix e o Classification Report
print(cm)
print(cr)

[[ 7  0  0]
 [ 0  9  2]
 [ 0  2 10]]
              precision    recall  f1-score   support

  Risco_Alto       1.00      1.00      1.00         7
 Risco_Baixo       0.82      0.82      0.82        11
 Risco_Medio       0.83      0.83      0.83        12

    accuracy                           0.87        30
   macro avg       0.88      0.88      0.88        30
weighted avg       0.87      0.87      0.87        30



# <font color='grey'> **Aula 3 - Sistema de Avaliação de Investimento em Startups para Venture Capital** </font>

# <font color='black'>6° Implementando a Maquina Preditiva em ambiente WEB</font>


### **Passo a Passo** Implementação do Sistema Avaliação de Investimento em Startups para Venture Capital:

**1°** Instalar o Anaconda

https://www.anaconda.com/products/individual

#### Obs: **Marcar** a Caixa de Variáveis "PATH" (ambiente)
![](https://cienciadosdados.com/images/2022/03/anaconda.png)

**2°** Realizar o download da ferramenta "Visual Studio Code" no link abaixo:

https://code.visualstudio.com/

**3°** Instalar a ferramenta: Clicar em "next" e "finish" (simples assim...)

**4°** Criar um diretório "app" no seu Drive "C"

Ex: **C:\app**

**5°** Fazer o Download da pasta "aula3" disponibilizada na página da Jornada

**6°** Salvar essa pasta dentro do diretório app. 

Ex: **C:\app\startups** 



**Obs:** dentro da pasta maratona temos 3 arquivos:

1° **venture_capital**               - Nossa fonte de dados

2° **app-startup.py**                       - Nosso Aplicativo web

3° **Script_Notebook**_Venture_Capital.ipynb   - Nosso Script de Criação da Máquina Preditiva

**7°** Abrir o VS Code e clicar no menu "File", depois "Open Folder" e vai navegar até o diretório **"C:\app\startups"**

**8°** Vai no menu "terminal", depois "New Terminal". Perceba que vai abrir, lá embaixo, um terminal de comando, tipo o "CMD" (tela preta) do windows.

**9°** executar os seguinte comandos:

a) pip install plotly     +  tecla enter

b) pip install streamlit  +  tecla enter


**10°** Executar o comando de abertura (no terminal do VS Code) do nosso sistema:

   **streamlit run app_risco.py**

obs: Nosso sistema vai abrir na WEB. Ver no seu navegador web.

# <font color='grey'> **Aula 4 - O GPS para Se tornar um Cientista de Dados na Prática e Ganhar Salários Iniciais Acima de R$ 6.000,00** </font>

# Fim? É só o começo....

# Simbóra!