# Unicorn Startups

O primeiro passo para ser executado é realizar a importação das bibliotecas necessárias para a execução do projeto. No caso de necessidade de possuir outras bibliotecas, este bloco será responsável por receber todas as bibliotecas.

Aqui, também, foi importado a biblioteca ```warnings``` para filtrar alguns avisos.

In [11]:
# Importando as bibliotecas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Ignorar alguns avisos que podem ocorrer
import warnings
warnings.filterwarnings('ignore')

O próximo passo é realizar a importação do arquivo ```Startups2021.csv``` através do pandas, no formato de um ```DataFrame```.

Após o carregamento do DataFrame, verificamos que a base de dados em questão possui 936 linhas (dados) e 8 colunas (atributos).

In [4]:
# Ler os dados do arquivo 'Startups2021.csv'
df = pd.read_csv('Startups2021.csv')

# Verifica o tamanho da Base de Dados
df.shape

(936, 8)

Realizaremos uma primeira visualização da base de dados carregados.

In [5]:
# Exibe os primeiros 5 (cinco) registros do DataFrame
df.head()

Unnamed: 0.1,Unnamed: 0,Company,Valuation ($B),Date Joined,Country,City,Industry,Select Investors
0,0,Bytedance,$140,4/7/2017,China,Beijing,Artificial intelligence,"Sequoia Capital China, SIG Asia Investments, S..."
1,1,SpaceX,$100.3,12/1/2012,United States,Hawthorne,Other,"Founders Fund, Draper Fisher Jurvetson, Rothen..."
2,2,Stripe,$95,1/23/2014,United States,San Francisco,Fintech,"Khosla Ventures, LowercaseCapital, capitalG"
3,3,Klarna,$45.6,12/12/2011,Sweden,Stockholm,Fintech,"Institutional Venture Partners, Sequoia Capita..."
4,4,Canva,$40,1/8/2018,Australia,Surry Hills,Internet software & services,"Sequoia Capital China, Blackbird Ventures, Mat..."


Antes de prosseguirmos com as análises, realizaremos a alteração no nome das colunas para melhor visualização futura.
1. Visualizamos apenas os nomes das colunas
2. Através do envio de um dicionário na função ```rename```, realizamos a alteração dos nomes das colunas e indicamos, com o parâmetro ```implace``` como ```True``` para que seja sobrescrito no próprio DataFrame.

In [7]:
# Exibe o nome das colunas do DataFrame
df.columns

Index(['Unnamed: 0', 'Company', 'Valuation ($B)', 'Date Joined', 'Country',
       'City', 'Industry', 'Select Investors'],
      dtype='object')

In [8]:
# Renomeia as Colunas do DataFrame e sobrescreve o nome no próprio DataFrame
df.rename(columns={
    'Unnamed: 0' : 'Id',
    'Company' : 'Empresa',
    'Valuation ($B)' : 'Valor ($B)',
    'Date Joined' : 'Data de Adesão',
    'Country' : 'Pais',
    'City' : 'Cidade',
    'Industry': 'Setor',
    'Select Investors': 'Investidores',
}, inplace=True)

Ao visualizar os primeiros dados, é possível verificar que, existem alguns valores que não estão adequados. Para certificar os tipos de dados em cada uma das colunas, executamos o comando abaixo e, comprovamos que os atributos ```Valor ($B)``` não é do tipo ```float``` (devido a presença do símbolo $ antes do valor) e o atributo ```Data de Adesão``` não é do tipo ```date``` (devido ao formato incorreto de data).

Além destas observações, é possível notar que temos a presença de alguns campos nulos nos atributos ```Cidade```, que possui apenas 921 dados e no atributo ```Investidores```, que possui apenas 935 informações cadastradas. Vale ressaltar que possuimos, na nossa base de dados, **936 linhas**.

In [12]:
# Verifica o tipo de informação armazenada em cada uma das colunas do DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 936 entries, 0 to 935
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Id              936 non-null    int64 
 1   Empresa         936 non-null    object
 2   Valor ($B)      936 non-null    object
 3   Data de Adesão  936 non-null    object
 4   Pais            936 non-null    object
 5   Cidade          921 non-null    object
 6   Setor           936 non-null    object
 7   Investidores    935 non-null    object
dtypes: int64(1), object(7)
memory usage: 58.6+ KB


Observe que, ao realizar a contagem dos campos nulos do DataFrame, temos que faltam 15 cidades e 1 investidor que possuem valores nulos. A partir daí, cabe ao Analista verificar a importância destes dados, pois, existem diferentes métodos para lidar com a falta destes dados.

In [13]:
# Verifica os campos nulos
df.isnull().sum()

Id                 0
Empresa            0
Valor ($B)         0
Data de Adesão     0
Pais               0
Cidade            15
Setor              0
Investidores       1
dtype: int64

**Opção 1**: Realizar a remoção da Coluna que possui os dados nulos

Através do comando ```pandas.DataFrame.drop``` conseguimos realizar a exclusão da coluna ```Cidade``` e ```Investidores``` do DataFrame. Caso queira que esta alteração passe para o DataFrame, adiciona-se o parâmetro ```inplace=True```.

No código abaixo, primeiramente, foi removido a coluna ```Cidade``` atribuindo a uma segunda variável e, posteriormente, com o parâmetro ```inplace=True```, realizou-se a retirada da coluna ```Investidores```.

Vale ressaltar que, este método só está sendo utilizado por questões de **estudos** e não é indicado para o nosso caso, visto que perde-se cerca de **24,78%** de todos os dados do DataFrame ao excluir as colunas ```Cidade``` e ```Investidores```.

In [17]:
# Remove a coluna 'Cidade' do DataFrame df e atribui a um novo DataFrame (df2)
df2 = df.drop('Cidade', axis=1)

# Remove a coluna 'Investidores' do DataFrame df2 e atribui a alteração diretamente no próprio DataFrame (inplace=True)
df2.drop('Investidores', axis=1, inplace=True)

# Exibe as colunas do df2, agora, sem a coluna 'Cidade'
df2.columns

Index(['Id', 'Empresa', 'Valor ($B)', 'Data de Adesão', 'Pais', 'Setor'], dtype='object')

In [18]:
# Verifica os campos nulos do novo DataFrame que está sem a coluna 'Cidade'
df2.isnull().sum()

Id                0
Empresa           0
Valor ($B)        0
Data de Adesão    0
Pais              0
Setor             0
dtype: int64


**Opção 2**. Realizar a remoção da Linha que possui os dados nulos

Esta opção já pode ser utilizada para o nosso caso. A perda das linhas podem não gerar perdas significativas **dependendo da futura aplicação**, visto que, para alguns recursos de inteligência artificial, tais dados podem significar a identificação de novos padrões ou auxiliar na métrica do algoritmo.

De forma geral, a remoção de dados de um DataFrame quase sempre não é aconselhada pois podemos perder informações valiosas com a exclusão.

Dado a ressalva, para realizar a remoção de uma linha que possui dados faltantes, utilizaremos, junto com o comando ```pandas.DataFrame.drop```, uma busca por valores nulos em cada uma das colunas, conforme exemplo abaixo.

In [43]:
# Realiza uma cópia do DataFrame inicial para não haver alterações nele
df_aux = df.copy(deep=True)

# Remove as linhas (index) que possuem valores nulos (NaN) na coluna 'Cidade' e salva as alterações no próprio DataFrame
df_aux.drop(df_aux.loc[pd.isnull(df_aux['Cidade'])].index, inplace=True)

# Remove as linhas (index) que possuem valores nulos (NaN) na coluna 'Cidade' e salva as alterações no próprio DataFrame
df_aux.drop(df_aux.loc[pd.isnull(df_aux['Investidores'])].index, inplace=True)

# Exibe o novo tamanho do DataFrame
df_aux.shape

(920, 8)

In [44]:
# Verifica os campos nulos do novo DataFrame que está sem a coluna 'Cidade'
df_aux.isnull().sum()

Id                0
Empresa           0
Valor ($B)        0
Data de Adesão    0
Pais              0
Cidade            0
Setor             0
Investidores      0
dtype: int64

**Opção 3**. Substituir os valores faltantes pela média de valores da Coluna

Para os casos de variáveis do tipo numéricas, esta abordagem torna-se bem simples, bastando realizar a média numérica de acordo com os dados da coluna e substituir os valores faltantes (NaN) pela média.

Já para dados Categóricos, isso passa a ser uma abordagem complexa. Para essa base de dados, é inviável realizar tal substituição, visto que os atributos que estão com falta de dados, são do tipo categóricos e são relevantes para a consistência dos dados.

**Opção 4**. Alterar cada um dos dados manualmente através da obtenção das informações

Para uma base de dados "pequena" com poucas faltas, seria uma ótima abordagem completar a base de dados através da obtenção das informações faltantes, sendo esta, a melhor abordagem de todas. Porém, nem sempre este requisito é atendido, devido a falta de informações disponíveis ou, dependendo da quantidade de dados faltantes, da inviabilidade de obter tais informações.

Para verificar quais linhas possuem os dados faltantes e para simular a incerção destes dados no DataFrame, basta filtrar de acordo com a coluna desejada, conforme já realizado anteriormente.

In [45]:
# Realiza uma cópia do DataFrame inicial para não haver alterações nele
df_aux = df.copy(deep=True)

# Exibe as linhas (index) que possuem valores nulos (NaN) na coluna 'Cidade'
df_aux.loc[pd.isnull(df_aux['Cidade'])]

Unnamed: 0,Id,Empresa,Valor ($B),Data de Adesão,Pais,Cidade,Setor,Investidores
11,11,FTX,$25,7/20/2021,Hong Kong,,Fintech,"Sequoia Capital, Thoma Bravo, Softbank"
192,192,HyalRoute,$3.5,5/26/2020,Singapore,,Mobile & telecommunications,Kuang-Chi
399,399,Advance Intelligence Group,$2,9/23/2021,Singapore,,Artificial intelligence,"Vision Plus Capital, GSR Ventures, ZhenFund"
572,572,Trax,$1.3,7/22/2019,Singapore,,Artificial intelligence,"Hopu Investment Management, Boyu Capital, DC T..."
677,677,Amber Group,$1.1,6/21/2021,Hong Kong,,Fintech,"Tiger Global Management, Tiger Brokers, DCM Ve..."
682,682,Carousell,$1.1,9/15/2021,Singapore,,E-commerce & direct-to-consumer,"500 Global, Rakuten Ventures, Golden Gate Vent..."
735,735,WeLab,$1,11/8/2017,Hong Kong,,Fintech,"Sequoia Capital China, ING, Alibaba Entreprene..."
812,812,PatSnap,$1,3/16/2021,Singapore,,Internet software & services,"Sequoia Capital China, Shunwei Capital Partner..."
840,840,Moglix,$1,5/17/2021,Singapore,,E-commerce & direct-to-consumer,"Jungle Ventures, Accel, Venture Highway"
843,843,Matrixport,$1,6/1/2021,Singapore,,Fintech,"Dragonfly Captial, Qiming Venture Partners, DS..."
