### Exemplar: Validate and clean data

Como um profissional de dados em uma empresa de investimentos estou tentando investir em empresas com uma avaliação de pelo menos US$ 1 Bilhão. Essas empresas são frequentemente conhecidas como "unicórnios". O cliente deseja desenvolver uma melhor compreensão dos unicórnios, com a esperança de que possam ser investidores iniciais em futuras empresas altamente bem-sucedidas. Ele está particularmente interessado nas estratégias de investimento dos três principais investidores unicórnios: Sequoia Capital, Tiger global Management e Accel.

As a data scientist at an investment firm, I am trying to invest in companies with a valuation of at least 1 billion. These companies are often referred to as "unicorns." The client wants to develop a better understanding of unicorns, in the hope that they can be early investors in future highly successful companies. They are particularly interested in the investment strategies of the three top unicorn investors: Sequoia Capital, Tiger Global Management, and Accel.

#### Imports

In [3]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

#### Load the dataset

O conjunto de dados contém detalhes sobre empresas unicónio, como quando foram fundadas, quando alcançaram o status de unicórnio e sua avaliação atual.

The data contains details about unicorn companies, such as when they were founded, when they achieved unicorn status, and their current valuation. 

In [6]:
pd.set_option('display.max_columns', None)

In [7]:
companies = pd.read_csv('./data/Modified_Unicorn_Companies.csv')
companies.head()

Unnamed: 0,Company,Valuation,Date Joined,Industry,City,Country/Region,Continent,Year Founded,Funding,Select Investors
0,Bytedance,180,2017-04-07,Artificial intelligence,Beijing,China,Asia,2012,$8B,"Sequoia Capital China, SIG Asia Investments, S..."
1,SpaceX,100,2012-12-01,Other,Hawthorne,United States,North America,2002,$7B,"Founders Fund, Draper Fisher Jurvetson, Rothen..."
2,SHEIN,100,2018-07-03,E-commerce & direct-to-consumer,Shenzhen,China,Asia,2008,$2B,"Tiger Global Management, Sequoia Capital China..."
3,Stripe,95,2014-01-23,FinTech,San Francisco,United States,North America,2010,$2B,"Khosla Ventures, LowercaseCapital, capitalG"
4,Klarna,46,2011-12-12,Fintech,Stockholm,Sweden,Europe,2005,$4B,"Institutional Venture Partners, Sequoia Capita..."


#### Data Cleaning

Começando exibindo os tipos de dados das colunas em empresas

Beginning displaying the data types of the columns in companies

In [8]:
companies.dtypes

Company             object
Valuation            int64
Date Joined         object
Industry            object
City                object
Country/Region      object
Continent           object
Year Founded         int64
Funding             object
Select Investors    object
dtype: object

#### Modify the data types

Observando que o tipo de dados da coluna Date Joined é um object (objeto) — neste caso, uma string (texto). Convertendo esta coluna para datetime (data e hora) para torná-la mais utilizável.

Noting that the data type of the Date Joined column is an object (object) — in this case, a string (text). Converting this column to datetime (date and time) to make it more usable.

In [9]:
companies['Date Joined'] = pd.to_datetime(companies['Date Joined'])

#### Create a new column

Adicionando uma coluna chamada Anos para Unicórnio, que é o número de anos entre a fundação da empresa e o momento em que ela se tornou um unicórnio.

Adding a column called Years To Unicorn, which is the number of years between when the company was founded and when it became a unicorn.

In [14]:
companies['Year To Unicorn'] = companies['Date Joined'].dt.year - companies['Year Founded']

PERGUNTA: Por que é interessante saber em quão rapidamente uma empresa alcançou o status de unicórnio?

Saber quão rapidamente uma empresa alcança o status de unicórnio pode revelar certas tendências ou semelhanças. Podemos aproveitar essas informações para encontrar futuras empresas para investir.

QUESTION: Why is it interesting to know how quickly a company achieved unicorn status?

ANSWER: Knowing how quickly a company achieves unicorn status can reveal certain trends or commonalities. We can use this information to find future companies to invest in.

#### Input validation

Os dados têm alguns problemas com dados incorretos, linhas duplicadas e rótulos inconsistentes do setor.

Realizar os passos abaixo para identificar e corrigir cada um desses problemas

The data has some issues with bad data, duplicate rows, and inconsistent `Industry` labels.

Execute the steps below to identify and correct each of these issues.

#### Correcting bad data

Obtendo estatísticas descritivas para a coluna "Years To Unicorn".

Getting descriptive statistics for the `Years To Unicorn` column.

In [16]:
companies['Year To Unicorn'].describe()

count    1074.000000
mean     2012.870577
std         5.705494
min      1919.000000
25%      2011.000000
50%      2014.000000
75%      2016.000000
max      2021.000000
Name: Year To Unicorn, dtype: float64

Isolar todas as linhas onde a coluna "Years To Unicorn" contém um valor negativo.

Isolate all rows where the Years To Unicorn column contains a negative value.

In [18]:
companies[companies['Year To Unicorn'] < 0]

Unnamed: 0,Company,Valuation,Date Joined,Industry,City,Country/Region,Continent,Year Founded,Funding,Select Investors,Year To Unicorn
