# Projeto unicórnio

# Um unicórnio é uma startup que possui avaliação de preço de mercado no valor de mais de 1 bilhão de dólares americanos

# O objetivo é fazer uma analise e mostrar qual o país que mais gera unicórnio no mundo e a empresa com maior valor.  

In [None]:
# Importar as libs
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

In [None]:
# Ler dados
baseDados = pd.read_csv(r"D:\Documentos\analise de dados python\Projeto unicornio\unicorns till sep 2022.csv")

# verificar dimensão
baseDados.shape

In [None]:
# primeiros registros
baseDados.head()

In [None]:
# verificando colunas
baseDados.columns

In [None]:
# renomeando colunas
baseDados.rename(columns={
    'Unnamed: 0' : 'Id',
    'Company' : 'Empresa',
    'Valuation ($B)' : 'Valor ($)',
    'Date Joined' : 'Data de Adesão',
    'Country' : 'País',
    'City' : 'Cidade',
    'Industry': 'Setor',
    'Investors': 'Investidores',
}, inplace=True )

In [None]:
# Verificar tipo da informação de cada coluna
baseDados.info()

In [None]:
# verificando existem de campos nulos
baseDados.isnull().sum()

In [None]:
# também podemos analisar os campos nulos com visão gráfica

plt.figure( figsize=(15,6)) # Definindo tamanho da imagem\gráfico
plt.title('Analisando Campos nulos') # titulo do grafico
sns.heatmap( baseDados.isnull(), cbar=False); # Trazendo campos nulos // cbar = desligar legenda do lado direito

In [None]:
# Verificando quantidade de valores unicos de cada coluna
baseDados.nunique()

In [None]:
# Podemos verificar também os registros unicos da coluna 'setor'
baseDados['Setor'].unique()

# Sei que existe esses valores repetidos na coluna 'Setor'

In [None]:
# Análise por quantidade de setores - rank
baseDados['Setor'].value_counts()

# já conseguimos identificar quantos valores iguais existem na coluna 'setor' e que o setor Fintech, Internet software & services estão na frente do ranking

In [None]:
# Também podemos trazer a análise de quantidade de setores por '%' - rank
baseDados['Setor'].value_counts(normalize=True).map("{:.1%}".format)

# já conseguimos identificar que 40% dos setores que atingiram o unicornio são de técnologia

In [None]:
# Fazendo análise gráfica do rank por setor

plt.figure(figsize=(15,6)) # tamanho do gráfico
plt.title('rank de crescimento por setor') # titulo do gráfico
plt.bar(baseDados['Setor'].value_counts().index,baseDados['Setor'].value_counts()) # Criando gráfico ordenado por quantidade
plt.xticks( rotation=45, ha='right'); # rotacionando o eixo 'x'

# Aqui conseguimos analisar que o setor de 'Fintech' e 'Internet software' estão em 1º e 2º lugar no mundo

In [None]:
# análise rank por quantidade de paises

analise = round(baseDados['País'].value_counts(normalize=True) * 100,1)

analise.reset_index()

# também podemos ver que estados unidos é o país que mais geram empresas unicornios do mundo e o Brasil se encontra em 9º posição considerando que o index começa com '0' 


In [None]:
# Trazendo analise gráfica rank entre o top 5 por paises que atingiram unicornio
plt.figure(figsize=(16,6))
plt.title('Analise rank por Países - top 5')
plt.pie(
    analise.head(5),
    labels = analise.index[0:5],
    shadow = True,
    startangle=90,
    autopct='%.f%%'
    );

# claramente dá para ver que 'United States' está em 1º lugar e consome maior parte do mundo   

In [None]:
# Vamos fazer uma analise de empresas que mais faturaram valor por por ano, para isso temos que alterar o 
# tipo dado da coluna 'data de adesão'

# Convertendo coluna de data para datetime
baseDados['Data de Adesão'] = pd.to_datetime(baseDados['Data de Adesão'])

baseDados['Data de Adesão'].head()

In [None]:
# Agora vamos extrair o mes e ano para fazer nossa analise

# criando coluna 'Mês e Ano' para extrair o mês e ano da coluna 'Data de Adesão'
baseDados['Mês'] = pd.DatetimeIndex(baseDados['Data de Adesão']).month
baseDados['Ano'] = pd.DatetimeIndex(baseDados['Data de Adesão']).year

baseDados.head()

In [None]:
# tabela análitica - Agrupando dados
analiseAgrupada = baseDados.groupby( by=['País', 'Ano', 'Mês', 'Empresa',] ).count().reset_index()

# Já podemos visualizar o país o ano e a empresa por grupo 
analiseAgrupada

In [None]:
# localizando Brazil e as empresas que atingiram unicórnio 

# Precisamos mostrar o grupo de empresas apenas do Brasil 
analiseAgrupada.loc[
    analiseAgrupada['País'] == 'Brazil'
    ]

# Analisando essa tabela, se exerga o ano e a empresa que conseguiu atingir o unicornio.

In [None]:
# Desejo fazer uma analise pelo valor que a empresa faturou, porém, a coluna de valores está com '$' vamos ter que tratar ela primeiro

baseDados['Valor ($)'] = pd.to_numeric(baseDados['Valor ($)'].apply( lambda linha: linha.replace('$','')))

# imprimindo para ver se a alteração deu certo e a mudança do tipo da coluna.
baseDados['Valor ($)'].head()

In [None]:
# analise de pais por lucro em ordem crescente
analisePais = baseDados.groupby( by=['País']).sum()['Valor ($)'].reset_index() # agrupando dados por pais e somando valores

analiseValor = analisePais.sort_values('Valor ($)', ascending = False) # Guardando em uma variavel o agrupamento e ordenando em ordem crescente

analiseValor

# podemos ver claramente que o páis em 1º lugar é 'United States' e o 'Brasil' se encontra em 7º

# isso é interessante. Em questões de valores o Brasil se encontra em 7º considerando o index que começa sempre em '0' 
# já em questões de quantidade de empresa atingindo unicornio o Brasil é o 9º 

In [None]:
# analise de pais por valor gráfico

plt.figure(figsize=(15,6))
plt.title('Analise de países por valor')
plt.plot(
    analiseValor['País'],
    analiseValor['Valor ($)'],
    )
plt.xticks(rotation = 45, ha='right');

# E novamente em uma visualização mais legivel, percebemos em um gráfico qual país se encotra com maior faturamente atingido do uniconio 