# Introducción

(Source: CB Insights & Crunchbase)

unicorn

(License: Public Domain)

Dataset:
* 2015 l 2011 - https://www.kaggle.com/datasets/cheeann290/unicorn
* 2022 - https://www.kaggle.com/datasets/rajkumarpandey02/complete-list-of-unicorn-companies
* 2013 - https://www.cbinsights.com/research-unicorn-companies


# Librerias

In [400]:
import numpy as np
import pandas as pd


#to make graphs
import matplotlib.pyplot as plt
import seaborn as sns

#to make the plotly graphs
import plotly.graph_objs as go
import plotly.express as px

#to make maps
import geopandas as gpd

# warnings
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)
warnings.filterwarnings("ignore", category=RuntimeWarning)

# Lectura de datos y Procesamiento

### Funciones para el procesamiento

In [401]:
def reporte (df):   
    
    """ Esta función recibe un df y nos imprime un reporte inicial del df"""

    print('El df esta formado por: ', df.shape[0], 'filas y', df.shape[1], 'columnas')
    print('Cantidad de valores duplicados: ',df.duplicated().sum())
    print('Cantidad de valores nulos: ', df.isnull().sum().sum())

In [402]:
def percentage_null (df):

    """ esta función calcula el % de valores nulos que presenta el df
    devuelve un df con el % de nulos por cada columna"""
    
    missing_data = pd.isnull(df).sum()
    missing_data_percentage = missing_data/len(df)*100 #Calculamos el % del los datos faltantes en cada columna
    nulos_totales= missing_data_percentage.sort_values(ascending = False) #Ordenamos de mayor a menor
    nulos_totales = pd.DataFrame(nulos_totales,columns=["% nulos"])
    return nulos_totales.round(2).T 

In [403]:
def transform (df):

    """ Esta función recibe un df y nos transforma las columnas Valation en numerica quitando los caacteres $ 
    y tansforma la columna DateJoined en tipo fecha""" 

    if df['Valuation ($B)'].dtypes== object:
        df['Valuation ($B)'] = df['Valuation ($B)'].str.replace('$',' ')
        df['Valuation ($B)'] = pd.to_numeric(df['Valuation ($B)'])

    if df['Date Joined'].dtypes== object:
        df['Date Joined'] = pd.to_datetime(df['Date Joined'],format='%m/%d/%Y')

    if df['Day_List'].dtypes== object:
        df['Day_List'] = pd.to_datetime(df['Day_List'],format='%m/%d/%Y')

### Lectura y tranformación de los dataframes desde 2015 al 2022

#### 2015

In [404]:
# Leemos el dataset y le creamos una columna que corresponde al año de la lista
df2015 = pd.read_excel('Data/unicorn_cb_11_dec_15.xlsx')
df2015['Day_List'] = '12/11/2015'
df2015['Year'] = 2015


In [405]:
# Imprimimos el reporte inicial
reporte(df2015)

El df esta formado por:  144 filas y 8 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  0


In [406]:
# Imprimimos las 3 primeras lineas para ispeccionar:
df2015.head(3)

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,Industry,Investor,Day_List,Year
0,Uber,$51,8/23/2013,United States,On-Demand,"Lowercase Capital,\n\t Benchmark Capital, Goo...",12/11/2015,2015
1,Xiaomi,$46,12/21/2011,China,Hardware,"Digital Sky Technologies,\n\t QiMing Venture ...",12/11/2015,2015
2,Airbnb,$25.5,7/26/2011,United States,eCommerce/Marketplace,"General Catalyst Partners,\n\t Andreessen Hor...",12/11/2015,2015


In [407]:
# Utilizamos nuestra función para transformar las columnas: Valuation y Date Joined.
transform(df2015)

In [408]:
# Vemos que nuestras columnas presentan el tipo de dato correccto
df2015.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 144 entries, 0 to 143
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Company         144 non-null    object        
 1   Valuation ($B)  144 non-null    float64       
 2   Date Joined     144 non-null    datetime64[ns]
 3   Country         144 non-null    object        
 4   Industry        144 non-null    object        
 5   Investor        144 non-null    object        
 6   Day_List        144 non-null    datetime64[ns]
 7   Year            144 non-null    int64         
dtypes: datetime64[ns](2), float64(1), int64(1), object(4)
memory usage: 9.1+ KB


#### 2016

In [409]:
# Leemos el dataset y le creamos una columna que corresponde al año de la lista
df2016 = pd.read_excel('Data/unicorn_cb_23_dec_16.xlsx')
df2016['Day_List'] = '12/23/2016'
df2016['Year'] = 2016

In [410]:
# Imprimimos el reporte inicial
reporte(df2016)

El df esta formado por:  183 filas y 8 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  0


In [411]:
# Imprimimos las 3 primeras lineas para ispeccionar:
df2016.head(3)

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,Industry,Investor,Day_List,Year
0,Uber,$68,8/23/2013,United States,On-Demand,"Lowercase Capital,\n\t Benchmark Capital, Goo...",12/23/2016,2016
1,Xiaomi,$46,12/21/2011,China,Hardware,"Digital Sky Technologies,\n\t QiMing Venture ...",12/23/2016,2016
2,Didi Chuxing,$33.8,12/31/2014,China,On-Demand,"Matrix Partners, Tiger\n\t Global Management,...",12/23/2016,2016


In [412]:
# Utilizamos nuestra función para transformar las columnas: Valuation y Date Joined.
transform(df2016)
# Vemos que nuestras columnas presentan el tipo de dato correccto
df2016.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 183 entries, 0 to 182
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Company         183 non-null    object        
 1   Valuation ($B)  183 non-null    float64       
 2   Date Joined     183 non-null    datetime64[ns]
 3   Country         183 non-null    object        
 4   Industry        183 non-null    object        
 5   Investor        183 non-null    object        
 6   Day_List        183 non-null    datetime64[ns]
 7   Year            183 non-null    int64         
dtypes: datetime64[ns](2), float64(1), int64(1), object(4)
memory usage: 11.6+ KB


#### 2017

In [413]:
# Leemos el dataset y le creamos una columna que corresponde al año de la lista
df2017 = pd.read_excel('Data/unicorn_cb_23_dec_17.xlsx')
df2017['Day_List'] = '12/23/2017'
df2017['Year'] = 2017

In [414]:
# Imprimimos el reporte inicial
reporte(df2017)

El df esta formado por:  222 filas y 8 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  0


In [415]:
# Imprimimos las 3 primeras lineas para ispeccionar:
df2017.head(3)

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,Industry,Investor,Day_List,Year
0,Uber,$68,8/23/2013,United States,On-Demand,"Lowercase Capital,\n\t Benchmark Capital, Goo...",12/23/2017,2017
1,Didi Chuxing,$56,12/31/2014,China,On-Demand,"Matrix Partners, Tiger\n\t Global Management,...",12/23/2017,2017
2,Xiaomi,$46,12/21/2011,China,Hardware,"Digital Sky Technologies,\n\t QiMing Venture ...",12/23/2017,2017


In [416]:
# Utilizamos nuestra función para transformar las columnas: Valuation y Date Joined.
transform(df2017)
# Vemos que nuestras columnas presentan el tipo de dato correccto
df2017.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 222 entries, 0 to 221
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Company         222 non-null    object        
 1   Valuation ($B)  222 non-null    float64       
 2   Date Joined     222 non-null    datetime64[ns]
 3   Country         222 non-null    object        
 4   Industry        222 non-null    object        
 5   Investor        222 non-null    object        
 6   Day_List        222 non-null    datetime64[ns]
 7   Year            222 non-null    int64         
dtypes: datetime64[ns](2), float64(1), int64(1), object(4)
memory usage: 14.0+ KB


#### 2018

In [417]:
# Leemos el dataset y le creamos una columna que corresponde al año de la lista
df2018 = pd.read_excel('Data/unicorn_cb_29_dec_18.xlsx')
df2018['Day_List'] = '12/29/2018'
df2018['Year'] = 2018

In [418]:
# Imprimimos el reporte inicial
reporte(df2018)

El df esta formado por:  305 filas y 8 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  0


In [419]:
# Imprimimos las 3 primeras lineas para ispeccionar:
df2018.head(3)

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,Industry,Investor,Day_List,Year
0,Toutiao (Bytedance),$75,4/7/2017,China,Digital Media/ AI,"Sequoia Capital China, SIG Asia Investments, S...",12/29/2018,2018
1,Uber,$72,8/23/2013,United States,On-Demand,"Lowercase Capital,\n\t Benchmark Capital, Goo...",12/29/2018,2018
2,Didi Chuxing,$56,12/31/2014,China,On-Demand,"Matrix Partners, Tiger\n\t Global Management,...",12/29/2018,2018


In [420]:
# Utilizamos nuestra función para transformar las columnas: Valuation y Date Joined.
transform(df2018)
# Vemos que nuestras columnas presentan el tipo de dato correccto
df2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 305 entries, 0 to 304
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Company         305 non-null    object        
 1   Valuation ($B)  305 non-null    float64       
 2   Date Joined     305 non-null    datetime64[ns]
 3   Country         305 non-null    object        
 4   Industry        305 non-null    object        
 5   Investor        305 non-null    object        
 6   Day_List        305 non-null    datetime64[ns]
 7   Year            305 non-null    int64         
dtypes: datetime64[ns](2), float64(1), int64(1), object(4)
memory usage: 19.2+ KB


#### 2019

In [421]:
# Leemos el dataset y le creamos una columna que corresponde al año de la lista
df2019 = pd.read_excel('Data/unicorn_cb_31_dec_19.xlsx')
df2019['Day_List'] = '12/31/2019'
df2019['Year'] = 2019

In [422]:
# Imprimimos el reporte inicial
reporte(df2019)

El df esta formado por:  430 filas y 8 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  1


In [423]:
# Calculamos e identificamos en que columna estan nuestros valores nulos:
percentage_null(df2019)

Unnamed: 0,Investor,Company,Valuation ($B),Date Joined,Country,Industry,Day_List,Year
% nulos,0.23,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [424]:
# Reemplazamos nulos en la columna 'Select Investors' por la pabra: 'no_inversor'
df2019['Investor'] = df2019['Investor'].fillna('no_inversor')

In [425]:
# Utilizamos nuestra función para transformar las columnas: Valuation y Date Joined.
transform(df2019)
# Vemos que nuestras columnas presentan el tipo de dato correccto
df2019.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 430 entries, 0 to 429
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Company         430 non-null    object        
 1   Valuation ($B)  430 non-null    float64       
 2   Date Joined     430 non-null    datetime64[ns]
 3   Country         430 non-null    object        
 4   Industry        430 non-null    object        
 5   Investor        430 non-null    object        
 6   Day_List        430 non-null    datetime64[ns]
 7   Year            430 non-null    int64         
dtypes: datetime64[ns](2), float64(1), int64(1), object(4)
memory usage: 27.0+ KB


#### 2020

In [426]:
# Leemos el dataset y le creamos una columna que corresponde al año de la lista
df2020 = pd.read_excel('Data/unicorn_cb_31_dec_20.xlsx')
df2020['Day_List'] = '12/31/2020'
df2020['Year'] = 2020

In [427]:
# Imprimimos el reporte inicial
reporte(df2020)

El df esta formado por:  515 filas y 8 columnas
Cantidad de valores duplicados:  2
Cantidad de valores nulos:  1


In [428]:
# Calculamos e identificamos en que columna estan nuestros valores nulos:
percentage_null(df2020)

Unnamed: 0,Investor,Company,Valuation ($B),Date Joined,Country,Industry,Day_List,Year
% nulos,0.19,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [429]:
# Reemplazamos nulos en la columna 'Select Investors' vamos a reemplazar por la pabra: 'no_inversor'
df2020['Investor'] = df2020['Investor'].fillna('no_inversor')

In [430]:
# Eliminamos valores Duplicados:
df2020 = df2020.drop_duplicates()

In [431]:
# Intentando aplicar la funcion: transform(df2020), hemos detectado que el valor de las filas que se detallan a continuación no presentaban valores
# formato fecha, por lo que proedimos a corregir eso:
df2020.loc[[273,274]]

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,Industry,Investor,Day_List,Year
273,Olive,$1.5,12/1//2020,United States,Internet software & services,"Drive Capital, General Catalyst, Ascension Ven...",12/31/2020,2020
274,Strava,$1.5,11/16//2020,United States,Internet software & services,"Jackson Square Ventures, Madrone Capital Partn...",12/31/2020,2020


In [432]:
# Las fechas presentaban doble //, por lo que se procede a reemplazar
df2020.at[273, 'Date Joined'] = '12/1/2020'
df2020.at[274, 'Date Joined'] = '11/16/2020'

In [433]:
# Ahora si, utilizamos nuestra función para transformar las columnas: Valuation y Date Joined.
transform(df2020)
# Vemos que nuestras columnas presentan el tipo de dato correccto
df2020.info()

<class 'pandas.core.frame.DataFrame'>
Index: 513 entries, 0 to 514
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Company         513 non-null    object        
 1   Valuation ($B)  513 non-null    float64       
 2   Date Joined     513 non-null    datetime64[ns]
 3   Country         513 non-null    object        
 4   Industry        513 non-null    object        
 5   Investor        513 non-null    object        
 6   Day_List        513 non-null    datetime64[ns]
 7   Year            513 non-null    int64         
dtypes: datetime64[ns](2), float64(1), int64(1), object(4)
memory usage: 52.2+ KB


#### 2021

In [434]:
# Leemos el dataset y le creamos una columna que corresponde al año de la lista
df2021 = pd.read_excel('Data/unicorn_cb_31_dec_21.xlsx')
df2021['Day_List'] = '12/31/2021'
df2021['Year'] = 2021

In [435]:
# Imprimimos el reporte inicial
reporte(df2021)

El df esta formado por:  958 filas y 9 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  9


In [436]:
# Imprimimos las 3 primeras filas para inspeccionar:
df2021.head(3)

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,Industry,Investor,tablescraper-selected-row 7,Day_List,Year
0,Bytedance,$140,4/7/2017,China,Beijing,Artificial intelligence,"Sequoia Capital China, SIG Asia Investments, S...",12/31/2021,2021
1,SpaceX,$100.3,12/1/2012,United States,Hawthorne,Other,"Founders Fund, Draper Fisher Jurvetson, Rothen...",12/31/2021,2021
2,Stripe,$95,1/23/2014,United States,San Francisco,Fintech,"Khosla Ventures, LowercaseCapital, capitalG",12/31/2021,2021


Vemos que el la información para el año 2021 cambia con respecto a la que teníamos en los años anteriores, por lo que procedemos a convertir las columnas
de manera que todas tengan el mismo nombre.

In [437]:
# se identificaron columnas con diferentes nombres por lo que se procedión a cambiarlas para que todas ssean iguales a la hora de concatenar
df2021 = df2021.rename(columns={'Industry':'City', 'Investor':'Industry','tablescraper-selected-row 7':'Investor'})

In [438]:
percentage_null(df2021)

Unnamed: 0,Investor,Company,Valuation ($B),Date Joined,Country,City,Industry,Day_List,Year
% nulos,0.94,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [439]:
# Imprimimos los nulos para identificarlos, ya que el contenido de los dataset han tenido errores de imputación:
df2021[df2021['Investor'].isna()]

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,City,Industry,Investor,Day_List,Year
10,FTX,$25,7/20/2021,Hong Kong,Fintech,"Sequoia Capital, Thoma Bravo, Softbank",,12/31/2021,2021
535,$1.5,12/17/2021,United States,San Francisco,Internet software & services,"Accel, Benchmark, SV Angel",,12/31/2021,2021
686,Amber Group,$1.1,6/21/2021,Hong Kong,Fintech,"Tiger Global Management, Tiger Brokers, DCM Ve...",,12/31/2021,2021
722,LinkSure Network,$1,1/1/2015,China,Shanghai,Mobile & telecommunications,,12/31/2021,2021
747,WeLab,$1,11/8/2017,Hong Kong,Fintech,"Sequoia Capital China, ING, Alibaba Entreprene...",,12/31/2021,2021
851,Moglix,$1,5/17/2021,Singapore,Singapore,E-commerce & direct-to-consumer,,12/31/2021,2021
854,Matrixport,$1,6/1/2021,Singapore,Fintech,"Dragonfly Captial, Qiming Venture Partners, DS...",,12/31/2021,2021
872,bolttech,$1,7/1/2021,Singapore,Fintech,"Mundi Ventures, Doqling Capital Partners, Acti...",,12/31/2021,2021
883,NIUM,$1,7/13/2021,Singapore,Fintech,"Vertex Ventures SE Asia, Global Founders Capit...",,12/31/2021,2021


In [440]:
# Reemplazamos nulos en la columna 'Select Investors' vamos a reemplazar por la pabra: 'no_inversor'
df2021['Investor'] = df2021['Investor'].fillna('no_inversor')

Dentro de los valores nulos identificamos una columna que presenta un nombre que extraño, por lo que se peude ver en realidad es que $1.5 en realizad corresponde al valor y no se tiene el nombre de la empresa, por lo que tosas sus columnas uqedaron desfasadas. Se procede a elimiar esta fila

In [441]:
# filtramos la fila donde el nombre de la companía es "$1.5" 
df2021[df2021['Company'] == '$1.5']

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,City,Industry,Investor,Day_List,Year
535,$1.5,12/17/2021,United States,San Francisco,Internet software & services,"Accel, Benchmark, SV Angel",no_inversor,12/31/2021,2021


In [442]:
# Procedemos a eliminarla ya que carecemos de este nombre y no podemos continuar con la busqueda de este dato faltante.
drop = df2021[df2021['Company'] == '$1.5'].index
df2021.drop(drop, inplace=True)

In [443]:
# Utilizamos nuestra función para transformar las columnas: Valuation y Date Joined.
transform(df2021)
# Vemos que nuestras columnas presentan el tipo de dato correccto
df2021.info()

<class 'pandas.core.frame.DataFrame'>
Index: 957 entries, 0 to 957
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Company         957 non-null    object        
 1   Valuation ($B)  957 non-null    float64       
 2   Date Joined     957 non-null    datetime64[ns]
 3   Country         957 non-null    object        
 4   City            957 non-null    object        
 5   Industry        957 non-null    object        
 6   Investor        957 non-null    object        
 7   Day_List        957 non-null    datetime64[ns]
 8   Year            957 non-null    int64         
dtypes: datetime64[ns](2), float64(1), int64(1), object(5)
memory usage: 74.8+ KB


#### 2022

Para el año 2022, conseguimos otra fuente por lo que tendremos que hacer cambios a las columnas para poder concatenar:

El archivo es un .csv. Presentaba una columna extra:'Unnamed: 0' que se eliminó y reenombramos una columna para que tenga el mismo nombre que los df anteriores.

In [444]:
# Leemos el dataset y le creamos una columna que corresponde al año de la lista
df2022 = pd.read_csv('Data/unicorn_cb_15_nov_22.csv')
df2022['Day_List'] = '11/15/2022'
df2022['Year'] = 2022

In [445]:
# Imprimimos el reporte inicial
reporte(df2022)

El df esta formado por:  1201 filas y 10 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  19


In [446]:
# Imprimimos las 3 primeras filas para inspeccionar:
df2022.head(3)

Unnamed: 0.1,Unnamed: 0,Company,Valuation ($B),Date Joined,Country,City,Industry,Select Investors,Day_List,Year
0,0,ByteDance,$140,4/7/2017,China,Beijing,Artificial intelligence,"Sequoia Capital China, SIG Asia Investments, S...",11/15/2022,2022
1,1,SpaceX,$127,12/1/2012,United States,Hawthorne,Other,"Founders Fund, Draper Fisher Jurvetson, Rothen...",11/15/2022,2022
2,2,SHEIN,$100,7/3/2018,China,Shenzhen,E-commerce & direct-to-consumer,"Tiger Global Management, Sequoia Capital China...",11/15/2022,2022


In [447]:
# Eliminamos la columna: 'Unnamed: 0' y reenombramos la columna: 'Select Investors'
df2022 = df2022.drop(['Unnamed: 0'],axis=1)
df2022 = df2022.rename(columns={'Select Investors':'Investor'})

In [448]:
# Calculamos e identificamos en que columna estan nuestros valores nulos:
percentage_null(df2022)

Unnamed: 0,City,Investor,Company,Valuation ($B),Date Joined,Country,Industry,Day_List,Year
% nulos,1.5,0.08,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [449]:
# Reemplazamos nulos en la columna 'Select Investors' vamos a reemplazar por la pabra: 'no_inversor'
df2022['Investor'] = df2022['Investor'].fillna('no_inversor')

In [450]:
# Utilizamos nuestra función para transformar las columnas: Valuation y Date Joined.
transform(df2022)
# Vemos que nuestras columnas presentan el tipo de dato correccto
df2022.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1201 entries, 0 to 1200
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Company         1201 non-null   object        
 1   Valuation ($B)  1201 non-null   float64       
 2   Date Joined     1201 non-null   datetime64[ns]
 3   Country         1201 non-null   object        
 4   City            1183 non-null   object        
 5   Industry        1201 non-null   object        
 6   Investor        1201 non-null   object        
 7   Day_List        1201 non-null   datetime64[ns]
 8   Year            1201 non-null   int64         
dtypes: datetime64[ns](2), float64(1), int64(1), object(5)
memory usage: 84.6+ KB


### Lectura y tranformación del dataframes del 2023

Este df lo vamoa a utlizar tanto para hacer tableros y anlálisis de este año específico, así como tambien para unirlo con el resto de los años anterios y asi poder hacer predicciones y diferentes comparaciones anuales.

In [451]:
# Leemos el dataset y le creamos una columna que corresponde al año de la lista
df2023 = pd.read_excel('Data/CB-Insights_31_05_2023.xlsx')
df2023['Day_List'] = '05/31/2023'
df2023['Year'] = 2023

#### Procesamiento:

In [452]:
# Imprimimos el reporte inicial
reporte(df2023)

El df esta formado por:  1215 filas y 9 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  20


##### Cambio de nombre de las columnas:

In [453]:
# Imprimimos las 3 primeras lineas para ispeccionar:
df2023.head(3)

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,City,Industry,Select Investors,Day_List,Year
0,ByteDance,225.0,2017-04-07,China,Beijing,Media & Entertainment,"Sequoia Capital China, SIG Asia Investments, S...",05/31/2023,2023
1,SpaceX,137.0,2012-12-01,United States,Hawthorne,Industrials,"Founders Fund, Draper Fisher Jurvetson, Rothen...",05/31/2023,2023
2,SHEIN,100.0,2018-07-03,China,Shenzhen,Consumer & Retail,"Tiger Global Management, Sequoia Capital China...",05/31/2023,2023


Se realiza un cambio de nombre a las columnas para que coincidan con el resto de dataset por años.

In [454]:
# Transformamos los nombres de las columnas para que coincidan con el resto de los df
df2023 = df2023.rename(columns={'Select Investors':'Investor'})

##### Valores Nulos

In [455]:
# Calculamos e identificamos en que columna estan nuestros valores nulos:
percentage_null(df2023)

Unnamed: 0,City,Investor,Company,Valuation ($B),Date Joined,Country,Industry,Day_List,Year
% nulos,1.48,0.16,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [456]:
# Para la columna 'City' vamos a reemplazar por la pabra: 'no_data'
df2023['City'] = df2023['City'].fillna('no_data')

In [457]:
# Para la columna 'Select Investors	' vamos a reemplazar por la pabra: 'no_inversor'
df2023['Investor'] = df2023['Investor'].fillna('no_inversor')

##### Transformación de Columnas

In [471]:
# Utilizamos nuestra función para transformar las columnas: Valuation y Date Joined.
transform(df2019)
# Vemos que nuestras columnas presentan el tipo de dato correccto
df2019.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 430 entries, 0 to 429
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Company         430 non-null    object        
 1   Valuation ($B)  430 non-null    float64       
 2   Date Joined     430 non-null    datetime64[ns]
 3   Country         430 non-null    object        
 4   Industry        430 non-null    object        
 5   Investor        430 non-null    object        
 6   Day_List        430 non-null    datetime64[ns]
 7   Year            430 non-null    int64         
dtypes: datetime64[ns](2), float64(1), int64(1), object(4)
memory usage: 27.0+ KB


### Transformación del df 2023 para poder hacer un ***merge*** con los anteriores

In [459]:
# Cremos una nueva variable para transformar las columnas de manera que luego podamos concatenar los dataframes de todos los años
df2023_to_concat =df2023.copy()

In [472]:
# Seleccionamos solamente las columnas que son iguales en los anteriores df
df2023_to_concat = df2023_to_concat[['Company', 'Valuation ($B)', 'Date Joined', 'Country','Industry','Investor', 'Day_List','Year', 'City']]

### Hacemos un Marge con todos los años:

In [473]:
unicorns = pd.concat([df2015,df2016,df2017,df2018,df2019,df2020,df2021,df2022,df2023_to_concat],axis=0)

## Procesamiento del nuevo dataframe con todos los años:

In [474]:
# Imprimimos el reporte inicial, para ver como se han concatenado los valores
reporte(unicorns)

El df esta formado por:  5170 filas y 9 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  1815


### Valores Nulos

In [475]:
# Calculamos e identificamos en que columna estan nuestros valores nulos:
percentage_null(unicorns)

Unnamed: 0,City,Company,Valuation ($B),Date Joined,Country,Industry,Investor,Day_List,Year
% nulos,35.11,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


Podemos ver que los valores nulos corresponden a la Ciudad  ya que los primeros años no presentaban esta información.

Se proceder a reemplazar esos valores nulos por palabras así evitaremos futuros errores

In [476]:
# Para la columna 'City' vamos a reemplazar por la pabra: 'no_data'
unicorns['City'] = unicorns['City'].fillna('no_data')

### Revisón final

Listo ahora ya tenemos nuestro dataset listo para ser utilizado:

In [477]:
reporte(unicorns)

El df esta formado por:  5170 filas y 9 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  0


In [483]:
transform(unicorns)

In [484]:
unicorns.dtypes

Company                   object
Valuation ($B)           float64
Date Joined       datetime64[ns]
Country                   object
Industry                  object
Investor                  object
Day_List          datetime64[ns]
Year                       int64
City                      object
dtype: object

# Análisis Exploratorio de Datos (EDA)

***Contenido de las Columnas***:
* Company: Nombre de la empresa
* Valuation ($B): Valoración de la empresa en miles de millones de dólares
* Date Joined: la fecha en la que la empresa alcanzó los 1.000 millones de dólares de valoración
* Country: País en el que se fundó la empresa
* Industry: industria de la empresa
* Investor: las 4 principales empresas inversoras o inversores individuales (algunos tienen menos de 4)
* Year: Año de la lista
* City: Ciudad en la que se fundó la empresa.

In [467]:
unicorns.head()
 

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,Industry,Investor,Day_List,Year,City
0,Uber,51.0,2013-08-23,United States,On-Demand,"Lowercase Capital,\n\t Benchmark Capital, Goo...",2015-12-11 00:00:00,2015,no_data
1,Xiaomi,46.0,2011-12-21,China,Hardware,"Digital Sky Technologies,\n\t QiMing Venture ...",2015-12-11 00:00:00,2015,no_data
2,Airbnb,25.5,2011-07-26,United States,eCommerce/Marketplace,"General Catalyst Partners,\n\t Andreessen Hor...",2015-12-11 00:00:00,2015,no_data
3,Palantir\n\t Technologies,20.0,2011-05-05,United States,Big Data,"RRE Ventures, Founders\n\t Fund, In-Q-Tel",2015-12-11 00:00:00,2015,no_data
4,Snapchat,16.0,2013-12-11,United States,Social,"Benchmark Capital, General\n\t Catalyst Partn...",2015-12-11 00:00:00,2015,no_data


In [485]:
unicorns.dtypes

Company                   object
Valuation ($B)           float64
Date Joined       datetime64[ns]
Country                   object
Industry                  object
Investor                  object
Day_List          datetime64[ns]
Year                       int64
City                      object
dtype: object

## Top 10 de empresas unicornios


In [486]:
top_10_2023 = unicorns[unicorns['Year']==2023].head(10)
top_10_2023

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,Industry,Investor,Day_List,Year,City
0,ByteDance,225.0,2017-04-07,China,Media & Entertainment,"Sequoia Capital China, SIG Asia Investments, S...",2023-05-31,2023,Beijing
1,SpaceX,137.0,2012-12-01,United States,Industrials,"Founders Fund, Draper Fisher Jurvetson, Rothen...",2023-05-31,2023,Hawthorne
2,SHEIN,100.0,2018-07-03,China,Consumer & Retail,"Tiger Global Management, Sequoia Capital China...",2023-05-31,2023,Shenzhen
3,Stripe,50.0,2014-01-23,United States,Financial Services,"Khosla Ventures, LowercaseCapital, capitalG",2023-05-31,2023,San Francisco
4,Canva,40.0,2018-01-08,Australia,Enterprise Tech,"Sequoia Capital China, Blackbird Ventures, Mat...",2023-05-31,2023,Surry Hills
5,Revolut,33.0,2018-04-26,United Kingdom,Financial Services,"Index Ventures, DST Global, Ribbit Capital",2023-05-31,2023,London
6,Epic Games,31.5,2018-10-26,United States,Media & Entertainment,"Tencent Holdings, KKR, Smash Ventures",2023-05-31,2023,Cary
7,Databricks,31.0,2019-02-05,United States,Enterprise Tech,"Andreessen Horowitz, New Enterprise Associates...",2023-05-31,2023,San Francisco
8,Fanatics,31.0,2012-06-06,United States,Consumer & Retail,"SoftBank Group, Andreessen Horowitz, Temasek H...",2023-05-31,2023,Jacksonville
9,OpenAI,29.0,2019-07-22,United States,Enterprise Tech,Khosla Ventures,2023-05-31,2023,San Francisco


In [488]:
unicorns[unicorns['Company']== 'bard']

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,Industry,Investor,Day_List,Year,City


In [494]:
df3333 = pd.read_csv('Unicorn+Companies/Unicorn_Companies.csv')

## Qué inversores han financiado la mayor cantidad de unicornios? 

In [490]:
def obtener_inversores(df):
    lista_inversores = []

    for inversores in df['Investor']:
        lista_inversores.extend(inversores.split(','))

    lista_inversores = [inversor.strip() for inversor in lista_inversores]

    return lista_inversores



In [493]:
Investor = obtener_inversores(unicorns)
len(Investor)

14486

## ¿Qué países tienen más unicornios? ¿Hay ciudades que parecen ser centros de la industria?