# Introducción

(Source: CB Insights & Crunchbase)

unicorn

(License: Public Domain)

Dataset:
* 2015 l 2011 - https://www.kaggle.com/datasets/cheeann290/unicorn
* 2022 - https://www.kaggle.com/datasets/rajkumarpandey02/complete-list-of-unicorn-companies
* 2013 - https://www.cbinsights.com/research-unicorn-companies


# Librerias

In [466]:
import numpy as np
import pandas as pd


#to make graphs
import matplotlib.pyplot as plt
import seaborn as sns

#to make the plotly graphs
import plotly.graph_objs as go
import plotly.express as px

#to make maps
import geopandas as gpd

# warnings
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)
warnings.filterwarnings("ignore", category=RuntimeWarning)

# Lectura de datos y Procesamiento

### Funciones para el procesamiento

In [467]:
def reporte (df):   
    
    """ Esta función recibe un df y nos imprime un reporte inicial del df"""

    print('El df esta formado por: ', df.shape[0], 'filas y', df.shape[1], 'columnas')
    print('Cantidad de valores duplicados: ',df.duplicated().sum())
    print('Cantidad de valores nulos: ', df.isnull().sum().sum())

In [468]:
def percentage_null (df):

    """ esta función calcula el % de valores nulos que presenta el df
    devuelve un df con el % de nulos por cada columna"""
    
    missing_data = pd.isnull(df).sum()
    missing_data_percentage = missing_data/len(df)*100 #Calculamos el % del los datos faltantes en cada columna
    nulos_totales= missing_data_percentage.sort_values(ascending = False) #Ordenamos de mayor a menor
    nulos_totales = pd.DataFrame(nulos_totales,columns=["% nulos"])
    return nulos_totales.round(2).T 

In [469]:
def transform (df):

    """ Esta función recibe un df y nos transforma las columnas Valation en numerica quitando los caacteres $ 
    y tansforma la columna DateJoined en tipo fecha""" 

    if df['Valuation ($B)'].dtypes== object:
        df['Valuation ($B)'] = df['Valuation ($B)'].str.replace('$',' ')
        df['Valuation ($B)'] = pd.to_numeric(df['Valuation ($B)'])

    if df['Date Joined'].dtypes== object:
        df['Date Joined'] = pd.to_datetime(df['Date Joined'],format='%m/%d/%Y')

    if df['Year'].dtypes== object:
        df['Year'] = pd.to_datetime(df['Year'],format='%Y')

    

### Trabajamos con los dataframes desde 2015 al 2022

#### 2015

In [470]:
# Leemos el dataset y le creamos una columna que corresponde al año de la lista
df2015 = pd.read_excel('Data/unicorn_cb_11_dec_15.xlsx')
df2015['Year'] = '2015'

In [471]:
# Imprimimos el reporte inicial
reporte(df2015)

El df esta formado por:  144 filas y 7 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  0


In [472]:
# Imprimimos las 3 primeras lineas para ispeccionar:
df2015.head(3)

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,Industry,Investor,Year
0,Uber,$51,8/23/2013,United States,On-Demand,"Lowercase Capital,\n\t Benchmark Capital, Goo...",2015
1,Xiaomi,$46,12/21/2011,China,Hardware,"Digital Sky Technologies,\n\t QiMing Venture ...",2015
2,Airbnb,$25.5,7/26/2011,United States,eCommerce/Marketplace,"General Catalyst Partners,\n\t Andreessen Hor...",2015


In [473]:
# Utilizamos nuestra función para transformar las columnas: Valuation y Date Joined.
transform(df2015)

In [474]:
# Vemos que nuestras columnas presentan el tipo de dato correccto
df2015.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 144 entries, 0 to 143
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Company         144 non-null    object        
 1   Valuation ($B)  144 non-null    float64       
 2   Date Joined     144 non-null    datetime64[ns]
 3   Country         144 non-null    object        
 4   Industry        144 non-null    object        
 5   Investor        144 non-null    object        
 6   Year            144 non-null    datetime64[ns]
dtypes: datetime64[ns](2), float64(1), object(4)
memory usage: 8.0+ KB


#### 2016

In [475]:
# Leemos el dataset y le creamos una columna que corresponde al año de la lista
df2016 = pd.read_excel('Data/unicorn_cb_23_dec_16.xlsx')
df2016['Year'] = '2016'

In [476]:
# Imprimimos el reporte inicial
reporte(df2016)

El df esta formado por:  183 filas y 7 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  0


In [477]:
# Imprimimos las 3 primeras lineas para ispeccionar:
df2016.head(3)

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,Industry,Investor,Year
0,Uber,$68,8/23/2013,United States,On-Demand,"Lowercase Capital,\n\t Benchmark Capital, Goo...",2016
1,Xiaomi,$46,12/21/2011,China,Hardware,"Digital Sky Technologies,\n\t QiMing Venture ...",2016
2,Didi Chuxing,$33.8,12/31/2014,China,On-Demand,"Matrix Partners, Tiger\n\t Global Management,...",2016


In [478]:
# Utilizamos nuestra función para transformar las columnas: Valuation y Date Joined.
transform(df2016)
# Vemos que nuestras columnas presentan el tipo de dato correccto
df2016.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 183 entries, 0 to 182
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Company         183 non-null    object        
 1   Valuation ($B)  183 non-null    float64       
 2   Date Joined     183 non-null    datetime64[ns]
 3   Country         183 non-null    object        
 4   Industry        183 non-null    object        
 5   Investor        183 non-null    object        
 6   Year            183 non-null    datetime64[ns]
dtypes: datetime64[ns](2), float64(1), object(4)
memory usage: 10.1+ KB


#### 2017

In [479]:
# Leemos el dataset y le creamos una columna que corresponde al año de la lista
df2017 = pd.read_excel('Data/unicorn_cb_23_dec_17.xlsx')
df2017['Year'] = '2017'

In [480]:
# Imprimimos el reporte inicial
reporte(df2017)

El df esta formado por:  222 filas y 7 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  0


In [481]:
# Imprimimos las 3 primeras lineas para ispeccionar:
df2017.head(3)

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,Industry,Investor,Year
0,Uber,$68,8/23/2013,United States,On-Demand,"Lowercase Capital,\n\t Benchmark Capital, Goo...",2017
1,Didi Chuxing,$56,12/31/2014,China,On-Demand,"Matrix Partners, Tiger\n\t Global Management,...",2017
2,Xiaomi,$46,12/21/2011,China,Hardware,"Digital Sky Technologies,\n\t QiMing Venture ...",2017


In [482]:
# Utilizamos nuestra función para transformar las columnas: Valuation y Date Joined.
transform(df2017)
# Vemos que nuestras columnas presentan el tipo de dato correccto
df2017.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 222 entries, 0 to 221
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Company         222 non-null    object        
 1   Valuation ($B)  222 non-null    float64       
 2   Date Joined     222 non-null    datetime64[ns]
 3   Country         222 non-null    object        
 4   Industry        222 non-null    object        
 5   Investor        222 non-null    object        
 6   Year            222 non-null    datetime64[ns]
dtypes: datetime64[ns](2), float64(1), object(4)
memory usage: 12.3+ KB


#### 2018

In [483]:
# Leemos el dataset y le creamos una columna que corresponde al año de la lista
df2018 = pd.read_excel('Data/unicorn_cb_29_dec_18.xlsx')
df2018['Year'] = '2018'

In [484]:
# Imprimimos el reporte inicial
reporte(df2018)

El df esta formado por:  305 filas y 7 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  0


In [485]:
# Imprimimos las 3 primeras lineas para ispeccionar:
df2018.head(3)

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,Industry,Investor,Year
0,Toutiao (Bytedance),$75,4/7/2017,China,Digital Media/ AI,"Sequoia Capital China, SIG Asia Investments, S...",2018
1,Uber,$72,8/23/2013,United States,On-Demand,"Lowercase Capital,\n\t Benchmark Capital, Goo...",2018
2,Didi Chuxing,$56,12/31/2014,China,On-Demand,"Matrix Partners, Tiger\n\t Global Management,...",2018


In [486]:
# Utilizamos nuestra función para transformar las columnas: Valuation y Date Joined.
transform(df2018)
# Vemos que nuestras columnas presentan el tipo de dato correccto
df2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 305 entries, 0 to 304
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Company         305 non-null    object        
 1   Valuation ($B)  305 non-null    float64       
 2   Date Joined     305 non-null    datetime64[ns]
 3   Country         305 non-null    object        
 4   Industry        305 non-null    object        
 5   Investor        305 non-null    object        
 6   Year            305 non-null    datetime64[ns]
dtypes: datetime64[ns](2), float64(1), object(4)
memory usage: 16.8+ KB


#### 2019

In [487]:
# Leemos el dataset y le creamos una columna que corresponde al año de la lista
df2019 = pd.read_excel('Data/unicorn_cb_31_dec_19.xlsx')
df2019['Year'] = '2019'

In [488]:
# Imprimimos el reporte inicial
reporte(df2019)

El df esta formado por:  430 filas y 7 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  1


In [489]:
# Calculamos e identificamos en que columna estan nuestros valores nulos:
percentage_null(df2019)

Unnamed: 0,Investor,Company,Valuation ($B),Date Joined,Country,Industry,Year
% nulos,0.23,0.0,0.0,0.0,0.0,0.0,0.0


In [490]:
# Reemplazamos nulos en la columna 'Select Investors' por la pabra: 'no_inversor'
df2019['Investor'] = df2019['Investor'].fillna('no_inversor')

In [491]:
# Utilizamos nuestra función para transformar las columnas: Valuation y Date Joined.
transform(df2019)
# Vemos que nuestras columnas presentan el tipo de dato correccto
df2019.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 430 entries, 0 to 429
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Company         430 non-null    object        
 1   Valuation ($B)  430 non-null    float64       
 2   Date Joined     430 non-null    datetime64[ns]
 3   Country         430 non-null    object        
 4   Industry        430 non-null    object        
 5   Investor        430 non-null    object        
 6   Year            430 non-null    datetime64[ns]
dtypes: datetime64[ns](2), float64(1), object(4)
memory usage: 23.6+ KB


#### 2020

In [492]:
# Leemos el dataset y le creamos una columna que corresponde al año de la lista
df2020 = pd.read_excel('Data/unicorn_cb_31_dec_20.xlsx')
df2020['Year'] = '2020'

In [493]:
# Imprimimos el reporte inicial
reporte(df2020)

El df esta formado por:  515 filas y 7 columnas
Cantidad de valores duplicados:  2
Cantidad de valores nulos:  1


In [494]:
# Calculamos e identificamos en que columna estan nuestros valores nulos:
percentage_null(df2020)

Unnamed: 0,Investor,Company,Valuation ($B),Date Joined,Country,Industry,Year
% nulos,0.19,0.0,0.0,0.0,0.0,0.0,0.0


In [495]:
# Reemplazamos nulos en la columna 'Select Investors' vamos a reemplazar por la pabra: 'no_inversor'
df2020['Investor'] = df2020['Investor'].fillna('no_inversor')

In [496]:
# Eliminamos valores Duplicados:
df2020 = df2020.drop_duplicates()

In [497]:
# Intentando aplicar la funcion: transform(df2020), hemos detectado que el valor de las filas que se detallan a continuación no presentaban valores
# formato fecha, por lo que proedimos a corregir eso:
df2020.loc[[273,274]]

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,Industry,Investor,Year
273,Olive,$1.5,12/1//2020,United States,Internet software & services,"Drive Capital, General Catalyst, Ascension Ven...",2020
274,Strava,$1.5,11/16//2020,United States,Internet software & services,"Jackson Square Ventures, Madrone Capital Partn...",2020


In [498]:
# Las fechas presentaban doble //, por lo que se procede a reemplazar
df2020.at[273, 'Date Joined'] = '12/1/2020'
df2020.at[274, 'Date Joined'] = '11/16/2020'

In [499]:
# Ahora si, utilizamos nuestra función para transformar las columnas: Valuation y Date Joined.
transform(df2020)
# Vemos que nuestras columnas presentan el tipo de dato correccto
df2020.info()

<class 'pandas.core.frame.DataFrame'>
Index: 513 entries, 0 to 514
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Company         513 non-null    object        
 1   Valuation ($B)  513 non-null    float64       
 2   Date Joined     513 non-null    datetime64[ns]
 3   Country         513 non-null    object        
 4   Industry        513 non-null    object        
 5   Investor        513 non-null    object        
 6   Year            513 non-null    datetime64[ns]
dtypes: datetime64[ns](2), float64(1), object(4)
memory usage: 48.2+ KB


#### 2021

In [500]:
# Leemos el dataset y le creamos una columna que corresponde al año de la lista
df2021 = pd.read_excel('Data/unicorn_cb_31_dec_21.xlsx')
df2021['Year'] = '2021'

In [501]:
# Imprimimos el reporte inicial
reporte(df2021)

El df esta formado por:  958 filas y 8 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  9


In [502]:
# Imprimimos las 3 primeras filas para inspeccionar:
df2021.head(3)

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,Industry,Investor,tablescraper-selected-row 7,Year
0,Bytedance,$140,4/7/2017,China,Beijing,Artificial intelligence,"Sequoia Capital China, SIG Asia Investments, S...",2021
1,SpaceX,$100.3,12/1/2012,United States,Hawthorne,Other,"Founders Fund, Draper Fisher Jurvetson, Rothen...",2021
2,Stripe,$95,1/23/2014,United States,San Francisco,Fintech,"Khosla Ventures, LowercaseCapital, capitalG",2021


Vemos que el la información para el año 2021 cambia con respecto a la que teníamos en los años anteriores, por lo que procedemos a convertir las columnas
de manera que todas tengan el mismo nombre.

In [503]:
# se identificaron columnas con diferentes nombres por lo que se procedión a cambiarlas para que todas ssean iguales a la hora de concatenar
df2021 = df2021.rename(columns={'Industry':'City', 'Investor':'Industry','tablescraper-selected-row 7':'Investor'})

In [504]:
percentage_null(df2021)

Unnamed: 0,Investor,Company,Valuation ($B),Date Joined,Country,City,Industry,Year
% nulos,0.94,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [505]:
# Imprimimos los nulos para identificarlos, ya que el contenido de los dataset han tenido errores de imputación:
df2021[df2021['Investor'].isna()]

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,City,Industry,Investor,Year
10,FTX,$25,7/20/2021,Hong Kong,Fintech,"Sequoia Capital, Thoma Bravo, Softbank",,2021
535,$1.5,12/17/2021,United States,San Francisco,Internet software & services,"Accel, Benchmark, SV Angel",,2021
686,Amber Group,$1.1,6/21/2021,Hong Kong,Fintech,"Tiger Global Management, Tiger Brokers, DCM Ve...",,2021
722,LinkSure Network,$1,1/1/2015,China,Shanghai,Mobile & telecommunications,,2021
747,WeLab,$1,11/8/2017,Hong Kong,Fintech,"Sequoia Capital China, ING, Alibaba Entreprene...",,2021
851,Moglix,$1,5/17/2021,Singapore,Singapore,E-commerce & direct-to-consumer,,2021
854,Matrixport,$1,6/1/2021,Singapore,Fintech,"Dragonfly Captial, Qiming Venture Partners, DS...",,2021
872,bolttech,$1,7/1/2021,Singapore,Fintech,"Mundi Ventures, Doqling Capital Partners, Acti...",,2021
883,NIUM,$1,7/13/2021,Singapore,Fintech,"Vertex Ventures SE Asia, Global Founders Capit...",,2021


In [506]:
# Reemplazamos nulos en la columna 'Select Investors' vamos a reemplazar por la pabra: 'no_inversor'
df2021['Investor'] = df2021['Investor'].fillna('no_inversor')

Dentro de los valores nulos identificamos una columna que presenta un nombre que extraño, por lo que se peude ver en realidad es que $1.5 en realizad corresponde al valor y no se tiene el nombre de la empresa, por lo que tosas sus columnas uqedaron desfasadas. Se procede a elimiar esta fila

In [507]:
# filtramos la fila donde el nombre de la companía es "$1.5" 
df2021[df2021['Company'] == '$1.5']

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,City,Industry,Investor,Year
535,$1.5,12/17/2021,United States,San Francisco,Internet software & services,"Accel, Benchmark, SV Angel",no_inversor,2021


In [508]:
# Procedemos a eliminarla ya que carecemos de este nombre y no podemos continuar con la busqueda de este dato faltante.
drop = df2021[df2021['Company'] == '$1.5'].index
df2021.drop(drop, inplace=True)

In [509]:
# Utilizamos nuestra función para transformar las columnas: Valuation y Date Joined.
transform(df2021)
# Vemos que nuestras columnas presentan el tipo de dato correccto
df2021.info()

<class 'pandas.core.frame.DataFrame'>
Index: 957 entries, 0 to 957
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Company         957 non-null    object        
 1   Valuation ($B)  957 non-null    float64       
 2   Date Joined     957 non-null    datetime64[ns]
 3   Country         957 non-null    object        
 4   City            957 non-null    object        
 5   Industry        957 non-null    object        
 6   Investor        957 non-null    object        
 7   Year            957 non-null    datetime64[ns]
dtypes: datetime64[ns](2), float64(1), object(5)
memory usage: 67.3+ KB


#### 2022

Para el año 2022, conseguimos otra fuente por lo que tendremos que hacer cambios a las columnas para poder concatenar:

El archivo es un .csv. Presentaba una columna extra:'Unnamed: 0' que se eliminó y reenombramos una columna para que tenga el mismo nombre que los df anteriores.

In [510]:
# Leemos el dataset y le creamos una columna que corresponde al año de la lista
df2022 = pd.read_csv('Data/unicorn_cb_15_nov_22.csv')
df2022['Year'] = '2022'

In [511]:
# Imprimimos el reporte inicial
reporte(df2022)

El df esta formado por:  1201 filas y 9 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  19


In [512]:
# Imprimimos las 3 primeras filas para inspeccionar:
df2022.head(3)

Unnamed: 0.1,Unnamed: 0,Company,Valuation ($B),Date Joined,Country,City,Industry,Select Investors,Year
0,0,ByteDance,$140,4/7/2017,China,Beijing,Artificial intelligence,"Sequoia Capital China, SIG Asia Investments, S...",2022
1,1,SpaceX,$127,12/1/2012,United States,Hawthorne,Other,"Founders Fund, Draper Fisher Jurvetson, Rothen...",2022
2,2,SHEIN,$100,7/3/2018,China,Shenzhen,E-commerce & direct-to-consumer,"Tiger Global Management, Sequoia Capital China...",2022


In [513]:
# Eliminamos la columna: 'Unnamed: 0' y reenombramos la columna: 'Select Investors'
df2022 = df2022.drop(['Unnamed: 0'],axis=1)
df2022 = df2022.rename(columns={'Select Investors':'Investor'})

In [514]:
# Calculamos e identificamos en que columna estan nuestros valores nulos:
percentage_null(df2022)

Unnamed: 0,City,Investor,Company,Valuation ($B),Date Joined,Country,Industry,Year
% nulos,1.5,0.08,0.0,0.0,0.0,0.0,0.0,0.0


In [515]:
# Reemplazamos nulos en la columna 'Select Investors' vamos a reemplazar por la pabra: 'no_inversor'
df2022['Investor'] = df2022['Investor'].fillna('no_inversor')

In [516]:
# Utilizamos nuestra función para transformar las columnas: Valuation y Date Joined.
transform(df2022)
# Vemos que nuestras columnas presentan el tipo de dato correccto
df2022.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1201 entries, 0 to 1200
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Company         1201 non-null   object        
 1   Valuation ($B)  1201 non-null   float64       
 2   Date Joined     1201 non-null   datetime64[ns]
 3   Country         1201 non-null   object        
 4   City            1183 non-null   object        
 5   Industry        1201 non-null   object        
 6   Investor        1201 non-null   object        
 7   Year            1201 non-null   datetime64[ns]
dtypes: datetime64[ns](2), float64(1), object(5)
memory usage: 75.2+ KB


### Trabajamos con el dataframes del 2023

Este df lo vamoa a utlizar tanto para hacer tableros y anlálisis de este año específico, así como tambien para unirlo con el resto de los años anterios y asi poder hacer predicciones y diferentes comparaciones anuales.

In [517]:
# Leemos el dataset y le creamos una columna que corresponde al año de la lista
df2023 = pd.read_excel('Data/CB-Insights_31_05_2023.xlsx')

#### Procesamiento:

In [518]:
# Imprimimos el reporte inicial
reporte(df2023)

El df esta formado por:  1215 filas y 7 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  20


##### Cambio de nombre de las columnas:

In [519]:
# Imprimimos las 3 primeras lineas para ispeccionar:
df2023.head(3)

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,City,Industry,Select Investors
0,ByteDance,225.0,2017-04-07,China,Beijing,Media & Entertainment,"Sequoia Capital China, SIG Asia Investments, S..."
1,SpaceX,137.0,2012-12-01,United States,Hawthorne,Industrials,"Founders Fund, Draper Fisher Jurvetson, Rothen..."
2,SHEIN,100.0,2018-07-03,China,Shenzhen,Consumer & Retail,"Tiger Global Management, Sequoia Capital China..."


Se realiza un cambio de nombre a las columnas para que coincidan con el resto de dataset por años.

In [520]:
# Transformamos los nombres de las columnas para que coincidan con el resto de los df
df2023 = df2023.rename(columns={'Select Investors':'Investor'})

##### Valores Nulos

In [521]:
# Calculamos e identificamos en que columna estan nuestros valores nulos:
percentage_null(df2023)

Unnamed: 0,City,Investor,Company,Valuation ($B),Date Joined,Country,Industry
% nulos,1.48,0.16,0.0,0.0,0.0,0.0,0.0


In [522]:
# Para la columna 'City' vamos a reemplazar por la pabra: 'no_data'
df2023['City'] = df2023['City'].fillna('no_data')

In [523]:
# Para la columna 'Select Investors	' vamos a reemplazar por la pabra: 'no_inversor'
df2023['Investor'] = df2023['Investor'].fillna('no_inversor')

##### Transformación de Columnas

In [524]:
# Utilizamos nuestra función para transformar las columnas: Valuation y Date Joined.
transform(df2019)
# Vemos que nuestras columnas presentan el tipo de dato correccto
df2019.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 430 entries, 0 to 429
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Company         430 non-null    object        
 1   Valuation ($B)  430 non-null    float64       
 2   Date Joined     430 non-null    datetime64[ns]
 3   Country         430 non-null    object        
 4   Industry        430 non-null    object        
 5   Investor        430 non-null    object        
 6   Year            430 non-null    datetime64[ns]
dtypes: datetime64[ns](2), float64(1), object(4)
memory usage: 23.6+ KB


### Transformación del df 2023 para poder hacer un ***merge*** con los anteriores

In [525]:
# Cremos una nueva variable para transformar las columnas de manera que luego podamos concatenar los dataframes de todos los años
df2023_to_concat =df2023.copy()
df2023_to_concat['Year'] = 2023

In [526]:
# Seleccionamos solamente las columnas que son iguales en los anteriores df
df2023_to_concat = df2023_to_concat[['Company', 'Valuation ($B)', 'Date Joined', 'Country','Industry','Investor', 'Year', 'City']]

### Hacemos un Marge con todos los años:

In [527]:
unicorns = pd.concat([df2015,df2016,df2017,df2018,df2019,df2020,df2021,df2022,df2023_to_concat],axis=0)

## Procesamiento del nuevo dataframe con todos los años:

In [528]:
# Imprimimos el reporte inicial, para ver como se han concatenado los valores
reporte(unicorns)

El df esta formado por:  5170 filas y 8 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  1815


### Valores Nulos

In [529]:
# Calculamos e identificamos en que columna estan nuestros valores nulos:
percentage_null(unicorns)

Unnamed: 0,City,Company,Valuation ($B),Date Joined,Country,Industry,Investor,Year
% nulos,35.11,0.0,0.0,0.0,0.0,0.0,0.0,0.0


Podemos ver que los valores nulos corresponden a la Ciudad  ya que los primeros años no presentaban esta información.

Se proceder a reemplazar esos valores nulos por palabras así evitaremos futuros errores

In [530]:
# Para la columna 'City' vamos a reemplazar por la pabra: 'no_data'
unicorns['City'] = unicorns['City'].fillna('no_data')

### Revisón final

Listo ahora ya tenemos nuestro dataset listo para ser utilizado:

In [531]:
reporte(unicorns)

El df esta formado por:  5170 filas y 8 columnas
Cantidad de valores duplicados:  0
Cantidad de valores nulos:  0


In [532]:
transform(unicorns)

In [533]:
unicorns.dtypes

Company                   object
Valuation ($B)           float64
Date Joined       datetime64[ns]
Country                   object
Industry                  object
Investor                  object
Year              datetime64[ns]
City                      object
dtype: object

# Análisis Exploratorio de Datos (EDA)

In [536]:
unicorns.head()

Unnamed: 0,Company,Valuation ($B),Date Joined,Country,Industry,Investor,Year,City
0,Uber,51.0,2013-08-23,United States,On-Demand,"Lowercase Capital,\n\t Benchmark Capital, Goo...",2015-01-01,no_data
1,Xiaomi,46.0,2011-12-21,China,Hardware,"Digital Sky Technologies,\n\t QiMing Venture ...",2015-01-01,no_data
2,Airbnb,25.5,2011-07-26,United States,eCommerce/Marketplace,"General Catalyst Partners,\n\t Andreessen Hor...",2015-01-01,no_data
3,Palantir\n\t Technologies,20.0,2011-05-05,United States,Big Data,"RRE Ventures, Founders\n\t Fund, In-Q-Tel",2015-01-01,no_data
4,Snapchat,16.0,2013-12-11,United States,Social,"Benchmark Capital, General\n\t Catalyst Partn...",2015-01-01,no_data


In [537]:
# Cantidad de Barios

companies =unicorns[['Company','Year']].value_counts().sort_values(ascending=True).reset_index()

fig1 = px.bar(companies, x= 'Year', y= 'count',
       template= "plotly_dark",
       height=800    
           )
fig1.show()


In [538]:
companies.reset_index()
companies

Unnamed: 0,Company,Year,count
0,Toss,2021-01-01,1
1,17zuoye,2018-01-01,1
2,17zuoye,2019-01-01,1
3,23andMe,2017-01-01,1
4,1KMXC,2021-01-01,1
...,...,...,...
5157,Thoug,2023-01-01,2
5158,Branch,2022-01-01,2
5159,Bolt,2021-01-01,2
5160,Branch,2023-01-01,2
