# Validar y limpiar datos

## Importaciones y carga de datos

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

### Carga el conjunto de datos



Los datos contienen detalles sobre las empresas unicornio, como la fecha de fundación, la fecha en que alcanzaron el estatus de unicornio y su valoración actual. Carga el conjunto de datos  `Modified_Unicorn_Companies.csv`  como  `companies`  y muestra las primeras cinco filas. Las variables en el conjunto de datos se han ajustado para adaptarse a los objetivos de este laboratorio, por lo que pueden ser diferentes de datos similares utilizados en laboratorios anteriores.

In [4]:

# Ejecutar este codigo para que pandas muestre todas las columnas
pd.set_option('display.max_columns', None)

In [5]:
companias = pd.read_csv('Modified_Unicorn_Companies.csv')

print(companias.shape)
companias.info()
companias.head()

(1074, 10)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1074 entries, 0 to 1073
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Company           1074 non-null   object
 1   Valuation         1074 non-null   int64 
 2   Date Joined       1074 non-null   object
 3   Industry          1074 non-null   object
 4   City              1057 non-null   object
 5   Country/Region    1074 non-null   object
 6   Continent         1074 non-null   object
 7   Year Founded      1074 non-null   int64 
 8   Funding           1074 non-null   object
 9   Select Investors  1074 non-null   object
dtypes: int64(2), object(8)
memory usage: 84.0+ KB


Unnamed: 0,Company,Valuation,Date Joined,Industry,City,Country/Region,Continent,Year Founded,Funding,Select Investors
0,Bytedance,180,2017-04-07,Artificial intelligence,Beijing,China,Asia,2012,$8B,"Sequoia Capital China, SIG Asia Investments, S..."
1,SpaceX,100,2012-12-01,Other,Hawthorne,United States,North America,2002,$7B,"Founders Fund, Draper Fisher Jurvetson, Rothen..."
2,SHEIN,100,2018-07-03,E-commerce & direct-to-consumer,Shenzhen,China,Asia,2008,$2B,"Tiger Global Management, Sequoia Capital China..."
3,Stripe,95,2014-01-23,FinTech,San Francisco,United States,North America,2010,$2B,"Khosla Ventures, LowercaseCapital, capitalG"
4,Klarna,46,2011-12-12,Fintech,Stockholm,Sweden,Europe,2005,$4B,"Institutional Venture Partners, Sequoia Capita..."


## Limpieza de Datos

### Tipos de datos

In [6]:
# Tipos de datos de las columnas
companias.dtypes

Company             object
Valuation            int64
Date Joined         object
Industry            object
City                object
Country/Region      object
Continent           object
Year Founded         int64
Funding             object
Select Investors    object
dtype: object

In [7]:
# transformamos el tipo de datos de Date Joined a tipo datetime
companias['Date Joined'] = pd.to_datetime(companias['Date Joined'])
companias.dtypes

Company                     object
Valuation                    int64
Date Joined         datetime64[ns]
Industry                    object
City                        object
Country/Region              object
Continent                   object
Year Founded                 int64
Funding                     object
Select Investors            object
dtype: object

In [8]:
# creamos columna nueva years to unicorn

companias['Years To Unicorn'] = companias['Date Joined'].dt.year -\
                                companias['Year Founded']

companias['Years To Unicorn']

0        5
1       10
2       10
3        4
4        6
        ..
1069     5
1070     2
1071     3
1072    16
1073     6
Name: Years To Unicorn, Length: 1074, dtype: int64

In [9]:
companias.head()

Unnamed: 0,Company,Valuation,Date Joined,Industry,City,Country/Region,Continent,Year Founded,Funding,Select Investors,Years To Unicorn
0,Bytedance,180,2017-04-07,Artificial intelligence,Beijing,China,Asia,2012,$8B,"Sequoia Capital China, SIG Asia Investments, S...",5
1,SpaceX,100,2012-12-01,Other,Hawthorne,United States,North America,2002,$7B,"Founders Fund, Draper Fisher Jurvetson, Rothen...",10
2,SHEIN,100,2018-07-03,E-commerce & direct-to-consumer,Shenzhen,China,Asia,2008,$2B,"Tiger Global Management, Sequoia Capital China...",10
3,Stripe,95,2014-01-23,FinTech,San Francisco,United States,North America,2010,$2B,"Khosla Ventures, LowercaseCapital, capitalG",4
4,Klarna,46,2011-12-12,Fintech,Stockholm,Sweden,Europe,2005,$4B,"Institutional Venture Partners, Sequoia Capita...",6


### Validación de entrada

Los datos presentan algunos problemas con datos incorrectos, filas duplicadas y etiquetas inconsistentes de  `Industry` .

Sigue los pasos a continuación para identificar y corregir cada uno de estos problemas.

In [10]:
companias['Years To Unicorn'].describe()

count    1074.000000
mean        7.013035
std         5.331842
min        -3.000000
25%         4.000000
50%         6.000000
75%         9.000000
max        98.000000
Name: Years To Unicorn, dtype: float64

In [11]:
companias[companias['Years To Unicorn'] < 0]

Unnamed: 0,Company,Valuation,Date Joined,Industry,City,Country/Region,Continent,Year Founded,Funding,Select Investors,Years To Unicorn
527,InVision,2,2017-11-01,Internet software & services,New York,United States,North America,2020,$349M,"FirstMark Capital, Tiger Global Management, IC...",-3


In [12]:
# Replazamos `Year Founded` por el valor real que es 2011

### YOUR CODE HERE ###
companias.loc[companias.Company == 'InVision' , 'Year Founded'] = 2011


companias[companias['Company']=='InVision']

Unnamed: 0,Company,Valuation,Date Joined,Industry,City,Country/Region,Continent,Year Founded,Funding,Select Investors,Years To Unicorn
527,InVision,2,2017-11-01,Internet software & services,New York,United States,North America,2011,$349M,"FirstMark Capital, Tiger Global Management, IC...",-3


In [13]:
companias['Years To Unicorn'] = companias['Date Joined'].dt.year - companias['Year Founded']

companias['Years To Unicorn'].describe()

count    1074.000000
mean        7.021415
std         5.323155
min         0.000000
25%         4.000000
50%         6.000000
75%         9.000000
max        98.000000
Name: Years To Unicorn, dtype: float64

#### Problemas con las etiquetas de  `Industria` 

La empresa te proporcionó la siguiente lista de etiquetas de industria para identificar en los datos de  `Industria` .

**Nota:** Cualquier etiqueta en la columna de  `Industria`  que no esté en  `industry_list`  son errores de ortografía.

In [17]:
# List provided by the company of the expected industry labels in the data
industry_list = [
    'Artificial intelligence', 'Other','E-commerce & direct-to-consumer', 'Fintech',\
    'Internet software & services','Supply chain, logistics, & delivery', 'Consumer & retail',\
    'Data management & analytics', 'Edtech', 'Health', 'Hardware','Auto & transportation', \
    'Travel', 'Cybersecurity','Mobile & telecommunications']
industry_list

['Artificial intelligence',
 'Other',
 'E-commerce & direct-to-consumer',
 'Fintech',
 'Internet software & services',
 'Supply chain, logistics, & delivery',
 'Consumer & retail',
 'Data management & analytics',
 'Edtech',
 'Health',
 'Hardware',
 'Auto & transportation',
 'Travel',
 'Cybersecurity',
 'Mobile & telecommunications']

In [14]:
set(companias.Industry)

{'Artificial Intelligence',
 'Artificial intelligence',
 'Auto & transportation',
 'Consumer & retail',
 'Cybersecurity',
 'Data management & analytics',
 'Data management and analytics',
 'E-commerce & direct-to-consumer',
 'Edtech',
 'FinTech',
 'Fintech',
 'Hardware',
 'Health',
 'Internet software & services',
 'Mobile & telecommunications',
 'Other',
 'Supply chain, logistics, & delivery',
 'Travel'}

Primero, verifica si existen valores en la columna de  `Industria`  que no estén en  `industry_list` . Si es así, ¿cuáles son?

In [16]:
set(companias['Industry']) - set(industry_list)

{'Artificial Intelligence', 'Data management and analytics', 'FinTech'}

Ahora, corrige las entradas incorrectas en la columna de  `Industria`  reemplazándolas con una cadena aprobada de  `industry_list` . Para hacer esto, utiliza el método  `replace()`  de la serie ( `Series` ) en la serie de  `Industria` . Cuando pasas un diccionario al método, reemplazará los datos en la serie donde esos datos coincidan con las claves del diccionario. Los valores que se imputan son los valores del diccionario. Si un valor no está especificado en el diccionario, se conserva el valor original de la serie.
</br></br>

```python
Ejemplo:

 [IN]: columna_a = pd.Series(['A', 'B', 'C', 'D'])
       columna_a

[OUT]: 0    A
       1    B
       2    C
       3    D
       dtype: object

 [IN]: replacement_dict = {'A':'z', 'B':'y', 'C':'x'}
       columna_a = columna_a.replace(replacement_dict)
       columna_a
       
[OUT]: 0    z
       1    y
       2    x
       3    D
       dtype: object
```


1. Crea un diccionario llamado  `replacement_dict`  cuyas claves sean las ortografías incorrectas en la serie de  `Industria`  y cuyos valores sean la ortografía correcta, según se indica en  `industry_list` .

2. Llama al método  `replace()`  en la serie de  `Industria`  y pásale  `replacement_dict`  como argumento. Reasigna el resultado de vuelta a la columna de  `Industria` .

3. Verifica que ya no haya elementos en  `Industria`  que no estén en  `industry_list` .


In [19]:

replacement_dict = {
    'Artificial Intelligence'       : 'Artificial intelligence',
    'Data management and analytics' : 'Data management & analytics',
    'FinTech'                       : 'Fintech'
                   }


companias['Industry'] = companias['Industry'].replace(replacement_dict)


set(companias['Industry']) - set(industry_list)


set()

#### Manejo de filas duplicadas

La empresa mencionó que ninguna empresa debería aparecer en los datos más de una vez.

Verifica que esto sea realmente cierto y, de ser necesario, limpia los datos para que cada empresa aparezca solo una vez.

Comienza verificando qué empresas, en caso de haber, están duplicadas. Filtra los datos para mostrar todas las ocurrencias de esas empresas duplicadas.

In [21]:
companias.duplicated(subset=['Company'], keep=False).value_counts()

False    1068
True        6
dtype: int64

In [22]:
companias[companias.duplicated(subset=['Company'], keep=False)]

Unnamed: 0,Company,Valuation,Date Joined,Industry,City,Country/Region,Continent,Year Founded,Funding,Select Investors,Years To Unicorn
385,BrewDog,2,2017-04-10,Consumer & retail,Aberdeen,United Kingdom,Europe,2007,$233M,"TSG Consumer Partners, Crowdcube",10
386,BrewDog,2,2017-04-10,Consumer & retail,Aberdeen,UnitedKingdom,Europe,2007,$233M,TSG Consumer Partners,10
510,ZocDoc,2,2015-08-20,Health,New York,United States,North America,2007,$374M,"Founders Fund, Khosla Ventures, Goldman Sachs",8
511,ZocDoc,2,2015-08-20,Health,,United States,North America,2007,$374M,Founders Fund,8
1031,SoundHound,1,2018-05-03,Artificial intelligence,Santa Clara,United States,North America,2005,$215M,"Tencent Holdings, Walden Venture Capital, Glob...",13
1032,SoundHound,1,2018-05-03,Other,Santa Clara,United States,North America,2005,$215M,Tencent Holdings,13


**Pregunta: ¿Estas empresas duplicadas parecen ser puntos de datos legítimos o son datos problemáticos?**

- Las empresas duplicadas no son legítimas porque claramente no son diferentes empresas con el mismo nombre. Son la misma empresa representada dos veces con una pequeña variación.

In [32]:
# eliminamos filar duplicadas y nos quedamos con la primera que aparecio
companias = companias.drop_duplicates(subset=['Company'], keep='first')

In [33]:
companias.duplicated(subset=['Company'], keep=False).value_counts()

False    1071
dtype: int64

**Pregunta: ¿Por qué es importante realizar la validación de entrada?**

La validación de entrada es una práctica esencial para garantizar que los datos estén completos, sin errores y sean de alta calidad. Un conjunto de datos de baja calidad puede llevar a un análisis incorrecto o engañoso.

**Pregunta: ¿Qué pasos tomaste para realizar la validación de entrada en este conjunto de datos?**

Los pasos de validación de entrada para este laboratorio incluyeron:

* Corregir valores incorrectos
* Corregir inconsistencias en los datos
* Eliminar datos duplicados

### Convertir datos numéricos en datos categóricos

A veces, querrás simplificar una columna numérica convirtiéndola en una columna categórica. Para hacer esto, un enfoque común es dividir el rango de valores posibles en un número definido de intervalos de tamaño igual y asignar a cada intervalo un nombre. En el siguiente paso, practicarás este proceso.

#### Crear una columna de  `Alta Valoración` 

Los datos en la columna de  `Valoración`  representan cuánto dinero (en miles de millones de dólares, USD) se valora cada empresa. Utiliza la columna de  `Valoración`  para crear una nueva columna llamada  `Alta Valoración` . Para cada empresa, el valor en esta columna deberá ser  `bajo`  si la empresa se encuentra en el 50% inferior de las valoraciones de empresas y  `alto`  si la empresa se encuentra en el 50% superior.


In [36]:
hv = pd.qcut(companias['Valuation'], 2, labels = ['low', 'high'])
hv

0       high
1       high
2       high
3       high
4       high
        ... 
1069     low
1070     low
1071     low
1072     low
1073     low
Name: Valuation, Length: 1071, dtype: category
Categories (2, object): ['low' < 'high']

In [51]:
hv.cat.categories

Index(['low', 'high'], dtype='object')

In [37]:
companias['High Valuation'] = hv

In [38]:
companias

Unnamed: 0,Company,Valuation,Date Joined,Industry,City,Country/Region,Continent,Year Founded,Funding,Select Investors,Years To Unicorn,High Valuation
0,Bytedance,180,2017-04-07,Artificial intelligence,Beijing,China,Asia,2012,$8B,"Sequoia Capital China, SIG Asia Investments, S...",5,high
1,SpaceX,100,2012-12-01,Other,Hawthorne,United States,North America,2002,$7B,"Founders Fund, Draper Fisher Jurvetson, Rothen...",10,high
2,SHEIN,100,2018-07-03,E-commerce & direct-to-consumer,Shenzhen,China,Asia,2008,$2B,"Tiger Global Management, Sequoia Capital China...",10,high
3,Stripe,95,2014-01-23,Fintech,San Francisco,United States,North America,2010,$2B,"Khosla Ventures, LowercaseCapital, capitalG",4,high
4,Klarna,46,2011-12-12,Fintech,Stockholm,Sweden,Europe,2005,$4B,"Institutional Venture Partners, Sequoia Capita...",6,high
...,...,...,...,...,...,...,...,...,...,...,...,...
1069,Zhaogang,1,2017-06-29,E-commerce & direct-to-consumer,Shanghai,China,Asia,2012,$379M,"K2 Ventures, Matrix Partners China, IDG Capital",5,low
1070,Zhuan Zhuan,1,2017-04-18,E-commerce & direct-to-consumer,Beijing,China,Asia,2015,$990M,"58.com, Tencent Holdings",2,low
1071,Zihaiguo,1,2021-05-06,Consumer & retail,Chongqing,China,Asia,2018,$80M,"Xingwang Investment Management, China Capital ...",3,low
1072,Zopa,1,2021-10-19,Fintech,London,United Kingdom,Europe,2005,$792M,"IAG Capital Partners, Augmentum Fintech, North...",16,low


### Convertir datos categóricos en datos numéricos



Tres métodos comunes para convertir datos categóricos en numéricos son:

1. Codificación de etiquetas: el orden importa (etiquetas numéricas ordinales)
2. Codificación de etiquetas: el orden no importa (etiquetas numéricas nominales)
3. Codificación de variables ficticias: el orden no importa (creación de columnas binarias para cada categoría posible contenida en la variable)

La decisión sobre qué método utilizar depende del contexto y debe tomarse caso por caso. Sin embargo, generalmente se hace una distinción entre variables categóricas con igual peso dado a todas las categorías posibles y variables con una estructura jerárquica de importancia para sus categorías posibles.

Por ejemplo, una variable llamada  `materia`  podría tener valores posibles como  `historia` ,  `matemáticas` ,  `literatura` . En este caso, cada materia podría ser **nominal** y tener el mismo nivel de importancia. Sin embargo, podrías tener otra variable llamada  `curso` , cuyos valores posibles son  `primer año` ,  `segundo año` ,  `tercer año` ,  `cuarto año` . En este caso, la variable de curso es **ordinal** y sus valores tienen una estructura jerárquica ordenada de importancia.

Los modelos de aprendizaje automático generalmente requieren que todos los datos sean numéricos, y suelen utilizar la codificación de etiquetas ordinales (método 1) y la codificación de variables ficticias (método 3).

En los siguientes pasos, convertirás las siguientes variables:  `Continente` ,  `País/Región`  e  `Industria` , utilizando cada uno de los enfoques mencionados.

### Convertir  `Continente`  a numérico

Para fines de este ejercicio, supongamos que el grupo de inversión ha especificado que desean dar más peso a los continentes con menos empresas unicornio, ya que creen que esto podría indicar un potencial de mercado no realizado.

**Pregunta: ¿Qué tipo de variable sería la variable  `Continente`  en términos de cómo se convertiría a un tipo de dato numérico?**

* Esto haría que  `Continente`  sea una variable ordinal, ya que se le da más importancia a los continentes con menos empresas unicornio. Existe una jerarquía de importancia.

In [39]:
companias['Continent'].value_counts()

North America    586
Asia             310
Europe           143
South America     21
Oceania            8
Africa             3
Name: Continent, dtype: int64

In [40]:
continent_dict = {'North America': 1,
                  'Asia': 2,
                  'Europe': 3,
                  'South America': 4,
                  'Oceania': 5,
                  'Africa': 6
                 }
companias['Continent Number'] = companias['Continent'].replace(continent_dict)
companias.head()

Unnamed: 0,Company,Valuation,Date Joined,Industry,City,Country/Region,Continent,Year Founded,Funding,Select Investors,Years To Unicorn,High Valuation,Continent Number
0,Bytedance,180,2017-04-07,Artificial intelligence,Beijing,China,Asia,2012,$8B,"Sequoia Capital China, SIG Asia Investments, S...",5,high,2
1,SpaceX,100,2012-12-01,Other,Hawthorne,United States,North America,2002,$7B,"Founders Fund, Draper Fisher Jurvetson, Rothen...",10,high,1
2,SHEIN,100,2018-07-03,E-commerce & direct-to-consumer,Shenzhen,China,Asia,2008,$2B,"Tiger Global Management, Sequoia Capital China...",10,high,2
3,Stripe,95,2014-01-23,Fintech,San Francisco,United States,North America,2010,$2B,"Khosla Ventures, LowercaseCapital, capitalG",4,high,1
4,Klarna,46,2011-12-12,Fintech,Stockholm,Sweden,Europe,2005,$4B,"Institutional Venture Partners, Sequoia Capita...",6,high,3


### Convertir  `País/Región`  a numérico

Ahora, supongamos que dentro de un continente dado, cada  `País/Región`  de una empresa tiene la misma importancia. Con fines analíticos, deseas convertir los valores en esta columna a numéricos sin crear una gran cantidad de columnas ficticias. Utiliza la codificación de etiquetas de esta variable categórica nominal para crear una nueva columna llamada  `País/Región Numérico` , en la cual a cada  `País/Región`  única se le asigna su propio número.

In [54]:
paises =companias['Country/Region'].astype('category').cat.categories
paises

Index(['Argentina', 'Australia', 'Austria', 'Bahamas', 'Belgium', 'Bermuda',
       'Brazil', 'Canada', 'Chile', 'China', 'Colombia', 'Croatia',
       'Czech Republic', 'Denmark', 'Estonia', 'Finland', 'France', 'Germany',
       'Hong Kong', 'India', 'Indonesia', 'Ireland', 'Israel', 'Italy',
       'Japan', 'Lithuania', 'Luxembourg', 'Malaysia', 'Mexico', 'Netherlands',
       'Nigeria', 'Norway', 'Philippines', 'Senegal', 'Singapore',
       'South Africa', 'South Korea', 'Spain', 'Sweden', 'Switzerland',
       'Thailand', 'Turkey', 'United Arab Emirates', 'United Kingdom',
       'United States', 'Vietnam'],
      dtype='object')

In [57]:
paises[44]

'United States'

In [53]:
companias['Country/Region'].astype('category').cat.codes

0        9
1       44
2        9
3       44
4       38
        ..
1069     9
1070     9
1071     9
1072    43
1073    44
Length: 1071, dtype: int8

In [41]:
# Creamos categorias numericas para Country/Region 

companias['Country/Region Numeric'] = companias['Country/Region'].astype('category').cat.codes

companias.head()

Unnamed: 0,Company,Valuation,Date Joined,Industry,City,Country/Region,Continent,Year Founded,Funding,Select Investors,Years To Unicorn,High Valuation,Continent Number,Country/Region Numeric
0,Bytedance,180,2017-04-07,Artificial intelligence,Beijing,China,Asia,2012,$8B,"Sequoia Capital China, SIG Asia Investments, S...",5,high,2,9
1,SpaceX,100,2012-12-01,Other,Hawthorne,United States,North America,2002,$7B,"Founders Fund, Draper Fisher Jurvetson, Rothen...",10,high,1,44
2,SHEIN,100,2018-07-03,E-commerce & direct-to-consumer,Shenzhen,China,Asia,2008,$2B,"Tiger Global Management, Sequoia Capital China...",10,high,2,9
3,Stripe,95,2014-01-23,Fintech,San Francisco,United States,North America,2010,$2B,"Khosla Ventures, LowercaseCapital, capitalG",4,high,1,44
4,Klarna,46,2011-12-12,Fintech,Stockholm,Sweden,Europe,2005,$4B,"Institutional Venture Partners, Sequoia Capita...",6,high,3,38


In [44]:
companias.dtypes


Company                           object
Valuation                          int64
Date Joined               datetime64[ns]
Industry                          object
City                              object
Country/Region                    object
Continent                         object
Year Founded                       int64
Funding                           object
Select Investors                  object
Years To Unicorn                   int64
High Valuation                  category
Continent Number                   int64
Country/Region Numeric              int8
dtype: object

### Convertir  `Industria`  a numérico

Finalmente, crea variables ficticias para los valores en la columna de  `Industria` .

In [58]:
pd.get_dummies(companies['Industry'])

Unnamed: 0,Artificial intelligence,Auto & transportation,Consumer & retail,Cybersecurity,Data management & analytics,E-commerce & direct-to-consumer,Edtech,Fintech,Hardware,Health,Internet software & services,Mobile & telecommunications,Other,"Supply chain, logistics, & delivery",Travel
0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0
2,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1070,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0
1071,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0
1072,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0
1073,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0


In [59]:
industry_encoded = pd.get_dummies(companies['Industry'])

# Combinamos copmpanias con industry_encoded 
companias = pd.concat([companias, industry_encoded], axis=1)

In [61]:
companias.columns

Index(['Company', 'Valuation', 'Date Joined', 'Industry', 'City',
       'Country/Region', 'Continent', 'Year Founded', 'Funding',
       'Select Investors', 'Years To Unicorn', 'High Valuation',
       'Continent Number', 'Country/Region Numeric', 'Artificial intelligence',
       'Auto & transportation', 'Consumer & retail', 'Cybersecurity',
       'Data management & analytics', 'E-commerce & direct-to-consumer',
       'Edtech', 'Fintech', 'Hardware', 'Health',
       'Internet software & services', 'Mobile & telecommunications', 'Other',
       'Supply chain, logistics, & delivery', 'Travel'],
      dtype='object')

In [63]:
companias.head()

Unnamed: 0,Company,Valuation,Date Joined,Industry,City,Country/Region,Continent,Year Founded,Funding,Select Investors,Years To Unicorn,High Valuation,Continent Number,Country/Region Numeric,Artificial intelligence,Auto & transportation,Consumer & retail,Cybersecurity,Data management & analytics,E-commerce & direct-to-consumer,Edtech,Fintech,Hardware,Health,Internet software & services,Mobile & telecommunications,Other,"Supply chain, logistics, & delivery",Travel
0,Bytedance,180.0,2017-04-07,Artificial intelligence,Beijing,China,Asia,2012.0,$8B,"Sequoia Capital China, SIG Asia Investments, S...",5.0,high,2.0,9.0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,SpaceX,100.0,2012-12-01,Other,Hawthorne,United States,North America,2002.0,$7B,"Founders Fund, Draper Fisher Jurvetson, Rothen...",10.0,high,1.0,44.0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0
2,SHEIN,100.0,2018-07-03,E-commerce & direct-to-consumer,Shenzhen,China,Asia,2008.0,$2B,"Tiger Global Management, Sequoia Capital China...",10.0,high,2.0,9.0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0
3,Stripe,95.0,2014-01-23,Fintech,San Francisco,United States,North America,2010.0,$2B,"Khosla Ventures, LowercaseCapital, capitalG",4.0,high,1.0,44.0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0
4,Klarna,46.0,2011-12-12,Fintech,Stockholm,Sweden,Europe,2005.0,$4B,"Institutional Venture Partners, Sequoia Capita...",6.0,high,3.0,38.0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0


**Pregunta: ¿Qué enfoque de codificación categórica se utilizó para cada variable? ¿Por qué?**

*  `Continente`  - Se utilizó la codificación de etiquetas ordinales porque había un orden jerárquico en las categorías.
*  `País/Región`  - Se utilizó la codificación de etiquetas nominales porque no había un orden jerárquico en las categorías.
*  `Industria`  - Se utilizó la codificación de variables ficticias (dummy encoding) porque no había muchas categorías diferentes representadas y todas eran igualmente importantes.


**Pregunta: ¿Cómo cambia los datos la codificación de etiquetas?**

La codificación de etiquetas cambia los datos asignando a cada categoría un número único en lugar de un valor cualitativo.

**Pregunta: ¿Cuáles son los beneficios de la codificación de etiquetas?**

La codificación de etiquetas es útil en modelos de aprendizaje automático, ya que muchos tipos de aprendizaje automático requieren que todas las variables sean de tipo numérico.

**Pregunta: ¿Cuáles son las desventajas de la codificación de etiquetas?**

La codificación de etiquetas puede dificultar la interpretación directa de lo que representa un valor de columna. Además, puede introducir relaciones no deseadas entre los datos categóricos en un conjunto de datos.

**¿Cuáles son algunas conclusiones clave que aprendiste durante este laboratorio?**

* La validación de entrada es esencial para garantizar que los datos sean de alta calidad y estén libres de errores.
* En la práctica, la validación de entrada requiere prueba y error para identificar problemas y determinar la mejor manera de solucionarlos.
* Tanto la codificación de etiquetas como la codificación de variables ficticias tienen ventajas y desventajas.
* La decisión de utilizar la codificación de etiquetas o la codificación de variables ficticias debe tomarse caso por caso.