# PROYECTO FINAL: PREDICCIÓN DE SALARIOS EN DATA SCIENCE


### Objetivo del Proyecto

Desarrollar una red neuronal artificial que pueda predecir el salario de un puesto de trabajo en Data Science basándose en las características del puesto (descripción, nivel de experiencia, tipo de empleo, ubicación, etc.).


## 1. ANÁLISIS Y EXPLORACIÓN DE LOS DATOS

En esta primera fase del proyecto, nos enfocaremos en conocer profundamente nuestro dataset. Es fundamental entender qué datos tenemos, cómo están estructurados, si tienen problemas (valores nulos, duplicados) y qué patrones iniciales podemos identificar.
Este análisis exploratorio nos permitirá tomar decisiones informadas sobre el preprocesamiento y el diseño de nuestra red neuronal.

### 1.1 Carga y exploración del conjunto de datos


En esta sección realizaremos la carga inicial del dataset y haremos una exploración preliminar para entender:

* ¿Cuántos registros (filas) tenemos? 
* ¿Cuántas variables (columnas) tenemos?
* ¿Cómo se ven los primeros registros?
* ¿Qué nombres tienen las columnas?
* ¿Qué tipo de datos contiene cada columna?

Esta es la fase de "primer contacto" con los datos, similar a cuando tu profesor cargaba los datasets de iris, cereales o dólar en clase.

#### 1.1.1 Importación de librerías necesarias


Explicación:

* pandas: Es la librería principal para trabajar con datos tabulares (como Excel o CSV). La usaremos para leer el archivo y manipular el dataset.
* numpy: Nos permite realizar operaciones matemáticas eficientes con arrays y matrices.
matplotlib: Para crear gráficos y visualizaciones, tal como lo hacía tu profesor en los ejercicios.

In [2]:
# ===============================================
# Importación de librerías
# ===============================================
# Importamos las librerías fundamentales que usaremos en el proyecto

import pandas as pd      # Para manipulación y análisis de datos
import numpy as np       # Para operaciones numéricas y matrices
import matplotlib.pyplot as plt  # Para visualización de datos

print("Librerías importadas exitosamente")

Librerías importadas exitosamente


#### 1.1.2 Carga del dataset


Explicación:

* Usamos pd.read_csv() para leer el archivo CSV y convertirlo en un DataFrame de pandas.
* El DataFrame es una estructura de datos tabular (como una tabla) que facilita el análisis.
* Guardamos los datos en la variable data para trabajar con ellos.

In [11]:
# ===============================================
# Carga del dataset
# ===============================================
# Leemos el archivo CSV que contiene la información de salarios en Data Science

data = pd.read_csv('Dataset/glassdoor_jobs.csv')

print("="*100)
print("DATASET CARGADO EXITOSAMENTE")
print("="*100)

DATASET CARGADO EXITOSAMENTE


#### 1.1.3 Visualización inicial de los datos


Explicación:

* head() muestra por defecto las primeras 5 filas del dataset.
* Esto nos permite ver rápidamente qué tipo de información contiene cada columna.

In [None]:
# ===============================================
# Primeras filas del dataset
# ===============================================
# Mostramos las primeras 5 filas para tener una vista preliminar de cómo lucen los datos

print("\n--- PRIMERAS 5 FILAS DEL DATASET ---")
print(data.head())


--- PRIMERAS 5 FILAS DEL DATASET ---


Unnamed: 0.1,Unnamed: 0,Job Title,Salary Estimate,Job Description,Rating,Company Name,Location,Headquarters,Size,Founded,Type of ownership,Industry,Sector,Revenue,Competitors
0,0,Data Scientist,$53K-$91K (Glassdoor est.),"Data Scientist\nLocation: Albuquerque, NM\nEdu...",3.8,Tecolote Research\n3.8,"Albuquerque, NM","Goleta, CA",501 to 1000 employees,1973,Company - Private,Aerospace & Defense,Aerospace & Defense,$50 to $100 million (USD),-1
1,1,Healthcare Data Scientist,$63K-$112K (Glassdoor est.),What You Will Do:\n\nI. General Summary\n\nThe...,3.4,University of Maryland Medical System\n3.4,"Linthicum, MD","Baltimore, MD",10000+ employees,1984,Other Organization,Health Care Services & Hospitals,Health Care,$2 to $5 billion (USD),-1
2,2,Data Scientist,$80K-$90K (Glassdoor est.),"KnowBe4, Inc. is a high growth information sec...",4.8,KnowBe4\n4.8,"Clearwater, FL","Clearwater, FL",501 to 1000 employees,2010,Company - Private,Security Services,Business Services,$100 to $500 million (USD),-1
3,3,Data Scientist,$56K-$97K (Glassdoor est.),*Organization and Job ID**\nJob ID: 310709\n\n...,3.8,PNNL\n3.8,"Richland, WA","Richland, WA",1001 to 5000 employees,1965,Government,Energy,"Oil, Gas, Energy & Utilities",$500 million to $1 billion (USD),"Oak Ridge National Laboratory, National Renewa..."
4,4,Data Scientist,$86K-$143K (Glassdoor est.),Data Scientist\nAffinity Solutions / Marketing...,2.9,Affinity Solutions\n2.9,"New York, NY","New York, NY",51 to 200 employees,1998,Company - Private,Advertising & Marketing,Business Services,Unknown / Non-Applicable,"Commerce Signals, Cardlytics, Yodlee"


#### 1.1.4 Últimas filas del dataset

Explicación:

* tail() muestra las últimas 5 filas.
* Es útil para verificar si los datos están ordenados de alguna manera especial.
* También nos ayuda a detectar si hay diferencias entre el inicio y el final del dataset.

In [13]:
# ===============================================
# Últimas filas del dataset
# ===============================================
# Mostramos las últimas 5 filas para verificar si hay patrones al final del dataset

print("\n--- ÚLTIMAS 5 FILAS DEL DATASET ---")
data.tail()


--- ÚLTIMAS 5 FILAS DEL DATASET ---


Unnamed: 0.1,Unnamed: 0,Job Title,Salary Estimate,Job Description,Rating,Company Name,Location,Headquarters,Size,Founded,Type of ownership,Industry,Sector,Revenue,Competitors
951,951,Senior Data Engineer,$72K-$133K (Glassdoor est.),THE CHALLENGE\nEventbrite has a world-class da...,4.4,Eventbrite\n4.4,"Nashville, TN","San Francisco, CA",1001 to 5000 employees,2006,Company - Public,Internet,Information Technology,$100 to $500 million (USD),"See Tickets, TicketWeb, Vendini"
952,952,"Project Scientist - Auton Lab, Robotics Institute",$56K-$91K (Glassdoor est.),The Auton Lab at Carnegie Mellon University is...,2.6,Software Engineering Institute\n2.6,"Pittsburgh, PA","Pittsburgh, PA",501 to 1000 employees,1984,College / University,Colleges & Universities,Education,Unknown / Non-Applicable,-1
953,953,Data Science Manager,$95K-$160K (Glassdoor est.),Data Science ManagerResponsibilities:\n\nOvers...,3.2,"Numeric, LLC\n3.2","Allentown, PA","Chadds Ford, PA",1 to 50 employees,-1,Company - Private,Staffing & Outsourcing,Business Services,$5 to $10 million (USD),-1
954,954,Data Engineer,-1,Loading...\n\nTitle: Data Engineer\n\nLocation...,4.8,IGNW\n4.8,"Austin, TX","Portland, OR",201 to 500 employees,2015,Company - Private,IT Services,Information Technology,$25 to $50 million (USD),Slalom
955,955,Research Scientist – Security and Privacy,$61K-$126K (Glassdoor est.),Returning Candidate? Log back in to the Career...,3.6,Riverside Research Institute\n3.6,"Beavercreek, OH","Arlington, VA",501 to 1000 employees,1967,Nonprofit Organization,Federal Agencies,Government,$50 to $100 million (USD),-1


#### 1.1.5 Dimensiones del dataset

Explicación:

* shape es un atributo que devuelve una tupla con (número de filas, número de columnas).
* Las filas representan los registros individuales (cada trabajo/puesto).
* Las columnas representan las características o variables (salario, experiencia, ubicación, etc.).
* Similar a cuando tu profesor verificaba las dimensiones del dataset de iris con data.shape.

In [14]:
# ===============================================
# Dimensiones del dataset
# ===============================================
# Obtenemos el número de filas y columnas

filas, columnas = data.shape

print("\n--- DIMENSIONES DEL DATASET ---")
print(f"Número de filas (registros): {filas}")
print(f"Número de columnas (variables): {columnas}")
print(f"Total de datos en el dataset: {filas * columnas}")


--- DIMENSIONES DEL DATASET ---
Número de filas (registros): 956
Número de columnas (variables): 15
Total de datos en el dataset: 14340


#### 1.1.6 Nombres de las columnas

Explicación:

* data.columns nos da una lista con los nombres de todas las columnas.
* Usamos un bucle for con enumerate() para mostrar cada columna numerada.
* Esto nos ayuda a identificar qué información tenemos disponible para nuestro análisis.

In [15]:
# ===============================================
# Nombres de las columnas
# ===============================================
# Listamos todas las columnas disponibles en el dataset

print("\n--- NOMBRES DE LAS COLUMNAS ---")
print(f"Total de columnas: {len(data.columns)}")
print("\nLista de columnas:")
for i, columna in enumerate(data.columns, 1):
    print(f"  {i}. {columna}")


--- NOMBRES DE LAS COLUMNAS ---
Total de columnas: 15

Lista de columnas:
  1. Unnamed: 0
  2. Job Title
  3. Salary Estimate
  4. Job Description
  5. Rating
  6. Company Name
  7. Location
  8. Headquarters
  9. Size
  10. Founded
  11. Type of ownership
  12. Industry
  13. Sector
  14. Revenue
  15. Competitors


#### 1.1.7 Información general del dataset

Explicación:

info() proporciona un resumen completo muy útil que incluye:

* Índice del DataFrame
* Nombre de cada columna
* Número de valores no nulos en cada columna
* Tipo de dato de cada columna (int64, float64, object, etc.)
* Uso de memoria del DataFrame

In [16]:
# ===============================================
# Información general del dataset
# ===============================================
# Obtenemos un resumen completo: tipos de datos, valores no nulos, uso de memoria

print("\n--- INFORMACIÓN GENERAL DEL DATASET ---")
data.info()


--- INFORMACIÓN GENERAL DEL DATASET ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 956 entries, 0 to 955
Data columns (total 15 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Unnamed: 0         956 non-null    int64  
 1   Job Title          956 non-null    object 
 2   Salary Estimate    956 non-null    object 
 3   Job Description    956 non-null    object 
 4   Rating             956 non-null    float64
 5   Company Name       956 non-null    object 
 6   Location           956 non-null    object 
 7   Headquarters       956 non-null    object 
 8   Size               956 non-null    object 
 9   Founded            956 non-null    int64  
 10  Type of ownership  956 non-null    object 
 11  Industry           956 non-null    object 
 12  Sector             956 non-null    object 
 13  Revenue            956 non-null    object 
 14  Competitors        956 non-null    object 
dtypes: float64(1), int64(2), object(1

#### 1.1.8 Muestra aleatoria del dataset


Explicación:

* sample(10) selecciona 10 filas aleatorias del dataset.
* Esto nos da una perspectiva más diversa que solo ver las primeras o últimas filas.
* Nos ayuda a detectar la variabilidad en los datos.

In [18]:
# ===============================================
# Muestra aleatoria de registros
# ===============================================
# Seleccionamos 10 filas al azar para ver la variedad de datos

print("\n--- MUESTRA ALEATORIA DE 10 REGISTROS ---")
data.sample(10)


--- MUESTRA ALEATORIA DE 10 REGISTROS ---


Unnamed: 0.1,Unnamed: 0,Job Title,Salary Estimate,Job Description,Rating,Company Name,Location,Headquarters,Size,Founded,Type of ownership,Industry,Sector,Revenue,Competitors
478,478,Sr. Enterprise Account Exec- Data Science / ML...,-1,Company Overview\n\nH2O.ai is the open source ...,4.3,h2o.ai\n4.3,"New York, NY","Mountain View, CA",201 to 500 employees,2011,Company - Private,Enterprise Software & Network Solutions,Information Technology,Unknown / Non-Applicable,-1
900,900,Senior Data Scientist Oncology,$107K-$173K (Glassdoor est.),At AstraZeneca we are constantly pushing the b...,3.9,AstraZeneca\n3.9,"Gaithersburg, MD","Cambridge, United Kingdom",10000+ employees,1913,Company - Public,Biotech & Pharmaceuticals,Biotech & Pharmaceuticals,$10+ billion (USD),"Roche, GlaxoSmithKline, Novartis"
5,5,Data Scientist,$71K-$119K (Glassdoor est.),CyrusOne is seeking a talented Data Scientist ...,3.4,CyrusOne\n3.4,"Dallas, TX","Dallas, TX",201 to 500 employees,2000,Company - Public,Real Estate,Real Estate,$1 to $2 billion (USD),"Digital Realty, CoreSite, Equinix"
757,757,Software Engineer (Data Scientist/Software Eng...,$72K-$142K (Glassdoor est.),Software\nEngineer (Data Scientist/Software En...,4.1,Mentor Graphics\n4.1,"Fremont, CA","Wilsonville, OR",5001 to 10000 employees,1981,Company - Public,Computer Hardware & Software,Information Technology,$1 to $2 billion (USD),"Cadence Design Systems, Synopsys, Altium Limited"
391,391,Product Engineer – Data Science,$63K-$101K (Glassdoor est.),Overview\n\n\nThe Product Engineer for applied...,3.5,Esri\n3.5,"Arlington, VA","Redlands, CA",1001 to 5000 employees,1969,Company - Private,Computer Hardware & Software,Information Technology,$1 to $2 billion (USD),Pitney Bowes
644,644,"Associate Director, Platform and DevOps- Data ...",$113K-$196K (Glassdoor est.),Job Description\n\n\nAre you looking for a pat...,3.7,Takeda Pharmaceuticals\n3.7,"Cambridge, MA","OSAKA, Japan",10000+ employees,1781,Company - Public,Biotech & Pharmaceuticals,Biotech & Pharmaceuticals,$10+ billion (USD),"Novartis, Baxter, Pfizer"
512,512,Senior Data Scientist Artificial Intelligence,$60K-$101K (Glassdoor est.),*Organization and Job ID**\nJob ID: 310481\n\n...,3.8,PNNL\n3.8,"Richland, WA","Richland, WA",1001 to 5000 employees,1965,Government,Energy,"Oil, Gas, Energy & Utilities",$500 million to $1 billion (USD),"Oak Ridge National Laboratory, National Renewa..."
106,106,Scientist,$55K-$116K (Glassdoor est.),Type of Requisition:\n\nRegular\n\nClearance L...,3.4,General Dynamics Information Technology\n3.4,"Suitland, MD","Fairfax, VA",10000+ employees,1996,Subsidiary or Business Segment,IT Services,Information Technology,$10+ billion (USD),"SAIC, Leidos, Northrop Grumman"
111,111,"Scientist, Stem Cells and Genomics",-1,"At Alector, our mission is to develop therapie...",5.0,Alector\n5.0,"South San Francisco, CA","South San Francisco, CA",51 to 200 employees,2013,Company - Public,Biotech & Pharmaceuticals,Biotech & Pharmaceuticals,Unknown / Non-Applicable,-1
335,335,"Sr. Scientist, Quantitative Translational Scie...",$117K-$206K (Glassdoor est.),Job Description\n\n\nMillennium Pharmaceutical...,3.7,Takeda Pharmaceuticals\n3.7,"Boston, MA","OSAKA, Japan",10000+ employees,1781,Company - Public,Biotech & Pharmaceuticals,Biotech & Pharmaceuticals,$10+ billion (USD),"Novartis, Baxter, Pfizer"


## 1.2 Análisis estadístico


En esta sección realizaremos un análisis estadístico profundo de nuestros datos. El objetivo es entender:

* ¿Qué tipos de datos tenemos? (numéricos vs categóricos)
* ¿Existen valores nulos o faltantes?
* ¿Cuáles son las medidas de tendencia central? (media, mediana, moda)
* ¿Cuál es la dispersión de los datos? (desviación estándar, rango)
* ¿Hay valores duplicados?
* ¿Cómo se distribuyen las variables categóricas?

Este análisis es fundamental porque nos ayudará a identificar problemas potenciales en los datos y a decidir qué técnicas de preprocesamiento aplicar más adelante.

#### 1.2.1 Clasificación de variables por tipo de dato


Explicación:

* select_dtypes() es un método que filtra columnas según su tipo de dato.
* Las variables numéricas (int64, float64) son aquellas con las que podemos hacer operaciones matemáticas: salario, edad, años de experiencia, etc.
* Las variables categóricas (object) son texto que representa categorías: nivel de experiencia, tipo de empleo, ubicación, etc.
* Esta clasificación es importante porque cada tipo de variable requiere diferentes técnicas de análisis y preprocesamiento.

In [20]:
# ===============================================
# Clasificación de variables
# ===============================================
# Separamos las columnas en numéricas y categóricas para analizarlas apropiadamente


# Identificar columnas numéricas (enteros y flotantes)
columnas_numericas = data.select_dtypes(include=['int64', 'float64']).columns.tolist()

# Identificar columnas categóricas (texto/objetos)
columnas_categoricas = data.select_dtypes(include=['object']).columns.tolist()

print("\n--- CLASIFICACIÓN DE VARIABLES ---")
print(f"\n✓ Variables numéricas ({len(columnas_numericas)}):")
for col in columnas_numericas:
    print(f"    • {col}")

print(f"\n✓ Variables categóricas ({len(columnas_categoricas)}):")
for col in columnas_categoricas:
    print(f"    • {col}")


--- CLASIFICACIÓN DE VARIABLES ---

✓ Variables numéricas (3):
    • Unnamed: 0
    • Rating
    • Founded

✓ Variables categóricas (12):
    • Job Title
    • Salary Estimate
    • Job Description
    • Company Name
    • Location
    • Headquarters
    • Size
    • Type of ownership
    • Industry
    • Sector
    • Revenue
    • Competitors


#### 1.2.2 Detección de valores nulos


Explicación:

* isnull() devuelve True donde hay valores nulos (NaN, None, etc.).
* sum() cuenta cuántos valores nulos hay en cada columna.
* Calculamos el porcentaje para entender la magnitud del problema.
* Los valores nulos son problemáticos porque las redes neuronales no pueden procesarlos directamente.
* En la fase de preprocesamiento decidiremos si eliminar estas filas o imputar valores.

In [22]:
# ===============================================
# Análisis de valores nulos
# ===============================================
# Identificamos columnas con datos faltantes que podrían afectar nuestro modelo

print("\n--- VALORES NULOS POR COLUMNA ---")
valores_nulos = data.isnull().sum()
print(valores_nulos)

# Calcular el porcentaje de valores nulos
print("\n--- PORCENTAJE DE VALORES NULOS ---")
porcentaje_nulos = (data.isnull().sum() / len(data)) * 100
porcentaje_nulos_df = pd.DataFrame({
    'Columna': porcentaje_nulos.index,
    'Valores Nulos': valores_nulos.values,
    'Porcentaje (%)': porcentaje_nulos.values
})
print(porcentaje_nulos_df)

# Resumen de valores nulos
total_nulos = data.isnull().sum().sum()
print(f"\n✓ Total de valores nulos en todo el dataset: {total_nulos}")
print(f"✓ Porcentaje total de datos faltantes: {(total_nulos/(len(data)*data.shape[1]))*100:.2f}%")


--- VALORES NULOS POR COLUMNA ---
Unnamed: 0           0
Job Title            0
Salary Estimate      0
Job Description      0
Rating               0
Company Name         0
Location             0
Headquarters         0
Size                 0
Founded              0
Type of ownership    0
Industry             0
Sector               0
Revenue              0
Competitors          0
dtype: int64

--- PORCENTAJE DE VALORES NULOS ---
              Columna  Valores Nulos  Porcentaje (%)
0          Unnamed: 0              0             0.0
1           Job Title              0             0.0
2     Salary Estimate              0             0.0
3     Job Description              0             0.0
4              Rating              0             0.0
5        Company Name              0             0.0
6            Location              0             0.0
7        Headquarters              0             0.0
8                Size              0             0.0
9             Founded              0    

#### 1.2.3 Estadísticas descriptivas - Variables numéricas

Explicación:

* describe() calcula automáticamente estadísticas descriptivas para todas las columnas numéricas.
Estas métricas nos ayudan a entender:
* Media (mean): El valor promedio, útil para variables con distribución normal.
* Desviación estándar (std): Qué tan dispersos están los datos respecto a la media.
* Cuartiles (25%, 50%, 75%): Dividen los datos en grupos, útiles para detectar valores atípicos.
* Min/Max: El rango de valores posibles.

In [23]:
# ===============================================
# Estadísticas descriptivas para variables numéricas
# ===============================================
# Calculamos medidas de tendencia central y dispersión

print("\n--- ESTADÍSTICAS DESCRIPTIVAS (VARIABLES NUMÉRICAS) ---")
estadisticas = data.describe()
print(estadisticas)

print("\n--- INTERPRETACIÓN DE LAS ESTADÍSTICAS ---")
print("• count: Número de valores no nulos")
print("• mean: Promedio (media aritmética)")
print("• std: Desviación estándar (dispersión de los datos)")
print("• min: Valor mínimo")
print("• 25%: Primer cuartil (25% de los datos están por debajo)")
print("• 50%: Mediana (50% de los datos están por debajo)")
print("• 75%: Tercer cuartil (75% de los datos están por debajo)")
print("• max: Valor máximo")


--- ESTADÍSTICAS DESCRIPTIVAS (VARIABLES NUMÉRICAS) ---
       Unnamed: 0      Rating      Founded
count  956.000000  956.000000   956.000000
mean   477.500000    3.601255  1774.605649
std    276.117729    1.067619   598.942517
min      0.000000   -1.000000    -1.000000
25%    238.750000    3.300000  1937.000000
50%    477.500000    3.800000  1992.000000
75%    716.250000    4.200000  2008.000000
max    955.000000    5.000000  2019.000000

--- INTERPRETACIÓN DE LAS ESTADÍSTICAS ---
• count: Número de valores no nulos
• mean: Promedio (media aritmética)
• std: Desviación estándar (dispersión de los datos)
• min: Valor mínimo
• 25%: Primer cuartil (25% de los datos están por debajo)
• 50%: Mediana (50% de los datos están por debajo)
• 75%: Tercer cuartil (75% de los datos están por debajo)
• max: Valor máximo


#### 1.2.4 Estadísticas adicionales por variable numérica


Explicación:

* Media vs Mediana: Si son muy diferentes, indica que hay valores atípicos (outliers).
* Moda: El valor que más se repite. Útil para variables discretas.
* Varianza: Cuadrado de la desviación estándar, mide la dispersión.
* Rango Intercuartílico (IQR): Diferencia entre Q3 y Q1, útil para detectar outliers.

Valores fuera de [Q1 - 1.5IQR, Q3 + 1.5IQR] se consideran outliers.

In [24]:
# ===============================================
# Estadísticas adicionales detalladas
# ===============================================
# Calculamos métricas adicionales para cada variable numérica

print("\n--- ESTADÍSTICAS ADICIONALES POR VARIABLE NUMÉRICA ---")

for columna in columnas_numericas:
    print(f"\n{columna.upper()}:")
    print(f"  • Media: {data[columna].mean():.2f}")
    print(f"  • Mediana: {data[columna].median():.2f}")
    print(f"  • Moda: {data[columna].mode().values[0] if len(data[columna].mode()) > 0 else 'N/A'}")
    print(f"  • Desviación estándar: {data[columna].std():.2f}")
    print(f"  • Varianza: {data[columna].var():.2f}")
    print(f"  • Rango: {data[columna].min():.2f} - {data[columna].max():.2f}")
    print(f"  • Amplitud (Max - Min): {data[columna].max() - data[columna].min():.2f}")
    
    # Rango intercuartílico (IQR)
    Q1 = data[columna].quantile(0.25)
    Q3 = data[columna].quantile(0.75)
    IQR = Q3 - Q1
    print(f"  • Rango Intercuartílico (IQR): {IQR:.2f}")


--- ESTADÍSTICAS ADICIONALES POR VARIABLE NUMÉRICA ---

UNNAMED: 0:
  • Media: 477.50
  • Mediana: 477.50
  • Moda: 0
  • Desviación estándar: 276.12
  • Varianza: 76241.00
  • Rango: 0.00 - 955.00
  • Amplitud (Max - Min): 955.00
  • Rango Intercuartílico (IQR): 477.50

RATING:
  • Media: 3.60
  • Mediana: 3.80
  • Moda: 3.8
  • Desviación estándar: 1.07
  • Varianza: 1.14
  • Rango: -1.00 - 5.00
  • Amplitud (Max - Min): 6.00
  • Rango Intercuartílico (IQR): 0.90

FOUNDED:
  • Media: 1774.61
  • Mediana: 1992.00
  • Moda: -1
  • Desviación estándar: 598.94
  • Varianza: 358732.14
  • Rango: -1.00 - 2019.00
  • Amplitud (Max - Min): 2020.00
  • Rango Intercuartílico (IQR): 71.00


#### 1.2.5 Análisis de variables categóricas


Explicación:

nunique() cuenta cuántos valores distintos tiene la columna.
value_counts() cuenta cuántas veces aparece cada categoría.
Para variables categóricas es importante saber:

* ¿Cuántas categorías diferentes hay? (si son muchas, podríamos necesitar técnicas de agrupación)
* ¿Hay categorías dominantes? (desbalanceo de clases)
* ¿Hay categorías con muy pocos registros? (podrían no ser útiles para el modelo)

In [25]:
# ===============================================
# Análisis de variables categóricas
# ===============================================
# Analizamos la distribución de frecuencias de las variables de texto

print("\n--- ANÁLISIS DE VARIABLES CATEGÓRICAS ---")

for columna in columnas_categoricas:
    print(f"\n{'='*50}")
    print(f"{columna.upper()}")
    print('='*50)
    print(f"Valores únicos: {data[columna].nunique()}")
    print(f"\nDistribución de frecuencias (Top 10):")
    frecuencias = data[columna].value_counts()
    print(frecuencias.head(10))
    
    # Calcular porcentajes
    print(f"\nDistribución porcentual (Top 10):")
    porcentajes = (data[columna].value_counts() / len(data)) * 100
    print(porcentajes.head(10))


--- ANÁLISIS DE VARIABLES CATEGÓRICAS ---

JOB TITLE
Valores únicos: 328

Distribución de frecuencias (Top 10):
Job Title
Data Scientist                   178
Data Engineer                     68
Senior Data Scientist             42
Data Analyst                      18
Senior Data Engineer              17
Business Intelligence Analyst     13
Senior Data Analyst               12
Lead Data Scientist                8
Data Science Manager               7
Marketing Data Analyst             6
Name: count, dtype: int64

Distribución porcentual (Top 10):
Job Title
Data Scientist                   18.619247
Data Engineer                     7.112971
Senior Data Scientist             4.393305
Data Analyst                      1.882845
Senior Data Engineer              1.778243
Business Intelligence Analyst     1.359833
Senior Data Analyst               1.255230
Lead Data Scientist               0.836820
Data Science Manager              0.732218
Marketing Data Analyst            0.627615
Name: 

#### 1.2.6 Detección de valores duplicados


Explicación:

duplicated() identifica filas que son exactamente iguales a otras.

Los duplicados pueden:
*  Sesgar el análisis estadístico
*  Hacer que el modelo memorice datos repetidos
*  Inflar artificialmente la precisión del modelo

In [26]:
# ===============================================
# Detección de valores duplicados
# ===============================================
# Verificamos si existen registros idénticos en el dataset

print("\n--- ANÁLISIS DE VALORES DUPLICADOS ---")
duplicados = data.duplicated().sum()
print(f"Número de filas duplicadas: {duplicados}")

if duplicados > 0:
    porcentaje_duplicados = (duplicados / len(data)) * 100
    print(f"Porcentaje de duplicados: {porcentaje_duplicados:.2f}%")
    
    # Mostrar algunos ejemplos de duplicados
    print("\nEjemplos de filas duplicadas:")
    print(data[data.duplicated(keep=False)].head(10))
else:
    print("✓ No se encontraron filas duplicadas en el dataset")


--- ANÁLISIS DE VALORES DUPLICADOS ---
Número de filas duplicadas: 0
✓ No se encontraron filas duplicadas en el dataset


#### 1.2.7 Resumen del análisis estadístico

Explicación:

* Este resumen consolida toda la información en un formato fácil de leer.
* Nos da una visión general del estado de nuestros datos antes de continuar.
* La completitud nos dice qué porcentaje del dataset tiene datos válidos.
* Este tipo de resumen es útil para documentación y presentaciones.

In [28]:
# ===============================================
# Resumen ejecutivo
# ===============================================
# Presentamos un resumen consolidado de los hallazgos principales

print("\n" + "="*60)
print("RESUMEN EJECUTIVO DEL ANÁLISIS ESTADÍSTICO")
print("="*60)

print(f"\nCARACTERÍSTICAS GENERALES:")
print(f"  • Total de registros: {len(data):,}")
print(f"  • Total de variables: {data.shape[1]}")
print(f"  • Variables numéricas: {len(columnas_numericas)}")
print(f"  • Variables categóricas: {len(columnas_categoricas)}")

print(f"\nCALIDAD DE LOS DATOS:")
total_nulos = data.isnull().sum().sum()
print(f"  • Valores nulos: {total_nulos:,} ({(total_nulos/(len(data)*data.shape[1]))*100:.2f}%)")
print(f"  • Filas duplicadas: {duplicados} ({(duplicados/len(data))*100:.2f}%)")

print(f"\nCOMPLETITUD DEL DATASET:")
completitud = ((len(data) * data.shape[1] - total_nulos) / (len(data) * data.shape[1])) * 100
print(f"  • Porcentaje de datos completos: {completitud:.2f}%")

print("\n" + "="*60)


RESUMEN EJECUTIVO DEL ANÁLISIS ESTADÍSTICO

CARACTERÍSTICAS GENERALES:
  • Total de registros: 956
  • Total de variables: 15
  • Variables numéricas: 3
  • Variables categóricas: 12

CALIDAD DE LOS DATOS:
  • Valores nulos: 0 (0.00%)
  • Filas duplicadas: 0 (0.00%)

COMPLETITUD DEL DATASET:
  • Porcentaje de datos completos: 100.00%

