<a href="https://colab.research.google.com/github/yshungria-uniandes/Data-Science-Fundamentals-/blob/main/Limpieza_de_datos_y_manejo_de_datos_faltantes_(Nulos).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción

La limpieza de datos es una de las etapas más cruciales en el proceso de análisis de datos. Un dataset limpio y bien estructurado es fundamental para obtener resultados precisos y confiables. Los datos faltantes, también conocidos como datos nulos, son uno de los problemas más comunes y desafiantes que enfrentan los científicos de datos. Este capítulo explorará la importancia de la limpieza de datos, diferentes técnicas para manejar datos faltantes y las mejores prácticas para garantizar la integridad y completitud de los datos.


# Por qué es Crucial la Limpieza de Datos

1. Calidad de los Resultados: Los datos sucios pueden llevar a resultados incorrectos y análisis sesgados. La calidad de las decisiones basadas en datos depende directamente de la calidad de los datos utilizados.

2. Eficiencia del Modelo: Los algoritmos de machine learning y los modelos estadísticos funcionan mejor con datos limpios. Datos inconsistentes o incompletos pueden afectar el rendimiento y la precisión de los modelos.

3. Integridad de los Datos: La limpieza de datos garantiza que los datos sean coherentes y válidos, lo que es esencial para mantener la integridad de la base de datos.

4. Experiencia del Usuario: En aplicaciones y productos basados en datos, la experiencia del usuario mejora cuando los datos están bien estructurados y sin errores.


# Completeness (Completitud)

La completitud se refiere al estado en el que todos los datos necesarios están presentes en un dataset. Un dataset completo es aquel que no tiene datos faltantes o nulos. La falta de datos puede surgir por varias razones, como errores en la recolección de datos, problemas de transmisión de datos, o simplemente porque ciertos datos no están disponibles. La completitud es fundamental para asegurar que el análisis y las decisiones basadas en los datos sean precisos y representativos.



## Tipos de Datos Faltantes

1. MCAR (Missing Completely at Random): Los datos faltantes no están relacionados ni con las observaciones de la variable en sí ni con ninguna otra variable del dataset. Su ausencia es completamente aleatoria.

2. MAR (Missing at Random): Los datos faltantes están relacionados con otras variables observadas en el dataset, pero no con la variable en sí.

3. MNAR (Missing Not at Random): Los datos faltantes dependen de la variable misma, es decir, la ausencia de datos está relacionada con el valor de los datos que faltan.


## Técnicas para Manejar Datos Faltantes

In [1]:
# Google Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


1. Identificación de Datos Faltantes: El primer paso en el manejo de datos faltantes es identificarlos. Pandas ofrece varias funciones para detectar datos nulos en un DataFrame.


In [2]:
import pandas as pd



df = pd.read_csv('/content/drive/MyDrive/DataSets/ds_salaries.csv')

# Identificar valores nulos en todo el DataFrame
print(df.isnull().sum())

work_year             0
experience_level      0
employment_type       0
job_title             0
salary                0
salary_currency       0
salary_in_usd         0
employee_residence    0
remote_ratio          0
company_location      0
company_size          0
dtype: int64


In [4]:
# Identificar valores nulos en una columna específica

print(df['salary_in_usd'].isnull().sum())

0


2. Recuperar Datos con la Misma Columna: Cuando los datos faltantes están en una sola columna, una opción es recuperarlos utilizando otras entradas de la misma columna. Esto se puede hacer usando técnicas como la interpolación o el relleno hacia adelante y hacia atrás.

## Interpolación

La interpolación se utiliza para estimar valores faltantes utilizando valores conocidos a ambos lados del dato faltante.



In [15]:
# Rellenar valores nulos con interpolación
df['salary_in_usd'] = df['salary_in_usd'].interpolate()

print(df['salary_in_usd'].isnull().sum())

0


Relleno Hacia Adelante y Hacia Atrás

El relleno hacia adelante (ffill) y el relleno hacia atrás (bfill) utilizan el valor anterior o posterior inmediato para llenar los datos faltantes.

In [16]:
# prompt: # Rellenar valores nulos hacia adelante
# # Rellenar valores nulos hacia atrás

# Rellenar valores nulos hacia adelante
df['salary_in_usd'] = df['salary_in_usd'].fillna(method='ffill')

print(df['salary_in_usd'].isnull().sum())

# Rellenar valores nulos hacia atrás
df['salary_in_usd'] = df['salary_in_usd'].fillna(method='bfill')

print(df['salary_in_usd'].isnull().sum())

0
0


  df['salary_in_usd'] = df['salary_in_usd'].fillna(method='ffill')
  df['salary_in_usd'] = df['salary_in_usd'].fillna(method='bfill')


3. Recuperar Datos con Otras Columnas:Otra técnica para manejar datos faltantes es usar la información de otras columnas que puedan estar relacionadas con la columna con datos faltantes

## Regresión

Puedes utilizar técnicas de regresión para predecir los valores faltantes basados en otras variables del dataset.



In [23]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# Crear un modelo de regresión lineal
model = LinearRegression()

# Filtrar filas sin valores nulos en las columnas relevantes
train_data = df.dropna(subset=['salary_in_usd', 'work_year'])

# Separar las características (X) y el objetivo (y) para el entrenamiento
X_train = train_data[['work_year']]
y_train = train_data['salary_in_usd']

# Entrenar el modelo
model.fit(X_train, y_train)

# Identificar las filas con valores nulos en 'salary_in_usd'
missing_data = df[df['salary_in_usd'].isnull()]

# Verificar que hay datos faltantes para predecir
if not missing_data.empty:
    # Extraer las características para las predicciones
    X_missing = missing_data[['work_year']]

    # Realizar las predicciones y asignarlas a la columna correspondiente
    df.loc[df['salary_in_usd'].isnull(), 'salary_in_usd'] = model.predict(X_missing)

# Imprimir una muestra del DataFrame para confirmar los resultados
print(df.head())


   work_year experience_level employment_type                 job_title  \
0       2023               SE              FT  Principal Data Scientist   
1       2023               MI              CT               ML Engineer   
2       2023               MI              CT               ML Engineer   
3       2023               SE              FT            Data Scientist   
4       2023               SE              FT            Data Scientist   

   salary salary_currency  salary_in_usd employee_residence  remote_ratio  \
0   80000             EUR          85847                 ES           100   
1   30000             USD          30000                 US           100   
2   25500             USD          25500                 US           100   
3  175000             USD         175000                 CA           100   
4  120000             USD         120000                 CA           100   

  company_location company_size  experience_level_numeric  
0               ES        

## Valores Estadísticos

El uso de estadísticas como la media, la mediana o la moda puede ser útil para llenar valores faltantes, especialmente en grandes datasets donde estas métricas pueden representar bien los datos.



In [26]:
# Rellenar valores nulos con la media de la columna
df['salary_in_usd'] = df['salary_in_usd'].fillna(df['salary_in_usd'].mean())

print(df['salary_in_usd'].isnull().sum())

# Rellenar valores nulos con la mediana de la columna
df['salary_in_usd'] = df['salary_in_usd'].fillna(df['salary_in_usd'].median())

print(df['salary_in_usd'].isnull().sum())

# Rellenar valores nulos con la moda de la columna
df['salary_in_usd'] = df['salary_in_usd'].fillna(df['salary_in_usd'].mode()[0])

print(df['salary_in_usd'].isnull().sum())



0
0
0



## Eliminación de Datos Faltantes

La eliminación de datos faltantes debe ser la última opción y usarse con precaución, ya que puede llevar a la pérdida de información valiosa. Sin embargo, en algunos casos, es necesario eliminar filas o columnas completas si el porcentaje de datos faltantes es muy alto y no hay otra manera de recuperarlos.

## Eliminación de Filas con Datos Faltantes

1. Puedes eliminar filas que contienen datos faltantes usando el método dropna().

In [27]:
# Eliminar filas con datos faltantes
df = df.dropna()

print(df.isnull().sum())

work_year                   0
experience_level            0
employment_type             0
job_title                   0
salary                      0
salary_currency             0
salary_in_usd               0
employee_residence          0
remote_ratio                0
company_location            0
company_size                0
experience_level_numeric    0
dtype: int64


2. Eliminación de Columnas con Datos Faltantes

Si una columna tiene un porcentaje muy alto de datos faltantes y no es posible recuperarlos de manera efectiva, puedes eliminar la columna completa.

In [None]:
# Eliminar columnas con datos faltantes
df = df.drop(columns=['columna'])

## Consideraciones y Mejores Prácticas

1. Evaluación del Impacto: Antes de tomar cualquier acción, evalúa el impacto de los datos faltantes en tu análisis. ¿Cuántas filas o columnas tienen datos faltantes? ¿Cuál es el porcentaje de datos faltantes?

2. Priorización de Técnicas: No todas las técnicas son adecuadas para todos los tipos de datos faltantes. Prioriza las técnicas que preservan la mayor cantidad de información posible.

3. Documentación: Documenta cualquier técnica utilizada para manejar datos faltantes. Esto es crucial para reproducibilidad y transparencia en el análisis.

4. Completitud: Evalúa regularmente la completitud de tus datos. Un dataset completo es más valioso y útil para análisis precisos y modelos predictivos confiables.
