# **Módulo 4: Visualización de datos con Python**

En este módulo, exploraremos la visualización de datos, una herramienta esencial para transformar grandes volúmenes de información en representaciones visuales claras y útiles para la toma de decisiones. A través de gráficos y visualizaciones, podremos identificar patrones, tendencias y relaciones en los datos, facilitando la comunicación y el análisis.

Comenzaremos con un enfoque fundamental: el **tratamiento de datos faltantes y atípicos**. Aprenderemos a identificar y manejar estos problemas comunes que pueden afectar la calidad y precisión de nuestras visualizaciones. Un manejo adecuado de estos datos es crucial para asegurar que nuestras representaciones visuales sean confiables y significativas.

A continuación, entraremos en la **introducción a la visualización de datos con Python**, donde exploraremos bibliotecas populares como Matplotlib y Seaborn, que permiten crear visualizaciones estáticas poderosas. Posteriormente, avanzaremos hacia la **visualización interactiva**, que nos permitirá desarrollar gráficos dinámicos y personalizables, mejorando la interacción y el análisis de datos.

Seguiremos con la **visualización de datos a través de capas**, una biblioteca que ofrece una forma intuitiva de crear gráficos complejos mediante una sintaxis declarativa. Este enfoque facilita la combinación y superposición de diferentes tipos de visualizaciones para obtener una comprensión más profunda de los datos.

También profundizaremos en la **visualización interactiva de datos geográficos**, una habilidad clave para realizar análisis espaciales y desarrollar soluciones que consideren la ubicación geográfica.

Finalmente, introduciremos **Streamlit**, una herramienta potente y de fácil uso para crear aplicaciones web interactivas centradas en la visualización de datos. Con Streamlit, aprenderás a transformar scripts de Python en aplicaciones web completamente funcionales, permitiéndote combinar todas las técnicas de visualización vistas en el módulo en una interfaz interactiva y accesible para el usuario final.

Al completar este módulo, contarás con un conjunto sólido de habilidades para crear visualizaciones de datos desde cero, manejar datos atípicos y faltantes, y desarrollar aplicaciones visuales interactivas que sean impactantes y útiles.

## **Tratamiento de datos faltantes y atípicos**

### **Introducción**
En esta sección se enumeran y explican los posibles errores que pueden surgir durante diversas etapas del proceso de visualización de datos, tales como **la representación de elementos no correlacionados** para sugerir una relación o **la incorporación de características interactivas inadecuadas**.

Aunque el proceso de visualización de datos puede parecer sencillo **tomar algunos datos, trazar gráficos y añadir funciones interactivas** en realidad es fácil cometer errores en diferentes fases del mismo. Estos errores pueden resultar en visualizaciones defectuosas que no logran comunicar de manera clara y eficaz la información contenida en los datos, lo que las convierte en herramientas inútiles para el público al que van dirigidas.

### **Tratamiento de valores faltantes**

* Los datos perdidos son, como su nombre indica, valores que están en blanco (**NaN**, -, **0** cuando no deberían ser **0**, etc.). Al igual que los valores atípicos, los valores perdidos pueden ser problemáticos tanto en el caso de las visualizaciones como en el de los modelos predictivos.

* Los valores faltantes en las visualizaciones pueden mostrar una tendencia que en realidad no existe o no representa una relación entre dos variables que, en realidad, es significativa. Aunque es posible crear visualizaciones con un conjunto de datos que contenga valores perdidos, no se recomienda hacerlo. Al hacerlo, se ignoran los casos en los que se encuentran esos valores perdidos, creando así una visualización basada en algunos de los datos pero no en todos.

* Por lo tanto, el tratamiento de los valores perdidos es de suma importancia. Existen dos enfoques principales para tratar los valores perdidos: **la supresión y la imputación**.

Este conjunto de datos contiene información relacionada con los **empleos de profesionales de datos**, recopilada durante varios años. Cada fila representa un empleo único y proporciona detalles sobre el puesto, nivel de experiencia, modalidad de trabajo, ubicación del empleado, y otros factores relevantes para el contexto laboral y el salario recibido. Este conjunto de datos es útil para analizar tendencias en el mercado laboral de la ciencia de datos, permitiendo comparaciones entre diferentes tipos de empleos, niveles de experiencia, y ubicaciones geográficas.

**Descripción de las columnas**

| **Columna**               | **Descripción**                                                                                   | **Tipo de dato** |
|---------------------------|---------------------------------------------------------------------------------------------------|------------------|
| **Working_Year**           | Año en que se obtuvieron los datos sobre el empleo. Esto puede ser útil para observar tendencias a lo largo del tiempo. | Float            |
| **Designation**            | Título del puesto del profesional de datos. Ejemplos comunes incluyen "Data Scientist", "Data Engineer", etc. | Cadena           |
| **Experience**             | Nivel de experiencia del empleado en el puesto, categorizado como "Medio", "Senior", etc. Esto ayuda a segmentar los trabajos según la experiencia necesaria. | Cadena           |
| **Employment_Status**      | Tipo de contrato laboral bajo el cual se emplea a la persona. Puede ser a tiempo completo ("FT"), medio tiempo ("PT"), entre otros. Es un indicador de la estabilidad y dedicación del empleo. | Cadena           |
| **Employee_Location**      | País donde se encuentra ubicado el empleado. Esto puede influir en el salario y las condiciones laborales, dada la variación entre mercados internacionales. | Cadena           |
| **Company_Size**           | Tamaño de la empresa en la que trabaja el profesional de datos. Las empresas se clasifican en "S" (Pequeña), "M" (Mediana), o "L" (Grande), y esto puede influir en las oportunidades de crecimiento, ambiente de trabajo, y remuneración. | Cadena           |
| **Remote_Working_Ratio**   | Porcentaje de tiempo que el empleado trabaja de manera remota. Un valor del 100% indicaría que el empleo es completamente remoto, mientras que un valor del 0% indicaría un empleo presencial. | Entero           |
| **Salary_USD**             | Salario anual del empleado expresado en dólares estadounidenses (USD). Este valor es útil para hacer comparaciones salariales entre empleos de diferentes ubicaciones y niveles de experiencia. | Float            |


In [68]:
import pandas as pd
import numpy as np

# Cargar el archivo CSV proporcionado
file_path = '_data/dataviz/ds_salaries.csv'
df = pd.read_csv(file_path)

In [69]:
# Informacion del dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 607 entries, 0 to 606
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Working_Year          595 non-null    float64
 1   Designation           600 non-null    object 
 2   Experience            607 non-null    object 
 3   Employment_Status     607 non-null    object 
 4   Employee_Location     607 non-null    object 
 5   Company_Size          607 non-null    object 
 6   Remote_Working_Ratio  607 non-null    int64  
 7   Salary_USD            597 non-null    float64
dtypes: float64(2), int64(1), object(5)
memory usage: 38.1+ KB


In [70]:
# Copia del dataset
df_va = df.copy()

# Revisar los datos faltantes en el conjunto de datos
missing_values = df_va .isnull().sum()

# Calcular el porcentaje de valores faltantes
missing_percentage = (df_va .isnull().mean() * 100).round(2)

# Crear un DataFrame con el análisis de datos faltantes
missing_data = pd.DataFrame({
    'Valores Faltantes': missing_values,
    'Porcentaje Faltante (%)': missing_percentage
})

missing_data


Unnamed: 0,Valores Faltantes,Porcentaje Faltante (%)
Working_Year,12,1.98
Designation,7,1.15
Experience,0,0.0
Employment_Status,0,0.0
Employee_Location,0,0.0
Company_Size,0,0.0
Remote_Working_Ratio,0,0.0
Salary_USD,10,1.65


Hay varias formas de tratar los datos faltantes. Como modo de ejemplo, se explicaran los procesos de cada uno.

#### **Eliminación de datos faltantes** 

La estrategia **eliminar valores faltantes** implica quitar aquellas filas de tu conjunto de datos que contienen valores faltantes (`NaN`). Sin embargo, para evitar eliminar demasiados datos y reducir significativamente el tamaño del conjunto de datos, esta estrategia se aplica solo cuando los valores faltantes constituyen un pequeño porcentaje del total, en este caso, el **5% o menos**.

* **5% o menos del total de valores**: Si la cantidad de valores faltantes en una columna o fila representa el 5% o menos del total de registros, es una pérdida aceptable de información. Por lo tanto, puedes eliminar esas filas o columnas sin comprometer demasiado la integridad del análisis.

In [71]:
# Coloquemos un umbral
umbral = len(df_va) * 0.05

# Selecciona columnas con valores faltantes <= umbral
cols_to_drop = df_va .columns[df_va .isna().sum() <= umbral]

# Elimina filas con valores faltantes en las columnas seleccionadas
df_va.dropna(subset=cols_to_drop, inplace=True)

In [72]:
# informacion del dataset ajustado
df_va .info()

<class 'pandas.core.frame.DataFrame'>
Index: 578 entries, 0 to 606
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Working_Year          578 non-null    float64
 1   Designation           578 non-null    object 
 2   Experience            578 non-null    object 
 3   Employment_Status     578 non-null    object 
 4   Employee_Location     578 non-null    object 
 5   Company_Size          578 non-null    object 
 6   Remote_Working_Ratio  578 non-null    int64  
 7   Salary_USD            578 non-null    float64
dtypes: float64(2), int64(1), object(5)
memory usage: 40.6+ KB


In [73]:
# Revisar los datos faltantes en el conjunto de datos
missing_values = df_va.isnull().sum()

# Calcular el porcentaje de valores faltantes
missing_percentage = (df_va.isnull().mean() * 100).round(2)

# Crear un DataFrame con el análisis de datos faltantes
missing_data = pd.DataFrame({
    'Valores Faltantes': missing_values,
    'Porcentaje Faltante (%)': missing_percentage
})

missing_data

Unnamed: 0,Valores Faltantes,Porcentaje Faltante (%)
Working_Year,0,0.0
Designation,0,0.0
Experience,0,0.0
Employment_Status,0,0.0
Employee_Location,0,0.0
Company_Size,0,0.0
Remote_Working_Ratio,0,0.0
Salary_USD,0,0.0


Otra forma para eliminar los datos faltantes es:

In [74]:
# copia del dataset
df_2 = df.copy()

# eliminar las filas con Nans
df_2_new = df_2.dropna(axis=0)

In [75]:
df_2_new.info()

<class 'pandas.core.frame.DataFrame'>
Index: 578 entries, 0 to 606
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Working_Year          578 non-null    float64
 1   Designation           578 non-null    object 
 2   Experience            578 non-null    object 
 3   Employment_Status     578 non-null    object 
 4   Employee_Location     578 non-null    object 
 5   Company_Size          578 non-null    object 
 6   Remote_Working_Ratio  578 non-null    int64  
 7   Salary_USD            578 non-null    float64
dtypes: float64(2), int64(1), object(5)
memory usage: 40.6+ KB


In [76]:
# Revisar los datos faltantes en el conjunto de datos
missing_values = df_2_new.isnull().sum()

# Calcular el porcentaje de valores faltantes
missing_percentage = (df_2_new.isnull().mean() * 100).round(2)

# Crear un DataFrame con el análisis de datos faltantes
missing_data = pd.DataFrame({
    'Valores Faltantes': missing_values,
    'Porcentaje Faltante (%)': missing_percentage
})

missing_data

Unnamed: 0,Valores Faltantes,Porcentaje Faltante (%)
Working_Year,0,0.0
Designation,0,0.0
Experience,0,0.0
Employment_Status,0,0.0
Employee_Location,0,0.0
Company_Size,0,0.0
Remote_Working_Ratio,0,0.0
Salary_USD,0,0.0


Hay una diferencia muy importante entre ambos método; el **primer enfoque es más flexible y te permite manejar datos faltantes de manera más controlada**, mientras que el segundo es **más directo y elimina todas las filas que tengan valores faltantes**.

#### **Imputación de datos faltantes**

##### **Datos categóricos**
Para los datos categóricos (como "País", "Categoría", "Género", etc.), los métodos comunes de imputación incluyen:
- **Moda**: Imputar los valores faltantes con la categoría que más se repite. Este enfoque es simple y suele ser efectivo cuando los datos tienen una categoría predominante.
- **Asignación aleatoria**: Reemplazar los valores faltantes con una categoría seleccionada al azar entre los valores no faltantes de la misma variable, preservando la distribución original de las categorías.
- **Imputación basada en subgrupos**: Imputar los valores faltantes basándose en subgrupos definidos por otras variables, asegurando que la categoría imputada sea coherente con los datos restantes.


1. Usando la **moda**:

In [77]:
# Copia del dataset
df_3 = df.copy()

# Iterar sobre cada columna del DataFrame
for col in df_3.columns:
    # Comprobar si la columna es de tipo objeto (categórica)
    if df_3[col].dtypes == 'object':
        # Imputar los valores faltantes con la moda (categoría más frecuente)
        df_3[col].fillna(df_3[col].value_counts().index[0], inplace=True)

2. Usando **Asignación aleatoria**:

In [78]:
# Copia del dataset
df_4 = df.copy()

# Iterar sobre cada columna de df_4
for col in df_4.columns:
    # Comprobar si la columna es de tipo objeto (categórica)
    if df_4[col].dtypes == 'object':
        # Obtener las categorías no faltantes de la columna
        categorias_no_nan = df_4[col].dropna().unique()
        # Reemplazar valores faltantes con una categoría seleccionada aleatoriamente
        df_4[col] = df_4[col].apply(lambda x: np.random.choice(categorias_no_nan) if pd.isna(x) else x)


3. Usando **imputación basada en grupos**

In [82]:
# Copia del dataset
df_5 = df.copy()

# Definir la columna por la cual agrupar (por ejemplo, "Experience")
grupo_col = 'Experience'

# Iterar sobre cada columna de df_4
for col in df_5.columns:
    # Comprobar si la columna es de tipo objeto (categórica) y no es la columna por la cual agrupamos
    if df_5[col].dtypes == 'object' and col != grupo_col:
        # Agrupar por la columna definida (en este caso 'Experience') e imputar valores faltantes
        df_5[col] = df_5.groupby(grupo_col)[col].transform(
            lambda x: x.fillna(np.random.choice(x.dropna().unique())) if x.isna().sum() > 0 else x
        )


##### **Datos numéricos**
Para los datos numéricos (como "Edad", "Salario", "Ingreso", etc.), los métodos comunes de imputación incluyen:
- **Media**: Reemplazar los valores faltantes con la media de la columna. Este método es útil cuando los datos tienen una distribución simétrica y no hay valores atípicos.
- **Mediana**: Utilizar la mediana para imputar, lo cual es más robusto frente a valores atípicos o distribuciones asimétricas.
- **Imputación por métodos de machine learning**: Estimar el valor faltante utilizando una regresión basada en otras variables del conjunto de datos. Este método es más avanzado y puede ser más preciso, pero requiere un modelo de regresión adecuado.

Para poder usar la imputación de datos con la media o la mediana, se debe conocer la distribución de los datos sin los vacios. Con lo anterior podemos ver si tiene comportamiento normal o no. De la distribución depende si imputar con el promedio o la mediana.

1. Usando **la media o el promedio**

In [84]:
# Copia del dataset
df_6 = df.copy()

# Imputar los valores perdidos con imputación de medias
df_6.fillna(df_6.select_dtypes(include=np.number).mean(), inplace=True)

2. Usando **la mediana**

In [86]:
# Copia del dataset
df_7 = df.copy()

# Imputar los valores perdidos con imputación de medias
df_7.fillna(df_7.select_dtypes(include=np.number).median(), inplace=True)

Otra manera adecuada de imputar valores ausentes es mediante la clase `SimpleImputer` de `scikit-learn`


In [91]:
# Libreria
from sklearn.impute import SimpleImputer

# Copia del dataset
df_8 = df.copy()

# Crear la instancia para imputar con la media
imputer = SimpleImputer(strategy='mean')

# Imputar los valores faltantes
df_8 = imputer.fit_transform(df_8)

# Mostrar el DataFrame después de la imputación
print(df_8)

ValueError: Cannot use mean strategy with non-numeric data:
could not convert string to float: 'Data Scientist'