# EDA ...

#### ¿Qué implica el Análisis Exploratorio de Datos?

El Análisis Exploratorio de Datos (EDA, por sus siglas en inglés) es una práctica utilizada por científicos de datos para investigar y analizar conjuntos de datos, resumiendo sus características principales mediante métodos de visualización de datos. Su propósito radica en determinar la mejor manera de manipular los datos para obtener respuestas pertinentes, lo que posibilita la identificación de patrones, detección de anomalías, validación de hipótesis y comprobación de suposiciones.

El EDA se emplea principalmente para explorar la información más allá de la modelización formal o las pruebas de hipótesis, lo que permite comprender mejor las variables en un conjunto de datos y las relaciones entre ellas. Esta práctica también facilita la evaluación de la idoneidad de las técnicas estadísticas consideradas para el análisis de datos. Inicialmente desarrolladas por el matemático estadounidense John Tukey en la década de 1970, las técnicas de EDA continúan siendo ampliamente utilizadas en el proceso de descubrimiento de datos en la actualidad.

#### Importancia del Análisis Exploratorio

El objetivo principal del EDA es explorar los datos antes de realizar suposiciones, lo que permite identificar errores evidentes, comprender los patrones presentes, detectar valores atípicos y descubrir relaciones interesantes entre las variables. Los científicos de datos utilizan el EDA para asegurarse de que los resultados obtenidos sean válidos y aplicables a las conclusiones y objetivos de negocio deseados. Además, ayuda a confirmar a las partes interesadas que se están planteando las preguntas correctas, al proporcionar respuestas sobre desviaciones estándar, variables categóricas e intervalos de confianza. Una vez finalizado el EDA y extraída la información útil, sus hallazgos pueden ser utilizados para análisis o modelado de datos más complejos, incluido el aprendizaje automático.

#### Herramientas de Análisis Exploratorio de Datos

Las herramientas de EDA ofrecen diversas funciones y técnicas estadísticas, entre las que se incluyen:

- Técnicas de agrupación en clúster y reducción de dimensiones, para crear visualizaciones de datos con múltiples variables.
- Visualización univariante, que proporciona estadísticas de resumen de cada campo en el conjunto de datos.
- Visualización bivariante, que evalúa la relación entre cada variable del conjunto de datos y la variable objetivo.
- Visualización multivariante, que ayuda a comprender las interacciones entre diferentes campos en los datos.



***
El objetivo de este módulo es realizar una introducción a las técnicas de EDA mediante el análisis de un dataset, que posee información sobre los trabajadores del área de datos. Por ejemplo, datos acerca de salarios, años de experiencia, posición de trabajo, entre otros.

Para ello importaremos las siguientes librerías de Python.

In [None]:
import pandas as pd
import numpy as np 

import matplotlib.pyplot as plt 
import seaborn as sns

import warnings
warnings.filterwarnings("ignore")

### Importar el dataset

In [None]:
df = pd.read_csv('..\data\Modulo-1\jobs_in_data.csv')

***

## Análisis preliminar

In [None]:
# Se puede visualizar las primeras filas del dataset para corroborar que se cargó correctamente

df.head()

In [None]:
# Luego, se procede a ver las dimensiones del mismo y las columnas que posee

print(f'Cantidad de columnas: {df.shape[1]}', f'Cantidad de filas: {df.shape[0]}', sep = '\n')

In [None]:
print('Las columnas del df son:', df.columns.tolist(), sep='\n')

In [None]:
# Se puede obtener el tipo de dato de cada columna, es decir, determinar si son valores numéricos (int o float) o categóricos (object)

df.dtypes

In [None]:
# Es de gran utilidad poder determinar la completitud de los datos: saber si existen datos faltantes y en qué columnas se encuentran

df.isna().sum()

In [None]:
# Es recomendable analizar las variables numéricas y categóricas de forma separada

## Variables categóricas

df.describe(exclude=np.number)

In [None]:
## Variables numéricas

df.describe()

In [None]:
# Por último, podemos analizar la cardinalidad de los datos

df.nunique()

***

### Duplicados

Antes de realizar análisis de mayor complejidad es esencial revisar si existen datos repetidos en el dataset, es decir, ver si existen registros que, por ejemplo, fueron cargados más de una vez y que, por ende, podrían llegar a modificar los resultados.

In [None]:
if df.duplicated().any():
    print('Existen duplicados en el dataset')
else:
    print('No hay duplicados en el dataset')

In [None]:
print(f'Filas datset CON duplicados: {df.shape[0]}')

# Dropeo los duplicados
df = df.drop_duplicates()

print(f'Filas datset SIN duplicados: {df.shape[0]}')


***
## Análisis de los datos

### Caso 1

En este primer caso se buscará analizar la distribución de muestras por año

In [None]:
fig = plt.figure(figsize=(16, 6))
ax = plt.subplot()

sns.barplot(x=df['work_year'].value_counts().index, y=df['work_year'].value_counts().values, color='#d41145', ax = ax)

ax.set_xlabel('Año')
ax.set_ylabel('Cantidad de registros')
ax.set_title('Cantidad de registros por año')

plt.show()

### Caso 2

Se analiza la distribución de salarios por año.

In [None]:
fig, ax = plt.subplots(1,2,figsize=(20, 6))

sns.kdeplot(data=df,x='salary_in_usd', hue= 'work_year', common_norm=False, palette=sns.color_palette('pastel'), cut = 0 , ax=ax[0])
sns.kdeplot(data=df,x='salary_in_usd', hue= 'work_year', common_norm=False, cumulative=True, palette=sns.color_palette('pastel'), cut = 0 , ax=ax[1])

ax[0].set_xlabel('Salario en USD')
ax[0].set_title('Distribución Salarios según Año')

ax[1].set_xlabel('Salario en USD')
ax[1].set_ylabel('Densidad Acumulada')
ax[1].set_title('Distribución Salarios según Año')

plt.show()

### Caso 3

Análisis más detallado de los salarios del año 2023.

In [None]:
df_2023 = df[df['work_year']==2023].copy()

In [None]:
fig, axes = plt.subplots(1,2, figsize=(20, 6))
ax, ax2 = axes.flatten()

#######################
# Gráfico izquierda
#######################

sns.histplot(data=df_2023, x='salary_in_usd', cumulative=True, fill=False, element='step', stat='percent',bins=100, ax=ax)

ax.set_xlim(0, df_2023.salary_in_usd.max())

for n, quant_tuple in enumerate(dict(df_2023.salary_in_usd.quantile([0.25, 0.5, 0.75, 0.90, 0.95])).items()):

    quant = quant_tuple[0] * 100
    value = quant_tuple[1]

    ax.scatter(value, quant, s=16, c=sns.color_palette('bright')[n], zorder = 20, label=f'Percentil {int(quant)}')
    ax.plot((0, value), (quant, quant), c=sns.color_palette('bright')[n], linestyle='--', alpha=0.4)
    ax.plot((value, value), (0, quant), c=sns.color_palette('bright')[n], linestyle='--', alpha=0.4)

ax.legend()
ax.set_title('CDF y Percentiles')

#######################
# Gráfico derecha
#######################

sns.boxplot(data=df_2023, x='salary_in_usd', saturation=0.75, ax=ax2)
ax2.set_title('Boxplot')

plt.suptitle('Análisis Salarios 2023')

plt.show()

***
Caso 4:

Análisis de los puestos de trabajo, nivel de experiencia y tamaño de la empresa.

In [None]:
# es posible ver la proporción de trabajadores en cada tipo de empresa
(df.groupby(by = ['company_size'])['job_title'].size() / df.shape[0]) * 100

In [None]:
# es posible ver la cantidad de trabajadores en cada tipo de empresa según su experiencia laboral

df.groupby(by = ['company_size', 'experience_level']).size()

In [None]:
# además, se analiza su salario
df.groupby(by = ['company_size', 'experience_level']).agg({'salary_in_usd': ['mean', 'max', 'std']})

In [None]:
# puede ser de interés determinar si existe alguna diferencia entre los salarios de los trabajadores 'in-person', 'hybrid' y 'remote'

df.groupby(by = ['company_size', 'experience_level', 'work_setting']).agg({'salary_in_usd': ['mean', 'std']})

In [None]:
fig, ax = plt.subplots(1, 3, figsize=(20, 6))

work_settings = df['work_setting'].unique()

for i in range(ax.shape[0]):

    sns.histplot(data=df[df['work_setting']==work_settings[i]], x='salary_in_usd', stat='percent',bins=25, alpha=0.30, color=sns.color_palette('pastel')[i],  ax=ax[i])

    ax_twin = ax[i].twinx()
    sns.histplot(data=df[df['work_setting']==work_settings[i]], x='salary_in_usd', stat='percent',
                  cumulative=True, fill=False, element='step', bins=25, color=sns.color_palette('pastel')[i],
                  ax=ax_twin)

    # Set x-axis ticks y labels
    ax[i].set_xbound(0)
    x_ticks = ax[0].get_xticks() if len(ax[0].get_xticks()) < 5 else ax[0].get_xticks()[::int(len(ax[0].get_xticks()) / 5)]   
    ax[i].set_xticks(x_ticks)

    # Set y-axis label
    if i == 0:
        ax[i].set_ylabel('Porcentaje PDF')
        ax_twin.set_ylabel('')
    elif i == ax.shape[0] - 1:
        ax[i].set_ylabel('')
        ax_twin.set_ylabel('Porcentaje CDF')
    else:
        ax[i].set_ylabel('')
        ax_twin.set_ylabel('')

    ax[i].set_title(f'work_setting: {work_settings[i]}')

plt.show()

### Caso 5:

Además de usar representaciones gráficas para comprender los datos de nuestro dataset se puede recurrir a extraer información por medio de *"queries"* o *consultas*.

A modo de ejemplo, se intentará dar respuesta a una serie de consignas que se presentan a continuación:

#### Pregunta 1:

¿ Cuántos *Data Architects* que no residen en Estados Unidos cobrán un salario mayor a 85.000 usd?

In [None]:
res = df[(df['job_title']=='Data Architect') & (df['employee_residence']!='United States') & (df['salary_in_usd']>85_000)].shape[0]

print(f'Los Data Architects que no trabajan en EEUU y que posee un sueldo mayor a 85.000 usd son {res}.')

```python
df['job_title']=='Data Architect' --> filtra el dataset para obtener solo los registros con 'job_title' igual a 'Data Architect'

& --> es la condición 'Y'

df['employee_residence']!='United States' --> filtra el dataset para obtener solo los registros con 'employee_residence' igual a 'United States'

& --> es la condición 'Y'

df['salary_in_usd']>85_000 --> filtra el dataset para obtener solo los registros con 'salary_in_usd' igual a 85_000
```

#### Pregunta 2:

¿Cuál es el trabajo ('job_title') más popular en Argentina, EEUU, Alemania y Brasil?

In [None]:
pd.DataFrame(df[df['employee_residence'].isin(['Argentina', 'Brazil', 'United States', 'Germany'])].groupby(by=['employee_residence'])['job_title'].agg(lambda x: x.mode())).reset_index()

```python
df['employee_residence'].isin(['Argentina', 'Brazil', 'United States', 'Germany']) --> filtra los registros para obtener solo auqellos que están en la lista

.groupby(by=['employee_residence']) --> agrupo los datos por país de residencia de los empleados

['job_title'].agg(lambda x: x.mode()) --> calculo la moda, es decir, el valor más frecuente, de la columna especificada
```

#### Pregunta 3:

Dentro de los sueldos que se encuentran por encima del percentil 90 (inclusive), ¿cuál es la *job_category* más popular? ¿Cómo se distribuyen los valores de *experience_level*?

In [None]:
# forma 'manual' de obtener el percentil al que pertenece cada registro

aux = pd.DataFrame(df['salary_in_usd'].sort_values(ascending=True))

aux['bin'] = np.nan

q_bins = int(np.floor(aux.shape[0] / 10))
for i in range(10):
    aux.iloc[i * q_bins: (i+1) * q_bins, 1] = i

aux = aux.fillna(i)

df_aux = pd.concat([df, aux['bin']], axis=1)

In [None]:
# filtrar solo los registros que se ubican a partir del percentil 90
df_90 = df_aux[df_aux['bin']>=9]

In [None]:
# obtener la categoría más popular de trabajo
job_cat = df_90['job_category'].value_counts().index[0]

In [None]:
# en esa categoría, obtener las distrbución de la experiencia
exp_dist = dict(df_90.loc[df_90['job_category']==job_cat, 'experience_level'].value_counts(normalize=True) * 100)

In [None]:
print(f'La "job_category" más popular en los percentiles superiores al 90 es "{job_cat}".')

for i, kv in enumerate(exp_dist.items()):
    print(f'{i+1}) {kv[0]}: {kv[1]:.2f}%')

#### Pregunta 4:

¿Cuál es la 'job_category' cuyos 'Senior' cobran el menor sueldo **en promedio**? ¿Hay relación con la columna 'employee_residence'?

In [None]:
df[df['experience_level']=='Senior'].groupby(by=['job_category'])['salary_in_usd'].mean().idxmin()

In [None]:
df[df['experience_level']=='Senior'].groupby(by=['job_category'])['salary_in_usd'].mean().idxmax()

In [None]:
df[(df['experience_level']=='Senior') & (df['job_category'].isin(['Data Management and Strategy', 'Machine Learning and AI']))]\
    .groupby(by='job_category')['employee_residence'].value_counts(normalize=True)