# <img style="float: left; padding: 0px 10px 0px 0px;" src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/84/Escudo_de_la_Pontificia_Universidad_Cat%C3%B3lica_de_Chile.svg/1920px-Escudo_de_la_Pontificia_Universidad_Cat%C3%B3lica_de_Chile.svg.png"  width="80" /> MDS 3020 - Introducción a Ciencia de Datos
**Pontificia Universidad Católica de Chile**<br>
**Profesora:** Paula Aguirre <br>

# Tarea 3: Análisis exploratorio de datos.

***
## Instrucciones Generales.
- Esta Tarea debe ser desarrollada completamente en lenguaje de programación Python, y estructurarse en formato de Jupyter Notebook.
- El Notebook debe estrar estructurado en forma ordenado, seguir buenas prácticas de escritura y programación, e incluir comentarios o celdas de markdown suficientes para explicar claramente todos los códigos computacionales.
- Para cada pregunta, incluya un breve **análisis de los gráficos y/o resúmentes estadísticos generados**, de manera de responder a las preguntas planteadas.

***
## Introducción.


Continuando con el caso de estudio desarrollado en las Tareas 1 y 2, suponga que ud.está a cargo del desarrollo de un estudio del mercado laboral de científicos de datos en latinoamérica, para lo cual necesita construir, procesar y analizar una base de datos con las ofertas de trabajo publicadas en distintos países de la región.

En la **Tarea 1**, ud. avanzó en la primera etapa de construcción de la base de datos, utilizando web scraping para extraer los datos de ofertas de empleo en *data science* publicados en la red Linkedin, para una ciudad o país. Este proceso fue repetido y ampliado para todos los países de sudamérica, para construir una base de datos más amplia para su estudio.  

Para considerar en el análisis el contexto económico y tecnológico de cada país, entre los datos se incluirán también otras variables como el *Índice global de innovación* (https://www.globalinnovationindex.org/Home), disponible online para distintos países del mundo.

En la **Tarea 2**, ud. realizó el proceso de integración, limpieza y procesamiento de las bases de datos obtenidas mediante webscraping, generando así un conjunto de datos apto para distintos tipos de análisis.

Para esta **Tarea 3**, se ha enriquecido la base de datos generada en la Tarea 2, incorporando variables relativas a: salarios ofrecidos para cada puesto de trabajo, años de experiencia y nivel de educación exigidos, y un score de ambiente laboral de cada empresa ofertante. Esta es la base de datos final a utilizar para el análisis y modelamiento de datos.

El objetivo de esta Tarea, es realizar un análisis exploratorio de los datos, comprender las relaciones o tendencias entre distintas variables, y obtener conclusiones útiles que permitan esbozar un modelo predictivo de los salarios de cientistas de datos como función de su país, formación y experiencia profesional, y/o indicadores de la compañía.

## Datos de Entrada.

La base de datos final de ofertas de empleo para Cientistas de Datos en Sudamérica están disponibles en el siguiente archivo: `datos_t3.csv`

Esta base de datos contiene las siguientes variables:

* `Country`: país del anuncio.
* `Location`: ubicación del empleo.
* `Title`: título del cargo ofrecido.
* `Company`: nombre de la compañía.
* `Url`: URL del anuncio.
* `CountryScore`: *Índice global de innovación* del país del anuncio.
* `English`: requisito de inglés para el empleo. 1: requiere idioma inglés, 0: no requiere idioma inglés.
* `EducationLevel`: años de formación profesional requeridos para el cargo. 0: no requiere formación profesional, 1: formación técnica básica, 2: dos años de formación técnica, 3: tres años de formación técnica,     4: bachiller, 5: título profesional, 6: postgrado.
* `YearsExperience`: años de experiencia laboral requeridos.
* `CompanyScore`: calificación de ambiente laboral de la compañía.

**Nota**: estos datos han sido parcialmente simulados para efectos de este ejercicio, no los utilice para ninguna toma de decisión real.



### 1. ¿Cómo se distribuyen los datos de empleos por país?  

Genere un gráfico de barras o resumen estadístico que muestre claramente esta distribución. Además comente, ¿Están balanceados los datos, o puede identificar algún(os) países para los cuales los datos sean poco representativos?

*Funciones útiles:* `sns.countplot()`,`pd.groupby()`,`pd.pivot_table()`.

### 2. Estudie la distribución de salarios en el dataset, y analice la existencia de datos anómalos.

**a)** Genere un histograma para la variable *SalaryUSD*, incluyendo una curva de densidad de probabilidad (kde).<br>
**b)** ¿Puede identificar valores fuera de rango o anómalos? ¿Por qué son anómalos, y a qué países corresponden?<br>
**c)** ¿Qué tratamiento daría ud. a esos datos anómalos? (Ej: nada, eliminar, corregir, etc.) Justifique e implemente su propuesta. <br>

*Funciones útiles:* `sns.histplot()`, `pd.describe()`.

### 3. ¿Cómo se comparan en general los salarios promedio de Cientistas de Datos por país?

Genere un gráfico de cajas que muestre la media y dispersión de los salarios para cada país y analice.
¿Cuáles son los países con mayores y menores salarios medios?

*Funciones útiles:* `sns.boxplot()`

### 4. ¿Influye el manejo del idioma inglés en los salarios? ¿Influye (o no) de la misma manera para todos los países?

Genere un **resumen estadístico y un gráfico** que le permitan responder fundadamente esta pregunta, y argumente su respuesta.

*Funciones útiles:* `sns.boxplot()`,`pd.groupby()`,`pd.pivot_table()`

### 5. Analice los  años de experiencia y nivel educacional requeridos en los distintos países de sudamérica. ¿Son similares, o puede detectar alguna diferencia significativa para alguno(s)?

Genere una **tabla resumen y gráficos** con los promedios de las variables *EducationLevel* y *YearsExperience* por país, y en base a ellos argumente su respuesta.

*Funciones útiles:* `sns.boxplot()`,`pd.groupby()`,`pd.pivot_table()`

### 6. Calcule y grafique la matriz de correlación para las variables numéricas del dataset.

Analice los coeficientes de correlación entre *SalaryUSD* y otras variables del dataset. ¿Cuáles variables identifica como más correlacionadas, o más relevantes para construir un modelo predictivo de salarios?

*Funciones útiles:* `sns.heatmap()` ,`pd.corr()`

### 7. Construya gráficos de dispersión entre salarios y las demás variables.

**a)** Genere un conjunto de gráficos de dispersión entre `SalaryUSD` y las demás variables, diferenciando por país.(Hint: Revise cuidadosamente la documentación y parámetros de la función `sns.pairplot()`). <br>
**b)** Analice los gráficos y comente,
* ¿qué correlaciones puede identificar?
* ¿varían estas correlaciones por país?
* ¿son coherentes las conclusiones obtenidas a partir de los gráficos, con la matriz de correlación calculada en el punto 5?

*Funciones útiles:* `sns.pairplt()`

### 8. Analice la correlación entre variables para un país en particular.

**a)** Seleccione los registros del Dataframe correspondientes a un país a su elección, y calcule nuevamente la matriz de correlación para este subconjunto de los datos. <br>
**b)** Analice: ¿Cómo varían sus resultados respecto a la matriz de correlación calculada con todos los datos en el punto 6? ¿Qué conclusión puede obtener a partir de esta comparación, que sea de utilidad para la construcción de un modelo predictivo de salarios?

*Funciones útiles:* `sns.heatmap()` ,`pd.corr()`

### 9. Genere un modelo de regresión multilineal para todo el conjunto de datos.

**a)** Indique claramente las variables predictoras a incluir en su modelo de regresión, justificando su elección.
**b)** Implemente la regresión lineal utilizando la librería `statsmodel`.<br>
**c)** Imprima y analice el resumen de los resultados de la regresión, comente: ¿qué tan bueno o malo es el ajuste multilineal? ¿cuál es la importancia relativa de las distintas variables predictoras?<br>
**d)** Repita los puntos **b)** y **c)**, ahora con el subconjunto de datos del país elegido en el punto 7.¿Cómo cambian sus resultados respecto a la regresión obtenida en **b)**?<br>

*Funciones útiles:* `stasmodel` ,`sm.OLS(y,X)`,`model.fit()`,`results.summary()`