# Análisis exploratorio en la base "Salarios de trabajos de ciencia de datos"

* **Proyecto**: Salarios de trabajos de ciencia de datos
* Autor: Ricardo Rivas G.
  * [GitHub](https://github.com/richistron)
  * [Linkedin](https://www.linkedin.com/in/richistron/)
* [Código fuente](https://github.com/richistron/ds-bootcamp)
* [Dataset](https://drive.google.com/file/d/1xEGMqIMDPZK-7yte8u3vnYyKB--J-x0s/view)

## Objetivos

El participante:
* Aprenderá a cargar los datos desde Pandas.
* Aprenderá a utilizar los principales atributos para ver la info del dataframe.
* Generará un análisis de frecuencia de los principales atributos.
* Investigará y creará una análisis de correlación de Pearson.
* Realizará gráficos proporcionados por Pandas para el EDA.

## Requisitos

* El proyecto debe realizarse de forma individual.
* La entrega del proyecto se hará en un `.ipynb`
* **Importante**: Se debe realizar una COPIA del colab y trabajar sobre ella.
* **Importante**: Debe compartirse la liga del proyecto de forma **pública**. Este documento es de forma obligatoria, al igual que todos los elementos que lo conforman.
* Usar el archivo en [Google Colab](https://colab.research.google.com/drive/1-vTLDz6-LvN2osy4v2Hf8kihVTms_XxN)

## Entregables

* Título e Índice
* Crear una descripción de las columnas en Markdown
* Análisis exploratorio y de completitud de los datos
* Análisis estadístico de los datos
* Correlación de las variables
* Gráfica de barras y de histograma
* Insights
* Conclusiones de la base


#“Salarios de trabajos de ciencia de datos”


> Diccionario[texto del enlace](https://)


In [None]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
datos = pd.read_csv('ds_salaries.csv')

In [None]:
datos.head()

NameError: name 'datos' is not defined

In [None]:
datos.drop('unnamed: 0', axis = 1, inplace =True)

In [None]:
datos.info()

In [None]:
datos.describe(include='all')

In [None]:
datos['job_title'] .unique()

exploracion de los datos por medio de visualizaciones

salarios por años

In [None]:
ax = sns.barplot(data=datos,x='work_year', y='salary_in_usd')
ax.bar_label(ax.containers[0])
plt.show()

salarios promedios por países que ofrecen empleos


In [None]:
salario_pais = datos.groupby(by='company_location')['salary_in_usd'].mean().reset_index().sort_values(by='salary_in_usd', ascending=False)
salario_pais['salary_in_usd'] = salario_pais['salary_in_usd']/1000
COND = salario_pais ['salary_in_usd'] > 99.84
salario_pais = salario_pais[COND]

In [None]:
ax = sns.barplot(data=salario_pais,y='company_location', x='salary_in_usd', palette= 'rocket')
ax.bar_label(ax.containers[0])
ax.set_xlabel('salarios en miles de dolares')
plt.show()

- OBJETIVO: Mostrar el proceso realizado por los secuenciadores de acuerdo a lo establecido en su Instrucción de Trabajo en un periodo determinado.

- Tabla de contenido:

| Dato a Analizar | Descripción |
| --- | --- |
| Cliente | Menciona el cliente que está pagando el protecto |
| Usuario | Lista de los usuarios que realizan el secuenciado |
| Dia | Se muestra la carga de trabajo por día |
| Hora | Se muestra la carga de trabajo por hora |
| Tipo de SLT | Muestra la sección donde está el usuario |

#LIBRERIAS NUMPY Y PANDAS

- NUMPY
 Es una biblioteca de computación matemática, mas eficiente y rápida al manipular datos.

- PANDAS: Facilita la manipulación de grandes volúmenes de datos a través de un conjunto de métodos y estructuras diseñadas para tal fin

**FUNCIONALIDAD**

1.   CARGAR
2.   MODELAR
3.   ANALIZAR
4.   MANIPULAR
5.   PREPARAR

**ÍNDICE**

1.   Cargar Librerías.
2.   Subir Archivo.
3.   Leer, mostrar contenido, enlistar los primeros 5 registros.
4.   Se obtiene el total de registros y nombre de las columnas.
5.   Descripción de las columnas.
6.   Obtener el conteo de los registros de la base de datos.
7. Se valida si existen datos nulos en el DataFrame.

# Desarrollo del PROYECTO

1. Como primer paso se deben cargar las librerías que se ocuparan en el desarrollo del código.

In [None]:
#Cargar librerías
import numpy as np
import pandas as pd
import os
import csv
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
import matplotlib.pyplot as plt
%matplotlib inline

2. Después de cargar las librerías que ocuparemos durante el proyecto, se indicará la ruta de acceso de la base de datos que estaremos analizando.

In [None]:
#Cargar csv con pd.read_csv

from google.colab import files
archivo = pd.read_csv('/content/ds_salaries.csv')

3. Al tener el archivo, se muestra una tabla de contenido de los datos.

In [None]:
df = pd.read_csv('/content/ds_salaries.csv')
df

In [None]:
# Obtener los primeros 5 registros.
print('Primeros 5 registros:\n', df.head(5))

In [None]:
#Obtener los registros y columns de dataframe
print('Nombres de columnas:\n ', [df.columns])
print('\n')
print('Cantidad de registros en las filas: ', df.index)

5.   Descripción de las columnas

Columna  | Descripción
-------------------|------------------
work_year  |  Año de ingreso
nave      | Ubicación por nave de producción
area  | Identificación por área del usuario
job_title     | Detalle del área
salary  |  Sueldo total antes de impuesto
salary_currency      | Sueldo promedio por hora
salary_in_usd | Sueldo en dolares
employee_id     | Código de residencia del usuario
remote_zone  | Código remoto de ubicacion
company_location     | ubicacion de la compañia
company_size |  Tamaño de la compañía    

6.   Obtener el conteo de los registros de la base de datos.

In [None]:
# Obtener el conteo de registros del Dataframe

df.count()

7. Se valida si existen datos nulos en el DataFrame

In [None]:
# Verificar si existen nulos en la base
df.isnull().sum()

8. Muestra las frecuencias de diferentes categorías. Este tipo de tabla es particularmente útil para comprender la distribución de valores en un conjunto de datos.

In [None]:
#Generar una frecuencia de la columna "experience_level"
df.value_counts()

9. Información general de los datos
- Obtener un describe de dataframe con las columnas como registros.
- Indica el numero de filas del dataset
- Muestra el numero de datos No Nulos por columna (valores validos)
- Tipo de dato de cada columna
- Tamaño total del dataframe

In [None]:

df.info()

10. **MATRIZ DE CORRELACIÓN**
- La correlación es una técnica estadística que muestra cómo se relacionan dos variables.
- Se utiliza para encontrar la correlación por pares de todas las columnas en el marco de datos.
- Cualquier valor na se excluye automáticamente.
- Para cualquier columna de tipo de datos no numéricos en el marco de datos, se ignora.

Para crear una matriz de correlación usando pandas, se deben seguir estos pasos:

1. Obtenga los datos.
2. Crea el DataFrame.
3. Crea una matriz de correlaciones.
4. Se genera una gráfica tipo histograma.

In [None]:
# Obtener la matriz de correlaciones del dataframe  (Buscar un ejemplo en google)
import seaborn as sb
corr = df.corr()
sb.heatmap(corr, cmap="Blues", annot=True)

In [None]:
df.describe()

In [None]:
#Generar una gráfica de barras de la columna "employee_id"
df = pd.read_csv('/content/ds_salaries.csv', index_col='employment_type')
muestra = df[:10].copy()
muestra

In [None]:
from matplotlib import pyplot as plt
import seaborn as sns
muestra.groupby('job_title').size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
mean_sal_jobtitle = df.groupby('job_title')['salary_in_usd'].mean().round(2).sort_values(ascending = False)
mean_sal_jobtitle

In [None]:
fig = px.bar(mean_sal_jobtitle, x=mean_sal_jobtitle.index, y=mean_sal_jobtitle.values,
             color=mean_sal_jobtitle.index, text=mean_sal_jobtitle.values, title='Salarios por especilidad' )
fig.update_traces(width=0.4)
fig.update_layout(
    xaxis_title="Especialidad",
    yaxis_title="Salario en dolares",
    font = dict(size=17))
fig.show()

In [None]:
# Carga de datos
df = pd.read_csv('/content/ds_salaries.csv')

In [None]:
# Análisis de correlación de Pearson

# Calculamos la matriz de correlación de Pearson
corr_matrix = df.corr(method='pearson')


  corr_matrix = df.corr(method='pearson')


In [None]:
# Imprimimos la matriz de correlación de Pearson
print(corr_matrix)

In [None]:
corr_matrix

In [None]:
from matplotlib import pyplot as plt
corr_matrix['Unnamed: 0'].plot(kind='hist', bins=20, title='Unnamed: 0')
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# Gráficos proporcionados por pandas

# Histograma de la variable 'salary_in_usd'
plt.hist(df['salary_in_usd'])
plt.xlabel('Salario en USD')
plt.ylabel('Frecuencia')
plt.title('Histograma de salarios en USD')
plt.show()

In [None]:
# Diagrama de dispersión entre las variables 'work_year' y 'salary_in_usd'
sns.scatterplot(x='work_year', y='salary_in_usd', data=df)
plt.xlabel('Año de trabajo')
plt.ylabel('Salario en USD')
plt.title('Diagrama de dispersión entre el año de trabajo y el salario en USD')
plt.show()

NameError: name 'sns' is not defined

In [None]:
# Diagrama de caja y bigotes de la variable 'salary_in_usd' por país
sns.boxplot(x='employee_residence', y='salary_in_usd', showmeans=True, data=df)
plt.xlabel('País de residencia')
plt.ylabel('Salario en USD')
plt.title('Diagrama de caja y bigotes de salarios en USD por país')
plt.xticks(rotation=45)
plt.show()

In [None]:
# Gráfico de correlación

# Creamos un mapa de calor de la matriz de correlación
plt.matshow(corr_matrix, cmap='RdYlGn')
plt.title('Matriz de correlación')
plt.xlabel('Variables')
plt.ylabel('Variables')
plt.show()

Interpretación de la matriz de correlación

La matriz de correlación muestra la relación lineal entre dos variables. Los valores de correlación se encuentran entre -1 y 1. Un valor de correlación de 1 indica una relación lineal positiva perfecta, un valor de correlación de -1 indica una relación lineal negativa perfecta y un valor de correlación de 0 indica que no hay relación lineal entre las dos variables.

En el caso de este conjunto de datos, la variable salary_in_usd tiene una correlación positiva significativa con las variables work_year y experience_level. Esto significa que a medida que aumenta el número de años de trabajo o el nivel de experiencia, también aumenta el salario.

La variable salary_in_usd también tiene una correlación negativa significativa con la variable remote_ratio. Esto significa que a medida que aumenta la proporción de trabajo remoto, disminuye el salario.

La variable company_size no tiene una correlación significativa con ninguna de las otras variables. Esto significa que el tamaño de la empresa no tiene un impacto significativo en el salario.

Gráfico de correlación con pandas

Para crear un gráfico de correlación con pandas, podemos usar la función matshow(). Esta función crea un mapa de calor de la matriz de correlación.

En el código anterior, creamos un mapa de calor de la matriz de correlación usando la función matshow(). El mapa de calor muestra que la variable salary_in_usd tiene una correlación positiva significativa con las variables work_year y experience_level.

#CONCLUSIONES
- Después de analizar los datos, se puede determinar las cargas de trabajo por usuario, los salarios de cada uno y con la estadística se pueden hacer proyecciones para los siguientes años.

#REFERENCIAS Y LINKS DE APOYO
https://www.codigopiton.com/como-hacer-un-histograma-en-python/
https://cursosinformatica.ucm.es/trial/dataviz/
https://datacarpentry.org/python-ecology-lesson-es/08-putting-it-all-together/index.html
https://es.acervolima.com/como-crear-una-matriz-de-correlacion-usando-pandas/#:~:text=El%20m%C3%A9todo%20de%20Pandas%20dataframe,valor%20na%20se%20excluye%20autom%C3%A1ticamente.
https://www.analyticslane.com/2020/12/07/pandas-obtener-el-nombre-de-las-columnas-y-filas-en-pandas/