<a href="https://colab.research.google.com/github/cristiandarioortegayubro/P4DA/blob/main/correlacion_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![](https://github.com/cristiandarioortegayubro/P4DA/blob/main/Logo.png?raw=true)


# **<font color="RoyalBlue">Análisis Exploratorio de los Datos - Matriz de Correlación**

# **<font color="RoyalBlue">Carga de módulos**

### **<font color="RoyalBlue">Para analisis de datos**

In [1]:
import pandas as pd
import numpy as np

### **<font color="RoyalBlue">Para graficos**

In [2]:
import plotly.express as px

## **<font color="RoyalBlue">Carga de Datos**

***Antes que nada, se genera el dataframe con los datos que se utilizaran para la matriz de correlación...***


In [3]:
url = "https://raw.githubusercontent.com/cristiandarioortegayubro/BA/main/Datasets/recursos_humanos_II.csv"

In [4]:
analisis = pd.read_csv(url)
analisis.drop(columns="Unnamed: 0", inplace=True)
analisis.head()

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,Work_accident,left,promotion_last_5years,sales,salary
0,0.38,0.53,2,157,3,0,1,0,sales,low
1,0.8,0.86,5,262,6,0,1,0,sales,medium
2,0.11,0.88,7,272,4,0,1,0,sales,medium
3,0.72,0.87,5,223,5,0,1,0,sales,low
4,0.37,0.52,2,159,3,0,1,0,sales,low


***Se cambian los nombres de las columnas para mejor interpretacion...***

In [5]:
analisis.rename(columns={"satisfaction_level":"niveldesatisfaccion",
                         "last_evaluation":"ultimaevaluacion",
                         "number_project":"numerosdeproyectos",
                         "average_montly_hours":"horasmensualespromedio",
                         "time_spend_company":"tiempoenlaempresa",
                         "Work_accident":"accidentedetrabajo",
                         "left":"abandono",
                         "promotion_last_5years":"promocionultimos5años",
                         "sales":"ventas",
                         "salary":"sueldo"}, inplace= True)

# **<font color="RoyalBlue">Matriz de correlación**

***La correlación estadística constituye una técnica estadística que  indica si las variables están relacionadas o no lo están.***

***Por ejemplo, en las variables del ingreso familiar y el gasto familiar se sabe que un aumento en los ingresos genera un aumento en los gastos, y una disminución de los ingresos, genera una disminución de los gastos. Por lo tanto, las variables ingresos y gastos están relacionadas y un cambio en cualquiera de esas variables estará acompañado por un cambio en la otra variable en el mismo sentido, o con el mismo signo.***

***De la misma manera, los precios y la demanda de un producto son variables relacionadas; cuando los precios aumentan la demanda tenderá a disminuir y viceversa.***


***En el caso del ingreso familiar y el gasto familiar, es fácil ver que ambos suben o bajan juntos en la misma dirección. Esto se denomina correlación positiva.***

***En caso del precio y la demanda, el cambio se produce en la dirección opuesta, de modo que el aumento de una variables está acompañado de una disminución en la otra variable. Esto se conoce como correlación negativa.***

## **<font color="RoyalBlue">Matriz de correlación** - Coeficiente estándar = método Pearson

***La correlación de Pearson funciona bien con variables cuantitativas que tienen una distribución normal o próxima a la normal. Es más sensible a los valores extremos que las otras dos alternativas, Spearman y Kendall.***

***La correlación de Spearman se emplea con variables cuantitativas (continuas o discretas). En lugar de utilizar directamente el valor de cada variable, los datos son ordenados y reemplazados por su respectivo orden ranking. Es un método no paramétrico muy utilizado cuando no se satisface la condición de normalidad necesaria para aplicar la correlación de Pearson.***



***La correlación de Kendall es otra alternativa no paramétrica que, al igual que la correlación de Spearman, utiliza la ordenación de las observaciones ranking. Es recomendable cuando se dispone de pocos datos.***


In [6]:
pearson = analisis.corr(method="pearson").round(2)

In [7]:
pearson

Unnamed: 0,niveldesatisfaccion,ultimaevaluacion,numerosdeproyectos,horasmensualespromedio,tiempoenlaempresa,accidentedetrabajo,abandono,promocionultimos5años
niveldesatisfaccion,1.0,0.11,-0.14,-0.02,-0.1,0.06,-0.39,0.03
ultimaevaluacion,0.11,1.0,0.35,0.34,0.13,-0.01,0.01,-0.01
numerosdeproyectos,-0.14,0.35,1.0,0.42,0.2,-0.0,0.02,-0.01
horasmensualespromedio,-0.02,0.34,0.42,1.0,0.13,-0.01,0.07,-0.0
tiempoenlaempresa,-0.1,0.13,0.2,0.13,1.0,0.0,0.14,0.07
accidentedetrabajo,0.06,-0.01,-0.0,-0.01,0.0,1.0,-0.15,0.04
abandono,-0.39,0.01,0.02,0.07,0.14,-0.15,1.0,-0.06
promocionultimos5años,0.03,-0.01,-0.01,-0.0,0.07,0.04,-0.06,1.0


In [8]:
px.imshow(pearson,
          title = "Matriz de correlacion",
          text_auto = True, 
          template = "seaborn",
          labels={"color":"Coeficiente"})

***Un valor positivo grande (cercano a 1) indica una fuerte correlación positiva, es decir, si el valor de una de las variables aumenta, el valor de la otra variable aumenta también.***

***Un valor negativo grande (cercano a -1) indica una fuerte correlación negativa, es decir, que el valor de una de las variables disminuye al aumentar el de la otra y viceversa.***

***Un valor cercano a 0 (tanto positivo como negativo) indica la ausencia de cualquier correlación entre las dos variables, y por lo tanto esas variables son independientes entre sí.***

## **<font color="RoyalBlue">Ordenando los valores de la Matriz de correlación**

In [9]:
orden = pearson.unstack()

In [10]:
print(orden)

niveldesatisfaccion    niveldesatisfaccion       1.00
                       ultimaevaluacion          0.11
                       numerosdeproyectos       -0.14
                       horasmensualespromedio   -0.02
                       tiempoenlaempresa        -0.10
                                                 ... 
promocionultimos5años  horasmensualespromedio   -0.00
                       tiempoenlaempresa         0.07
                       accidentedetrabajo        0.04
                       abandono                 -0.06
                       promocionultimos5años     1.00
Length: 64, dtype: float64


In [11]:
orden = orden.sort_values()

In [12]:
print(orden)

abandono                niveldesatisfaccion      -0.39
niveldesatisfaccion     abandono                 -0.39
abandono                accidentedetrabajo       -0.15
accidentedetrabajo      abandono                 -0.15
niveldesatisfaccion     numerosdeproyectos       -0.14
                                                  ... 
horasmensualespromedio  horasmensualespromedio    1.00
numerosdeproyectos      numerosdeproyectos        1.00
ultimaevaluacion        ultimaevaluacion          1.00
abandono                abandono                  1.00
promocionultimos5años   promocionultimos5años     1.00
Length: 64, dtype: float64


### <font color="RoyalBlue">Viendo **los valores negativos**

In [13]:
negativos = orden[orden < 0]

In [14]:
print(negativos)

abandono                niveldesatisfaccion      -0.39
niveldesatisfaccion     abandono                 -0.39
abandono                accidentedetrabajo       -0.15
accidentedetrabajo      abandono                 -0.15
niveldesatisfaccion     numerosdeproyectos       -0.14
numerosdeproyectos      niveldesatisfaccion      -0.14
niveldesatisfaccion     tiempoenlaempresa        -0.10
tiempoenlaempresa       niveldesatisfaccion      -0.10
abandono                promocionultimos5años    -0.06
promocionultimos5años   abandono                 -0.06
niveldesatisfaccion     horasmensualespromedio   -0.02
horasmensualespromedio  niveldesatisfaccion      -0.02
                        accidentedetrabajo       -0.01
promocionultimos5años   numerosdeproyectos       -0.01
ultimaevaluacion        promocionultimos5años    -0.01
numerosdeproyectos      promocionultimos5años    -0.01
ultimaevaluacion        accidentedetrabajo       -0.01
accidentedetrabajo      ultimaevaluacion         -0.01
          

### <font color="RoyalBlue">Viendo **los valores positivos**

***Elegir variables fuertemente relacionadas. Es decir, se filtran las variables cuyos valores de coeficiente de correlación sean mayores de 0,4...***

In [15]:
positivos = orden[orden > 0.4]

In [16]:
print(positivos)

numerosdeproyectos      horasmensualespromedio    0.42
horasmensualespromedio  numerosdeproyectos        0.42
niveldesatisfaccion     niveldesatisfaccion       1.00
accidentedetrabajo      accidentedetrabajo        1.00
tiempoenlaempresa       tiempoenlaempresa         1.00
horasmensualespromedio  horasmensualespromedio    1.00
numerosdeproyectos      numerosdeproyectos        1.00
ultimaevaluacion        ultimaevaluacion          1.00
abandono                abandono                  1.00
promocionultimos5años   promocionultimos5años     1.00
dtype: float64


## **<font color="RoyalBlue">Estilo en el DataFrame** - Matriz en Pandas

In [17]:
pearson

Unnamed: 0,niveldesatisfaccion,ultimaevaluacion,numerosdeproyectos,horasmensualespromedio,tiempoenlaempresa,accidentedetrabajo,abandono,promocionultimos5años
niveldesatisfaccion,1.0,0.11,-0.14,-0.02,-0.1,0.06,-0.39,0.03
ultimaevaluacion,0.11,1.0,0.35,0.34,0.13,-0.01,0.01,-0.01
numerosdeproyectos,-0.14,0.35,1.0,0.42,0.2,-0.0,0.02,-0.01
horasmensualespromedio,-0.02,0.34,0.42,1.0,0.13,-0.01,0.07,-0.0
tiempoenlaempresa,-0.1,0.13,0.2,0.13,1.0,0.0,0.14,0.07
accidentedetrabajo,0.06,-0.01,-0.0,-0.01,0.0,1.0,-0.15,0.04
abandono,-0.39,0.01,0.02,0.07,0.14,-0.15,1.0,-0.06
promocionultimos5años,0.03,-0.01,-0.01,-0.0,0.07,0.04,-0.06,1.0


In [18]:
pearson.style.background_gradient(cmap="coolwarm")

Unnamed: 0,niveldesatisfaccion,ultimaevaluacion,numerosdeproyectos,horasmensualespromedio,tiempoenlaempresa,accidentedetrabajo,abandono,promocionultimos5años
niveldesatisfaccion,1.0,0.11,-0.14,-0.02,-0.1,0.06,-0.39,0.03
ultimaevaluacion,0.11,1.0,0.35,0.34,0.13,-0.01,0.01,-0.01
numerosdeproyectos,-0.14,0.35,1.0,0.42,0.2,-0.0,0.02,-0.01
horasmensualespromedio,-0.02,0.34,0.42,1.0,0.13,-0.01,0.07,-0.0
tiempoenlaempresa,-0.1,0.13,0.2,0.13,1.0,0.0,0.14,0.07
accidentedetrabajo,0.06,-0.01,-0.0,-0.01,0.0,1.0,-0.15,0.04
abandono,-0.39,0.01,0.02,0.07,0.14,-0.15,1.0,-0.06
promocionultimos5años,0.03,-0.01,-0.01,-0.0,0.07,0.04,-0.06,1.0


In [19]:
pearson.style.background_gradient(cmap="plasma")

Unnamed: 0,niveldesatisfaccion,ultimaevaluacion,numerosdeproyectos,horasmensualespromedio,tiempoenlaempresa,accidentedetrabajo,abandono,promocionultimos5años
niveldesatisfaccion,1.0,0.11,-0.14,-0.02,-0.1,0.06,-0.39,0.03
ultimaevaluacion,0.11,1.0,0.35,0.34,0.13,-0.01,0.01,-0.01
numerosdeproyectos,-0.14,0.35,1.0,0.42,0.2,-0.0,0.02,-0.01
horasmensualespromedio,-0.02,0.34,0.42,1.0,0.13,-0.01,0.07,-0.0
tiempoenlaempresa,-0.1,0.13,0.2,0.13,1.0,0.0,0.14,0.07
accidentedetrabajo,0.06,-0.01,-0.0,-0.01,0.0,1.0,-0.15,0.04
abandono,-0.39,0.01,0.02,0.07,0.14,-0.15,1.0,-0.06
promocionultimos5años,0.03,-0.01,-0.01,-0.0,0.07,0.04,-0.06,1.0


In [20]:
pearson.style.background_gradient(cmap="viridis")

Unnamed: 0,niveldesatisfaccion,ultimaevaluacion,numerosdeproyectos,horasmensualespromedio,tiempoenlaempresa,accidentedetrabajo,abandono,promocionultimos5años
niveldesatisfaccion,1.0,0.11,-0.14,-0.02,-0.1,0.06,-0.39,0.03
ultimaevaluacion,0.11,1.0,0.35,0.34,0.13,-0.01,0.01,-0.01
numerosdeproyectos,-0.14,0.35,1.0,0.42,0.2,-0.0,0.02,-0.01
horasmensualespromedio,-0.02,0.34,0.42,1.0,0.13,-0.01,0.07,-0.0
tiempoenlaempresa,-0.1,0.13,0.2,0.13,1.0,0.0,0.14,0.07
accidentedetrabajo,0.06,-0.01,-0.0,-0.01,0.0,1.0,-0.15,0.04
abandono,-0.39,0.01,0.02,0.07,0.14,-0.15,1.0,-0.06
promocionultimos5años,0.03,-0.01,-0.01,-0.0,0.07,0.04,-0.06,1.0


In [21]:
pearson.style.background_gradient(cmap="copper")

Unnamed: 0,niveldesatisfaccion,ultimaevaluacion,numerosdeproyectos,horasmensualespromedio,tiempoenlaempresa,accidentedetrabajo,abandono,promocionultimos5años
niveldesatisfaccion,1.0,0.11,-0.14,-0.02,-0.1,0.06,-0.39,0.03
ultimaevaluacion,0.11,1.0,0.35,0.34,0.13,-0.01,0.01,-0.01
numerosdeproyectos,-0.14,0.35,1.0,0.42,0.2,-0.0,0.02,-0.01
horasmensualespromedio,-0.02,0.34,0.42,1.0,0.13,-0.01,0.07,-0.0
tiempoenlaempresa,-0.1,0.13,0.2,0.13,1.0,0.0,0.14,0.07
accidentedetrabajo,0.06,-0.01,-0.0,-0.01,0.0,1.0,-0.15,0.04
abandono,-0.39,0.01,0.02,0.07,0.14,-0.15,1.0,-0.06
promocionultimos5años,0.03,-0.01,-0.01,-0.0,0.07,0.04,-0.06,1.0


## **<font color="RoyalBlue">Matriz de correlación** - Coeficiente estándar = método Spearman

In [22]:
spearman = analisis.corr(method="spearman").round(2)

In [23]:
spearman

Unnamed: 0,niveldesatisfaccion,ultimaevaluacion,numerosdeproyectos,horasmensualespromedio,tiempoenlaempresa,accidentedetrabajo,abandono,promocionultimos5años
niveldesatisfaccion,1.0,0.16,0.01,0.06,-0.14,0.06,-0.37,0.02
ultimaevaluacion,0.16,1.0,0.35,0.34,0.16,-0.01,-0.0,-0.01
numerosdeproyectos,0.01,0.35,1.0,0.4,0.25,0.0,-0.02,-0.0
horasmensualespromedio,0.06,0.34,0.4,1.0,0.17,-0.01,0.05,-0.0
tiempoenlaempresa,-0.14,0.16,0.25,0.17,1.0,-0.03,0.27,0.04
accidentedetrabajo,0.06,-0.01,0.0,-0.01,-0.03,1.0,-0.15,0.04
abandono,-0.37,-0.0,-0.02,0.05,0.27,-0.15,1.0,-0.06
promocionultimos5años,0.02,-0.01,-0.0,-0.0,0.04,0.04,-0.06,1.0


In [24]:
px.imshow(spearman,
          title = "Matriz de correlacion",
          text_auto = True, 
          template = "seaborn",
          labels={"color":"Coeficiente"})

## **<font color="RoyalBlue">Matriz de correlación** - Coeficiente estándar = método Kendall

In [25]:
kendall = analisis.corr(method="kendall").round(2)

In [26]:
kendall

Unnamed: 0,niveldesatisfaccion,ultimaevaluacion,numerosdeproyectos,horasmensualespromedio,tiempoenlaempresa,accidentedetrabajo,abandono,promocionultimos5años
niveldesatisfaccion,1.0,0.11,0.02,0.05,-0.11,0.05,-0.3,0.02
ultimaevaluacion,0.11,1.0,0.27,0.24,0.12,-0.0,-0.0,-0.01
numerosdeproyectos,0.02,0.27,1.0,0.31,0.2,0.0,-0.02,-0.0
horasmensualespromedio,0.05,0.24,0.31,1.0,0.12,-0.0,0.04,-0.0
tiempoenlaempresa,-0.11,0.12,0.2,0.12,1.0,-0.02,0.24,0.03
accidentedetrabajo,0.05,-0.0,0.0,-0.0,-0.02,1.0,-0.15,0.04
abandono,-0.3,-0.0,-0.02,0.04,0.24,-0.15,1.0,-0.06
promocionultimos5años,0.02,-0.01,-0.0,-0.0,0.03,0.04,-0.06,1.0


In [27]:
px.imshow(kendall,
          title = "Matriz de correlacion",
          text_auto = True, 
          template = "seaborn",
          labels={"color":"Coeficiente"})

---
<p>
<font color="RoyalBlue">

💙 **Hemos llegado al fin de este cuaderno, felicitaciones estamos avanzando en el Analisis Exploratorio de los Datos, ahora a seguir en el proximo cuaderno...** 
</font>
</p>

---

# 😀