<img src="https://udearroba.udea.edu.co/imagescourses/2022C343_alprog_V1/banner-colab.png">

# <font color='157699'> **Correlación vs. causalidad / Introducción a las redes de correlación y causalidad**


---

# <font color='157699'> **Correlación vs. causalidad**

### **Importancia y precauciones al interpretar datos**

---
#### **Importancia de una interpretación cuidadosa**

1. **Tomar decisiones informadas**: en la era de la información, las decisiones basadas en datos pueden dar a las empresas y organizaciones una ventaja competitiva. Sin embargo, es crucial asegurarse de que estas decisiones se tomen con base en interpretaciones correctas.
  
2. **Evitar costosas equivocaciones**: una interpretación errónea puede llevar a tomar decisiones que no solo dejan de aprovechar oportunidades, sino que pueden causar daño.

3. **Mantener la integridad científica y profesional**: la confianza del público y de los colegas en el trabajo basado en datos depende de interpretaciones precisas y honestas.

---

#### **Precauciones al interpretar datos**

1. **Distinguir entre correlación y causalidad**: como se discutió en la sección anterior, solo porque dos variables estén correlacionadas no significa que una cause la otra.

2. **Evitar la falacia del causante común**: a veces dos variables pueden parecer estar correlacionadas porque ambas son influenciadas por una tercera variable no considerada.

   **Ejemplo**: el número de personas que llevan sombreros y el número de helados vendidos puede aumentar de manera simultánea durante el verano, debido al calor, no porque uno cause el otro.

3. **Considerar el sesgo de selección**: si los datos no representan a toda la población, cualquier interpretación basada en estos puede ser incorrecta.

   **Ejemplo**: es probable que realizar una encuesta sobre hábitos de Internet en un club de informática no represente a la población general.

4. **Tener cuidado con las variables de confusión**: estas son variables que pueden influir tanto en la variable dependiente como en la independiente, pueden dar la ilusión de una relación causal entre las dos principales variables de interés.

   **Ejemplo**: si se investiga la relación entre ejercicio y salud, el factor dieta podría ser una variable de confusión si no se controla adecuadamente.

5. **No sobreinterpretar pequeñas diferencias**: en especial cuando se manejan grandes conjuntos de datos. Pequeñas diferencias pueden parecer significativas incluso cuando no lo son. Es vital tener en cuenta el contexto y la significación práctica.

6. **Verificar la calidad de los datos**: los datos incompletos, inexactos o sesgados pueden llevar a interpretaciones erróneas. Siempre es crucial conocer la fuente de los datos y cómo se recopilaron.

---

#### **Resumen**:

Interpretar datos requiere más que solo analizar números y patrones. Requiere una comprensión cuidadosa del contexto, una consideración de posibles variables de confusión y sesgos y una consciencia de las trampas comunes que pueden llevar a interpretaciones incorrectas. Dedicar el tiempo para interpretar es esencial para tomar decisiones basadas en datos que sean efectivas y éticas.

 ## <font color='157699'> **Introducción a las redes de correlación y causalidad**

---

**Objetivos de la sección:**  
Introducir el concepto de redes de correlación y causalidad, cómo se construyen a partir de conjuntos de datos multivariados y cómo se pueden utilizar para representar y analizar relaciones estadísticas entre variables.

---

#### **¿Qué es una red de correlación y causalidad?**

- **Definición**: es una representación gráfica de relaciones estadísticas (correlaciones) y posibles relaciones causales entre un conjunto de variables. Cada variable se representa como un nodo y la relación entre dos variables se representa como un enlace.

---

#### **Componentes clave de una red de correlación y causalidad**

1. **Nodos**: representan variables individuales de un conjunto de datos.

2. **Enlaces de correlación**: representan una relación estadística significativa entre dos variables. Pueden tener un peso que indica la fuerza de la correlación (por ejemplo, coeficiente de correlación).

3. **Enlaces de causalidad**: indican una posible relación causal entre dos variables, a menudo derivada de técnicas más avanzadas de análisis como modelos de regresión.

---

#### **Construcción de redes de correlación**

1. **Recopilación de datos**: se necesita un conjunto de datos multivariado, donde se tienen múltiples variables medidas para un conjunto de observaciones.

2. **Cálculo de correlaciones**: se determinan las correlaciones entre pares de variables, por lo general se utiliza el coeficiente de correlación de Pearson o Spearman.

3. **Determinación de significancia**: usando pruebas de significancia se determina qué correlaciones son estadísticamente significativas.

4. **Visualización**: las variables se representan como nodos y las correlaciones significativas como enlaces.

---

#### **Diferenciando correlación de causalidad en redes**

1. **Correlación no implica causalidad**: es crucial recordar que solo porque dos variables estén correlacionadas no significa que una cause la otra.

2. **Métodos para inferir causalidad**: existen técnicas como los modelos de regresión, los experimentos controlados y los modelos de ecuaciones estructurales que pueden ayudar a inferir relaciones causales.

3. **Visualización en la red**: las relaciones causales a menudo se representan con flechas, que indican la dirección de la causalidad, mientras que las correlaciones pueden representarse con líneas sin dirección.

---

#### **Aplicaciones y utilidad**

1. **Descubrimiento de relaciones**: ayudan a identificar qué variables están relacionadas y cómo, lo cual es esencial en investigación y análisis de datos.

2. **Hipótesis para investigaciones futuras**: las relaciones identificadas pueden servir como base para investigaciones más profundas y experimentos controlados.

3. **Optimización y toma de decisiones**: en negocios o políticas públicas, identificar variables clave y sus interacciones puede guiar acciones y decisiones efectivas.

---

#### **Resumen**:

Las redes de correlación y causalidad ofrecen una manera visual y estructurada de explorar y entender las interacciones estadísticas y causales entre variables en conjuntos de datos complejos. Estas redes son herramientas fundamentales en estadísticas, investigación y análisis de datos, proporcionan *insights* y guías para futuros estudios y decisiones.

---

Al final de esta sección podrás comprender cómo se construyen y se interpretan las redes de correlación y causalidad, así como reconocer su utilidad en el análisis de datos multivariados.

## <font color='157699'> **Ejemplos y visualizaciones con Python**

---

#### **1. Herramientas y bibliotecas necesarias**

- **Librerías de Python**:
    - `Pandas`: para manejo de datos.
    - `Numpy`: operaciones matemáticas.
    - `Networkx`: construcción y visualización de redes.
    - `Matplotlib` y `Aeaborn`: visualizaciones adicionales.
    - `Acipy`: pruebas estadísticas.

---

#### **2. Creando una red de correlación**

**a. Importando los datos y bibliotecas**

```python
import pandas as pd
import numpy as np
import networkx as nx
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import pearsonr
```

**b. Cargando y explorando los datos**

```python
data = pd.read_csv('your_data_file.csv')
data.head()
```

**c. Calculando la matriz de correlación**

```python
correlation_matrix = data.corr()
```

**d. Filtrando correlaciones significativas**

```python
alpha = 0.05  # nivel de significancia

edges = []
for i in range(correlation_matrix.shape[0]):
    for j in range(i+1, correlation_matrix.shape[1]):
        if abs(correlation_matrix.iloc[i, j]) > 0.5:  # sólo consideramos correlaciones fuertes
            _, p_value = pearsonr(data.iloc[:, i], data.iloc[:, j])
            if p_value < alpha:
                edges.append((data.columns[i], data.columns[j], correlation_matrix.iloc[i, j]))
```

**e. Construyendo y visualizando la red**

```python
G = nx.Graph()
for edge in edges:
    G.add_edge(edge[0], edge[1], weight=edge[2])

pos = nx.spring_layout(G)
nx.draw_networkx(G, pos, with_labels=True)
plt.show()
```

---

#### **3. Interpretando la red de correlación**

- **Nodos**: cada uno representa una variable del conjunto de datos.
- **Enlaces**: las conexiones representan correlaciones significativas entre variables. El grosor puede representar la fuerza de la correlación.
- **Color**: puede usarse para representar la dirección de la correlación (positiva o negativa).

---

#### **4. Creando una red de causalidad**  
(Supongamos que ya hemos identificado relaciones causales)

**a. Definiendo relaciones causales**

```python
causal_edges = [('Variable1', 'Variable2'), ('Variable3', 'Variable4')]  # ejemplo
```

**b. Visualizando la red**

```python
G_causal = nx.DiGraph()
G_causal.add_edges_from(causal_edges)

pos = nx.spring_layout(G_causal)
nx.draw_networkx(G_causal, pos, with_labels=True, arrow=True)
plt.show()
```

---

#### **5. Resumen:**

Las redes de correlación y causalidad ofrecen una visión clara de las relaciones entre variables. Con Python y sus bibliotecas es sencillo construir y visualizar estas redes, ya que son herramientas poderosas para el análisis de datos.

· Universidad de Antioquia · Ude@ Educación Virtual ·