
# Laboratorio 3: Estadística descriptiva con Python II

En este laboratorio, exploraremos cómo establecer relaciones entre variables cuantitativas mediante análisis bidimensional. El objetivo principal es comprender las relaciones entre dos variables a través de gráficos de dispersión, cálculos de correlación, covarianza y regresión lineal. Este tipo de análisis es esencial, especialmente en el ámbito de la física, ya que permite identificar patrones y relaciones fundamentales en fenómenos naturales, ayudándonos a modelar y predecir comportamientos en sistemas físicos.

Durante esta sesión, aprenderemos a graficar relaciones entre dos variables, a calcular medidas de asociación como la covarianza o el coeficiente de correlación de Pearson, y a ajustar una recta de regresión lineal a un conjunto de datos bivariantes.


## Gráficos de dispersión

El diagrama de dispersión es una herramienta visual fundamental en el análisis de datos. Permite observar la relación entre dos variables cuantitativas, representando cada par de valores como un punto en el plano. A través de un gráfico de dispersión, es posible identificar patrones de relación, como tendencias lineales, no lineales o la falta de relación.

Para realizar un gráfico de dispersión en Python, usaremos la biblioteca **Matplotlib**, que ofrece herramientas versátiles para la visualización de datos.

### Pasos para crear un gráfico de dispersión

1. **Importación de Matplotlib**: Asegúrate de importar la biblioteca, habitualmente bajo el alias `plt`, con el comando `import matplotlib.pyplot as plt`.
   
2. **Preparación de los datos**: Las variables que deseas graficar deben estar organizadas en listas o arrays de igual longitud, donde cada par `(x, y)` representa un punto en el gráfico.

3. **Comando `plt.scatter()`**: El comando clave para crear gráficos de dispersión es `plt.scatter(x, y)`, donde `x` es la lista o array de los valores en el eje horizontal y `y` en el eje vertical. Algunos parámetros adicionales incluyen:
   - `color` para cambiar el color de los puntos.
   - `alpha` para ajustar la transparencia, lo cual es útil en gráficos densos.
   - `marker` para personalizar el símbolo de los puntos, como `o`, `x`, `*`, etc.

4. **Etiquetado**:
   - `plt.xlabel()` y `plt.ylabel()` se usan para etiquetar los ejes.
   - `plt.title()` permite agregar un título al gráfico.

5. **Visualización**: Finalmente, usa `plt.show()` para desplegar el gráfico.

Este enfoque proporciona un diagrama claro y personalizable, ayudando a visualizar cómo las variables interactúan entre sí y a identificar cualquier relación que pueda existir entre ellas.

A continuación, se presenta un ejemplo de código que nos permite graficas una nube de puntos.

In [None]:
# Importar las bibliotecas necesarias
import matplotlib.pyplot as plt

# Generar datos de ejemplo
# Supongamos que tenemos dos variables relacionadas: X e Y
X = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
Y = [2, 3.9, 4, 5, 5.1, 6.5, 7, 9.4, 9, 10.2]

# Crear el diagrama de dispersión
plt.figure(figsize=(8, 6))
plt.scatter(X, Y, color='blue', alpha=0.7)

# Etiquetar los ejes y agregar un título
plt.xlabel("Variable X")
plt.ylabel("Variable Y")
plt.title("Diagrama de Dispersión entre X e Y")

# Mostrar el gráfico
plt.show()

### Personalización del Gráfico de Dispersión

Matplotlib permite una amplia personalización de los gráficos de dispersión, lo cual es útil para destacar ciertas características de los datos o mejorar la estética del gráfico. Aquí te mostramos algunas de las opciones más comunes:

1. **Cambiar el color de los puntos**: Puedes especificar el color de los puntos usando el parámetro `color` en `plt.scatter()`, por ejemplo: `plt.scatter(x, y, color='red')`. También puedes emplear códigos hexadecimales (`#FF5733`) o elegir colores como `'blue'`, `'green'`, etc.

2. **Modificar el marcador**: El parámetro `marker` permite cambiar el estilo del marcador, como `'o'` (círculo), `'^'` (triángulo), `'s'` (cuadrado), `'*'` (estrella) o `'x'` (aspa). Ejemplo: `plt.scatter(x, y, marker='x')`.

3. **Ajustar el tamaño de los puntos**: Utiliza el parámetro `s` para definir el tamaño de los puntos. Por ejemplo, `plt.scatter(x, y, s=50)` aumentará el tamaño de cada punto en el gráfico.

4. **Agregar transparencia**: Con el parámetro `alpha`, puedes ajustar la transparencia de los puntos, lo cual es especialmente útil en gráficos con muchos datos superpuestos. Un valor entre 0 y 1 indica el nivel de transparencia; por ejemplo, `alpha=0.7` hará los puntos parcialmente transparentes.

5. **Personalizar el estilo general del gráfico**: Matplotlib también permite cambiar otros aspectos como el color de fondo, la cuadrícula y el estilo general del gráfico. Puedes usar `plt.style.use('estilo')` para aplicar estilos predefinidos como `'seaborn'`, `'ggplot'`, `'fivethirtyeight'`, entre otros.

Estas opciones de personalización permiten que el gráfico se adapte mejor a las necesidades del análisis y facilita la comunicación visual de los datos.

## Medidas de asociación: Covarianza y coeficiente de correlación de Pearson

Para analizar la relación entre dos variables cuantitativas en Python, podemos utilizar las funciones disponibles en bibliotecas como **NumPy** y **Pandas**, que ofrecen métodos sencillos para calcular estas medidas.

1. **Covarianza**: 
   - La covarianza mide cómo dos variables cambian juntas. En Python, podemos calcularla usando `numpy.cov()` o, en el caso de DataFrames, con `DataFrame.cov()` de Pandas. Ambas funciones devuelven una matriz de covarianza, de la cual el valor en la posición `[0,1]` representa la covarianza entre las dos variables.
   
   ```python
   import numpy as np

   # Supongamos que tenemos dos arrays, X e Y
   X = [1, 2, 3, 4, 5]
   Y = [2, 3, 4, 5, 6]

   # Calcular la covarianza usando NumPy
   covarianza = np.cov(X, Y)[0, 1]
   print(f"Covarianza: {covarianza}")
   ```

2. **Coeficiente de correlación de Pearson**:
   - El coeficiente de correlación de Pearson se utiliza para cuantificar la relación lineal entre dos variables. En Python, podemos calcularlo usando `numpy.corrcoef()` o `DataFrame.corr()` de Pandas. `numpy.corrcoef()` devuelve una matriz de correlación, donde `[0,1]` representa el coeficiente de correlación entre las dos variables.
   
   ```python
   # Calcular el coeficiente de correlación de Pearson usando NumPy
   correlacion = np.corrcoef(X, Y)[0, 1]
   print(f"Coeficiente de correlación de Pearson: {correlacion}")
   ```


A continuación, se presenta un ejemplo de código que nos permite asociar dos magnitudes. En física, la relación entre la temperatura y la presión de un gas es un ejemplo donde estas medidas son útiles. Según la ley de los gases ideales, si un gas está a volumen constante, la presión $P$ es proporcional a la temperatura $T$. Podemos verificar esta relación entre temperatura y presión con un conjunto de datos:

In [None]:
import pandas as pd

# Datos de ejemplo de temperatura (en Kelvin) y presión (en atmósferas)
temperatura = [280, 290, 300, 310, 320]
presion = [1.01, 1.02, 1.21, 1.22, 1.19]

# Crear un DataFrame
df = pd.DataFrame({'Temperatura (K)': temperatura, 'Presión (atm)': presion})

# Calcular covarianza
covarianza = df['Temperatura (K)'].cov(df['Presión (atm)'])
print(f"Covarianza: {covarianza:.4f}")

# Calcular coeficiente de correlación de Pearson
correlacion = df['Temperatura (K)'].corr(df['Presión (atm)'])
print(f"Coeficiente de correlación de Pearson: {correlacion:.4f}")

## Cálculo de la recta de regresión

La **regresión lineal** es una técnica utilizada para modelar la relación entre dos variables mediante una línea recta que mejor se ajusta a los datos. Esta línea puede predecir el valor de una variable $Y$ en función de otra variable $X$, y se define por la ecuación:

$$
Y = a+bX 
$$

donde $b$ es la pendiente de la recta y $a$ es la ordenada en el origen.

En Python, el cálculo de la recta de regresión se puede realizar fácilmente con las funciones de **NumPy** o **SciPy**:

1. **Usando `numpy.polyfit()`**:
   - Esta función permite realizar ajustes polinomiales de cualquier grado. Para una regresión lineal, se ajusta un polinomio de primer grado (`deg=1`). `polyfit()` devuelve los coeficientes de la recta, en este caso, la pendiente \( m \) y la intersección \( b \).

2. **Usando `scipy.stats.linregress()`**:
   - La función `linregress()` de SciPy es específica para regresión lineal y proporciona tanto la pendiente como la intersección, además del coeficiente de correlación y otros valores estadísticos útiles.

A continuación, se introduce un ejemplo en Python usando `numpy.polyfit()`.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Datos
X = np.array([1, 2, 3, 4, 5])                   # Variable independiente
Y = 10 / X + np.random.normal(0, 0.2, 5)        # Variable dependiente con ruido

# Cálculo de la recta de regresión usando numpy.polyfit()
b, a = np.polyfit(X, Y, 1)

# Visualización del ajuste
plt.scatter(X, Y, label="Datos")
plt.plot(X, b * X + a, color="red", label=f"Recta de regresión: Y = {b:.2f}X + {a:.2f}")
plt.xlabel("Variable X")
plt.ylabel("Variable Y")
plt.title("Recta de regresión")
plt.legend()
plt.show()

print(f"Pendiente (m): {b:.2f}")
print(f"Intersección (b): {a:.2f}")

### Personalización de la Recta de regresión

En Matplotlib, se pueden personalizar varios aspectos de la línea de regresión para hacerla más destacada o para adaptarla a una presentación visual específica. Aquí tienes algunas de las opciones más útiles:

1. **Color de la línea**:
   - Usa el parámetro `color` para cambiar el color de la línea. Puedes asignar nombres de colores (`'blue'`, `'green'`) o usar códigos hexadecimales (`'#FF5733'`).
   - Ejemplo: `plt.plot(X, b * X + a, color="blue")`

2. **Estilo de la línea**:
   - El parámetro `linestyle` permite cambiar el estilo de la línea:
     - `'-'`: Línea continua (por defecto).
     - `'--'`: Línea discontinua.
     - `':'`: Línea punteada.
     - `'-.'`: Línea con guiones y puntos.
   - Ejemplo: `plt.plot(X, b * X + a, linestyle="--")`

3. **Grosor de la línea**:
   - Usa `linewidth` para ajustar el grosor de la línea. Un valor mayor resalta la línea.
   - Ejemplo: `plt.plot(X, b * X + a, linewidth=2)`

4. **Marcadores en los puntos de datos**:
   - Puedes añadir marcadores en los puntos usando el parámetro `marker` en `plt.plot()`. Esto es útil si deseas enfatizar los puntos por los que pasa la recta de regresión.
   - Ejemplo: `plt.plot(X, b * X + a, marker='o')`

Aquí tienes un código de ejemplo con personalización:

In [None]:
# Visualización del ajuste con personalización
plt.scatter(X, Y, label="Datos", color="gray")
plt.plot(X, b * X + a, color="blue", linestyle="--", linewidth=2, label=f"Recta de regresión: Y = {b:.2f}X + {a:.2f}")
plt.xlabel("Variable X")
plt.ylabel("Variable Y")
plt.title("Recta de Regresión con Personalización")
plt.legend()
plt.show()

Con esta personalización, la línea de regresión aparece en color azul, en estilo discontinuo y con un grosor de 2, permitiendo que la tendencia se destaque claramente en el gráfico. Estas opciones permiten a los estudiantes experimentar y adaptar los gráficos para diferentes contextos o audiencias.

## Análisis de varianza: SCT, SCE y SCR

El **Análisis de Varianza** nos permite descomponer la variabilidad total de una variable dependiente en varias partes. En el contexto de la regresión lineal, esta descomposición se utiliza para evaluar la calidad del ajuste de la recta de regresión a los datos.

1. **Suma de los Cuadrados Totales (SCT)**:
   - SCT mide la variabilidad total de los datos alrededor de la media de $ Y $.
   - Se calcula sumando los cuadrados de las diferencias entre cada valor $ Y $ y la media de $ Y $.
   
   $$
   \text{SCT} = \sum (Y_i - \bar{Y})^2
   $$

2. **Suma de los Cuadrados Explicada (SCE)**:
   - SCE mide la variabilidad explicada por la recta de regresión. Es la diferencia entre las predicciones de la regresión y la media de $ Y $.
   
   $$
   \text{SCE} = \sum (\hat{Y}_i - \bar{Y})^2
   $$

3. **Suma de los Cuadrados de los Residuos (SCR)**:
   - SCR mide la variabilidad de los residuos, es decir, la parte de la variabilidad en $ Y $ que no es explicada por el modelo.
   
   $$
   \text{SCR} = \sum (Y_i - \hat{Y}_i)^2
   $$

El **coeficiente de determinación $ R^2 $** se calcula como $ R^2 = \frac{\text{SCE}}{\text{SCT}} $, indicando la proporción de la variabilidad total que es explicada por el modelo.

Supongamos que ya tenemos datos de $ X $ y $ Y $, y hemos calculado la pendiente y la intersección de la recta de regresión usando `numpy.polyfit()`. Ahora vamos a calcular $\text{SCT}$, $\text{SCE}, $\text{SCR} y $ R^2 $:

In [None]:
import numpy as np

# Datos de ejemplo
X = np.array([1, 2, 3, 4, 5])
Y = np.array([2.2, 2.8, 3.6, 4.5, 5.1])

# Cálculo de la recta de regresión
b, a = np.polyfit(X, Y, 1)

# Valores predichos por el modelo de regresión
Y_pred = b * X + a

# Cálculo de la media de Y
Y_mean = np.mean(Y)

# Calcular SCT (Suma de los Cuadrados Totales)
SCT = np.sum((Y - Y_mean) ** 2)

# Calcular SCE (Suma de los Cuadrados Explicada)
SCE = np.sum((Y_pred - Y_mean) ** 2)

# Calcular SCR (Suma de los Cuadrados de los Residuos)
SCR = np.sum((Y - Y_pred) ** 2)

# Calcular el coeficiente de determinación R^2
R2 = SCE / SCT

# Mostrar los resultados
print(f"Suma de los Cuadrados Totales (SCT): {SCT:.4f}")
print(f"Suma de los Cuadrados Explicada (SCE): {SCE:.4f}")
print(f"Suma de los Cuadrados de los Residuos (SCR): {SCR:.4f}")
print(f"Coeficiente de determinación (R^2): {R2:.4f}")


### Interpretación de los Resultados

- **SCT** muestra la variabilidad total en los datos.
- **SCE** indica cuánta de esa variabilidad es explicada por la recta de regresión.
- **SCR** refleja la variabilidad no explicada o error en el ajuste.
- **$ R^2 $** proporciona un valor entre 0 y 1 que indica qué proporción de la variabilidad total en $ Y $ es explicada por el modelo. Un $ R^2 $ cercano a 1 indica un ajuste fuerte.

Este análisis permite evaluar qué tan bien el modelo de regresión lineal representa la relación entre las variables.

## Ejercicios prácticos

Estos ejercicios te permitirán poner en práctica los conocimientos de Python que has adquirido en el Laboratorio 3.

### Ejercicio 1: Relación entre velocidad y energía cinética de una partícula

En este ejercicio, se trabajará con un conjunto de datos experimentales sobre la relación entre la **velocidad** de una partícula y su **energía cinética**. Se proporciona una tabla de 30 observaciones de velocidad (m/s) y energía cinética (J). El objetivo es analizar esta relación utilizando los conocimientos adquiridos.

| Velocidad (m/s) | Energía Cinética (J) |
|-----------------|-----------------------|
| 1.2             | 1.3                  |
| 2.3             | 5.4                  |
| 3.1             | 9.1                  |
| 1.5             | 2.2                  |
| 2.6             | 6.8                  |
| 3.3             | 9.7                  |
| 1.8             | 3.1                  |
| 2.9             | 8.4                  |
| 3.6             | 11.0                 |
| 1.0             | 0.9                  |
| 2.1             | 4.5                  |
| 3.2             | 9.5                  |
| 1.6             | 2.8                  |
| 2.4             | 6.3                  |
| 3.4             | 10.3                 |
| 1.9             | 3.7                  |
| 2.5             | 6.9                  |
| 3.0             | 8.9                  |
| 1.4             | 2.1                  |
| 2.7             | 7.6                  |
| 3.5             | 10.8                 |
| 1.1             | 1.1                  |
| 2.2             | 5.0                  |
| 3.7             | 11.5                 |
| 1.7             | 3.0                  |
| 2.8             | 8.0                  |
| 3.8             | 12.0                 |
| 1.3             | 1.8                  |
| 2.0             | 4.0                  |
| 3.9             | 12.3                 |

Se pide que:

1. Calcule el coeficiente de correlación de Pearson entre las variables Velocidad y Energía Cinética.
2. Calcule la recta de regresión que explica la Energía Cinética en función de la Velocidad.
3. Represente el diagrama de dispersión con las 30 observaciones junto con la recta de regresión.
4. Calcule el $R^2$ de la regresión.

### Ejercicio 2: Relación entre la Intensidad de luz y la Distancia a la fuente

En este ejercicio, se trabajará con un conjunto de datos experimentales sobre la relación entre la **intensidad de luz** medida en un punto y la **distancia** desde ese punto a una fuente de luz. La intensidad de luz tiende a disminuir a medida que aumenta la distancia a la fuente. A continuación se proporciona una tabla de 12 observaciones de distancia (m) e intensidad de luz (lux).

| Distancia (m) | Intensidad de Luz (lux) |
|---------------|-------------------------|
| 1.0           | 920                     |
| 1.5           | 610                     |
| 2.0           | 455                     |
| 2.5           | 360                     |
| 3.0           | 300                     |
| 3.5           | 260                     |
| 4.0           | 225                     |
| 4.5           | 200                     |
| 5.0           | 180                     |
| 5.5           | 165                     |
| 6.0           | 150                     |
| 6.5           | 140                     |

Se pide que:

1. Represente el diagrama de dispersión de los datos de distancia e intensidad de luz para visualizar la relación entre ambas variables y en el mismo gráfico represente la recta de regresión que relaciona ambas variables (el eje $X$ debe representa la distancia y el eje $Y$ la intensidad de luz). ¿Hay una relación lineal entre las variables?
2. Calcule el coeficiente de correlación de Pearson entre la distancia y la intensidad de luz y explique brevemente si hay una relación lineal fuerte entre las dos variables.
3. Calcule la recta de regresión que predice la intensidad de luz en función de la distancia y calcule su $R^2$.

> Nota: Aunque la relación no es lineal, se os solicita a los estudiantes que calculéis la recta de regresión, lo cual permite discutir las limitaciones de los modelos lineales en relaciones no lineales.