# Análisis y visualización de datos abiertos con python
# Extra: Estadística intermedia

## Correlaciones

La correlación es una medida estadística que describe la relación entre dos variables. La correlación puede ser positiva, negativa o neutra, y su valor puede variar entre -1 y 1. Una correlación positiva significa que a medida que una variable aumenta, la otra variable también tiende a aumentar. Una correlación negativa significa que a medida que una variable aumenta, la otra variable tiende a disminuir. Una correlación neutra significa que no hay una relación aparente entre las dos variables.

El coeficiente de correlación de Pearson es la medida más comúnmente utilizada para calcular la correlación entre dos variables continuas. Este coeficiente varía entre -1 y 1, y se calcula dividiendo la covarianza de las dos variables por el producto de sus desviaciones estándar.

Otras medidas de correlación incluyen el coeficiente de correlación de rango de Spearman y el coeficiente de correlación de rango de Kendall, que son útiles cuando las variables no siguen una distribución normal o cuando hay valores atípicos en los datos.

Es importante tener en cuenta que la correlación no implica causalidad. Solo porque dos variables estén correlacionadas, no significa que una variable cause la otra. La correlación solo indica que hay una relación entre las dos variables.

Para datos categóricos, se utilizan medidas de correlación distintas a las utilizadas para datos continuos. Las medidas de correlación para datos categóricos se basan en la comparación de las frecuencias observadas de las combinaciones de categorías de dos variables con las frecuencias esperadas bajo la hipótesis de independencia.

Algunas de las medidas de correlación para datos categóricos más comunes incluyen:
* Coeficiente de contingencia: mide la relación entre dos variables categóricas, tomando valores entre 0 y 1. Un valor cercano a 0 indica que las variables son independientes, mientras que un valor cercano a 1 indica una relación fuerte.
* Coeficiente de correlación phi: es similar al coeficiente de contingencia, pero se utiliza específicamente para variables binarias (que solo tienen dos categorías).
* Coeficiente de correlación Cramer's V: es una generalización del coeficiente de contingencia que se utiliza para variables con más de dos categorías.
* Coeficiente de correlación de Kendall's tau-b: se utiliza para medir la relación entre dos variables ordinales (variables categóricas que tienen un orden natural).
* Coeficiente de correlación de Spearman's rho: es similar a Kendall's tau-b, pero se utiliza para medir la relación entre dos variables ordinales o variables continuas.

Es importante tener en cuenta que estas medidas de correlación solo miden la fuerza de la relación entre dos variables categóricas y no establecen causalidad.

En Pandas, la función corr() se utiliza para calcular la matriz de correlación entre todas las variables de un DataFrame. Por defecto, esta función calcula la correlación de Pearson para las variables numéricas.

Sin embargo, para calcular la correlación entre variables categóricas, es necesario convertir estas variables a una representación numérica. Esto se puede hacer utilizando la técnica de codificación one-hot (también conocida como codificación de variables ficticias o dummy). La codificación one-hot convierte cada categoría en una variable binaria (1 si pertenece a la categoría, 0 si no) y luego calcula la correlación de Pearson entre estas variables binarias.

A continuación se muestra un ejemplo de cómo calcular la matriz de correlación entre variables categóricas utilizando Pandas:

In [None]:
import pandas as pd

# Crear un DataFrame con variables categóricas
df = pd.DataFrame({
    'sexo': ['M', 'F', 'M', 'F', 'M', 'M', 'F', 'F'],
    'grupo_sanguineo': ['A', 'O', 'B', 'O', 'A', 'AB', 'B', 'O'],
    'enfermedad': ['no', 'si', 'no', 'si', 'no', 'si', 'no', 'si']
})

# Convertir variables categóricas a variables binarias (one-hot encoding)
df_encoded = pd.get_dummies(df)

# Calcular la matriz de correlación utilizando el coeficiente de correlación de Pearson
correlaciones = df_encoded.corr(method='pearson')
print(correlaciones)


En este ejemplo, se crea un DataFrame con tres variables categóricas (sexo, grupo_sanguineo y enfermedad). Luego, se utiliza la función get_dummies() de Pandas para codificar estas variables categóricas como variables binarias.

Finalmente, se calcula la matriz de correlación utilizando el coeficiente de correlación de Pearson con el método corr() de Pandas. El resultado es una matriz de correlación que muestra la correlación entre todas las variables binarias.

## Regresión lineal y logística

### Regresión lineal

La regresión lineal es una técnica de análisis estadístico utilizada para modelar la relación entre una variable dependiente (Y) y una o más variables independientes (X). En la regresión lineal, se ajusta una línea recta a los datos para encontrar la mejor estimación de la relación entre las variables.

En Python, se puede realizar una regresión lineal utilizando la biblioteca de ciencia de datos y aprendizaje automático, Scikit-Learn. El siguiente es un ejemplo básico de cómo realizar una regresión lineal en Python usando Scikit-Learn:

In [None]:
# Importar bibliotecas necesarias
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Crear datos de ejemplo
x = np.array([1, 2, 3, 4, 5]).reshape((-1, 1))
y = np.array([2, 3, 4, 5, 6])

# Crear el objeto de regresión lineal
modelo = LinearRegression()

# Ajustar el modelo utilizando los datos de entrenamiento
modelo.fit(x, y)

# Obtener la intersección y la pendiente de la línea de regresión
interseccion = modelo.intercept_
pendiente = modelo.coef_

# Predecir nuevos valores
nuevos_x = np.array([6, 7, 8]).reshape((-1, 1))
predicciones = modelo.predict(nuevos_x)

# Visualizar los resultados
plt.scatter(x, y)
plt.plot(x, interseccion + pendiente * x, color='red')
plt.scatter(nuevos_x, predicciones, color='green')
plt.show()

En este ejemplo, primero se crean algunos datos de ejemplo para X e Y. Luego, se crea un objeto de regresión lineal utilizando la clase LinearRegression() de Scikit-Learn. A continuación, se ajusta el modelo utilizando los datos de entrenamiento utilizando el método fit().

Después de ajustar el modelo, se pueden obtener los valores de intersección y pendiente de la línea de regresión utilizando los atributos intercept_ y coef_ del modelo. Luego, se pueden utilizar estos valores para predecir nuevos valores de Y utilizando el método predict().

Finalmente, se visualizan los resultados graficando los puntos de datos originales, la línea de regresión ajustada y las predicciones de los nuevos valores en un gráfico.

Es importante tener en cuenta que la regresión lineal es una técnica poderosa pero tiene ciertas suposiciones y limitaciones. Por lo tanto, siempre es importante validar el modelo y realizar un análisis de los residuos para verificar la calidad del ajuste.

### Regresión logística

La regresión logística es una técnica de modelado estadístico que se utiliza para predecir la probabilidad de que ocurra un evento binario (sí o no, verdadero o falso) en función de una o más variables independientes. A diferencia de la regresión lineal, que se utiliza para predecir valores numéricos continuos, la regresión logística se utiliza para predecir una variable categórica.

En Python, se puede realizar una regresión logística utilizando la biblioteca Scikit-Learn. El siguiente es un ejemplo básico de cómo realizar una regresión logística en Python usando Scikit-Learn:

In [None]:
# Importar bibliotecas necesarias
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_breast_cancer

# Cargar el conjunto de datos de ejemplo
data = load_breast_cancer()

# Separar los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.3, random_state=42)

# Crear el objeto de regresión logística
modelo = LogisticRegression()

# Ajustar el modelo utilizando los datos de entrenamiento
modelo.fit(X_train, y_train)

# Realizar predicciones sobre los datos de prueba
y_pred = modelo.predict(X_test)

# Calcular la precisión del modelo
precision = accuracy_score(y_test, y_pred)

# Imprimir la precisión del modelo
print("Precisión del modelo: {:.2f}%".format(precision * 100))

En este ejemplo, se utiliza el conjunto de datos de cáncer de mama de Wisconsin, que contiene información sobre diferentes características de las células del cáncer de mama. Primero, se separan los datos en conjuntos de entrenamiento y prueba utilizando la función train_test_split() de Scikit-Learn.

Luego, se crea un objeto de regresión logística utilizando la clase LogisticRegression() de Scikit-Learn. A continuación, se ajusta el modelo utilizando los datos de entrenamiento utilizando el método fit().

Después de ajustar el modelo, se utilizan los datos de prueba para realizar predicciones utilizando el método predict(). Luego, se calcula la precisión del modelo utilizando la función accuracy_score() de Scikit-Learn.

Finalmente, se imprime la precisión del modelo en la consola.

Es importante tener en cuenta que la regresión logística también tiene suposiciones y limitaciones, por lo que siempre es importante validar el modelo y realizar un análisis de los residuos para verificar la calidad del ajuste. Además, la selección de variables y la optimización de los hiperparámetros también son importantes para mejorar el rendimiento del modelo.

## PCA y PCoA

### PCA (Análisis de Componentes Principales)

PCA (Análisis de Componentes Principales) es una técnica estadística utilizada para reducir la dimensionalidad de un conjunto de datos. El PCA busca encontrar las combinaciones lineales de las variables originales que expliquen la mayor cantidad posible de la variabilidad en los datos. Estas nuevas variables, llamadas componentes principales, se ordenan en función de la cantidad de varianza que explican en los datos.

La idea detrás del PCA es que, en muchos casos, los datos pueden estar altamente correlacionados entre sí y pueden ser redundantes en términos de información. Al reducir la dimensionalidad de los datos mediante el PCA, podemos eliminar esta redundancia y conservar solo las variables más informativas y significativas para el análisis.

El PCA se utiliza comúnmente en diferentes campos, incluyendo la biología, la química, la física, la psicología, la economía, entre otros. En la práctica, el PCA se aplica a un conjunto de datos de alta dimensionalidad, se calculan los componentes principales, y se utilizan estos componentes para realizar análisis más simples, como clasificación, regresión o visualización.

Es importante destacar que el PCA es una técnica no supervisada, es decir, no requiere etiquetas o información de respuesta para llevar a cabo la reducción de dimensionalidad.

### PCoA (Análisis de Coordenadas Principales)

PCoA (Análisis de Coordenadas Principales) es una técnica multivariante utilizada para explorar y visualizar la similitud o distancia entre los datos. El PCoA es similar al PCA, pero en lugar de trabajar directamente con las variables, el PCoA trabaja con una matriz de distancia o similitud que se calcula a partir de los datos originales.

En el PCoA, los datos se representan en un espacio de menor dimensión (generalmente 2D o 3D) donde la distancia entre los puntos refleja la similitud o distancia entre los datos originales. El PCoA es útil para analizar datos de tipo biológico, como datos de microbioma, ecología, genómica, entre otros.

La idea detrás del PCoA es reducir la complejidad de la matriz de distancia o similitud a un espacio de menor dimensión, sin perder la información relevante de las similitudes o distancias entre los datos originales. A diferencia del PCA, que busca encontrar las combinaciones lineales de las variables que expliquen la mayor cantidad posible de la variabilidad en los datos, el PCoA utiliza la información de la matriz de distancia para construir un espacio que refleje la similitud entre los datos originales.

El PCoA se utiliza comúnmente en análisis de microbioma y ecología, donde se analizan las similitudes o distancias entre las comunidades microbianas o ecológicas. También se utiliza en genómica para analizar las similitudes o distancias entre los perfiles de expresión génica. El PCoA es una técnica no supervisada, es decir, no requiere etiquetas o información de respuesta para llevar a cabo el análisis y visualización de los datos.