# Análisis de correlación con "tips"

En la clase 10, habíamos introducido este tema a través del Dataset "tips" de Seaborn. Apliquemos entonces los conceptos vistos en clase.

In [None]:
# Importamos librerías
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# Cargamos la base de datos tips de Seaborn
tips = sns.load_dataset("tips")

# Visualizar las primeras filas del DataFrame
print(tips.head())

In [None]:
# Veamos algunos datos estadísticos
tips.describe()

## EDA gráfico

In [None]:
# Hagamos un scatterplot
# Podemos agregar detalles pasando la variable categórica en el atributo hue
plt.figure(figsize=(8, 6))
sns.scatterplot(data=tips, x='total_bill', y='tip', hue="day", s=100)
plt.title('Relación entre Total de la Cuenta y Propina')
plt.xlabel('Total de la Cuenta')
plt.ylabel('Propina')
plt.show()

In [None]:
# También podemos crear un pairplot solo con variables numéricas
# sns.pairplot(tips.select_dtypes(include='number'), diag_kind="hist")
sns.pairplot(tips, vars=["total_bill", "tip", "size"], hue="day")
plt.suptitle("Relaciones entre variables numéricas del dataset 'tips'", y=1.02)
plt.show()


In [None]:
# Para completar el EDA, agreguemos un Boxplot
sns.boxplot(data=tips, x="day", y="total_bill")
plt.title("Distribución del total_bill según el día")
plt.show()


## Correlación

In [None]:
# Creamos la matriz de correlación
# Recordar que solo admite variables numericas, por lo que hay que filtrarlas
tips_corr = tips.select_dtypes(include=['number']).corr()
tips_corr

In [None]:
# Usamos tips_corr para graficar un mapa de calor
plt.figure(figsize=(10, 5))
sns.heatmap(tips_corr, annot=True, cmap="coolwarm")

# Análisis de correlación con "iris"

Al final de la clase 9 presentamos el dataset "iris", apliquemos el concepto de correlación a este dataset.

In [None]:
# Cargar los datos desde la URL
url = "https://gist.githubusercontent.com/curran/a08a1080b88344b0c8a7/raw/0e7a9b0a5d22642a06d3d5b9bcbad9890c8ee534/iris.csv"
iris = pd.read_csv(url)

# Ver las primeras filas
iris.head()


In [None]:
# Veamos más detalles con info
iris.info()

In [None]:
iris.groupby("species").describe()

## EDA gráfico

In [None]:
plt.figure(figsize=(10,6))
sns.boxplot(data=iris, x="species", y="sepal_length", palette="crest")
plt.title("Distribución del largo del sépalo por especie")
plt.xlabel("Especie")
plt.ylabel("Largo del sépalo (cm)")
plt.show()

In [None]:
iris_specie = iris.copy()
# iris_specie = iris.query("species == 'versicolor'")


In [None]:
# También podemos crear un pairplot solo con variables numéricas
sns.pairplot(iris_specie, diag_kind="hist") # hue="species"
# sns.pairplot(iris.select_dtypes(include='number'), diag_kind="hist")
plt.suptitle("Relaciones entre variables numéricas del dataset 'iris'", y=1.02)
plt.show()

## Correlación

In [None]:
# Creamos la matriz de correlación
# Recordar que solo admite variables numericas, por lo que hay que filtrarlas
iris_corr = iris.select_dtypes(include=['number']).corr()
iris_corr

In [None]:
# Usamos tips_corr para graficar un mapa de calor
plt.figure(figsize=(10, 5))
sns.heatmap(iris_corr, annot=True, cmap="coolwarm")

# Bonus: Análisis amplio con dataset "gapminder-FiveYearData"

Usemos el dataset de expectativa de vida por paises

In [None]:
import pandas as pd

In [None]:
# Cargar en una variable la URL del archivo csv de Github
url = "https://raw.githubusercontent.com/resbaz/r-novice-gapminder-files/master/data/gapminder-FiveYearData.csv"
df = pd.read_csv(url)
df.head()

In [None]:
# Para el análisis univariado, agrupamos/agregamos por country-lifeExp
# Seleccionamos 10 países random
agregado1 = df.groupby("country", as_index=False)["lifeExp"].mean()
agregado1 = agregado1.sample(10)
agregado1

In [None]:
# Graficamos los promedios de lifeExp para cada país
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme(style="whitegrid")

# Ordenar los datos (opcional)
data = agregado1.sort_values("lifeExp", ascending=False)

plt.figure(figsize=(10, 5))

# Líneas verticales (desde el eje hasta el valor de lifeExp)
plt.vlines(
    x=data["country"],
    ymin=0,
    ymax=data["lifeExp"],
    color="blue",
    linewidth=3
)

# Bolita en el extremo superior
plt.scatter(
    x=data["country"],
    y=data["lifeExp"],
    color="blue",
    s=80,          # tamaño de la bolita
    edgecolor="black",
    zorder=3        # asegura que quede sobre la línea
)

# Títulos y etiquetas
plt.title("Promedio de esperanza de vida por país", fontsize=14, fontweight="bold")
plt.xlabel("País")
plt.ylabel("Esperanza de vida promedio (años)")
plt.xticks(rotation=60, ha="right", fontsize=9)
plt.tight_layout()
plt.show()




In [None]:
# Para el análisis multivariado, seleccionamos además el GDP
agregado2 = df.groupby("country")[["lifeExp", "gdpPercap"]].mean()

# Filtrar solo los países seleccionados en agregado1
agregado2 = agregado2.loc[agregado1["country"]]
agregado2

In [None]:
# Ahora analizamos como impacta además el GDP per capita
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
sns.scatterplot(
    data=agregado2,
    x="gdpPercap",
    y="lifeExp",
    s=100,             # tamaño de los puntos
    color="royalblue"
)

# Agregar etiquetas con los nombres de los países
for country in agregado2.index:
    plt.text(
        x=agregado2.loc[country, "gdpPercap"],
        y=agregado2.loc[country, "lifeExp"],
        s=country,
        fontsize=9
    )

plt.title("Relación entre PIB per cápita y esperanza de vida")
plt.xlabel("PIB per cápita (USD)")
plt.ylabel("Esperanza de vida (años)")
plt.grid(True, linestyle="--", alpha=0.6)
plt.tight_layout()
plt.show()


## Correlación

In [None]:
df.info()

In [None]:
corr_matrix = df.select_dtypes(include=['number']).corr()
print(corr_matrix)

In [None]:
# calculamos un mapa de calor de la matriz de correlacion corr_matrix
import seaborn as sns
import matplotlib.pyplot as plt

sns.heatmap(corr_matrix, annot=True, cmap="coolwarm")

In [None]:
# Filtramos por gdp menor a un umbral
umbral = 100000
df_gdp_menor_umbral = df[df["gdpPercap"] < umbral]

In [None]:
sns.boxplot(data=df_gdp_menor_umbral, x="gdpPercap")

In [None]:
# Graficamos un scatterplot entre lifeExp vs gdpPercap
sns.scatterplot(data=df_gdp_menor_umbral, x="gdpPercap", y="lifeExp")
#

In [None]:
# Y ahora el mapa de calor
corr_matrix = df[df["gdpPercap"] < 10000].select_dtypes(include=['number']).corr(method="pearson")
sns.heatmap(corr_matrix, annot=True, cmap="coolwarm")

## Distancia de Mahalanobis

La distancia de Mahalanobis mide cuán lejos está un punto de un conjunto de datos, teniendo en cuenta la correlación entre las variables.
A diferencia de la distancia euclidiana, ajusta por la escala y la dependencia entre variables.

* Covarianza → muestra si las variables suben o bajan juntas.

* Correlación → mide cuán alineadas están (sin unidades).

* Mahalanobis → usa esa información (las correlaciones y varianzas) para medir distancias respetando la forma real del conjunto de datos.

In [None]:
import pandas as pd
import numpy as np
from scipy.spatial import distance

In [None]:
# Agrupamos por country, lifeExp, gdpPercap y agregamos por year
df_mah = df.groupby(["country", "lifeExp", "gdpPercap", "pop"], as_index=False)["year"].mean().copy()

# Variables que vamos a usar
features = ["lifeExp", "gdpPercap", "pop"]

# Subconjunto numérico
X = df_mah[features]

In [None]:
# Calculamos la matriz de covarianzas e inversa
cov_matrix = np.cov(X, rowvar=False)
inv_cov = np.linalg.inv(cov_matrix)

# Media global
mean_vector = X.mean().values

In [None]:
# Función para calcular distancia de Mahalanobis a todos los países
def mahalanobis_distances(X, reference_row, inv_cov):
    diffs = X - reference_row
    left = np.dot(diffs, inv_cov)
    mahal = np.sqrt(np.sum(left * diffs, axis=1))
    return mahal

In [None]:
# Elegimos el país de referencia (por ejemplo, Argentina)
pais_ref = "Argentina"
x_ref = X[df_mah["country"] == pais_ref].values[0]

df_mah["mahalanobis"] = mahalanobis_distances(X.values, x_ref, inv_cov)

In [None]:
# ------------------------------------------------------------
# Mostramos los 10 países más "cercanos"
# ------------------------------------------------------------
df_mah_sorted = df_mah[["country", "mahalanobis"]].sort_values("mahalanobis")
print(df_mah_sorted.head(10))


In [None]:
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

pca = PCA(n_components=2)
coords = pca.fit_transform(X)

plt.scatter(coords[:, 0], coords[:, 1], c=df_mah["mahalanobis"], cmap="coolwarm", s=60)
plt.colorbar(label="Distancia Mahalanobis")
plt.title(f"Países similares a {pais_ref} (Gapminder)")
plt.xlabel("PCA 1")
plt.ylabel("PCA 2")

# resaltamos el país de referencia
ref_index = df_mah[df_mah["country"] == pais_ref].index[0]
plt.scatter(coords[ref_index, 0], coords[ref_index, 1], color="black", marker="X", s=100, label=pais_ref)
plt.legend()
plt.show()
