
# Práctica: Visualización con Python

Este notebook reproduce la práctica de visualizacion de datos  utilizando **Python** y librerías como `pandas`, `matplotlib`, `seaborn` y `scipy`.

Se trabajará con dos conjuntos de datos:
- `prestamo.xls`
- `NBA.xlsx`

⚠️ Nota: Cambia las rutas de los ficheros según la ubicación en tu ordenador.


In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import pearsonr
from pandas.plotting import parallel_coordinates

sns.set(style="whitegrid")


## Parte 1: Conjunto de datos `prestamo.xls`

In [None]:

# Cargar dataset de préstamo
df = pd.read_excel("prestamo.xls",sheet_name='Hoja2' )
df.head()


In [None]:

# Conversión de variables categóricas
df["Family"] = df["Family"].astype("category")
df["Education"] = df["Education"].astype("category")
df.info()


In [None]:

# Exploración inicial
print(df.describe(include="all"))
sns.pairplot(df, hue="Family")
plt.show()


In [None]:

# Diagrama de barras de Family
family_counts = df["Family"].value_counts()
sns.barplot(x=family_counts.index, y=family_counts.values)
plt.title("Número de miembros de la familia")
plt.show()


In [None]:

# Dispersión Edad vs Experiencia + correlación
sns.scatterplot(x="Age", y="Experience", data=df)
plt.show()

corr, _ = pearsonr(df["Age"], df["Experience"])
print("Correlación Edad-Experiencia:", corr)


In [None]:

# Matriz de dispersión y correlaciones
sns.pairplot(df.select_dtypes(include=[np.number]))
plt.show()

print(df.corr(numeric_only=True))


In [None]:

# Dispersión Edad vs Ingresos coloreado por Family
sns.scatterplot(x="Age", y="Income", hue="Family", data=df, palette="viridis")
plt.show()


In [None]:

# Filtrar clientes con familias de 4 miembros
df_fam4 = df[df["Family"] == 4]
sns.pairplot(df_fam4, hue="Education")
plt.show()


In [None]:

# Diagrama circular de Education en familias de 4
df_fam4["Education"].value_counts().plot.pie(autopct='%1.1f%%')
plt.title("Distribución Educación (familias de 4)")
plt.show()


## Parte 2: Conjunto de datos `NBA.xlsx`

In [None]:

# Cargar dataset NBA
nba = pd.read_excel("NBA.xlsx")
nba.head()


In [None]:

# Estadísticas descriptivas
print(nba.describe())


In [None]:

# Pairplot de variables numéricas
sns.pairplot(nba.select_dtypes(include=[np.number]))
plt.show()


In [None]:

# Matriz de correlación
sns.heatmap(nba.corr(numeric_only=True), annot=True, cmap="coolwarm")
plt.show()


In [None]:

# Diagrama de barras de posiciones
sns.countplot(x="POS", data=nba)
plt.show()


In [None]:

# Diagramas de caja de variables numéricas
nba.select_dtypes(include=[np.number]).plot(kind="box", figsize=(12,6))
plt.show()


In [None]:

# Diagrama circular de Partidos Jugados (GP)
nba["GP"].value_counts().plot.pie(autopct='%1.1f%%')
plt.title("Distribución de Partidos Jugados")
plt.show()


In [None]:

# Filtrar por equipo y graficar coordenadas paralelas
team = "LAL"  # Ejemplo de equipo
nba_team = nba[nba["Team"] == team]
cols = ["PTS", "AST", "REB", "STL", "BLK", "Player"]  # Características de ejemplo
parallel_coordinates(nba_team[cols], "Player", colormap=plt.get_cmap("tab10"))
plt.show()



### Ejercicio final  
En base a los resultados obtenidos:
- ¿Cómo dividirías a los jugadores en grupos?
- ¿Cuántos grupos definirías?  
- ¿Qué características destacarías de cada grupo?  
